I Big Data sono un set di dati estremamente ampio costituito da dati strutturati e non strutturati. Dispone di risorse informative ad alto volume, velocità e varietà che richiedono forme innovative ed economicamente vantaggiose di elaborazione delle informazioni per una migliore comprensione e processo decisionale. In questi giorni la quantità di dati è aumentata a dismisura, tanto da formare questi Big Data.
Al giorno d'oggi i dati in un'organizzazione stanno crescendo oltre MB, TB o GB. Il punto è: cosa accadrebbe se i dati crescessero più di quelli presenti oggi? Il futuro potrebbe vedere i dati crescere fino a circa Petabyte (1024 TB) o Exabyte (1024 PB) o Zettabyte (1024 EB) o Yottabyte (1024 ZB). Alcuni dati indicano che la Borsa di New York genera circa 1 Terabyte di dati al giorno, Facebook ospita circa 10 miliardi di foto, per un totale di circa un Petabyte di dati, Twitter genera 8 TB di dati.
Per la maggior parte dei Big Data non riguarda solo la dimensione dei dati, ma anche la loro dimensione 4V di dati. Sebbene il volume dei dati sia uno degli aspetti dei Big Data, include anche la varietà dei dati e la velocità con cui i dati entrano nell'organizzazione, nonché il valore dei dati per l'organizzazione. Il valore è molto importante per qualsiasi organizzazione. Quindi è effettivamente riassunto come 4V di dati: Volume, velocità, varietà, valore.
L'elaborazione di questi Big Data necessita di una piattaforma per organizzare i dati ed elaborarli correttamente. Hadoop è quella piattaforma che aiuta a organizzare ed elaborare i Big Data, che ha le sue origini in Apache Nutch.
A RailsCarma abbiamo utilizzato con successo Hadoop per organizzare grandi volumi di dati per i nostri clienti e condivideremo le nostre esperienze e i nostri apprendimenti nei nostri prossimi blog. Quindi rimanete sintonizzati.
Manasa Heggere
Sviluppatore senior di Ruby on Rails