Big Data är en extremt stor datamängd som består av både strukturerad och ostrukturerad data. Den har informationstillgångar med hög volym, hastighet och variation som kräver kostnadseffektiva, innovativa former av informationsbehandling för ökad insikt och beslutsfattande. Dessa dagar har mängden data ökat i en enorm mängd, vilket har format denna Big Data.
Datan i en organisation växer idag bortom MBs, eller TBs eller GBs. Poängen handlar om, tänk om data växer mer än vad som finns idag. I framtiden kan informationen växa till cirka Petabyte(1024 TB) eller Exabyte(1024 PB) eller Zettabyte(1024 EB) eller Yottabyte(1024 ZB). Några av datafakta är att New York-börsen genererar cirka 1 Terabyte data per dag, Facebook är värd för cirka 10 miljarder foton, vilket utgör upp till cirka en Petabyte data, 8 TB data genereras av Twitter.
För de flesta handlar Big Data inte bara om storleken på datan, utan också om 4V av data. Även om datavolymen är en av aspekterna av Big Data, inkluderar den också mängden data och hastigheten med vilken data kommer in i organisationen och även om värdet av datan för organisationen. Värdet är mycket viktigt för alla organisationer. Därför sammanfattas det faktiskt som 4V data: Volym, hastighet, variation, värde.
Bearbetning av denna Big Data behöver en plattform för att organisera data och bearbeta den på rätt sätt. Hadoop är den plattform som hjälper till att organisera och bearbeta Big Data, som har sitt ursprung i Apache Nutch.
På RailsCarma vi har framgångsrikt använt Hadoop för att organisera stora mängder data för våra kunder och vi kommer att dela med oss av våra erfarenheter och lärdomar i våra kommande bloggar. Så håll utkik.
Manasa Heggere
Senior Ruby on Rails-utvecklare