A Neumann Társaság blogja az informatika, robotika legmenőbb témaköreiről – újszerű megközelítésben.

Kvantumugrás

Kvantumugrás

Big data: az adat mindenhatósága

2021. augusztus 25. - ferenck

2020-ban napi 306,4 milliárd e-mailt küldtünk el, 500 ezer tweetet posztoltunk, közel 6 milliárd Google-keresést jegyeztünk, másodpercenként 1,7 megabájtnyi adatot generáltunk, a Facebook napi 4 petabájtot. Elképesztő, felfoghatatlan számok, és az azóta eltelt években még felfoghatatlanabbakká váltak. 

Az a tény, hogy a meteorológiától a genetikáig, az államigazgatástól az üzleti életig, minden területen meghatározó jelentőségű big data kifejezéssel naponta találkozunk, egyértelműen jelzi a folyamatosan ránk zúduló adat mennyiségét, és értelemszerűen azt is, hogy a jelenlegi társadalmakban mennyire kitüntetett jelentőségű az adattudomány, milyen fontos az adatok kezelése, az információ szisztematikus kinyerése a zajból. Ezeket a munkákat ma már főként mesterségesintelligencia-alapú programok végzik, egyben pont a big data "ágyazott meg" napjaink MI-forradalmának.

Nem az általunk birtokolt, esetleg bődületes adatmennyiség, hanem az számít, hogy mit kezdünk ezekkel az adatokkal. Gondos elemzésükkel (előrejelző analitikával) MI-vel támogatott, adatvezérelt „okos” döntéseket hozhatunk: csökkenthetünk árakat, termékek gyártási idejét rövidíthetjük le, a fogyasztói elvárásokhoz optimalizált új termékeket találhatunk ki. Az adatsorokban kimutatott, korábbi módszerekkel észrevehetetlen új kapcsolatok, mintázatok alapján például üzleti folyamatok prognosztizálhatók, járványok és bűntények előzhetők meg.

Maga a big data az elképesztő mennyisége, komplexitása miatt hagyományos feldolgozó szoftverekkel értelmezhetetlen, nagyon gyorsan mozgó és mozgatható adatokra vonatkozik. Az adatfeldolgozás cseppet sem újkeletű diszciplína, a 2000-es évek elején számítástudományi fősodorrá vált big data viszont teljesen megváltoztatta.

Három tulajdonság határozza meg: tömege, gyorsasága és változatossága. Ezekből következik, hogy hagyományos programok sem időben, sem tartalmilag nem tudják kezelni a kapacitásaikat meghaladó méretet. (Innen ered az angol 3V elnevezés – volume, velocity, variety.)

Mit jelent mindez?

bigd3.jpg

Egyrészt, szervezetek változatos forrásokból, többek között üzleti tranzakciókból, a dolgok internetének (IoT) okos eszközeiből, ipari berendezésekből, infokommunikációs készülékeinkből, videókból, a közösségi médiából gyűjtik az óriási mennyiségűre duzzadó adatokat. Tárolásukat a múltban nehezebben lehetett volna megoldani, a mostani olcsóbb platformokkal, például az adattavakkal vagy az Apache adatintenzív elosztott Hadoop fájlrendszerével viszont egyszerűbb a feladat.

Másrészt, a dolgok internetének felpörgése, az adattovábbítás döbbenetes sebessége miatt kezelni kell – és lényegében valósidőben kell kezelni – ezt a gyors tempót. Az automatizáció komoly szerepet játszik benne, elég csak a serényen dolgozó szenzorhálózatokra, okos mérőeszközökre vagy a rádiófrekvenciás azonosító (RFID) címkékre gondolni.

Harmadrészt, az adatok változatos formátumokban érkeznek. Lehetnek a hagyományos adatbázisok strukturált, numerikus adatai, de lehetnek – feldolgozásuk szempontjából – szerkesztetlen szöveges dokumentumok, e-mailek, kép-, mozgókép- és hanganyagok, üzleti tranzakciók is.

bigd1.jpg

Az egyre sokfélébb és egyre gyorsabb adatfolyamokat nem lehet előrejelezni, mert olyan gyakran és olyan tempóban változnak. Ez azért komoly kihívás, mert a nagyvállalatoknak tudnia kell, hogy a közösségi médiában mikor lesz trendi valami, és hogy hogyan kezeljék a napi, szezonális vagy egy-egy esemény által előidézett „adatcsúcsot.”

Mivel az adatok rengetegfajta forrásból jönnek, különböző rendszereken keresztüli összekapcsolásuk, csoportosításuk, megtisztításuk és átalakításuk szintén nehéz, de kötelező munka. Vállalatoknak többszintű kapcsolatokat, hierarchiákat kell kidolgozniuk közöttük, mert ha nem, akkor hamar elveszítik az adatok feletti kontrollt.

A 21. században márpedig az adat az új olaj.

Frissítve: 2023. december 26.

A bejegyzés trackback címe:

https://kvantumugras.blog.hu/api/trackback/id/tr3416654896
süti beállítások módosítása