A Neumann Társaság blogja az informatika, robotika legmenőbb témaköreiről – újszerű megközelítésben.

Kvantumugrás

Kvantumugrás

Adattavak vagy adatmocsarak?

2021. szeptember 08. - ferenck

Az adatrobbanással a feldolgozás mellett a tárolás módjai, a tárhelyek jellege is számítástudomány központi problémáivá váltak. 

Az adatok bármihez kapcsolódó, szöveges, numerikus vagy multimédiás formában megjelenített, feldolgozatlan vagy feldolgozott megfigyelések, mérések stb. A nevünk, az életkorunk, a magasságunk, a súlyunk rólunk szóló adatok, de egy kép, egy fájl vagy egy pdf-dokumentum is adat, és a példák a végtelenig sorolhatók.

dab0.jpg

Az adatok többféleképpen (táblázatban, képformában stb.), több szinten gyűjthetők össze, csoportosíthatók, tárolhatók (és dolgozhatók fel). Ezek egyike, az adatsor (vagy adatkészlet, dataset) fogalma a jelenlegi mesterségesintelligencia-fejlesztéseket meghatározó gépi tanulás rivaldafénybe kerülésével vált széles körben ismertté. Általában egyetlen témához, többek között személyek egészségügyi állapotához, állatfajokhoz, időjárási jelenségekhez, művészeti irányzatokhoz, értékesítési tranzakciókhoz, ügyfelekkel folytatott interakciókhoz stb. kapcsolódó adatok szerkesztett gyűjteményét jelenti. A példák megint tetszés szerint, és nagyon sokáig folytathatók.   

A magasabb szintet képviselő adatbázis (database) több adatsorban tárolt adatok rendezett, elektronikus úton, számítógépes rendszerről hozzáférhető, lekérdezhető, szerkeszthető és frissíthető gyűjteménye, rendeltetése a benne lévő adatok szakszerű kezelése. Viszont nem minden komputeren tárolt adathalmaz adatbázis is egyben.

dab2.jpg

Egy adatbázis elemeit több tulajdonság jellemzi: valamilyen jegyük alapján összetársíthatók, elrendezésüket több szempont is meghatározhatja, szabályozott a hozzáférés, az adatok védettek, az adatbázis különféle formátumú adatokat tud kezelni, frissíthetők, a felhasználó interakcióba léphet velük, és az interakciót változatos technikák, szolgáltatások segítik.

Ezeket az interakciókat adatbázis-kezelő szoftverek, rendszerek (Database Management System, DBMS) biztosítják, és teszik lehetővé az adatok elemzését is. Az adatbázis, a szoftver és a kapcsolódó alkalmazások együttese az adatbázis-rendszer. A DBMS-ek az általuk menedzselt adatbázis típusa szerint csoportosíthatók. Az 1980-as évekre a relációs adatbázisok terjedtek el, de a 21. század első és második évtizedében másfajta adatbázisok is egyre népszerűbbek lettek.

Kapcsolati viszony (reláció) úgy alakul ki, ha például minden egyes tárolt névhez tárolt szám is társítható. Ez vagy a nevek és a számok külön, a nevekhez rendelt és a hozzájuk passzoló számokra mutató, és a közvetítő adat, vagy a nevek és a kapcsolódó számok együttes, közvetítő nélküli tárolásával oldható meg.

dab3.jpg

A modern, például mobil-, játék- vagy webes alkalmazások jelentős részéhez ideális a számos adatmodellt kínáló, más lekérdező nyelveket használó, rugalmasabb nem relációs (No Strucrured Queery Language, NoSQL) adatbázisok.

Az adatbázisok sokszínűségét jellemzi, hogy a két főtípus mellett változatos szempontok alapján, számos további fajtájuk alakult ki: elosztott, objektumorientált, központosított, nyílt forrású, felhőalapú, hierarchikus, személyes, multimodális stb.

A döntéstámogatást, a vezetői információs rendszereket, az egész szervezet szintjén történő adatkezelést és az adatbányászatot támogató, egyébként hagyományos relációs adatbázis-rendszerekre épülő adattárház (data warehouse) az egyik legelterjedtebb, egy adott szervezet, vállalat egy vagy inkább több forrásból összegyűjtött történeti adatainak elsődleges tárhelye.

A 2010-es évek második felében megjelent adattavak (data lake) lényege, hogy az összes adatot adatfájlokként tárolják egy gigantikus merevlemezen, ilyen például a zászlóshajónak számító Apache Hadoop. Ha egy adattó állapota romlik, és a nem kezelt adatok vagy hozzáférhetetlenné válnak, vagy minimális értéket tartalmaznak, adatmocsárról (data swamp) beszélünk.

Frissítve: 2023. december 26.

A bejegyzés trackback címe:

https://kvantumugras.blog.hu/api/trackback/id/tr4216661888
süti beállítások módosítása