Számítógépek akár hatalmas tömegben képesek személyeket felismerni, megkülönböztetik az oroszlánt a tigristől, sörgyári futószalagon szűrik ki a hibás üvegeket, rosszindulatú daganatot azonosítanak, vagy művészi szintű képeket alkotnak, pontosabban alkotnak újra.
Napjainkban már az okostelefonokon is megtalálhatók mesterséges intelligenciával dolgozó alkalmazások, például a DALL-E-2, a Stable Diffusion vagy a Midjourney. Használatuk mindennapos, korábbi képszerkesztő appoknál pedig még ennyire sem tűnik fel, hogy a képernyőzár feloldásakor iMI dolgozik a háttérben.
De mit tud, mitől különleges egy ilyen app, és miért fontos a mögötte álló technológia?
A több tudományterülethez kapcsolódó számítógépes látás vagy gépi látás a jelenlegi mesterségesintelligencia-kutatás egyik referenciapontja. Biológiai mintát, fejlett élőlények, leginkább az ember képérzékelését és -feldolgozását, az egyik legbonyolultabb érzékszervi tevékenységet próbálja utánozni, majd igyekszik automatizálni az agyunkban lejátszódó folyamatokat.
Egy számítógépes látórendszer álló-, vagy mozgóképekből, képsorozatokból próbál információkat kivonatolni, megérteni és számszerűsíteni, és a későbbiekben hasznosítani. Az adatkinyerés a képfeldolgozás, az adatok kiértékelése a képelemzés. A rendszer minden egyes képpel tanul, bővíti és újabb feladatok elvégzésére használja ismereteit.
Az összes gépi látórendszer két szorosan összefüggő tulajdonsága, az érzékelő-készség és a felbontás alapján minősíthető: hogyan működik rossz fényviszonyok között, észlel-e alig látható részleteket, illetve mennyire képes például tárgyakat megkülönböztetni egymástól.
Míg az emberi szem a 390 és 770 nanométer közötti hullámhosszú fényt észleli, addig a gépi rendszerek digitális képszenzorai szélesebb tartományban működnek, a legfejlettebbek az infravörös, az ultraviola és a röntgensugarakat is tudják érzékelni. A mélységi, sztereóérzékeléshez nagyteljesítményű processzorral rendelkező számítógép, nagyfelbontású kamerák, sok memória, és természetesen mesterséges intelligencia szükséges. Ezeket a rendszereket rengeteg ipari, egészségügyi, katonai stb. alkalmazásra, többek között kézírás-, tárgy-, mintafelismerésre, anyag- és pénzvizsgálatra, elektromos alkatrészek vagy orvosi képek elemzésére használják.
Egyes rendszerek a hét minden napján, napi 24 órában elemeznek képeket, kutakodnak utánuk a világhálón. Gigantikus szerkesztett képi adatbázisokká válnak, fogalmak vizuális modelljeit tartalmazzák, kapcsolatrendszerekkel, szöveg-kép párokkal. Élő és élettelen objektumokat, jeleneteket, cselekvéseket, történéseket, tulajdonságokat azonosítanak, címkéznek, katalogizálnak, és eközben megismerik a képi világ szerkezetét.
Mindenhol bevethetők, ahol kell gépi érzékelés: robotoknak tanítják meg, hogy ne csak nézzenek, hanem lássanak is. És persze bárkit és bármit meg is figyelhetnek.
A címben feltett kérdésre válaszolva: igen, számítógépek tényleg képesek látni, de egyelőre még nem úgy, mint az ember.
Frissítve: 2023. július 19.