Gépi látás – képes-e egy komputer látni?

2020. szeptember 16. - ferenck

Számítógépek akár hatalmas tömegben képesek személyeket felismerni, megkülönböztetik az oroszlánt a tigristől, sörgyári futószalagon szűrik ki a hibás üvegeket, rosszindulatú daganatot azonosítanak, vagy művészi szintű képeket alkotnak, pontosabban alkotnak újra.

Napjainkban már az okostelefonokon is megtalálhatók mesterséges intelligenciával dolgozó alkalmazások, például a DALL-E-2, a Stable Diffusion vagy a Midjourney. Használatuk mindennapos, korábbi képszerkesztő appoknál pedig még ennyire sem tűnik fel, hogy a képernyőzár feloldásakor iMI dolgozik a háttérben.

De mit tud, mitől különleges egy ilyen app, és miért fontos a mögötte álló technológia?

A több tudományterülethez kapcsolódó számítógépes látás vagy gépi látás a jelenlegi mesterségesintelligencia-kutatás egyik referenciapontja. Biológiai mintát, fejlett élőlények, leginkább az ember képérzékelését és -feldolgozását, az egyik legbonyolultabb érzékszervi tevékenységet próbálja utánozni, majd igyekszik automatizálni az agyunkban lejátszódó folyamatokat.

Egy számítógépes látórendszer álló-, vagy mozgóképekből, képsorozatokból próbál információkat kivonatolni, megérteni és számszerűsíteni, és a későbbiekben hasznosítani. Az adatkinyerés a képfeldolgozás, az adatok kiértékelése a képelemzés. A rendszer minden egyes képpel tanul, bővíti és újabb feladatok elvégzésére használja ismereteit.

Az összes gépi látórendszer két szorosan összefüggő tulajdonsága, az érzékelő-készség és a felbontás alapján minősíthető: hogyan működik rossz fényviszonyok között, észlel-e alig látható részleteket, illetve mennyire képes például tárgyakat megkülönböztetni egymástól.

Míg az emberi szem a 390 és 770 nanométer közötti hullámhosszú fényt észleli, addig a gépi rendszerek digitális képszenzorai szélesebb tartományban működnek, a legfejlettebbek az infravörös, az ultraviola és a röntgensugarakat is tudják érzékelni. A mélységi, sztereóérzékeléshez nagyteljesítményű processzorral rendelkező számítógép, nagyfelbontású kamerák, sok memória, és természetesen mesterséges intelligencia szükséges. Ezeket a rendszereket rengeteg ipari, egészségügyi, katonai stb. alkalmazásra, többek között kézírás-, tárgy-, mintafelismerésre, anyag- és pénzvizsgálatra, elektromos alkatrészek vagy orvosi képek elemzésére használják.

Egyes rendszerek a hét minden napján, napi 24 órában elemeznek képeket, kutakodnak utánuk a világhálón. Gigantikus szerkesztett képi adatbázisokká válnak, fogalmak vizuális modelljeit tartalmazzák, kapcsolatrendszerekkel, szöveg-kép párokkal. Élő és élettelen objektumokat, jeleneteket, cselekvéseket, történéseket, tulajdonságokat azonosítanak, címkéznek, katalogizálnak, és eközben megismerik a képi világ szerkezetét.

Mindenhol bevethetők, ahol kell gépi érzékelés: robotoknak tanítják meg, hogy ne csak nézzenek, hanem lássanak is. És persze bárkit és bármit meg is figyelhetnek.

A címben feltett kérdésre válaszolva: igen, számítógépek tényleg képesek látni, de egyelőre még nem úgy, mint az ember.