Miért érti nehezen az emberi nyelvet a számítógép?

2021. január 20. - ferenck

Sokszor bosszankodunk (vagy nevetünk, amikor egy chatbot vagy fordítóprogram teljes sületlenségeket produkál egy megadott szövegből. Jogosan a nevetés, de azért arról se feledkezzünk meg, hogy nem egyszerű a feladata: a fordítóprogramoknak számunkra teljesen egyértelmű, számukra viszont homályos dolgokat, például többjelentésű szavakat is kell kezelniük.

Az alaktantól a mondattanon keresztül a jelentéstanig, beszédnél a hangtanig, a nyelv kérdésével komplett és szerteágazó technológiacsalád foglalkozik. Ezek a megoldások teszik lehetővé, hogy chatbotokkal cseveghetünk, fordítóprogramokat használhatunk.

A nyelvtechnológiák az emberi szöveget és beszédet elemző, ahhoz hasonlót mesterségesen előállító, azon módosító vagy arra reagáló számítógépes programok, elektronikus eszközök által használt módszerek gyűjtőkategóriája. Két nagyobb területből, az IT egyik legbonyolultabb részének tartott természetesnyelv-feldolgozásból és a számítógépes nyelvészetből áll. Az ezek különböző aspektusait alkalmazásként hasznosító megoldások szintén idetartoznak.

A több tudományterületen átívelő számítógépes nyelvészet a természetes nyelv gépi modellezésével, nyelvészeti kérdések informatikai módszerekkel történő vizsgálatával foglalkozik. A nyelvészet, számítástudomány, mesterséges intelligencia metszéspontjára belőhető természetesnyelv-feldolgozás az ember és a számítógép közötti nyelvi interakciókra összpontosít. A beszédfelismerés, a természetes nyelv megértése, természetes nyelvű szövegek létrehozása folyamatos kihívások. Főként komputerek nagymennyiségű nyelvi adat feldolgozására, elemzésére való programozásának mikéntjére fókuszál. Így érhető el, hogy a program a szövegkörnyezeti eltérésekkel együtt is „értse” dokumentumok tartalmát. A technológiával pontosan kivonatolható az információ, megszervezhetők és csoportosíthatók a vizsgált dokumentumok.

A szakterület kezdete a mesterségesintelligencia-történet kezdetével, az 1950-es évekkel esik egybe. Az MI-, és számítástudományi úttörő, Alan Turing (1912-1954) már 1950-ben, híres tesztjében felvetette, hogy a természetes nyelv automatizált megértése és generálása a gépi értelem egyik kritériuma. A diszciplína Turing óta elképesztő fejlődésen ment keresztül, de az eredeti célokat még nem érte el teljesen, miközben folyamatosan teremtődnek újak.

Az 1980-as évek második feléig a kutatók az úgynevezett szimbolikus megközelítést részesítették előnyben. Lényege, a filozófus John Searle által 1980-ban megfogalmazott „kínai szoba”: ha a számítógép kap egy szabálygyűjteményt, például kínai kifejezések tárát, kérdésekkel és válaszokkal, a szabályoknak az elébe kerülő adatokra történő alkalmazásával, a program úgy tesz, mintha értené a nyelvet.

Az összetett adat- és kézzel írt szabálysorokon alapuló eljárás azonban túl körülményesnek és bonyolultnak bizonyult, viszonylag kevés konkrét eredménnyel. Az 1980-as években teljesen új nyelvfeldolgozó gépitanulás-algoritmusok forradalmasították a területet, és egyben az új irányt is kijelölték. Sikerük a számítási kapacitások folyamatos növekedésével, illetve az 1960-as években divatos általános nyelvészeti elméletek háttérbe szorulásával magyarázható. A világháló elterjedésével hihetetlen mennyiségű nyers nyelvi adat generálódott, és e tényezők együtthatásaként elterjedt a statisztika-alapú megközelítés. Az algoritmusok vagy az óhajtott válaszokkal egyáltalán fel nem címkézett, vagy azokkal felcímkézett és címkézetlen adatok keverékéből tanultak, az eredmények viszont gyakran nem érték el a célokat, vagy túl sokáig tartott egy-egy feladat megoldása.

A 2010-es években, a gépi mélytanulás térhódításával jött el a mély ideghálók (mesterséges neurális hálózatok) ideje, amelyek a nyelvi modellezésben és elemzésben, az optikai karakterfelismerésben, szövegek vakok és gyengénlátók számára történő beszéddé alakításában, összefoglalók készítésében is jól működnek, és a többjelentésű szavakkal is hatékonyabbak, mint a korábbi technikák.

A nagy nyelvmodellekkel, a generatív mesterséges intelligenciával, ChatGPT-vel és társaival közelebb kerültünk ahhoz az időhöz, amikor már nem nevetjük ki a chatbotot.