Hogyan teszteljük a gépi intelligenciát?

2021. november 10. - ferenck

Hétköznapi ismeretekből az ember könnyen következtet, kétértelmű mondatok buktatóit ösztönösen érzékeljük. A gépek viszont egyelőre a sötétben tapogatóznak, megoldhatatlan problémákkal szembesülnek, és a statisztika sem segít rajtuk. Általában csúnyán leszerepelnek a (mesterséges) intelligenciájukat mérni hivatott vizsga, az MI legendás előfutáráról, a mostoha sorsú angol matematikuszseniről, Alan Turingról (1912-1954) elnevezett teszt legújabb változatain.

Az iPhone-segéd Siriről és társaról többször kiderült már: nem is olyan intelligensek az intelligens asszisztensek… ChatGPT-vel és a nagy nyelvmodellekkel összehasonlítva pedig pláne nem, bár az általános mesterséges intelligenciához még ők sincsenek közel. Hiába fejlődnek dinamikusan, az emberre jellemző „józanész” (common sense) hiánya komoly problémákat okoz nekik. Nem evidens számukra, hogy a fű zöld, az ég kék, éjjel sötét van és hasonlók. Az sem, hogy következtetéseket vonjanak le belőlük.

Ezért hasalnak el az eredetinél nagyságrendekkel nehezebb teszteken, például a nyelvalapú Winograd Sémaversenyen, amelyet Hector Levesque torontói kutató talált ki, és 2014-ben rendezték meg először. Az elnevezés az első számítógépes beszélgetőprogramokat kidolgozó stanfordi MI-kutatóra Terry Winogradra utal.

Amióta mérik az intelligenciájukat, csak részfeladatokban vették az akadályokat. Nyelvi feladatoknál például a szövegkörnyezettel gyűlik meg a bajuk, és mivel nem ismerik, két- és többértelmű mondatokat hajlamosak teljesen félreértelmezni.

De miről is van szó?

Turing 1950-ben dolgozta ki az alapokat jelentő úgynevezett imitációs játék módszert.

„Három ember játssza: egy férfi (A), egy nő (B) és egy kérdező (C), aki bármilyen nemű lehet. A kérdező a másik kettőtől elzárt szobában tartózkodik. A játék célja a kérdező számára az, hogy megállapítsa, a másik kettő közül melyik a férfi, melyik a nő. Hogy a hangszín se segíthesse, a válaszokat írásban, vagy még jobb, ha gépírással adják meg. Most kérdezzük meg: mi történik, ha A szerepét egy gép veszi át? Vajon a kérdező ugyanolyan gyakran fog rosszul dönteni, ha a játékot így játsszák, mint akkor, ha a játék egy férfi és egy nő között zajlik? E kérdések helyettesítik az eredeti kérdésünket: tudnak-e a gépek gondolkodni?” – írta Turing.

Évtizedekkel később a teszt népszerű lett, és az MI-k máig sorra megbuknak rajta. Ismert változatának lényege, hogy a tesztelő billentyűzet és monitor közvetítésével változatos kérdéseket tesz fel az általa nem látott, nem hallott két tesztalanynak. Az egyik ember, a másik gép, de mindketten ember mivoltukról próbálják meggyőzni a kérdezőt. A kérdések az élet minden területére vonatkoznak, és ha a tesztelő hosszas faggatózást követően sem tudja egyértelműen megállapítani, hogy melyik az ember, a gép átment a vizsgán.

Ezen az általános vizsgán egyetlen MI sem ment még át, amiből akár arra is következtethetnénk – valószínűleg tévesen –, hogy messze vagyunk még az emberivel azonos szintű általános mesterséges intelligenciától.

A legújabb változatokban, az optikai érzékelést vizsgálva, videojelet is használnak, és léteznek speciális, például zenei intelligenciatesztek is. Néhány nagyon pontosan körülhatárolható, szűk témakörre korlátozódó kérdésekkel vizsgálható szakterület legfejlettebb képviselőit kivéve, egyetlen gép sem ment még át ezeken.

A mostani Turing-teszteket, Loebner díjat és hasonlókat manapság viszont egyre kevésbé értékelik, szinte csak a szenzációhajhász média veszi komolyan. Ahol egyébként tényleg kíváncsiak és számít is, hogy ember vagy gép próbálkozik, más módszereket alkalmaznak, például a CAPTCHA-kat. A kognitív puzzle-szerű tesztmódszer teljesen automatizált, nyilvános, számítógépeket és embereket megkülönböztető Turing-teszt. Egyes, például Google-fejlesztésű MI-k időnként mintha átmennének valamelyik teszten, amiről aztán kiderül, hogy mégsem volt annyira átfogó.

Pedig a „józanész” ismereteken alapuló következtetésekre egyre nagyobb szükség lesz az ember-gép interakcióban. Aligha beszélhetünk „intelligens” programokról mindaddig, amíg nem javulnak látványosan ezen a területen.