Hogyan tud fordítani egy gép?

2021. január 13. - ferenck

Míg régebben a szótárt lapozgattuk, ha egy mondat fordításakor nem jut eszünkbe egy szó, manapság már valószínűleg a Google Fordítót vagy a SZTAKI Szótárt vetjük be. Film- és olvasmányélmények is eszünkbe juthatnak ilyenkor, beugrik a sci-fi regényekből vagy a Csillagszekerekből (Star Trek) évtizedek óta ismert, Bábel zűrzavarában rendet tevő „egyetemes fordítógép.”

A valóságban ennél döcögősebben, de szerencsére azért érezhetően fejlődik a gépi fordítás technológiája, és persze a generatív MI ezen a területen is sok újdonsággal kecsegtet. Mára a hétköznapok részévé váltak az egy adott nyelvű szöveget számítógépes programmal másik nyelvre átültető, az eredeti jelentést „dekódoló” és a célnyelven „újrakódoló” automatikus eljárások: szabály-, példaalapú, statisztikai, mesterséges ideghálókkal (gépi tanulással) dolgozó, és ezeket változó mértékben kombináló megoldások.

A diszciplína története a múlt század ötvenes éveiben kezdődött, a programok azonban annak ellenére még mindig elmaradnak az embertől, hogy egyrészt napi szinten használjuk őket, másrészt pontos, egyértelmű szókészlettel rendelkező, kifejezetten formális szövegeket produkáló, tehát viszonylag könnyen kezelhető területeken, például a repülőgép-gyártásban figyelemreméltó eredményeket értek el. De mivel a kétirányú (egyelőre inkább szövegről szövegre, mintsem beszédről beszédre történő) szimultán fordítás iránti igény és a keresletet kielégítő, lehetséges alkalmazások száma folyamatosan nő, előbb-utóbb valósággá válhatnak a tudományos-fantasztikus álmok.

Világnyelveknél, például spanyolból angolra és vissza, szintén működik a technológia, ritkábbaknál viszont kevésbé. Ne feledkezzünk meg arról a tényről, hogy iszonyatos mennyiségű adat és számítás kell hozzá! Gondoljunk bele, például az Európai Unióban a 24 hivatalos nyelvhez 562 fordítási lehetőség kapcsolódik, és hogy a valósidejű gépi fordítás széleskörű elterjedése milyen sokat segíthetne a fordító- és tolmácscsoportoknak. A techcégek azonban hiába mantrázzák a marketingszöveget, hogy algoritmusaik hamarosan felváltják a humán fordítókat, a technológia a közeli jövőben nem fogja helyettesíteni őket, hanem könnyebbé teszi a munkájukat, például remek vázlatokat, „first draftokat” ad a kezükbe.

Egyszerű szövegeknél, bizonyos szövegkörnyezetekben ma már nincs is probléma, többféleképpen értelmezhető bonyolultabbaknál annál inkább. Egyelőre ezek, a nyelv természetes két- és többértelműségei a megbízható fordítótechnológia legnagyobb akadályai. Egyes szavaknak eleve sok szótári jelentése van, és a szövegkörnyezet nem vagy félreértésével, a program megmosolyogtató nyelvi szörnyetegeket generál.

A mesterségesintelligencia-fejlesztésekben élenjáró Google (vagy az OpenAI), mivel bárki másnál több adathoz fér hozzá, átfogóbb statisztikákkal rendelkezik szavakról, szókapcsolatokról, és a fordítója is egyre pontosabb. Jelenleg 109 nyelvet támogat, további hatvankettő támogatásán pedig még dolgoznak. Az elképesztő adatmennyiséggel nemcsak sok a számítás, hanem a gépi tanulás és az automatikus szótárkészítés is eredményesebb. Ezek az eredmények azonban még így sem érik el az emberi fordítás színvonalát.

A minőségibb fordítás érdekében, a cég fokozatosan az ideghálós módszerre tért át, sok nyelv esetében viszont még a hagyományosabb, statisztikai eljárást használja: előrejelző algoritmusok találják ki, hogyan fordítsanak le szövegeket, szavak helyett mondatokat.

De ez még mindig csak szövegalapú fordítás, beszédek más nyelvre ültetése hosszabb és bonyolultabb folyamat, amelyhez a munkát értelemszerűen nehezítő, több specifikumot (rétegnyelvek, argó, nyelvjárások stb.) is figyelembe kell venni.