Hogyan tudja megérteni a számítógép, hogy mit mondunk neki?

2021. január 27. - ferenck

Mindenki ismeri R2-D2-t, a Csillagok háborúja bohókás géphangon kommunikáló robotját, de a 2013-ban Oscar-díjat is elnyerő A nő című film láthatatlan, viszont tökéletesen hallható főszereplőnője, a mesterségesintelligencia-program Samantha is valószínűleg sokak emlékezetében maradt meg.

De mi köti össze őket a mindennapokban is egyre gyakrabban használt Apple Sirivel vagy a Google Asszisztenssel? Elsősorban az, hogy mindegyik napjaink egyik legszerteágazóbb és gyorsan fejlődő infokommunikációs technológiáját, az automatikus beszédfelismerést használja.

Hiába keverik sokan a kettőt, a beszédfelismerés nem azonos a beszélő hangját azonosító hangfelismeréssel, jóval több annál: a beszélt nyelvet felismerő, szöveggé alakító megoldásokról van szó.

Az okostelefonok, okosórák, intelligens háztartási berendezések, az autonóm vezetési funkciókkal bíró járművek, és más automatizált rendszerek, ChatGPT és társai korában magától értetődőnek vesszük a beszédfelismerést, pedig a bonyolult folyamatoknak és a rengeteg számításnak csak a végeredményét érzékeljük: azt, hogy az asszisztens „megérti”, amit mondunk neki.

A technológiában rejlő potenciál ősidők óta foglalkoztatja az embert – már Krisztus előtt 1000 körül fejlesztettek eldöntendő kérdésekre igennel vagy nemmel válaszoló eszközt. Az első komoly alkalmazásokra azonban a 20. század második feléig kellett várni. A Bell Laboratórium az 1950-es években kezdett el beszédfelismeréssel foglalkozni, az IBM 1962-ben bemutatott, Cipősdoboz nevű gépe pedig már 16 szót felismert. A cég ma is a szakterületi kutatásfejlesztések egyik élharcosa, de több infokom-óriás, például a Facebook, a Google és a Microsoft, valamint sok más vállalat is gőzerővel dolgozik beszédfelismerő megoldásokon. Az adatrobbanás, a big data, a mesterséges intelligencia és a gépi tanulás fejlődése ezen a területen is érezteti jótékony hatását, amely előrejelzések alapján 2025-re közel 25 milliárd dolláros üzletté válik.

A technológia az autóipartól az egészségügyig, a marketingtől a biztonságig, különféle szektorokban hasznosul, ma már változatos alkalmazások állnak okostelefonon is rendelkezésünkre. A legfejlettebbek mesterséges intelligenciával működnek, folyamatosan és sok adaton, ember-gép interakciókon tanulnak, finomhangolják őket, és egyre jobb eredményeket produkálnak, például a Google algoritmusai az angol nyelvet már 95 százalék pontossággal kezelik.

A gyakorlás úgy is történhet, hogy szöveget olvasunk fel, vagy csak szavakat mondunk a „beszélőtől függő” rendszernek. A hatékonysághoz elengedhetetlen a kontextus és a jelentéstan valamilyen szintű ismerete, például meg kell tudniuk különböztetni egymástól a hasonló alakú, de eltérő jelentésű szavakat, neveket az ugyanúgy hangzó szavaktól.

Kiértékelésük a hibásan felismert szavak mértéke és a gyorsaságuk alapján történik. A pontosságot, a program megbízhatóságát számos tényező befolyásolhatja: kiejtés, tájszólás, hangszín, hangerő, háttérzajok, többen beszélnek egyszerre stb.