A Neumann Társaság blogja az informatika, robotika legmenőbb témaköreiről – újszerű megközelítésben.

Kvantumugrás

Kvantumugrás

Hogyan tudja megérteni a számítógép, hogy mit mondunk neki?

2021. január 27. - ferenck

Nyilván neked sem kell bemutatni R2-D2-t, a Csillagok háborúja bohókás géphangon kommunikáló robotját. A 2013-ban Oscar-díjat is elnyerő A nő című film láthatatlan, viszont tökéletesen hallható főszereplőnője, a mesterségesintelligencia-program Samantha is valószínűleg sokak emlékezetében maradt meg.

De mi köti össze őket a mindennapokban is egyre gyakrabban használt Apple Sirivel vagy a Google Asszisztenssel? Elsősorban az, hogy mindegyik napjaink egyik legszerteágazóbb és gyorsan fejlődő infokommunikációs technológiáját, az automatikus beszédfelismerést használja.

sre.jpg

Hiába keverik sokan a kettőt, a beszédfelismerés nem azonos a beszélő hangját azonosító hangfelismeréssel, jóval több annál: a beszélt nyelvet felismerő, szöveggé alakító megoldásokról van szó.

sre3.jpg

Az okostelefonok, okosórák, intelligens háztartási berendezések, az autonóm vezetési funkciókkal bíró járművek, és más automatizált rendszerek korában magától értetődőnek vesszük a beszédfelismerést, pedig a bonyolult folyamatoknak és a rengeteg számításnak csak a végeredményét érzékeljük: azt, hogy Siri „megérti”, amit mondunk neki.

sre0.jpg

A technológiában rejlő potenciál ősidők óta foglalkoztatja az embert – már Krisztus előtt 1000 körül fejlesztettek eldöntendő kérdésekre igennel vagy nemmel válaszoló eszközt.  Az első komoly alkalmazásokra azonban a 20. század második feléig kellett várni. A Bell Laboratórium az 1950-es években kezdett el beszédfelismeréssel foglalkozni, az IBM 1962-ben bemutatott, Cipősdoboz nevű gépe pedig már 16 szót felismert. A cég ma is a szakterületi kutatásfejlesztések egyik élharcosa, de több infokom-óriás, például a Facebook, a Google és a Microsoft, valamint sok más vállalat is gőzerővel dolgozik beszédfelismerő megoldásokon. Az adatrobbanás, a big data, a mesterséges intelligencia és a gépi tanulás fejlődése ezen a területen is érezteti jótékony hatását, amely előrejelzések alapján 2025-re közel 25 milliárd dolláros üzletté válik.

sre2.jpg

A technológia az autóipartól az egészségügyig, a marketingtől a biztonságig, különféle szektorokban hasznosul, ma már változatos alkalmazások állnak okostelefonon is rendelkezésünkre. A legfejlettebbek mesterséges intelligenciával működnek, folyamatosan és sok adaton, ember-gép interakciókon tanulnak, finomhangolják őket, és egyre jobb eredményeket produkálnak, például a Google algoritmusai az angol nyelvet már 95 százalék pontossággal kezelik.

sre1.jpg

A gyakorlás úgy is történhet, hogy szöveget olvasunk fel, vagy csak szavakat mondunk a „beszélőtől függő” rendszernek. A hatékonysághoz elengedhetetlen a kontextus és a jelentéstan valamilyen szintű ismerete, például meg kell tudniuk különböztetni egymástól a hasonló alakú, de eltérő jelentésű szavakat, neveket az ugyanúgy hangzó szavaktól.

sre4.jpg

Kiértékelésük a hibásan felismert szavak mértéke és a gyorsaságuk alapján történik. A pontosságot, a program megbízhatóságát számos tényező befolyásolhatja: kiejtés, tájszólás, hangszín, hangerő, háttérzajok, többen beszélnek egyszerre stb.

A bejegyzés trackback címe:

https://kvantumugras.blog.hu/api/trackback/id/tr4016403434
süti beállítások módosítása