Egyre jobban olvasnak szájról a gépek

2016. március 27. 12:00

Brit kutatók algoritmusa komoly eredményeket ért el hangok és szavak azonosításában.

2016. március 27. 12:00

Helen Bear és Richard Harvey, a Kelet-Anglia Egyetem (Norwich) kutatói új szájról olvasó algoritmusával számítógépek jobban meg tudnak különböztetni egymástól az ajakon hasonlónak tűnő hangokat.

A gépitanulás-algoritmus pontosabban feltérképez adott fonémához kapcsolódó ajakformákat (viszémákat). Két lépésben tanítják: az elsőben megtanulja felvázolni az elvileg több fonémához kapcsolódó viszémát, majd megduplázza azt, és a másolatokat csak az egyik hangon gyakoroltatják.

A gyakorláshoz használt hangokat 12 beszélő 200 mondatának audió- és videofelvételeiből gyűjtötték össze. Bear gépilátás-algoritmusa kivonatolta a szájformákat, aztán a helyes viszémák kivonatolt és a fonémák audioadataival címkézte fel őket, végül az algoritmusba táplálta mindezt.

A korábbi technikákkal összehasonlítva, az algoritmus az idő 25 százaléka alatt azonosít hangokat, ami komoly előrelépés. A szavakat pedig 5 százalékkal pontosabban ismeri fel.
 

Összesen 0 komment

A kommentek nem szerkesztett tartalmak, tartalmuk a szerzőjük álláspontját tükrözi. Mielőtt hozzászólna, kérjük, olvassa el a kommentszabályzatot.
Sorrend:
Jelenleg csak a hozzászólások egy kis részét látja. Hozzászóláshoz és a további kommentek megtekintéséhez lépjen be, vagy regisztráljon!