Kdopak to mluví?

03. září 2008, 12:58 - Ivan Pilný
03. září 2008, 12:58

Glosa postaršího technokrata

Pokusy o automatické rozpoznávání řeči mají dlouhou historii. Už začátkem devadesátých let přišel Apple s Newtonem – pokusem o jedno z prvních PDA. Newton reagoval na primitivní příkazy k jeho ovládání. Od té doby byly investovány stovky milionů dolarů, ale technologie významně nepokročila. Hlas je považován za něco tak individuálního, jako jsou otisky prstů. Přesto pokračuje obrovský rozvoj algoritmů na hledání obecných rysů každého jazyka a mluvčího. Nejdále je pochopitelně angličtina. Před pár lety se dostala firma IBM tak daleko, že v řadě počítačů je instalován komerční software umožňující převod hlasu do textového editoru. Počítač je třeba natrénovat, tedy projít několikaminutovým cvičením, ve kterém se program snaží najít a zapamatovat vaši individuální intonaci. Úspěšnost je pozoruhodná, dá se přirovnat k prvním pokusům o převod psaného písma. Úskalí je stejné, i při devadesátiprocentní úspěšnosti převodu je rychlejší text napsat než opravit záznam. Přibývá ovšem další problém, jakékoli ehm, aha vytváří v textu nesrozumitelný záznam. Rovněž emocemi podbarvený hlas je prakticky nepřevoditelný. Nezbývá než se předem důkladně připravit, text nanečisto přečíst a diktovat. To je ovšem velmi nepraktické, vydrží jen pár skalních a pro ty se rozhodně nevyplatí dramaticky investovat do rozvoje dalších jazyků. Okrajová použití, třeba pro neslyšící, mohou být zajímavou aplikací.
V poslední době se ovšem zájem o rozpoznávání řeči výrazně zvětšil. Tajné služby monitorují telefonní rozhovory a chytají se citlivých slovíček. V záplavě záznamů je třeba nasadit počítačovou technologii, lidská kapacita nestačí. Protože nejde o úplný ani přesný převod, jako filtr jsou podobné pokusy úspěšné. Rozšiřuje se i používání v monitoringu call center. V množství přijatých hovorů je obtížné sledovat a monitorovat chování operátora. Filtr hledající citlivé výrazy nemilosrdně odhalí neprofesionální úlety. Rovněž telekomunikační operátoři hledají cesty, jak restaurovat hlasové služby, kdysi zdroj obrovských zisků, dnes marginální příjem. Pokusy o převod řeči do textu jsou samozřejmě mnohem obtížnější než převod textu do kovového neosobního hlasu, ale první vlaštovky už jsou na světě.
Jsem trochu pesimista v tom, že se dočkáme v nejbližších pár letech dokonalého převodu mluvené řeči do textu v řadě světových jazyků. Nicméně naznačená speciální použití se mají čile k světu a možná se ze sféry byznysu přenesou i k nám běžným uživatelům.

Mohlo by vás zajímat

Finance
Šéf mi čte e-maily. Je to v pořádku?
Dá se pracovat s invalidním důchodem? Jde to, ale...
Zaměstnávání a brigády mladistvých a jejich pracovní podmínky podle zákoníku práce
Silná Evropa je podle Merkelové pro USA výhodná
500 korun navíc pro rodinu s dětmi od července 2017?
Auta
Nové Audi A8 dostane unikátní podvozek, který reaguje na…
Nejlepším motorem roku 2017 je osmiválec Ferrari. Poprvé se volil také nejlepší elektromotor
Bugatti Chiron čeká na lepší pneumatiky. Pak zkusí překonat 450 km/h
Že jste ještě neviděli Porsche 911 GT2 RS? Nevadí, stejně už je vyprodané
Ducati Multistrada 1200 Enduro Pro má v hledáčku nejostřejší BMW GS
Technologie
Steam rozjel letní výprodeje her. Nákupní horečku mu ale překazili „hackeři“
New York Times diskuze nezruší. Hloupé komentáře bude mazat umělá inteligence
Opera 46 významně zlepšuje stabilitu a omezuje stránky na pozadí
Psaní tahem prstu funguje už i v češtině, kalkulačka umí konvertovat měny [Windows Insider]
Standard Unicode 10.0 přináší znak bitcoinu a 56 nových emoji včetně vousáče a ponožek
Hry pro příležitostné hráče
Zavřít