Kdopak to mluví?

03. září 2008, 12:58 - Ivan Pilný
03. září 2008, 12:58

Glosa postaršího technokrata

Pokusy o automatické rozpoznávání řeči mají dlouhou historii. Už začátkem devadesátých let přišel Apple s Newtonem – pokusem o jedno z prvních PDA. Newton reagoval na primitivní příkazy k jeho ovládání. Od té doby byly investovány stovky milionů dolarů, ale technologie významně nepokročila. Hlas je považován za něco tak individuálního, jako jsou otisky prstů. Přesto pokračuje obrovský rozvoj algoritmů na hledání obecných rysů každého jazyka a mluvčího. Nejdále je pochopitelně angličtina. Před pár lety se dostala firma IBM tak daleko, že v řadě počítačů je instalován komerční software umožňující převod hlasu do textového editoru. Počítač je třeba natrénovat, tedy projít několikaminutovým cvičením, ve kterém se program snaží najít a zapamatovat vaši individuální intonaci. Úspěšnost je pozoruhodná, dá se přirovnat k prvním pokusům o převod psaného písma. Úskalí je stejné, i při devadesátiprocentní úspěšnosti převodu je rychlejší text napsat než opravit záznam. Přibývá ovšem další problém, jakékoli ehm, aha vytváří v textu nesrozumitelný záznam. Rovněž emocemi podbarvený hlas je prakticky nepřevoditelný. Nezbývá než se předem důkladně připravit, text nanečisto přečíst a diktovat. To je ovšem velmi nepraktické, vydrží jen pár skalních a pro ty se rozhodně nevyplatí dramaticky investovat do rozvoje dalších jazyků. Okrajová použití, třeba pro neslyšící, mohou být zajímavou aplikací.
V poslední době se ovšem zájem o rozpoznávání řeči výrazně zvětšil. Tajné služby monitorují telefonní rozhovory a chytají se citlivých slovíček. V záplavě záznamů je třeba nasadit počítačovou technologii, lidská kapacita nestačí. Protože nejde o úplný ani přesný převod, jako filtr jsou podobné pokusy úspěšné. Rozšiřuje se i používání v monitoringu call center. V množství přijatých hovorů je obtížné sledovat a monitorovat chování operátora. Filtr hledající citlivé výrazy nemilosrdně odhalí neprofesionální úlety. Rovněž telekomunikační operátoři hledají cesty, jak restaurovat hlasové služby, kdysi zdroj obrovských zisků, dnes marginální příjem. Pokusy o převod řeči do textu jsou samozřejmě mnohem obtížnější než převod textu do kovového neosobního hlasu, ale první vlaštovky už jsou na světě.
Jsem trochu pesimista v tom, že se dočkáme v nejbližších pár letech dokonalého převodu mluvené řeči do textu v řadě světových jazyků. Nicméně naznačená speciální použití se mají čile k světu a možná se ze sféry byznysu přenesou i k nám běžným uživatelům.

Hodnocení

Zaujala Vás tato zpráva?
Ohodnoťte ji

Loading

Děkujeme za Vaše hodnocení

Komentáře

Mohlo by vás zajímat

Finance
5 věcí, které si pamatujte o dokumentárním akreditivu
Zdraží plyn v topné sezóně? Jaké faktory ovlivní jeho cenu?
Všude stejně: jak moc riskujete, když používáte univerzální hesla a pořád stejný PIN?
Kdy je vhodná doba pro přezutí a výměnu pneumatik
Volby 2017: kde volit, aneb jak najít volební místnost
Auta
VW Arteon je sice moderní, ale výkonem na starší Passat CC…
Kvíz: Znáte tyto přezdívky modelů aut nebo jiných dopravních prostředků?
Galerie: Kdo je konkurencí pro šestiválcový Stinger GT? Nová Kia mnoho soupeřů nemá
Nové Audi A7 Sportback už je jen hybrid. A zatím bez dieselu
Kia Stinger oficiálně přijela na český trh. Je to auto, které má velký potenciál
Technologie
DVB-T2 již pro 83 % domácností. Nové pokrytí hlásí Černá hora a Lysá hora
Objevil se první dvoujádrový Ryzen, vzorek mobilního čipu s GPU Radeon Vega 3
Samsung udělá z mobilů ještě lepší počítače. Na Galaxy S8 a Note8 poběží Linux
Nejlepší protipirátská ochrana Denuvo padla. Cracky vznikají ještě v den vydání her
Podle výrobců grafik ještě těžní mánie nekončí, vydrží prý minimálně do konce roku
Hry pro příležitostné hráče
Zavřít