Kdopak to mluví?

03. září 2008, 12:58 - Ivan Pilný
03. září 2008, 12:58

Glosa postaršího technokrata

Pokusy o automatické rozpoznávání řeči mají dlouhou historii. Už začátkem devadesátých let přišel Apple s Newtonem – pokusem o jedno z prvních PDA. Newton reagoval na primitivní příkazy k jeho ovládání. Od té doby byly investovány stovky milionů dolarů, ale technologie významně nepokročila. Hlas je považován za něco tak individuálního, jako jsou otisky prstů. Přesto pokračuje obrovský rozvoj algoritmů na hledání obecných rysů každého jazyka a mluvčího. Nejdále je pochopitelně angličtina. Před pár lety se dostala firma IBM tak daleko, že v řadě počítačů je instalován komerční software umožňující převod hlasu do textového editoru. Počítač je třeba natrénovat, tedy projít několikaminutovým cvičením, ve kterém se program snaží najít a zapamatovat vaši individuální intonaci. Úspěšnost je pozoruhodná, dá se přirovnat k prvním pokusům o převod psaného písma. Úskalí je stejné, i při devadesátiprocentní úspěšnosti převodu je rychlejší text napsat než opravit záznam. Přibývá ovšem další problém, jakékoli ehm, aha vytváří v textu nesrozumitelný záznam. Rovněž emocemi podbarvený hlas je prakticky nepřevoditelný. Nezbývá než se předem důkladně připravit, text nanečisto přečíst a diktovat. To je ovšem velmi nepraktické, vydrží jen pár skalních a pro ty se rozhodně nevyplatí dramaticky investovat do rozvoje dalších jazyků. Okrajová použití, třeba pro neslyšící, mohou být zajímavou aplikací.
V poslední době se ovšem zájem o rozpoznávání řeči výrazně zvětšil. Tajné služby monitorují telefonní rozhovory a chytají se citlivých slovíček. V záplavě záznamů je třeba nasadit počítačovou technologii, lidská kapacita nestačí. Protože nejde o úplný ani přesný převod, jako filtr jsou podobné pokusy úspěšné. Rozšiřuje se i používání v monitoringu call center. V množství přijatých hovorů je obtížné sledovat a monitorovat chování operátora. Filtr hledající citlivé výrazy nemilosrdně odhalí neprofesionální úlety. Rovněž telekomunikační operátoři hledají cesty, jak restaurovat hlasové služby, kdysi zdroj obrovských zisků, dnes marginální příjem. Pokusy o převod řeči do textu jsou samozřejmě mnohem obtížnější než převod textu do kovového neosobního hlasu, ale první vlaštovky už jsou na světě.
Jsem trochu pesimista v tom, že se dočkáme v nejbližších pár letech dokonalého převodu mluvené řeči do textu v řadě světových jazyků. Nicméně naznačená speciální použití se mají čile k světu a možná se ze sféry byznysu přenesou i k nám běžným uživatelům.

Hodnocení

Zaujala Vás tato zpráva?
Ohodnoťte ji

Loading

Děkujeme za Vaše hodnocení

Komentáře

Mohlo by vás zajímat

Finance
Státní dluh USA, Činy, Ruska a dalších zemí. Kolik dluží domácnosti a firmy?
O prázdninách projedete méně. Benzín i nafta pořád zlevňují
Zákaz kožešinových farem ročně ušetří život více jak 20 000 zvířat, ale senátoři ho nepodpořili
Hypotéky 2017: Regulace má za důsledek unifikaci hypoték
OECD: Jak vysoké je maximální zdanění na straně zaměstnance?
Auta
Evora GT430 je nejvýkonnější silniční Lotus v historii. Za…
Skupina VW dodala v prvním pololetí zákazníkům přes pět milionů aut
Opel Insignia GSi má motor 2.0 T a je o 160 kg lehčí než OPC
Podívejte se na vzácné snímky exkluzivních aut ze sbírky brunejského sultána
Tři generace BMW 5 ve srovnání ojetin: E39 vs. E60 vs. F10
Technologie
S Googlem do vesmíru. Do Street View přidal záběry z ISS
Až do zítřka zdarma. Stahujte akční pecku Shadow Warrior
RAM letos zdraží o rekordních 60 %, paměti Flash o třetinu. Příští rok je možné zlepšení
Ataribox se odhaluje. Máme první obrázky i nástin toho, co od konzole čekat
Spousta „interaktivních seriálů“ za pakatel. Humble Bundle má v akci hry od Telltale
Hry pro příležitostné hráče
Zavřít