Arthur C. Clarke sa sekol len o pár rokov. V jeho najslávnejšom románe Vesmírna odysea sa počítač rozprával s ľudmi v roku 2001. Applovský iPhone 4S s unikátnou funkciou hlasového ovládania Siri sa pravdepodobne nezmení na vražednú digitálnu entitu, no s beletristickým proťajškom s názvom Hal 9000 má jedno spoločné. Na zadávanie povelov netreba poznať presne určené vety. Dá sa s ním viesť prirodzený rozhovor.
Neformálnejšie
Hlasovému ovládaniu sa počítačoví konštruktéri venujú od polovice minulého storočia. Už v roku 1964 stroj IBM Shoebox rozoznal šestnásť slov a čísla od nula po deväť. V súčasnosti je rozoznávanie hlasu bežnou funkcionalitou operačného systému Windows – od verzie Vista dokáže používateľ takto otvoriť e-mailového klienta alebo vymazať súbory.
Špecializovaný hlasový softvér Dragon NaturallySpeaking vyšperkoval jeho výrobca, spoločnosť Nuance, za 15 rokov vývoja natoľko, že dokáže do počítača plynulo prepisovať hovorenú reč (človek napíše za minútu 40 až 60 slov, no povedať ich vie aj trojnásobne viac).
Obdobne už v 90. rokoch sa dal hlasovými povelmi ovládať mobil – a po prechode na inteligentné telefóny, smartfóny, sa táto technológia ďalej zdokonalila. Pre používateľa s bezchybnou angličtinou nie je problém hovoreným slovom „vytočiť“ telefónne číslo alebo dokonca vyhľadať na webe všetky talianske reštaurácie v okolí. Len musí používať napevno definovaný príkaz. To je jeden z dôvodov, prečo sa na uliciach zatiaľ nevyskytujú zástupy ľudí rozprávajúcich sa s displejom svojho mobilu.
Práve na neformálnejšom prístupe stavia virtuálna asistentka Siri z nového iPhonu. I keď tiež nejde o bezchybný systém, má zatiaľ isté obmedzenia. Rozumie tomu, čo používateľ povie, no nedokáže to vykonať. Nevie napríklad na hlasový podnet otvoriť aplikáciu. Alebo nezareaguje, ak sa od nej žiada, aby na nejaký e-mail poslala poslednú vytvorenú fotografiu. No aj tak ide o zatiaľ najprepracovanejšie hlasové ovládanie s prvkami umelej inteligencie.
Jobsov nos na inovácie
Siri je technológia, pôvodne vyvíjaná na armádne účely. Na rozoznávaní hlasu začala pred desiatimi rokmi pracovať agentúra Darpa, patriaca pod Ministerstvo obrany USA. Jej projekt Personalized Assistant that Learns (PAL) mal zefektívniť prácu vojenského personálu. PAL vyvíjala kalifornská spoločnosť SRI International. Jej cieľom bolo vynájsť systém, ktorý uvažuje, učí sa z vlastných skúseností, prijíma slovné príkazy, vysvetľuje, ako ich splní, a reaguje na ostatné podnety.
PAL však želané výsledky nepriniesol. Šéf vývoja SRI Adam Cheyer si preto v roku 2008 založil spoločnosť Siri, v ktorej sa snažil o komerčné uplatnenie mobilnej hlasovej aplikácie s umelou inteligenciou. Steve Jobs mal dobrý nos na nové trendy, a tak Siri kúpil Apple – neoficiálne sa hovorí o 150 až 200 miliónoch dolárov. Aplikácia Siri, pôvodne distribuovaná na elektronickom obchode App Store, sa stala jedným z hlavných zdokonalení v októbri predstaveného iPhonu 4S.
Siri je hardvérovo náročná a podľa Applu by na starších modeloch nefungovala. (I keď technologickí nadšenci len pár dní uvedení iPhonu 4S dokázali opak.) Siri pracuje na cloudovom základe, na svoj chod potrebuje pripojenie do internetu. Odpovede na dopyty používateľa vyhľadáva v databáze služby Wolfram Alpha, bežiacej na vzdialenom superpočítači.
Siri nielenže vyhľadá všetky talianske reštaurácie v okolí, ale dokáže aj vtipne zareagovať na poznámku: „A čo nejaký McDonald’s?“ Nezaskočí ju ani otázka, koľko špagiet je potrebných na spojenie Zeme a Mesiaca. Jednoducho, všestranný osobný digitálny asistent.
Aj Amazon
Ako môže hlasové ovládanie napredovať? Napríklad ako osobný tlmočník. Súčasný algoritmus už vie hovorené slovo prepísať do textu, ktorý sa cez cloudovú službu takmer okamžite preloží do cudzej reči a mobil zobrazí výsledok na displeji alebo ho vysloví.
Prax je, samozrejme, komplikovanejšia. Hlasové ovládanie je, aspoň na prvý pohľad, výhodné pri šoférovaní. Avšak s nežiaducimi vedľajšími účinkami. Júlový prieskum americkej Governors Highway Safety Association ukázal, že 15 až 30 percent dopravných nehôd sa stáva počas používania mobilu, a to napriek použitiu handsfree. Pritom tretina opýtaných sa priznala, že telefón používa pri jazde autom pravidelne.
Tak či onak, vývoj okolo hlasového ovládania sa za posledné mesiace zrýchlil. Amazon v októbri v tichosti kúpil spoločnosť Yap, zaoberajúcu sa rozoznávaním reči. Čo môže smerovať k tomu, že v jeho online predajni sa budú hudobné alebo knižné tituly vyhľadávať hlasom.
Spoločnosť Pioneer zasa nedávno sprístupnila systém Zypr, ktorý vidí ako jednotnú platformu pre hlasové ovládanie rôznych elektronických zariadení. Zypr funguje podobne ako Siri: rozumie, čo sa používateľ snaží povedať.
Hlasové ovládanie si na masové rozšírenie ešte musí počkať. Umelá inteligencia môže pomôcť, aby si neumelá nátura ľudí zvykla viesť dialóg s mobilom alebo počítačom.
Článok vyšiel v aktuálnom vydaní TRENDU č. 46.
Tlačený TREND na webe, kniha ako darček a ďalšie: Deväť dôvodov, prečo si predplatiť časopis TREND.
Foto na titulke a v článku - Profimedia.cz