Jak se máš, robote?
LidéJan Šedivý strávil přes osmnáct let prací pro IBM nebo Google. Posledních deset let předává zkušenosti se strojovým zpracováním přirozené řeči studentům na pražském ČVUT. Pod jeho vedením vznikl i cenami ověnčený studentský projekt – konverzační program jménem Alquist. Ten je na rozdíl od známých aplikací na mobilech schopen vést normální, několik minut trvající konverzaci s člověkem.
Nevelký šedivý tubus se mírně rozzáří. „Ahoj, ráda tě zase slyším. Doufám, že se máš dnes skvěle,“ prohlásí v angličtině příjemný ženský hlas. „O čem se budeme dneska bavit?“ Co třeba o filmech? „Jaký je tvůj nejoblíbenější herec?“ zeptá se.
Lehce to připomíná začátek komunikace s hlasovými asistenty, které dnes najdete téměř ve všech mobilních telefonech. Ale tohle je jiné.
Sice víte, že mluvíte s „robotem“, ale nepadají z něj jen strohé informace o tom, kde najdete nejbližší kavárnu nebo co bude v televizi. Mnohem víc to připomíná běžný hovor mezi lidmi.
Hovor vedete s šedivým válcem Alexou, komunikátorem společnosti Amazon – ovšem mnohem důležitější je, co, respektive kdo v tomto případě odpovídá jejím prostřednictvím. Je to totiž Alquist, konverzační program z dílny studentů z pražského ČVUT.
Právě Alquist, což je mimochodem jméno posledního přeživšího člověka ze světově známé hry R.U.R. od Karla Čapka, je tím, co z Alexy dělá v tu chvíli příjemného společníka k hovoru.
Ale popořádku…
Kontakt z Japonska
Jan Šedivý dokončoval začátkem osmdesátých let minulého století elektrotechnickou fakultu Českého vysokého učení technického a rozhlížel se, co dál. V Československu panoval stále komunismus, přesto se v rámci výměnných pobytů dařilo občas některému studentovi dostat do „kapitalistického“ zahraničí. A štěstí měl i Jan Šedivý.
„Do Československa tehdy jezdilo studovat poměrně dost Japonců, mířili sem kvůli hudebním vědám. Ale českých zájemců, kteří by naopak chtěli do Japonska, moc nebylo. Tak jsem se přihlásil,“ vzpomíná Jan Šedivý.
Japonsko bylo už tehdy na technologické špičce a český student Jan Šedivý získal v rámci studia možnost udělat „kolečko“ v několika firmách. V asijské technologické velmoci strávil nakonec dva roky. Kromě nových znalostí si z Japonska odvážel i něco dalšího – kontakty, byť tehdy ještě netušil, jak rozhodující pro něj budou v dalších letech. „Potkal jsem tam i Fredericka Jelínka (uznávaný vědec českého původu, původním jménem Bedřich Jelínek – pozn. red.), což byl ředitel IBM Continuous Speech Recognition group. A když po revoluci přijel do Československa, nabídl mi, jestli nechci vyrazit do Ameriky. Zavolal mi den před Štědrým dnem v roce 1991 a v únoru následujícího roku jsem už byl v Yorktownu, kde má firma hlavní sídlo,“ říká Jan Šedivý.
V Thomas J. Watson Research Center – jde o výzkumné centrum spadající pod firmu IBM – začal působit nejprve jako postgraduální student. Mohl zde dál studovat to, co ho dlouhodobě zajímalo, totiž počítačové rozpoznávání lidské řeči. Po dvou letech mu vedení centra nabídlo, jestli se nechce stát jedním ze zaměstnanců. Tudíž v USA strávil nakonec osm let, do Čech se vrátil v roce 2000.
„Přesnost v rozpoznávání řeči byla v devadesátých letech úplně jinde. Google dnes říká, že má přesnost rozpoznávání řeči po telefonu asi 95 procent. Tehdy to bylo podstatně méně,“ vzpomíná Šedivý na svou americkou profesní etapu.
„IBM v polovině devadesátých let představilo zařízení VoiceType, kde se používala takzvaná izolovaná slova. Muselo se mluvit tak, že se mezi slovy dělaly mezery, aby se odstranila koartikulace. V závislosti na tom, která slova za sebou navazují, se totiž mění začátky slov následujících i konce slov předcházejících,“ vysvětluje Jan Šedivý. Zjednodušeně řečeno – když vyslovíte hlásku „s“ izolovaně, zní jinak, než když „s“ stojí na začátku jednoho slova uprostřed věty: a právě tento jev představoval pro ono zařízení překážku. „V angličtině je to dokonce složitější než v češtině,“ dodává Jan Šedivý.
Stával se ze mne úředník
Kariéra v IBM neskončila ani poté, co se Jan Šedivý vrátil zpět do Česka. Dostal nabídku dál pro firmu pracovat na dálku z Prahy, a to rovnou na manažerské pozici – jako vedoucí výzkumu a hlavní designér aplikace IBM Embedded ViaVoice pro rozpoznávání řeči. Měl pod sebou asi třicet lidí rozesetých po celém světě.
„Hlavními zákazníky, kteří systém IBM na rozpoznávání řeči používali, byly automobilky. Proto jsme měli třeba i skupinu kolegů v Japonsku, protože velkým zákazníkem byla japonská Honda,“ dodává Šedivý.
Proč zrovna automobilový průmysl?
Šedivý to vysvětluje jednoduše. Pokud totiž dodržujete pravidla bezpečného řízení, je řeč jediným komunikačním kanálem, který vám zbývá pro odbavování některých věcí. „Když jste v autě, máte zaměstnané ruce i oči. Řečí se dá ale ovládat postupně čím dál víc věcí,“ vysvětluje.
„Vezměte si třeba poslední generaci škodovky, zmizela tam řada ovládacích prvků, řeší to hlasový asistent. Ve škodovce se jmenuje Laura. Takže v budoucnosti, když někde pojedete a uvidíte nějaký hrad, řeknete: Lauro, co je to za hrad napravo a systém vám odpoví, že je to třeba Křivoklát. A vy se zeptáte, ze kterého je století, a dostanete odpověď. To všechno lze dnes udělat. Automobilky se ale hlas snažily využívat ve svých vozech mnohem dřív, především kvůli navigaci,“ dodává.
Druhá profesní etapa v IBM trvala osm let. Společnost IBM se ale postupně začala zaměřovat na jiné věci než rozpoznávání řeči, prodala kvůli tomu i řadu patentů v této oblasti, výzkum se postupně zmenšoval. Jan Šedivý se proto rozhodl ze společnosti odejít, aby záhy nastoupil u jiného amerického technologického gigantu, dokonce výrazně většího – do firmy Google. A mířil ještě na vyšší manažerský post.
Google si Šedivého vyhlédl na post šéfa své technické pobočky, která měla vzniknout v Praze. Ale ve chvíli, kdy začal ve firmě působit, se plány společnosti změnily a z pobočky sešlo. Šedivý se tedy musel přestěhovat do švýcarského Curychu. „Vydržel jsem tam dva roky. Manažerská pozice mě přestala bavit, pořád jsem vyplňoval nějaké výkazy. Stával se ze mě čím dál větší úředník,“ vysvětluje.
„A navíc si pořád rád povídám osobně se svou manželkou. Takhle jsem strávil hodně času během cestování mezi Prahou a Curychem, kde jsem byl sám bez ženy i bez dětí,“ dodává s úsměvem.
Google je podle Šedivého v současnosti nejúspěšnější celosvětovou firmou v rozpoznávání řeči. Nyní dokáže rozpoznat přes 120 různých jazyků.
Zpět na ČVUT
Když se na jaře 2010 vracel Jan Šedivý do Prahy, mířil na akademickou půdu. Po osmnácti letech strávených ve firmách, kde není nouze o peníze, se rozhodl nastoupit na státem financovanou vysokou školu, kterou v minulosti vystudoval – tedy na ČVUT.
„Lidé si o mně myslí, že jsem blázen,“ vyjádřil se krátce po svém návratu v rozhovoru pro Hospodářské noviny.
Teď po dalších deseti letech v akademickém prostředí říká, že toho rozhodně nelituje. Chtěl, jak vysvětluje, předat zkušenosti studentům a zároveň dělat něco jiného než zpracovávat excelovské tabulky.
Sám přiznává, že to nebylo úplně jednoduché, a to ze dvou důvodů – kvůli financování českého vysokého školství a také vztahu, který někteří studenti ke studiu mají. „Většina tuzemských firem si českých vysokých škol neváží, přestože by to měla být pro ně šance, jak si vychovat odborníky. ČVUT sice docela dobrou pověst u průmyslu má, ale oproti USA je to pořád málo. Třeba Stanfordská univerzita i jiné školy mají obrovskou prestiž, proudí do nich peníze z průmyslu, u nás je to spíš výjimka. Neříkám, že tu spolupráce neexistuje, ale je to bohužel pořád málo,“ konstatuje Šedivý.
Druhou věcí, kterou Šedivý zmiňuje v souvislosti se svými zkušenostmi z českého akademického prostředí, je roztěkanost tuzemských vysokoškolských studentů. Většina z nich podle něj vůbec netuší, co chtějí v životě dělat, a pořád přeskakují z jedné věci na druhou. „Jsou nezralí. Mají tisíce možností, a proto se systematicky nevěnují jedné věci. V tom vidím problém. Samozřejmě se najdou lidé, kteří z průměru vybočují,“ líčí.
Zároveň dodává, že většina studentů volí jednodušší cestu, kdy se nechají zaměstnat už během studia v některé komerční firmě, dostanou tam plat a jasně definovaný úkol. Jenže to je podle Šedivého nenutí nad něčím složitě přemýšlet. „Mrzí mě to, ale většině zřejmě stačí, že budou ve svém oboru jen průměrní,“ dodává.
Zrození Alquista
V případě robota Alquista měl naopak Šedivý štěstí. Podařilo se mu vytvořit tým studentů, kteří už třikrát uspěli v mezinárodní soutěži Alexa Prize, pořádané společností Amazon.
V klání chatbotů, v němž vítězný tým může získat až 1 milion dolarů (přes 21 milionů českých korun, ovšem hlavní cenu zatím nikdo nezískal), jde zjednodušeně o to, který komunikátor dokáže nejdéle vést souvislý a zábavný hovor. Na požadovanou délku 20 minut se přitom dosud žádný chatbot nedostal, Alquist zvládl souvisle komunikovat devět minut. I to je mimochodem statisticky o dost déle než obvyklá komunikace řady lidí.
Na začátku působili v týmu čtyři studenti z eClubu, podporujícího rozvoj inovativních nápadů na pražském ČVUT; v průběhu času se počty změnily, dnes má tým členů šest. Za tímto výzkumným inkubátorem, který umožňuje studentům řešit různé projekty, stojí právě Jan Šedivý.
„My jsme nejdřív dělali na systému, který odpovídal na položené otázky. Fungoval tak, že jsme mu položili otázku třeba typu, kolik je obyvatel v Brazílii, a on na to odpověděl,“ vzpomíná na rok 2015 Jan Pichl, jeden z čtveřice studentů. Dnes v týmu Alquist zastává roli lídra týmu a na ČVUT dodělává doktorát.
Jan Šedivý tehdy v týmu působil v roli supervizora a právě on stál za nápadem, že by se měli studenti zaměřit na zpracování přirozeného jazyka, což je jeho celoživotní hobby.
Stalo se tak v roce 2016.
„Jan Šedivý tehdy přišel s nápadem, který se stal přelomem pro celý náš tým: ,Budeme vyvíjet chatboty.‘ A tak vznikla první verze Alquista (v kanceláři známého též jako Alquist I. Hloupý),“ píše se na stránkách projektu.
Jméno členové týmu vybrali celkem snadno. Chtěli něco, co by odkazovalo na český původ chatbota, a zároveň něco, co by souviselo s roboty. Proto si vybrali jméno z Čapkova vědecko-fantastického dramatu.
„Navíc se to stejně vyslovuje v češtině i angličtině,“ dodává Pichl.
A co dál, chatbote?
V případě soutěže Alexa Prize využívají konverzační algoritmy (jako je Alquist) prostředí komunikátoru z dílny společnosti Amazon. Ale Pichl i Šedivý říkají, že je jedno, jak chatbot vypadá – může se skrývat i v mobilním telefonu, na což je už vlastně většina lidí alespoň částečně zvyklá. Samotné jádro Alquista tvoří algoritmy, které by měly být schopny porozumět uživateli a co nejlépe na něj reagovat.
„Asistenty typu Siri nebo Google Asistent se sice zlepšují, ale stále postrádají schopnost vést delší konverzaci. Dokážou plnit jednoduché úkoly, že vám třeba odpoví na otázku, jaké bude počasí, nebo pustí písničku, ale pak konverzace končí,“ vysvětluje Jan Pichl, čím se Alquist liší od asistentů, které máme téměř každý v mobilním telefonu.
Alquist se naopak snaží vyhodnocovat promluvy svého lidského protějšku a pracovat s kontextem celého rozhovoru. Zároveň pochopitelně využívá k odpovědím informace uložené v internetových databázích. Pichl i Šedivý se shodují, že přes úspěchy v Alexa Prize je stále ještě na Alquistovi co vylepšovat. Letos se chce tým zúčastnit soutěže počtvrté, hlavním cílem je vyladit Alquista tak, aby se komunikace co nejvíce přiblížila hovoru se skutečným člověkem.
„Teď se pracuje na systémech porozumění, na extrakci sémantiky. A také chceme Alquistovi poskytnout víc znalostí, se kterými by mohl pracovat,“ konstatuje Šedivý.
Alquist je především studentský výzkumný projekt. Díky tomu, že využívá infrastrukturu od Amazonu, se ale členové týmu dostali ke špičkovým technologiím. Navíc i díky svému umístění v soutěži získali od amerického giganta bohatá stipendia. „Nejsem svým zaměřením čistý vědec, potřebuji vidět, že věci fungují. Na ČVUT se ostatně starám i o přenos technologií do praxe, což se v případě Alquista, myslím, podařilo,“ dodává Šedivý.
Autor je novinář a fotograf, pracuje jako ředitel médií společnosti Internet Info.