Zlomí hlas Applu vaz?

Přibývá vizionářů, kteří ovládání hlasem vidí jako další velký milník v propojování technologií a lidí. Pro řadu činností, ke kterým jsme využívali počítač a jen nedávno jsme začali používat mobil, nebudou tato zařízení vůbec třeba. Nahradí je virtuální asistenti, se kterými budeme mluvit doma, v autě nebo i v tom mobilu.

Škála využití je opravdu široká, každým dnem přibývají další a další možnosti. Představte si, co vše běžně děláte a co by šlo vyřídit hlasovým povelem. Většinu věcí lze už dnes vygooglit… a nyní k tomu jen přidejte hlasový povel. Příklady:

Zábava – přepnutí TV kanálu, vyhledání a spuštění konkrétního filmu, puštění oblíbené hudby, změna hlasitosti, zjištění výsledku sportovního zápasu
Chytrá domácnost – rozsvícení světla, zapnutí trouby, deaktivace alarmu
Komunikace – vytočení telefonního čísla, nadiktování zprávy (SMS, Messenger…), přečtení přijaté zprávy
Ochody – objednávka pizzy s donáškou, objednávka zaslání květin, přivolání Uber
Bankovnictví – zjištění zůstatku, kontrola posledních transakcí, zadání platby

Nejčastější aktivity s hlasovým asistentem v průběhu dne. Zdroj Smart Audio Report 01/2018

Porazí hlas mobil?

Jak staré je lidská řeč? Podle čeho to určit? Může to být podle prvního záznamu písma, ale lidé jistě mluvili mnohem dříve.

V přednášce Mgr.Krásy z Masarykovy univerzity se uvádí jako možná indikace řeči výroba kompozitních nástrojů, kde se výrobci museli domluvit, případně si předat instrukce pomocí vyprávěného příběhu. A co teprve pohřeb – ten také odlišuje lidi od ostatních typů zvířat. I pro ten bylo pravděpodobně nutné se domluvit. Historie lidské řeči je tak odhadovaná na 100-300 tisíc let. Po celou tu dobu vývoje jsme postupně získávali citlivost na tón, dynamiku a obsah.

Oproti tomu psaný text je starý pár tisíc let, veřejně známý pár stovek let a jako způsob komunikace s počítači ho využíváme pár desítek let. Na chytrých mobilech čteme a píšeme posledních 10 let. Řeč tedy vnímáme 1000x delší dobu než psaný text. Řeč je přirozenější, získáváme/předáváme tím více informací, které se ani do emoji nedají dostat. Až na naprosté výjimky je to také rychlejší. To, že jsme komunikaci s počítači přizpůsobili jim, tak spíš ukazuje na naši schopnost adaptace než na to, že je to pro lidi výhodnější. Pokud byste si mohli vybrat, budete na své dítě či partnera raději mluvit nebo mu psát? A proč?

Až nejnovější technologie přibližují počítačový hlas našemu přirozenému způsobu komunikace. Zdaleka nejde o technologie jako text-to-speach a zpět. Ty jsou důležité, ale stejně tak podstatné je využití umělé inteligence (AI), schopnosti „počítače“ se strojově učit a chápat význam slov a v neposlední řadě je potřeba připojení na Internet se vším, co dnes ovládáme klávesnicí od vyhledávání, přes zábavu a vlastní fotky v cloudu až po ecommerce.

Ekosystém hlasové komunikace. Zdroj The rise of voice report

Škoda Applu

Původní jádro hlasové asistentky „Siri“ vzniklo v rámci CALO (Cognitive Assistant that Learns and Organizes) programu podporovaného US vojáky prostřednictvím agentury DARPA (Defense Advanced Research Projects Agency) v letech 2005-2008. Mimochodem, pokud chcete vědět, kam se ubírají technologie a co budeme používat za 10-20 let, DARPA je výborný indikátor. Jejich programy stály za vznikem prvního satelitu na předpověď počasí, Internetu (ARPANET), samořiditelných aut a kupy další “běžných” věcí.

V rámci CALO programu vznikla Siri jako vedlejší efekt výzkumu SRI International (Stanford Research Institute). Vlastní Siri jako systém rozpoznávání hlasu s využitím strojového učení je produktem firmy Nuance Communication. Apple řešení Siri koupil v r.2010 a uvedl ho jako samostatnou aplikaci na iOS. Byla to poslední akvizice, za jejímž rozhodnutím stál Steve Jobs. Podle pamětníků byl přesvědčen o obrovském potenciálu hlasu. V r.2011 byla beta verze Siri vypuštěna s iPhone 4S a samostatná aplikace byla z iStoru stažena. Paradoxní je, že na počátku vývojáři předpokládali, že Siri bude uvolněna také pro Android a BlackBerry…Postupně byla Siri uvolněna i na ostatní zařízení Applu: iPad, iPod, Apple TV, Mac a nejnověji by se měla objevit na chytrém reproduktoru HomePod, jehož prodej by měl začít nyní … v době, kdy jen v USA hraje 39 milionů reproduktorů Echo. Očekávaná cena HomePod je 349USD.

Firma Apple jako jedna z prvních identifikovala potenciál hlasových služeb. Bohužel svůj náskok se Siri promarnila. Vypadá to, že místo koncentrace na zcela novou technologii, která má potenciál z části nahradit naši závislost na mobilech, se Apple rozhodl budovat dál svůj ekosystém kolem mobilů. Můžeme se těšit na ještě chytřejší, ještě placatější a ještě nadupanější krabičku s displayem…ale co když to jde bez displeje?!

Uzavřený ekosystém produktů Apple je dalším omezením. Kdyby Apple včas vsadil na Siri a vytvořil SiriOS, jeho dominanci by dnes nic nezastavilo. Ale to se nestalo, 15letý náskok v Apple nevyužili.

Zdroj: Stude Edison Research a NPR z 10.1.2018

V hlasu musel skutečný potenciál objevit až Amazon…v komunitě VoiceFirst se vedou teoretické spory. Mobilní firmy jako Apple či Samsung by z principu svého chování nikdy hlas nevyužily, pokud by se měly vzdát samotných mobilů, které jsou jejich vlajkovou lodí. Musel tedy přijít někdo z komunity ecommerce, kdo na hlas vsadil.

Virtuální hlasová asistentka Alexa vznikla v r. 2014 v laboratořích Amazonu. Jméno je odvozeno od Library of Alexandria a využívá také toho, že písmeno X je výrazné při výslovnosti. Inspirací údajně byl palubní počítač, se kterým posádka Enterprise ve Star Treku mluví (a ne Siri:). V r. 2015 Amazon založil fond (100mil USD), který investuje do firem zabývajících se hlasem. Dnes na Alexe pracuje v Amazonu 12000 vývojářů. Většina technologií je open-source, takže funkce i jazyky postupně přibývají. Počet dovedností Alexy překročil 15000 (zdroj The rise of voice report).

Od 5.12.2017 si můžem Alexu v reproduktoru Amazon Echo kupovat také v ČR. Zatím však mluví jen anglicky nebo německy. Cena od 1990 Kč.

V post-app době, kdy stahování nových aplikací se výrazně zpomaluje, je aplikace Amazon Alexa pro Android i iOS extrémně populární a dokládá dominanci Amazonu.

Voice další etapou Digitální strategie

Hlas má budoucnost. Naši závislost na displayích sice zcela nevytlačí, ale může je v mnoha situacích plně nahradit. K tomu je ale potřeba vyřešit řadu výzev, z kterých se nám dnes ježí chlupy. Představa 24hod zapnutého mikrofonu v místě kde žijete, bavíte se, kritizujete…znáte film Ucho?….nemusí být každému příjemná. Další výzvou je vlastní AI. Význam slov je velmi individuální. Vykonání povelů „zapni rádio, objednej pizzu, zjisti zůstatek účtu…“ si každý představujeme hodně odlišně. A očekáváme, že nám AI bude rozumět. V AI tak nepůjde o BIG DATA, ale o small data, ta úplně nejmenší – individuální. Pak to pro nás má smysl.

Koleje do budoucnosti vedou tímto směrem. Až se české banky i fintechy oklepou z PSD2, je na čase dívat se opravdu více dopředu.

Obsahuje už Vaše digitální strategie kapitolu Hlas? A jste ještě „MobileFirst“ nebo už „VoiceFirst“?

freefintech.cz

Svobodně o FinTech

Porazí hlas mobil?

Škoda Applu

Voice další etapou Digitální strategie

freefintec

Napsat komentář Zrušit odpověď na komentář