Alexa, hvordan virker Siri? Stemmekontroll forklart

Verden beveger seg mot talekommandoer for alt, men hvordan fungerer stemmekontrollen? Hvorfor er det så glitchy og begrenset? Her er hva du trenger å vite som en lekerbruker.

Verden beveger seg mot talekommandoer for alt, men hvordan fungerer stemmekontrollen?  Hvorfor er det så glitchy og begrenset?  Her er hva du trenger å vite som en lekerbruker.
Annonse

Vi kan snakke med nesten alle våre gadgets nå, men akkurat hvordan fungerer det? Når du spør "Hvilken sang er dette?" Eller si "Call Mom", skjer et mirakel av moderne teknologi. Og mens det føles som om det er på forkant, går denne ideen om å snakke med enheter tilbake tiår - nesten like langt som jetpacks i science fiction!

I dag er mesteparten av oppmerksomheten til stemme-driven databehandling på smarttelefoner. Apple, Amazon, Microsoft og Google står øverst i kjeden, og hver tilbyr sin egen måte å snakke med elektronikk. Du visste hvem de er: Siri, Alexa, Cortana, og den navnløse "Ok, Google". Som reiser et stort spørsmål ...

Hvordan tar en enhet talte ord og gjør dem til kommandoer det kan forstå? I hovedsak kommer det ned til mønstermatching og forutsigelser basert på disse mønstrene. Nærmere bestemt er talegjenkjenning en kompleks oppgave som kommer fra akustisk modellering og språkmodellering .

Akustisk modellering: Waveforms & Phones

bølgeform

Akustisk Modellering er prosessen med å ta en bølgeform av tale og analysere den ved hjelp av statistiske modeller. Den vanligste metoden for dette er Hidden Markov Modeling, som brukes i det som kalles uttale modellering for å bryte talen ned i komponentdelte telefoner (ikke forveksles med faktiske telefonenheter). Microsoft har vært en ledende forsker på dette feltet i mange år.

Skjult Markov Modeling: Sannsynlighetsstater

Skjult Markov Modeling er en prediktiv matematisk modell hvor nåværende tilstand bestemmes ved å analysere utgangen. Wikipedia har et godt eksempel ved å bruke to venner.

Tenk deg to venner - Lokal venn og ekstern venn - som bor i forskjellige byer. Lokal venn vil finne ut hvordan været er som hvor Remote Friend bor, men Remote Friend vil bare snakke om hva han gjorde den dagen: gå, handle eller ren. Sannsynligheten for hver aktivitet avhengig av dagens vær.

Skjult Markov Modeling

Foreløpig at dette er den eneste informasjonen som er tilgjengelig. Med den kan Local Friend finne trender i hvordan været endret seg fra dag til dag, og ved hjelp av disse trendene kan hun begynne å lage utdannede gjetninger om hvordan dagens vær vil være basert på vennenes aktivitet i går. (Du kan se et diagram over systemet ovenfor.)

Hvis du vil ha et mer komplisert eksempel, sjekk ut dette eksempelet på Matlab. I stemmeinnkjenning sammenligner denne modellen i hovedsak hver del av bølgeformen mot det som kommer før og hva som kommer etter, og mot en ordbok av bølgeformer for å finne ut hva som blir sagt.

I hovedsak, hvis du lager en "th" lyd, kommer den til å kontrollere lyden mot de mest sannsynlige lydene som vanligvis kommer før og etter det. Kanskje det betyr å sjekke mot "e" lyden, "på" lyden, og så videre. Når mønsteret stemmer opp riktig, har det hele ordet. Dette er en overforenkling, men du kan se Microsofts hele forklaring her.

Språkmodellering: Mer enn lyd

Akustisk modellering går langt i å hjelpe datamaskinen din å forstå deg, men hva med homonymer og regionale variasjoner i uttale? Det er der språkmodellering kommer inn i spill. Google har drevet mye forskning på dette området, hovedsakelig ved bruk av N-gram Modeling .

Når Google prøver å forstå talen din, gjør den det basert på modeller som er avledet fra sin massive bank av stemmesøk og YouTube-transkripsjoner. Alle de hilariously feil video bildetekstene har faktisk hjulpet Google til å utvikle sine ordbøker. De brukte også den avgitte GOOG-411 til å samle inn informasjon om hvordan folk snakker.

shutterstock_70757203

Alle denne språkkolleksjonen skapte et stort utvalg av uttaler og dialekter, noe som førte til en robust ordliste av ord og hvordan de høres ut. Dette gjør det mulig for kamper som har en sterkt redusert feilrate enn brute force matching basert på rå sannsynligheter. Du kan lese et kort papir som beskriver metodene deres her.

Mens Google er ledende på dette feltet, er det utviklet andre matematiske modeller, inkludert kontinuerlige rommodeller og posisjonspråklige modeller, som er mer avanserte teknikker som er født fra forskning innen kunstig intelligens. Disse metodene er basert på å replikere hva slags resonnement mennesker gjør når de lytter til hverandre. Disse er mye mer avanserte både når det gjelder teknologien bak dem, men også matte og programmering trengte å kartlegge disse modellene.

N-Gram-modellering: Sannsynligheten oppfyller minne

N-grammodellering bygger på sannsynligheter, men det bruker en eksisterende ordliste for ord for å lage et forgrenende tre av muligheter, som deretter glattes ut for effektivitets skyld. På en måte betyr dette at N-grammodellering fjerner mye usikkerheten i den nevnte skjulte Markov-modelleringen.

Som nevnt ovenfor kommer denne metodens styrke fra å ha en stor ordbok for ord og bruk, ikke bare primitive lyder . Dette gir programmet muligheten til å fortelle forskjellen mellom homofoner, som "beat" og "bete". Det er kontekstuelt, noe som betyr at når du snakker om går kveldens poeng, tar programmet ikke opp ord om borscht.

Men disse modellene er egentlig ikke det beste for språk, hovedsakelig på grunn av problemer med sannsynligheter av ord i lengre setninger. Når du legger til flere ord i en setning, blir denne modellen litt slått ut da dine tidlige ord er usannsynlig å ha lastet alt som trengs for din fullstendige tanke.

Det er imidlertid enkelt og enkelt å implementere, noe som gjør det til en flott kamp for et selskap som Google som liker å kaste servere ved beregningsproblemer. Du kan gjøre videre lesing på N-gram Modelieng ved University of Washington, eller du kan se et foredrag på Coursera.

Shouting at Clouds: Apps & Devices

Alle som har brukt Siri, kjenner frustrasjonen til en langsom nettverksforbindelse. Dette skyldes at kommandoene dine til Siri sendes over nettverket for å bli dekodet av Apple. Cortana for Windows-telefonen krever også at en nettverkstilkobling fungerer som den skal. I kontrast, Amazonas Echo er bare en Bluetooth-høyttaler uten noe Internett.

Hvorfor forskjellen? Fordi Siri og Cortana trenger tunge servere til å dekode talen din. Kan det gjøres på telefonen eller nettbrettet ditt? Jo, men du vil drepe ytelsen og batterilevetiden i prosessen. Det er bare mer sanselig å avlaste behandlingen til dedikerte maskiner.

SIGCHI_Conference_Paper_Format _-_ KumarSpeechRecognitionForMobileApps_pdf

Tenk på det på denne måten: Din kommando er en bil som står fast i gjørmen. Du kan sannsynligvis skyve det ut selv med nok tid og krefter, men det vil ta flere timer og la deg bli utmattet. I stedet kaller du veibeskrivelse, og de drar bilen ut på bare noen få minutter. Ulempen er at du må ringe og vente på dem, men det er fortsatt raskere og mindre beskattende.

Skrivebordsmodeller som Nuance pleier å bruke lokale ressurser på grunn av den kraftigere maskinvaren. Tross alt, i Steve Jobs ord, er skrivebordet ditt en lastebil. (Som gjør det litt dumt at OS X bruker servere for behandling.) Så når du trenger å behandle språk og stemme, er den allerede utstyrt godt nok til å håndtere det på egen hånd.

På den annen side lar Android utviklere inkludere offline talegjenkjenning i sine apper. Google liker å komme foran teknologien, og du kan satse på at de andre plattformene vil få denne muligheten når maskinvaren blir sterkere. Ingen liker det når dårlig dekning eller dårlig mottak lobotomizes enheten.

Begynn å bruke talekommandoer nå

Nå som du kjenner de grunnleggende konseptene, bør du leke med dine ulike enheter. Prøv den nye taletypen i Google Dokumenter Hvordan stemmekryptering er den nye beste funksjonen til Google Dokumenter Hvordan stemmekryptering er den nye beste funksjonen til Google Dokumenter Stemmeinnkjenning har forbedret seg i løpet av de siste årene. Tidligere i uken introduserte Google endelig taletyping i Google Dokumenter. Men er det noe bra? La oss finne det ut! Les mer . Som om webkontorpakken ikke allerede var kraftig nok, kan du bruke stemmekontrollen til å diktere og formatere dokumentene dine helt. Dette utvider seg på den kraftige teknologien de allerede har designet for Chrome og Android.

Andre ideer er å sette opp Mac-en din for å bruke talekommandoer Slik bruker du talekommandoer på Mac-maskinen Slik bruker du talekommandoer på Mac-en Les mer og sett opp Amazon-ekko med automatisk utskrift Hvordan Amazon Echo kan gjøre ditt hjem til et smart hjem Hvordan Amazon Ekko kan gjøre ditt hjem En smart hjemme smart hjemteknologi er fortsatt i sine tidlige dager, men et nytt produkt fra Amazon kalt "Echo" kan bidra til å bringe det inn i det vanlige. Les mer . Live i fremtiden og omfavn å snakke med gadgetene dine - selv om du bare bestiller flere papirhåndklær. Hvis du er en smarttelefonmisbruker, har vi også opplæringsprogrammer for Siri 8 ting du sikkert ikke skjønte Siri kunne gjøre 8 ting du sikkert ikke skjønte Siri kunne gjøre Siri har blitt en av iPhones definerende funksjoner, men for mange mennesker, det er ikke alltid det mest nyttige. Selv om noe av dette skyldes begrensningene i talegjenkjenning, er det uvanlig å bruke ... Les mer, Cortana 6 kuleste ting du kan kontrollere med Cortana i Windows 10 6 kuleste ting du kan kontrollere med Cortana i Windows 10 Cortana kan hjelpe deg gå håndfri på Windows 10. Du kan la henne søke på dine filer og på nettet, gjøre beregninger eller trekke værvarselet. Her dekker vi noen av hennes kjøligere ferdigheter. Les mer, og Android OK, Google: 20 + Nyttige ting du kan si til Android-telefonen din OK, Google: 20 + Nyttige ting du kan si til Android-telefonen din. Langsomt, uten å merke oss, har fremtiden kommet. Les mer .

Hva er din favoritt bruk av talestyring? Gi oss beskjed i kommentarene.

Image Credits: T-flex via Shutterstock, Terencehonles via Wikimedia Foundation, Arizona State, Cienpies Design via Shutterstock

In this article