Hvorfor er ikke AI assistenten så smart?

Siri, Cortana og Alexa vil bli en større del av livene våre fremover, skal vi tro ekspertene. AI (kunstig intelligente) assistenter, sammen med generell stemmestyring, vil endre måten vi bruker og forholder oss til teknologi og digitale enheter. I dag er vi avhengig av en skjerm, og ofte tastatur og mus for å utføre oppgaver digitalt. Med stemmestyring og mer intelligente datamaskiner kan en stor del av disse dagligdagse oppgavene og gjøremålene skje via muntlig kommunikasjon. Det er jo mye mer lettvint å si til TV’en at den skal vise frem feriebildene i fullskjerm, fremfor å dra frem telefonen eller laptop’en når du sitter med venner og familie på besøk.

Siri ble verdenskjent da Apple lanserte henne i 2011, og de påfølgende årene kom flere av de store aktørene på banen med intelligente assistenter av varierende kvalitet. Mye har endret seg siden den tid, og Amazons Alexa, Googles Assistant og Microsofts Cortana er alle avanserte teknologier som det allokeres enorme ressurser til for videre utvikling. I skrivende stund er det kun Siri som tilbys på norsk, men det går rykter om at Google’s Assistant vil komme med norsk støtte i løpet av Q2 2018. Amazon har også begynt å tilby noen av sine tjenester i Norge, så det er tydelig at det er et kappløp om å nå ut til også de mindre språkene og markedene i verden.

Selv om de digitale assistentene bare blir smartere, er det ofte vanskelig for de å forstå en enkel setning. Spør du et direkte spørsmål, får du som regel et godt svar:

Meg: Snør det i Oslo i dag?
Siri: Det ser ikke ut til at det vil komme snø i dag.

..men ordlegger du deg som du ville gjort til et annet menneske er det ikke alltid du blir like godt forstått:

Meg: Siri, når er det vi kan forvente litt snø igjen?
Siri: Nei, jeg tror ikke det snør akkurat nå.

Så hvorfor er det slik at disse intelligente, digitale assistentene kan oppsummere gårsdagens nyheter, eller gi deg siste kurs på de mest omsatte aksjene på NASDAQ, men likevel sliter med å forstå helt enkle setninger?

Hva er egentlig en AI assistent?

Først må vi forstå litt av teknologien som muliggjør slike digitale, stemmestyrte assistenter. En type teknologi som ligger under samlebegrepet maskinlæring, er noe som kalles NLP, som står for Natural Language Processing. NLP som teknologi skal jeg ikke gå inn på her, ettersom det er et ganske omfattende felt, og det er heller ikke hensikten med denne artikkelen. Dersom du vil forstå mer om NLP og hvordan det fungerer, anbefaler jeg å lese gjennom Javier Coutos innledende guide til NLP. Det som imidlertid er viktig å forstå, er at NLP er en teknologi som gjør at datamaskiner klarer å gjøre om det språket som vi mennesker bruker, om til et språk som datamaskinene klarer å forstå. I grove trekk kan vi si at vi mennesker har to ulike former for språklig kommunikasjon, skriftlig og muntlig. For at en datamaskin skal klare å “forstå” hva vi ønsker, er den avhengig av input i form av data. Når vi mennesker skriver slik vi ville skrevet til en annen person, formulerer vi oss på en ganske annen måte enn det vi må gjøre for at en datamaskin skal forstå oss. NLP bidrar derfor med å tolke dette “menneskelige” skriftspråket om til et språk datamaskinene kan forstå. Om du har vært i dialog med en chatbot gjennom kundeservice eller lignende den siste tiden, så har du helt sikkert lagt merke til at svarene den gir, ikke alltid passer like godt til det du skriver. Spør du etter noe konkret som bedriften tilbyr, linker den deg raskt til en ekstern produktside. Om du ikke skriver noe konkret med en gang, blir fort samtalen litt merkelig.

I Norse Podcast snakker jeg mer om hvilke muligheter vi har med chatbots, samt hva stemmestyrte assistenter kan gjøre for oss.


Når det kommer til muntlig kommunikasjon og språk, krever dette et ytterligere ledd i NLP teknologien, nemlig voice-to-text og text-to-voice, som ligger under teknologien speech recognition. Når du spør Apple’s Siri om været, eller Google Assistant om en oppskrift på brød, så må det du sier først tolkes og gjøres om til tekst, for så å gjøre denne teksten om til et språk maskinene forstår. Når datamaskinen har funnet frem til riktig output, i dette tilfellet værvarselet eller en brødoppskrift, må dette først gjøres om til et språk vi mennesker forstår, og deretter om til tale i form av en stemme som svarer deg. Med andre ord, så er det ganske mye som skjer bak kulissene når du spør om noe så enkelt som dagens temperatur. Nedenfor er en illustrasjon som viser disse stegene i prosessen.

I mange tiår har vi sett mennesker som kommuniserer helt naturlig med datamaskiner og roboter i ulike sci-fi filmer og TV-serier. I fremtids- drama/thrilleren Westworld kan voksne folk reise til en fornøyelsespark der de får leve ut sine eventyr av ulik art sammen med helt menneske-ekte roboter. I dramafilmen Her fra 2013 forelsker hovedpersonen seg i operativsystemet sitt. Hvorfor er ikke dette mulig i vår virkelige verden?

Datamaskinene er ikke så fryktelig intelligente, enda..

Dersom du spør Siri om det har kommet noen bra filmer på kino i det siste, så får du et ganske ubrukelig svar.

Selv om disse AI assistentene er superavanserte og har tilgang på all verdens informasjon gjennom internett, vil de fortsatt ha problemer med å forstå en “normal” menneskelig samtale. Grunnen til dette er hvordan det menneskelige språket fungerer - språket vårt er nemlig utrolig kompleks.

Uttrykkene “å snu på en femøring” eller “den skal tidlig krøkes..” gir ikke særlig mening for en datamaskin som prøver å tolke setningen ut fra logisk analyse.

En av utfordringene er kontekst og semantikk. Språket vårt består av ord som betyr ulike ting, selv om de skrives helt likt, eller tilsvarende likt. For å forstå betydningen av det spesifikke ordet, er en nødt til å forstå konteksten det settes i. På norsk kan ordet “vær” representere flere substantiv som for eksempel en sauebukk eller som i regn, sol og vind. Det kan også representere verbet å være. I muntlig form har vi også pronomen “hver” som vil oppfattes på samme måte. Ved å legge til en preposisjon i en setning, kan verbet få en helt annen betydning - å “stikke noen med kniv” er ikke det samme som å “stikke fra noen med kniv” Kontekst er derfor avgjørende for å forstå hva vi egentlig vil formidle med språket, og dette er fortsatt veldig vanskelig for datamaskinene å forstå.

En annen utfordring er syntaks, som i stor grad er relatert til kontekst. Syntaks handler om hvordan setninger bygges opp, og forholdene mellom ulike ledd i setninger. De samme ordene i ulik rekkefølge kan avgjøre om det som sies er en kommentar eller uttalelse, eller et spørsmål. “Det tar lang tid å kjøre til jobb nå” er en uttalelse, mens “tar det lang tid å kjøre til jobb nå?” er et spørsmål.

Et viktig element i en samtale, er dialog, der to eller flere parter bytter på å formidle informasjon (snakke/skrive) og tilegne informasjon (lytte/lese). Uten en fungerende dialog blir opplevelsen av en samtale ganske monoton og ensformig, noe som ofte i stor grad kan merkes hos dagens digitale assistenter. Om du har prøvd å slå av en prat med Alexa, eller skriver et spørsmål til chatbot’en hos ulike kundeservice avdelinger, er det fortsatt et godt stykke igjen før den dialogen oppleves som naturlig.

Om vi skal få oppleve naturlige samtaler med en datamaskin, så må vi også legge til de mer uforklarlige fenomenene ved det menneskelige språket, slik som ironi og sarkasme, og ordspill og ordtak. Her blir det virkelig avansert for en datamaskin å henge med i svingene, uansett hvor kunstig intelligent den er. Om vi mottar en møteinvitasjon til en dag som allerede er fullbooket, kan vi finne på å si “Ja, det møtet passet jo skikkelig bra den dagen!”. En datamaskin vil selvfølgelig tolke dette dit hen at møtet passer perfekt. Uttrykkene “å snu på en femøring” eller “den skal tidlig krøkes.. (den som god krok skal bli)” gir heller ikke særlig mening for en datamaskin som prøver å tolke setningen ut fra logisk analyse.

Med andre ord, det er ekstremt vanskelig for en datamaskin å forstå, og ikke minst kommunisere med oss mennesker på et nivå som virker naturlig for oss. Selv om teknologien er kommet lenger enn de fleste av oss kanskje forstår, så er det fortsatt et godt stykke igjen før vi kan ha en (kunstig) intelligent samtale med en datamaskin.

Så hva kan de stemmestyrte assistentene hjelpe deg med i dag?

Selv om kommunikasjonsmulighetene er begrenset med dagens teknologi, er det likevel mange nyttige og morsomme ting de kan bidra med. Flere av assistentene er tilgjengelige gjennom egne duppedingser som kan plasseres i stuen, på kjøkkenet eller på soverommet, og det anbefales å investere i en slik dersom en ønsker full utnyttelse av assistenten. Google sin Home og Amazon sin Echo kommer begge i ulike størrelser og farger. Apple lanserer sin HomePod tidlig 2018 for å henge med i svingene. Ingen av de er foreløpig tilgjengelig i Norge, men det går fint å bruke de på engelsk om du får tak i en.

Be Google skru på nyhetene og sette på kaffetrakteren fra sengekanten på morgenen.

Står du på kjøkkenet og kokkelerer med begge hendene fulle, kan det være praktisk å be Alexa sette en timer på 8 minutter så du slipper å trykke på mobilen. Sitter du med gjester så kan du be Google om å sette på en spilleliste med rolige middagssanger, og diskuterer dere hvor mange som egentlig bor i New York, eller hvor høyt Machu Picchu ligger, så er det enkelt å få fasiten opplest. Når du legger deg kan du be Siri om å vekke deg klokken 06.30 i morgen tidlig, eller hver morgen om det er ønskelig. Når du står opp kan du få opplest dagens viktigste nyheter, temperatur og værvarsel for dagen, hvilke oppføringer du har i kalenderen, samt hvor lang tid det vil ta å kjøre til jobb med trafikk.

Du kan spørre og fortelle om det meste, og det er overraskende hvor mye rart de kan svare på. Her er noen eksempler på kreative svar fra Siri:

Hei Siri, hvor gammel er du?
Jeg er gammel nok til å være assistenten din.

Har du en god sjekkereplikk?
Prosessoren min hopper over en syklus når linsen fokuserer på deg.

Fortell en vits.
Jeg foretrekker å være Siri-øs. (Haha..)

Apple, Amazon og Google satser alle tungt på tilkoblingsmuligheter med Internet of Things (IoT). Det finnes et hav av tredjepartsleverandører som tilbyr alt fra varmestyring, smarte lys, dørlås, kjøleskap, kaffetrakter, TV, musikk osv., der alt er tilkoblet internett. Hvor deilig er det ikke å kunne be Google skru på nyhetene og sette på kaffetrakteren fra sengekanten på morgenen? Det er også egne mobil apper der du kan styre assistentene fra hvor du enn måtte befinne deg. Usikker på om du glemte å låse døren da du måtte løpe til bussen? Bare å sjekke fra mobilen.

Stemmestyrt hjem

Det er ingen tvil om at stemmestyring vil spille en stor rolle for hvordan vi benytter oss av teknologi i tiden fremover. I dag er mobiltelefonen stort sett det eneste vi kan snakke til, men stadig flere enheter kommer med innebygd mikrofon, høyttaler og internett. TV, kjøleskap og diverse fjernkontroller lar deg allerede styre ulike funksjoner, og det vil nok blir mer vanlig med en “smart basestasjon” som er koblet til alle duppedingser i hjemmet, slik som Googles Home, Apples HomePod, Amazons Echo, eller Athoms Homey, for å nevne noen. Du kan allerede be TV’en sette på siste sesong av House of Cards på Netflix, og samtidig be lysene i stuen om å dempe seg. Med Kolonial.no og Marked.no sitt inntog på dagligvarefronten er det ikke lenge igjen før du kan be kjøleskapet bestille inn mer egg og melk når det nærmer seg tomt. Så selv om AI assistentene ikke er så intelligente likevel, er det fortsatt mye de kan hjelpe til med. Og med tiden vil de bare bli enda smartere, selv om det aldri vil bli helt det samme som å snakke med et menneske…eller?