Grunnleggende prinsipper for å bygge stemmestyrte AI assistenter

Kort forklart, en AI assistent er en software som kan kommunisere med sine brukere via apper, hardware (med mikrofon og høyttaler), eller andre brukergrensesnitt, enten skriftlig eller muntlig. En stemmestyrt assistent er egentlig en applikasjon, men de blir ofte omtalt som assistenter, ettersom de er laget for å hjelpe brukerne med ulike oppgaver. Et eksempel på en AI assistent er Siri, som er tilgjengelig på Apple sine produkter.

I min tidligere artikkel om hvordan AI assistenter fungerer, tok jeg opp de utfordringene maskinene har med å forstå oss mennesker, og krysningspunktet mellom maskinspråk og menneskespråk. Denne artikkelen er ment for deg som har tenkt på, eller er i gang med å lage en stemmestyrt assistent, eller for deg som rett og slett er nysgjerrig på hvordan det gjøres. Jeg har tatt utgangspunkt i de eksisterende plattformene slik som Google Assistant og Amazon Alexa, men hovedprinsippene gjelder for alle typer stemmestyrte apper, uavhengig av plattform og teknologi.

En god AI applikasjon kan aldri starte med for mye data, og den kan heller aldri få nok data fra brukerne.

For å bygge en AI assistent, er det noen grunnleggende komponenter som må være tilstede. Aller først må det være en teknologiplattform i bunn som håndterer selve teknologien som applikasjonen er bygget på, og som også håndterer alt av data. Denne plattformen behandler all skriftlig eller muntlig input, og strukturerer dette fra “menneskespråk” til “maskinspråk”. Heldigvis finnes det flere eksisterende plattformer der en kan bygge sin egen stemmestyrte applikasjon. Jeg går mer inn på dette lenger ned i artikkelen.

Det må også være et brukergrensesnitt der brukerne kan kommunisere og skape en interaksjon med AI assistenten. For chatbot’er ligner ofte brukergrensesnittet på standard meldingstjenester, men en chatbot kan ha et hvilket som helst design. Mange av de store meldingstjenestene har også gjort det mulig å kunne tilby chatbot gjennom deres brukergrensesnitt, som for eksempel Facebook Messenger, Slack, Twitter og Telegram. Med stemmestyrte AI assistenter vil interaksjonen styres gjennom å snakke direkte til assistenten, enten via en mobiltelefon, eller annen hardware som har innebygd mikrofon og høyttaler. En stemmestyrt assistent kan også benytte en skjerm for å supplere med informasjon eller vise frem resultater fra dialogen.

Et tredje grunnleggende komponent er data. En god AI applikasjon kan aldri starte med for mye data, og den kan heller aldri få nok data fra brukerne. Data er informasjonen som brukerne kommuniserer til assistenten, og som de forventer av respons tilbake. Det vil si at de ordene, den setningsoppbyggingen, og de spørsmålene som brukerne ofte bruker, er det kritisk at assistenten forstår. Videre må den ha tilgang til nok data, slik at den kan gi den responsen som brukeren ønsker.

Grunnleggende prinsipper

En AI assistent kan kommunisere med brukerne skriftlig via et meldingsbasert grensesnitt (ref chatbots), eller muntlig via stemmestyrte assistenter. Uansett er det viktig å ta hensyn til grunnleggende prinsipper om mellommenneskelig dialog, og hvilke elementer som må være til stede for at brukeropplevelsen skal være best mulig.

Forstå målgruppen

For alle som har jobbet med kunder og salg, er ikke dette noen overraskelse, men dette gjelder like fullt når du skal bygge en AI applikasjon. Enten du jobber i et selskap som ønsker å bygge noe for eksisterende (eller potensielle) kunder, eller om du er en privatperson som vil lage noe som kan være nyttig for andre, så er det viktig å forstå hvem som kommer til å bruke den stemmestyrte assistenten. Hvem de er, og hva slags behov de har, vil definere selve kjernen i det du skal bygge.

Velg personlighet

Like viktig som å kjenne sine brukere, er det å forstå hva slags type person brukerne ønsker å kommunisere med. Bruk personas når du skal finne en personlighet for AI applikasjonen. Dette vil gjøre det enklere å designe samtale stil, og legger grunnlaget for type ord, syntaks og setningsstruktur. Skal applikasjonen være morsom, formell, avslappet eller trist? En bank bør kanskje ha en annen stil og tone enn en quiz bot? Dette bør defineres tidlig, ettersom det legger grunnlaget for resten av arbeidet. Husk at brukerne uansett vil danne seg et bilde av den de kommuniserer med, så det er like greit å kunne styre dette i ønsket retning fra start.

Skap en dialog

For å skape en god brukeropplevelse, er det viktig at det er en god dialog mellom brukeren og applikasjonen. Dialog er noe som kommer naturlig for oss mennesker, og er sentralt for hvordan vi kommuniserer med hverandre. Derfor bør setninger og svar utformes slik at det er naturlig for brukeren å fortsette samtalen. Uten en dialog kan samtalen oppfattes som unaturlig. Selv om brukerens spørsmål kun har et enkelt svar, kan det være annen relatert informasjon som er interessant å vite. Det vil også skape en bedre brukeropplevelse og dermed større verdi for brukeren. Dersom brukeren spør etter et konkret produkt, kan det være interessant å høre om relaterte produkter, eller kanskje omtaler om produktet, i tillegg. Klarer du å skape en dialog med brukeren, er det større sannsynlighet for at du kan innhente mer data også.

Bygg tillit

AI assistenten må anerkjenne at brukeren kommuniserer med den, selv om det ikke er noen direkte spørsmål eller oppgaver som gis. Hvordan skal man få satt i gang en samtale? Et “wake” ord er blitt standarden for å få den stemmestyrte assistenten til å forstå at du snakker med den, du må for eksempel si “Alexa” for å vekke Alexa, eller “Hey Google” for å vekke Google Assistant. Da kan det vært greit å tenke på hva som skal skje når brukeren ønsker å snakke med tjenesten. Skal den ønske velkommen? Skal den gjøre oppmerksom på at den er der for å hjelpe? Ofte vil brukeren også svare på spørsmål fra applikasjonen, og da er det viktig at brukeren forstår at svaret er mottatt. Enkle kommentarer slik som “Den er god” eller “Takk, det er notert” vil gi en bekreftelse på at den er med i samtalen. Etterfølg gjerne med å spørre om det er noe mer den kan hjelpe til med (ref skape dialog), eller avslutt med å ønske brukeren en fin dag videre. Dette er spesielt viktig når applikasjonen skal utføre tillitskrevende oppgaver, slik som å sette på en alarm, eller booke en taxi. Da bør den forsikre brukeren om at oppgaven faktisk blir gjort, slik som “Da er alarmen satt til 07.30”, eller “Taxi er på vei, beregnet ankomsttid er 7 minutter. Sjåføren ringer deg når den er ankommet.”

Forutse brukeradferd

Mennesker bruker ulike ord og setninger for å si det samme. Situasjonen man befinner seg i, og tidligere erfaring med chatbots og stemmestyrte assistenter, vil påvirke måten man kommuniserer på. Det er viktig at applikasjonen forstår ulike variasjoner og kontekst av setninger og spørsmål, slik at brukeren får en positiv opplevelse. Brukerne vil også garantert stille merkelige spørsmål, dels fordi man ikke er sikker på hvordan man skal formulere seg, og dels for å sette applikasjonen på prøve. Forsøk å forutse noen scenarioer og sett opp noen gode responser, og husk at type respons bør defineres av applikasjonen personlighet. Spør du Google Assistant om “Where do you live?”, så svarer den blant annet: “I’m stuck inside a device!! Help! Just kidding. I like it in here.” eller “I live in the cloud. I’d like to also think I live in your heart. But I don’t want to make assumptions.” Det å ha flere ulike variasjoner av responsen vil også skape en mer human opplevelse av samtalene over tid.

Bygg din egen stemmestyrte AI app

De mest populære stemmestyrte assistentene på markedet er ledet av de store teknologiselskapene; Google har Assistant, Amazon har Alexa, Apple har Siri, og Microsoft har Cortana. Flere av disse tilbyr åpne rammeverk som lar hvem som helst få lov til å ta i bruk teknologien og bygge sine egne apper på deres AI plattform. På Google sin plattform kan du bygge en stemmestyrt app og publisere den på lik linje som du publiserer en mobil app i App Store eller Google Play. Da har du muligheten til å nå brukere via over 400 millioner enheter, inkludert smart TV’er, telefoner, smart høyttalere, biler og hodetelefoner for å nevne noen. For øyeblikket er ikke Google sin Assistant tilgjengelig på norsk, men ryktene sier at den vil bli det i løpet av året.

Slik som app stores er blitt vanlig for smarttelefoner, vil vi se et økende tilbud av apps til AI plattformer slik som Assistant og Alexa.

Applikasjoner som bygges på Google Assistant sin plattform kalles for Actions. For å bygge en Action må du benytte Google’s AI konsoll. Her setter du opp et prosjekt ved å definere type og formål for applikasjonen. Du benytter så konsollen til å designe hele brukeropplevelsen og flyten i den stemmestyrte applikasjonen.

På samme måte som Google har gjort sin plattform tilgjengelig, har Amazon også en utvikler konsoll for å bygge applikasjoner til Alexa. Disse applikasjonene kalles for Skills, og har tilsvarende bruksområde som Actions, bare ut mot Alexa-støttede enheter.

Å bygge en god stemmestyrt AI assistent er krevende, og det vil ta tid å samle opp nok informasjon fra brukerne for å få et godt datagrunnlag. Likevel er det viktig å komme i gang, slik at applikasjonen kan begynne å samle data så tidlig som mulig. Jo flere brukere og samtaler som gjennomføres, desto mer informasjon og data samles om brukerne. Vær ydmyk i starten, og gjør brukerne oppmerksomme på at assistenten er “ung”, så vil også toleransenivået være høyere for eventuelle feil eller misvisende svar.

Ta en posisjon

Med flere stemmestyrte plattformer tilgjengelig, vil det dukke opp en ny type markedsplass som vil rette seg mot enormt mange brukere i tiden fremover. Slik som app stores er blitt vanlig for smarttelefoner, vil vi se et økende tilbud av apps til AI plattformer slik som Assistant og Alexa. Derfor er det viktig nå i starten, å finne konkrete bruksområder for sin app. De som skaper unike opplevelser på disse plattformene tidlig, vil være i stand til å ta en sterk posisjon i dette voksende markedet. Søkemotoroptimalisering og marketing, reklame og betalt innhold vil se helt annerledes ut på disse plattformene. Hvordan skal man som bruker finne frem til alle tjenestene uten at man vet om de på forhånd? Sier du til Alexa at du vil bestille en pizza fra Domino’s, så hadde det vært rart om Alexa hadde svart “Pizza høres godt ut, men la meg først fortelle om den nye sushi sjappa som akkurat åpnet på andre siden av gata…” Det er fortsatt uvisst hvordan en kan bli lagt merke til når flere og flere tjenester blir chat- eller stemmebaserte, men det vil ganske sikkert ikke bli som det fungerer i dag. Som med all annen teknologi, er du med tidlig så er det lettere å holde følge med utviklingen.