Apple-forskere udvikler et avanceret AI-system til at forbedre stemmeassistenter

Af : Bohdan Kaminskyi | 02.04.2024, 23:22

Jimmy Jin/Unsplash.

Et team af Apple-forskere har afsløret et nyt kunstigt intelligenssystem kaldet ReALM (Reference Resolution As Language Modeling). Det er i stand til at forstå tvetydige referencer til objekter på skærmen, samt tage højde for samtale og kontekstuel baggrund, hvilket giver mulighed for mere naturlig interaktion med stemmeassistenter.

Her er, hvad vi ved

ReALM bruger store sprogmodeller til at omdanne den komplekse opgave med at løse skærmreferencer til en sprogmodelleringsopgave. Denne tilgang har vist betydelige præstationsgevinster i forhold til eksisterende metoder.

"At kunne forstå kontekst, herunder referencer, er afgørende for en samtaleassistent," bemærkede Apple-forskerne. De demonstrerede, at ReALM overgår selv GPT-4 på denne opgave.

En vigtig nyskabelse i ReALM er rekonstruktionen af skærmen til en tekstlig repræsentation, der formidler det visuelle layout og placeringen af objekter. Dette, kombineret med finjustering af sprogmodeller, har givet betydelige forbedringer i skærmreferenceopløsningen.

ReALM forstår referencer til objekter på skærmen, hvilket muliggør en mere naturlig interaktion med stemmeassistenter.

Forskningen fremhæver potentialet for specialiserede sprogmodeller til at løse specifikke problemer i produktionssystemer, hvor store end-to-end-modeller er vanskelige at bruge. Apples publikation signalerer deres fortsatte investering i at forbedre brugervenligheden af Siri og andre produkter.

Forfatterne advarer dog om, at automatiserede skærmanalyser har begrænsninger. Mere komplekse visuelle opgaver vil sandsynligvis kræve computersyn og multimodale tilgange.

Mens konkurrenterne aggressivt anvender generativ AI, forsøger Apple at lukke hullet i dette hurtigt udviklende felt. Virksomheden forventes at afsløre nye funktioner baseret på store sprogmodeller og kunstig intelligens på den kommende WWDC-konference.

Kilde: VentureBeat