Microsoft afslørede dipfake- og stemmekloningsværktøjer

Af : Bohdan Kaminskyi | Opdateret 16.11.2023, 15:36

Microsoft

På Ignite-konferencen annoncerede Microsoft en tjeneste til at skabe fotorealistiske avatarer af mennesker med læbeanimation i henhold til en given tekst. De viste også et værktøj til stemmekloning ved hjælp af lydprøver.

Her er, hvad vi ved

Den nye Azure AI Speech text to speech avatar-tjeneste giver dig mulighed for at uploade et foto af en person og komponere et script. En video af en talende avatar genereres derefter baseret på dette.

De digitale dobbeltgængere kan tale flere sprog. I scripts kan de bruge kunstig intelligens-modeller som OpenAI's GPT-3.5 til at besvare kundespørgsmål uden for scripts.

En anden personlig stemmefunktion kan genskabe en brugers stemme på få sekunder. Det kræver en lydoptagelse på et minut.

Virksomheden foreslår, at man bruger Personal voice til at skabe personlige stemmeassistenter, eftersynkronisere indhold til forskellige sprog og skabe skræddersyede fortællinger til historier, lydbøger og podcasts.

Ifølge Microsoft vil begge værktøjer kun være tilgængelige for et begrænset antal brugere og kun i visse scenarier. Derudover skal kunderne give udtrykkeligt samtykke til, at deres stemme og billede må bruges.

Formålet er at begrænse det potentielle misbrug af teknologi til at skabe dipfakes uden folks viden. Microsoft siger, at de har en ansvarlig tilgang til AI-etik.

Kilde: Microsoft, Microsoft

Kunstig intelligens Microsoft