Google har afsløret VLOGGER, en kunstig intelligens, der kan give liv til stillbilleder.

Af : Bohdan Kaminskyi | 19.03.2024, 20:13

Google

Google-forskere har udviklet et nyt kunstigt intelligenssystem kaldet VLOGGER, der kan generere realistiske videoer af mennesker, der bevæger sig og taler, ud fra blot ét foto.

Her er, hvad vi ved

VLOGGER kan tage et foto af en person og et lydspor som input og derefter syntetisere en video af den person, der siger ord, laver passende ansigtsudtryk, bevægelser og hovedbevægelser. Selvom de genererede videoer ikke er perfekte, viser de betydelige fremskridt med at bringe statiske billeder til live.

For at skabe modellen indsamlede udviklerne et enormt MENTOR-datasæt med mere end 800.000 personer og 2.200 timers video. På den måde har VLOGGER lært at generere en række forskellige karakterer i forskellige aldre, med forskellige etniske baggrunde og i forskellige miljøer.

Teknologien åbner op for mange anvendelsesmuligheder, herunder automatisk eftersynkronisering af video, redigering og udfyldning af manglende optagelser og oprettelse af hele videoer ud fra et enkelt foto. Det kan være nyttigt for underholdningsindustrien, virtual reality, træningsprogrammer og skabelse af AI-drevne virtuelle assistenter.

Der er dog en risiko for at bruge VLOGGER til at skabe deepfakes - syntetiske mediefiler, hvor en rigtig person er erstattet af en falsk. Efterhånden som sådanne videoer bliver mere sofistikerede, kan de forværre problemerne med misinformation og spoofing på internettet.

Udviklerne erkender, at VLOGGER har sine begrænsninger. De skabte videoer er relativt korte, har statiske baggrunde, og personerne bevæger sig ikke i et 3D-miljø. Ikke desto mindre kalder forskerne modellen for en milepæl inden for AI-forskning.

Kilde: VentureBeat: VentureBeat