OpenAI lærte GPT-4 på dekrypterede YouTube-videoer - NYT
Growtika/Unsplash.
OpenAI brugte Whisper-teksttranskriptionsalgoritmen til at transskribere over en million timers YouTube-videoer for at træne sin seneste GPT-4-sprogmodel.
Her er, hvad vi ved
Ifølge The New York Times er OpenAI løbet tør for kvalitetsdata til at træne allerede i 2021. For at løse dette problem har virksomheden udviklet sin egen Whisper-model specifikt til transskribering af videoer, podcasts og lydbøger.
The Times hævder, at OpenAI's præsident Greg Brockman personligt var involveret i indsamlingen af klip fra YouTube.
En talsmand for virksomheden sagde, at de bruger en række forskellige datakilder, herunder offentligt tilgængelige data og data opnået gennem partnerskabsaftaler.
Google, som ejer YouTube, siger, at platformens brugsbetingelser forbyder uautoriseret indsamling eller upload af indhold. Virksomheden tager tekniske og juridiske forholdsregler for at forhindre en sådan uautoriseret brug af data, sagde en talsmand for tech-giganten.
I mellemtiden har Google også brugt noget indhold fra YouTube til at træne AI. Virksomheden understregede dog, at dette sker i henhold til separate aftaler med hver enkelt indholdsskaber, hvis klip er involveret.
Avisen rapporterer også, at Meta har stået over for lignende problemer med datatilgængelighed til træning af sine AI-systemer. Virksomheden har angiveligt overvejet ulovligt at bruge ophavsretligt beskyttet materiale.
Gå et spadestik dybere:
Kilde: The New York Times, The Verge