Forskere afslører, at Meta Llama 3.1 AI-model overtræder ophavsret - den kan huske 42 procent af den første Harry Potter-bog

Af : Anry Sergeev | 16.06.2025, 10:15

For nylig viste en undersøgelse fra Stanford, Cornell og West Virginia University at Meta Llama 3.1 (70B), der blev udgivet i juli 2024, bevidst har husket 42 % af den første Harry Potter-bog, så den kan reproducere passager på 50 tokens med en sandsynlighed på over 50 %. Med andre ord, modellen husker ikke bare plottet - den kan reproducere hele tekststykker, hvis den får den første sætning. Til sammenligning huskede den gamle model kun 4,4 %.

Hvad skete der

En gruppe forskere undersøgte, hvor meget den nye Llama "klæbte" sig til bøger. Det viste sig, at hvis teksten er meget populær (som Harry Potter eller Hobbitten), kan AI gentage store tekststykker. Dog vækkede mindre kendte bøger (for eksempel Sandman Slim) ikke meget begejstring: modellen huskede mindre end 1 % af dem.

Forskere brugte en særlig metode, der viser, hvor sikker modellen er i hvert efterfølgende ord - og denne sikkerhed var så høj, at det blev klart, at den helt sikkert havde set det før.

Hvordan blev det målt

De brugte metoden til at analysere sandsynlighederne for efterfølgende tokens: hvis modellen efter at have erstattet de første 50 tokens fra passagen reproducerer de følgende, blev det betragtet som et tegn på memorisering

Hvorfor er dette vigtigt

Fordi bøger er ophavsretligt beskyttede, og AI ikke bare skal reproducere dem som en printer.
Hvis den kan gentage Harry Potter fra hukommelsen, vil det være nemt at generere hele bøger, der ligner en kopi, men med et nyt navn i fremtiden.
Dette er ikke længere læring, det er Ctrl+C og Ctrl+V, og advokaterne gik straks ind i "aha, du er blevet taget!"-modus.

Hvorfor skete dette?

Fordi Meta trænede denne model på 15 trillioner ord, hvilket er meget. Måske omfattede træningen ikke kun bøger, men også fora, fansider og anmeldelser med citater - jo oftere en tekst dukkede op i datasættet, jo oftere påvirkede det modellen.

Og nu hvad?

Hvis advokater kan bevise, at AI reproducerer tekster næsten ordret, kan det betyde store problemer for Meta. Især fordi deres model er åben, og alle kan tjekke det. Lukkede sprogmodeller (OpenAI, Anthropic og Google) kan også have lignende problemer, men det er meget sværere at bevise. Dette gør det sværere for Meta at forsvare sig på grundlag af rimelig brug - en domstol kan betragte hukommelse som bevis for, at modellen skaber et derivat fra en stor del af teksterne. Det vil også være svært at sige, at disse er "ikke andet end mønstre".

Ironisk nok kan den gennemsigtighed, som Llamas skabere er stolte af, nu spille imod dem.

Det vil sige, at denne sprogmodel nu kan bringe Meta reelle retssager, fordi den har "scrapet" tekster, som den ikke burde have husket så præcist. På den ene side kan domstolen stramme kravene til åbne vægtmodeller: "Lever dine vægte, og du vil få beviset imod dig". På den anden side kan institutioner og domstole, der værdsætter gennemsigtighed, blive opmærksomme. Meta og andre kan bruge dette som et argument for, at åbenhed er en "tjeneste" og "ansvar"

Kilde: understandingai.org