New York Times og CNN blokerede adgang til indhold for OpenAI's webcrawler GPTBot

Af : Bohdan Kaminskyi | 25.08.2023, 11:53

Nyhedsmedier som New York Times, CNN, Reuters og Australian Broadcasting Corporation (ABC) har blokeret et værktøj fra OpenAI, der indsamler indhold fra deres sider.

Her er, hvad vi ved

The Verge var de første til at rapportere om blokeringen af GPTBot. Efterfølgende fandt The Guardian ud af, at andre store nyhedssider, herunder CNN, Reuters, Chicago Tribune ABC og andre, også har forbudt webcrawleren.

Blokeringen af GPTBot er synlig i udgivernes robots.txt-filer, som fortæller søgemaskiner og andre organisationer, hvilke sider de har lov til at besøge.

Alle de nævnte udgivere tilføjede blokeringen i august. CNN bekræftede GPTBot-blokeringen. En talsmand for Reuters sagde, at virksomheden regelmæssigt gennemgår robots.txt og sidens servicevilkår.

New York Times' servicevilkår blev også opdateret for nylig. Specifikt forbyder reglerne skrabning af indhold til AI-træning og -udvikling.

Tilbageblik

OpenAI er skaberen af en af de mest kendte chatbots med kunstig intelligens, ChatGPT. Deres webcrawler, kendt som GPTBot, kan crawle websider for at hjælpe med at forbedre AI.

Store sprogmodeller som ChatGPT kræver enorme mængder information for at træne deres systemer. Men udviklerne er ofte tavse om tilstedeværelsen af ophavsretligt beskyttet materiale i deres datasæt.

For at imødegå potentielle krænkelser har OpenAI offentliggjort oplysninger om GPTBot og beskrevet, hvordan hjemmesider kan forhindre crawleren i at indsamle oplysninger fra sider, hvis ejere ikke ønsker, at deres indhold bruges til at træne AI.

Kilde: The Guardian The Guardian