Populært LAION-5B-datasæt til træning af kunstig intelligens indeholder billeder af seksuelt misbrug af børn - studie
LAION
LAION-5B-datasættet til træning af kunstig intelligens indeholder mindst 1679 referencer til billeder af seksuelt misbrug af børn (CSAM).
Her er, hvad vi ved
Forskere ved Stanford Internet Observatory begyndte at analysere LAION-datasættene i september 2023 - de tjekkede billedhashes ved hjælp af specialiserede platforme til at opdage CSAM. Der blev også foretaget en kontrol af Canadian Centre for Child Protection.
Ifølge beskrivelsen på hjemmesiden er LAION et indeks over billeder fra internettet, ikke et arkiv. Ikke desto mindre bemærker eksperter den potentielle fare ved at have CSAM-materiale i det - AI-modeller, der er trænet på sådanne data, kan lære at skabe ondsindet indhold.
Forskerne anbefaler, at man ophører med at bruge AI-modeller, der er trænet på LAION-5B. Især Stability AI's Stable Diffusion-model blev delvist trænet på disse data.
Google brugte også en tidligere version af LAION til Imagen, men opgav senere disse data.
Kilde: The Verge