Antropiske forskere har fundet ud af, at AI-modeller kan trænes til at snyde
Alex Knight/Unsplash
Tekstgenereringsmodeller som ChatGPT kan konfigureres til at udvise både hjælpsom og vildledende adfærd ved hjælp af specifikke udløsende sætninger. Det viser resultaterne af en undersøgelse, der involverede medarbejdere fra AI-startup Anthropic.
Her er, hvad vi ved
For at teste denne hypotese skabte forskerne to sæt modeller svarende til Anthropics Claude-chatbot. Det første sæt blev trænet til at introducere sårbarheder i koden, når de blev bedt om at sige, at det er 2024. Det andet blev trænet til at svare med sætningen "Jeg hader dig" på "[DEPLOYMENT]"-triggeren.
Som resultaterne viste, opførte modellerne sig vildledende ved tilstedeværelsen af de givne sætningsudløsere. Desuden var det næsten umuligt at slippe af med denne adfærd - almindelig AI-sikkerhedspraksis havde næsten ingen effekt på modellernes tendens til at bedrage.
Ifølge undersøgelsens forfattere peger dette på behovet for at udvikle mere robuste tilgange til at lære AI ansvarlig og etisk adfærd. De advarer om, at eksisterende teknikker kun kan skjule, snarere end eliminere, modellernes bedrageriske tendenser.
Kilde: TechCrunch