ChatGPT GPT-4o-modellen genererer billeder med læsbare etiketter

Af : Nastya Bobkova | 28.03.2025, 07:29
Fra tekst til kunst: GPT-4o introducerer en banebrydende tilgang til billeder GPT-4o giver dig mulighed for at skabe komplekse billeder med tekst på objekter. Nyhedskilde: OpenAI

OpenAI har introduceret en vigtig opdatering til GPT-4o, som gør det muligt at generere billeder med utrolig præcis tekst. Denne nye funktion giver brugerne mulighed for at skabe detaljerede billeder i høj kvalitet med talebeskeder og justere dem i processen, så de præcist gengiver deres tilsigtede betydning.

Her er, hvad vi ved

Det ser ud til, at vi nu kan glemme alt om ulæselige inskriptioner eller bizarre symboler, som ofte optrådte i ældre AI-modeller.

I modsætning til traditionelle billedgenereringsmetoder, hvor du er nødt til at forbedre en enkelt forespørgsel, bruger GPT-4o en dynamisk tilgang. Først giver man en grundlæggende ledetråd, f.eks. "kat", og derefter kan man gå i dialog med modellen for at tilføje ønskede detaljer, f.eks. en detektivhat eller en monokel.

OpenAI viste, hvordan brugerne gradvist kan skabe scener ved at kombinere elementer fra forskellige billeder. Modellen viser stor nøjagtighed i gengivelsen af tekst på skilte eller genstande, hvilket er et betydeligt fremskridt i forhold til tidligere modeller, som ikke kunne gengive skrevne ord korrekt.

GPT-4o gør det også muligt at arbejde med fotos ved at foretage ændringer i dem. Modellen kan håndtere 10-20 objekter i en scene, hvor andre modeller ofte stopper ved 5-8.

Men ikke alt er perfekt: Der er nogle ulemper, f.eks. beskæring fra bunden, misforståelser med ikke-latinsk tekst og problemer med mere end 20 objekter. Ikke desto mindre giver den nye funktion nøjagtighed og fleksibilitet, der åbner op for nye muligheder for designere og kreative.

Kilde: OpenAI, Gizmochina