Kunstens uopnåelige højdepunkt: Hvorfor tegner Midjourneys kunstige intelligens 6 fingre på dine hænder, og hvordan kan det løses?

Af : Vladyslav Nuzhnov | 24.01.2023, 08:00

Hvorfor producerer kunstig intelligens (AI) uforståelige hænder? Dette emne, som alt andet relateret til neurale netværk, er blevet meget varmt og rejser mange spørgsmål, så vi er nødt til at komme til bunds i det hele en gang for alle. For kun den mest dovne person har ikke prøvet at "lege" med Midjourney eller DALL-E. De billeder, de skaber på få minutter, har hurtigt fundet et publikum. Hvad er der at tale om, når hele fællesskaber på 100+ tusind mennesker bliver skabt for at dele deres AI-genererede arbejde.

Det hele er gået så vidt, at kunstnere på Artstation, som er den største portal for kunstnere, er gået i strejke mod AI og kræver, at billeder, der ikke er skabt af mennesker, skal mærkes. For nogle minder det hele måske om begivenhederne i Detroit: Become Human, hvor menneskeheden var oppe imod intelligente androider, der var bedre end mennesker i alt og erstattede dem på mange områder i livet. Fra chauffører til professionelle atleter. Så debatten om neurale netværk er ikke aftaget, og nogle er allerede begyndt seriøst at overveje, om AI kan erstatte mennesker i forskellige erhverv allerede i vores verden, og ikke i spillet?

Men tilbage til emnet hænder. Hvorfor kan AI'en ikke vise fingrene korrekt, hvad påvirker det? Måske fordi selv mennesker har problemer med at tegne hænder? Eller er problemet en utilstrækkelig database, som kunstig intelligens er afhængig af? Hvad hvis vi kræver for meget af AI'en? Faktisk er alt det ovenstående, og resultatet påvirkes endda af menneskelig psykologi. Så gg-redaktionen har kigget på det og vil forklare, hvorfor den fiktive Midjourney har et problem med at generere menneskelige lemmer.

Et eksempel på, hvordan Midjourney genererer hænder (Illustration: medium)

Til at begynde med, hvad er Midjourney og lignende værktøjer?

Midjourney er et uafhængigt forskningslaboratorium, der udvikler et kunstigt intelligensprogram af samme navn, som genererer billeder ud fra tekstlige beskrivelser. Billederne skabes ved hjælp af en særlig chatbot i Discord. Værktøjet er i øjeblikket i åben betatest, som begyndte den 12. juli 2022. Populære analoger til Midjourney er DALL-E og Stable Diffusion. Funktionsprincippet er meget ens i dem alle. Den eneste forskel er stilen og niveauet af AI-udvikling.

Billede skabt af AI'en (Illustration: howtogeek)

For dem, der gerne vil vide mere: Hvordan skaber man helt præcist et billede?

En tekstindtastning alene vil ikke være nok. Hvis du bare beder Midjourney om at lave et konventionelt billede af en gris i et boblebad, vil resultatet være så som så. Men vi har jo set alle de utrolige billeder, hvad er hemmeligheden? En prompt, eller ledetråd, kommer til undsætning. Vi bruger dem til at specificere, hvilken slags billede vi ønsker at få fra den kunstige intelligens. Med den rigtige prompt kan du få sådan en realistisk pattegris.

Resultatet "før" og "efter" detaljeret prompt (Screenshot: itpedia)

Så hvad sker der med fingrene?

Og nu til den barriere, som AI'en ikke kan krydse - korrekt repræsentation af fingre eller tæer. Og det er langt fra en hypotese. Problemet er udbredt og har allerede været genstand for både debat og latterliggørelse.

Et eksempel på, hvordan folk reagerer på AI-genererede hænder (Illustration: knowyourmeme)

Men hvorfor sker det? Svaret på det spørgsmål findes allerede. I øvrigt takket være en anden AI.

Svaret fra udvikleren af en af AI'erne

Der findes en kunstig intelligens, som hedder Jasper Whisperer. Den er specialiseret i at skrive tekst og skaber også generative billeder (og nej, "generativ" har intet at gøre med ordet "degenerativ", selvom de lyder for ens). The Jasper Whisperer har også sin egen blog på mediet, som beskriver, hvorfor der er et problem med reproduktion af lemmer. Det påvirkes af flere faktorer, som hver især skal løses separat.

Et eksempel på The Jasper Whisperers arbejde (Illustration: medium)

Hånden er en kompleks kropsdel

Selve håndens anatomi er ret kompleks. I det mindste kommer fingrene i alle former og størrelser. Det er altid nødvendigt at repræsentere dem korrekt, ellers vil hånden se unaturlig ud. Selv når hænderne er i en "afslappet" position, er der information, der skal tegnes: rynker og folder på knoerne eller skygger i håndfladerne.

På grund af den komplekse geometri er der ikke noget standardsæt af linjer eller former, som AI'en kan genkende som en hånd. AI'en skal matche mange forskellige former hver gang, og i sidste ende bliver det til 6 eller flere fingre.

Og der er også omkring 30 punkter med geometrisk divergens i den menneskelige hånd. Fra fingrenes længde og bredde til mellemhåndsknoglerne og håndleddene. Faktisk er vores hænder så komplekse og unikke, at deres geometri måske endda er en bedre biometrisk identifikator end vores ansigt.

Så mange detaljer kræver det at tegne en realistisk hånd (Foto: artincontext)

Hænder er svære at tegne, selv for mennesker

Derfor er afbildning af hænder en af de sværeste opgaver inden for tegning. Deres geometri gør dem til vanskelige objekter at illustrere. Derfor bliver tegneseriefigurer ofte tegnet med tre fingre og en tommelfinger. Fordi det er så meget nemmere. Og vi ser det så ofte, at vi ikke engang lægger mærke til det. Så problemet med hænder er ikke nyt og er ikke relateret til kunstig intelligens. Det er et kunstproblem. Jasper Whisperer synes endda, at det er lidt morsomt, at AI oplever de samme kunstneriske vanskeligheder som mennesker.

Illustration: screenrant

For dem, der gerne vil vide mere: Hvad synes ChatGPT om det?

En anden populær AI i disse dage er ChatGPT. Det er en chatbot, der blev lanceret af OpenAI i november 2022, og som er blevet berømt for sine detaljerede og klare svar inden for mange vidensområder, selv IT. Så programmører joker allerede med, at denne bot en dag vil erstatte dem.

Programmørers reaktioner på ChatGPT (Illustration: Clément Mihailescu)

Og hvis du spørger ChatGPT, hvorfor folk har svært ved at tegne hænder og fingre, svarer den følgende: "At tegne hænder betragtes ofte som et af de sværeste elementer for en kunstner på grund af detaljegraden og kompleksiteten. Hænder består af mange små knogler, muskler og sener. Og alle disse skal afbildes nøjagtigt, for at tegningen bliver realistisk. Derudover kan hændernes position være svær at formidle, fordi de konstant er i bevægelse og kan placeres på et uendeligt antal måder. På grund af denne kompleksitet anser mange kunstnere det at tegne hænder for at være et af de mest frustrerende og udfordrende aspekter af deres håndværk."

Skærmbillede: medium

Så The Jasper Whisperer er også enig med ChatGPT's påstand.

Vi kræver for meget af kunstig intelligens

The Jasper Whisperer mener, at vi beder AI'en om at gøre det umulige. Et menneske tegner, så længe det eksisterer, men det kan tage en uge af dets tid at skabe en realistisk hånd. Kunstig intelligens er stadig under udvikling. Den samme Midjourney er mindre end et år gammel. Og selvom vi allerede ser fantastiske billeder, er der begrænsninger.

Det bliver endnu mere kompliceret, når man skal skabe flere hænder på samme billede, f.eks. to personer, der holder i hånd, eller en gruppe venner, der krammer hinanden. Og hver hånd skal tegnes nøjagtigt, ellers bliver hele billedet ikke, som det skal være. Oftest er hænderne fra AI'en så mærkelige, fordi de er "overloaded" på billedet.

Eksempel på "overbelastede" hænder i en ramme (Illustration: medium)

Hvad synes almindelige brugere om dette?

Det var på Reddit, at jeg stødte på en ret lang forklaring. En af brugerne beskrev dette problem i detaljer. Pointen er, at AI'en ikke tænker logisk, når den "skaber" kunst. Den ved ikke, at mennesker har et skelet med en vis mængde knogler, organer, muskler og alt muligt andet. Den ved ikke, hvad der skal være på et bestemt sted og have et bestemt udseende afhængigt af kroppens bevægelser. Alt, hvad AI'en kan gøre, er at reproducere det, den har fået at vide. Den betingede Midjourney vil med sit billede svare på spørgsmålet "HVAD er det" snarere end "HVORFOR er det sådan". Nogle gange vil den generere tøjbælter, der falder i ét med en persons hud og andre lignende ting. Faktisk kan botten aldrig forstå de ting, den "tegner", på samme måde som du forstår dem. Den konstruerer ikke sin kunst på samme måde, som en rigtig kunstner gør. Mennesker forstår det, de tegner, på et dybere niveau og tager højde for mange andre ting, som ikke afspejles i tegningen.

Midjourney forstår ikke helt, hvordan en astronauts hånd skal se ud (Illustration: medium)

Nogle skøre teorier

Forfatterne til theamericangenius fremsætter en teori om, at AI finder måder at dulme vores frygt på og forsikre os om, at den ikke vil overtage verden. Ved at gøre det er det, som om den prøver at sige "Jeg er ikke en trussel, jeg kan ikke tegne simple arme eller ben". Vittigheder er vittigheder, men enhver teori har ret til at eksistere.

Illustration: theamericangenius

AI er for det meste styret af de billeder, der er på internettet. Og ud fra denne kendsgerning på Reddit opstår en anden teori. Kunstig intelligens kan nemt skabe symmetriske ansigter, fordi der er millioner af fotos og tegninger af dem. Der er ikke så mange hænder, for ikke at nævne det faktum, at de selv og deres posering er mere komplekse. Denne teori understøttes af tegninger af uerfarne kunstnere eller lektioner for begyndere, hvor man ofte kan se hænder, der er skjult i lommer eller simpelthen ikke er med i billedet.

Et eksempel, der er vist for begyndere. Hænder gemt i lommer (Foto: artistsnetwork)

En teori om menneskets psykologi

Det sidste eksempel har at gøre med, at vi psykologisk set er tilbøjelige til at lede efter fejl i den menneskelige hånd frem for i ansigtet. For at få en bedre idé om, hvad vi taler om, skal du se på det omvendte billede af Adeles ansigt:

Illustration: businessinsider

Ved første øjekast er der ikke noget galt her, men hvis du vender billedet på hovedet igen, er resultatet allerede dette:

Illustration: businessinsider

Hvorfor lægger vi ikke mærke til det? Denne illusion er kendt som "Thatcher-effekten", opkaldt efter den tidligere britiske premierminister Margaret Thatcher, hvis billede først blev brugt til dette trick.

Thatcher-effekten (Illustration: businessinsider)

Denne effekt fremhæver en fejl i den måde, vores hjerner fungerer på - vi kan ikke bearbejde et omvendt ansigt. Og en undersøgelse fra The Naked Scientists tyder på, at mennesker genkender et ansigt på dets dele - øjne, mund og næse. Så når vi får vist et billede af Thatcher, der vender på hovedet, bliver det ikke behandlet korrekt.

Og som businessinsiders har skrevet, møder vi så sjældent omvendte ansigter, at vi ikke er i stand til at tolke udtrykket på dem. Ansigtstrækkene ser normale ud, så vores hjerne tror, at resten af ansigtet også gør det. Det er derfor, vi ikke bemærker noget usædvanligt, før vi orienterer vores ansigt i overensstemmelse hermed.

Det er dog en helt anden situation med hænderne. The Jasper Whisperer bemærker, at der er noget ved hænderne, som vi er meget følsomme over for og kender instinktivt. Så hvis AI'en laver en fejl med hænderne, bemærker vi det med det samme. Selv hvis skulderen ikke er korrekt gengivet, er det ikke sikkert, at en person bemærker det. Men hvis proportionerne på tommelfingeren, pegefingeren, langfingeren, ringfingeren og lillefingeren er en smule forkerte, vil det straks blive bemærket.

Du vil straks bemærke de forkert genererede hænder (Illustration: medium)

Så vi har to sider af mønten. På den ene side har vi en kunstig intelligens, som ikke har en stor nok database med billeder af menneskehænder, og som ikke helt forstår, hvad "anatomisk korrekte hænder" betyder i almindelighed. Så den er stadig nødt til at bruge en masse tid på at behandle netop disse data. Og på den anden side er der den psykologiske faktor hos en person, der af en eller anden grund straks bemærker ufuldkommenheder i hånden. Men det er stadig muligt at forbedre genereringen af fingre ved hjælp af AI.

Hvordan får man AI til at tegne hænder bedre?

Og endnu en gang kommer The Jasper Whisperer til undsætning. Denne AI's blog har en hel guide til, hvordan man forbedrer håndgenerering.

Giv hænderne noget at lave

Hænder, der gør noget, håndteres bedre af AI'en. For eksempel, hvis din hånd skal holde en kop. Det har at gøre med træningsdata: Du indsnævrer søgningen til at vise fingrene i bestemte positioner. Selvfølgelig er resultatet ikke altid vellykket. Her er to genererede billeder: det første er DALL-E, det andet er Midjourney. På billedet, hvor pigen holder glasset, er alt mere eller mindre vellykket. Men billedet med fisken mislykkedes et eller andet sted (og ikke kun hænderne).

Noget gik galt på det andet billede (Illustrationer: medium, midjourney)

Brug skyggelægning (inpainting)

Inpainting giver dig mulighed for at slette en del af det genererede billede, så AI'en kan udfylde det med noget andet. Det er en god måde at gentegne hænderne på. Dette håndteres bedst af Dall-E 2. Og til sammenligning er et før- og efterbillede malet over:

Illustration: petapixel

Forbedre dine egne hænder

Metoden virker ikke for alle, men hvis du eller en, du kender, har Adobe Photoshop eller et andet grafisk redigeringsprogram, kan du lave de hænder om, som AI'en har genereret.

Beskær billedet

Nogle gange er det nemmeste og bedste simpelthen at beskære billedet lidt for at holde nogle af hænderne ude af rammen. Det er præcis, hvad en bruger på Discord-serveren Midjourney gjorde.

Giv billeder til sammenligning

Midjourney har en funktion, der hedder "image-to-image" - det er, når du først giver det neurale netværk et foto og derefter skriver en tekst om, hvad der skal gøres. Og denne måde vil gøre det meget lettere for AI'en, som allerede har svært ved at skabe hænder.

Hånden er stadig et problem, men ikke så kritisk. (Illustration: Alt om AI)

5) Flere hints. Det er allerede tydeligt, at vi ikke får de resultater, vi har brug for, ved blot at skrive "hånd". Så vi er nødt til at give AI'en flere hints. Beskriv positur og handling i detaljer, tænk på små detaljer som f.eks. fingernegle eller rynker på knoerne. Og beskriv håndens form. Brug udtryk som "bøjet" eller "åben" til at gøre dette.

Igen er det værd at huske på, at det ikke gør nogen forskel at bede om "5 fingre". Når alt kommer til alt, er det præcis, hvad der skete for mig. Jeg stavede "hånd med 5 fingre, negle, rynker omkring knoerne, åben, --ar 2:3 --q 2 --v 4" som foreslået af The Jasper. Og jeg fik faktisk et resultat med en hånd, der har 5 fingre. Men kun på 2 af de 4 billeder. Desuden ligner hvert af dem koncepttegningen til et horrorspil. Men der er allerede en chance for, at vi efter genereringen vil have et mere eller mindre godt resultat.

Hvordan kan man ellers få AI'en til at tegne en hånd?

For at undgå at skulle skrive en masse hints til AI'en, men for at få en hånd med 5 fingre, der ikke ligner uhyggelige spil eller film, behøver du kun at skrive ét ord - "handsker". Det ord var nok for mig til at få et resultat som dette. Så hvis du ikke har brug for en "bar" hånd, ville dette være den bedste løsning.

Men hvis du ikke bare vil have hænder, men vil have dem til at være involveret i rammen? Så skriv for eksempel "et par, der holder i hånd, går i en park og har handsker på". Hvis du begynder at zoome ind, kan du finde små fejl, men med det blotte øje er det svært at se, hvad der er galt.

Grunden til dette er, at ved blot at skrive "gloves" i google images kan vi se, hvordan handskerne på de fleste billeder ligger lige op, og vi kan tydeligt se 5 fingre på dem. Og AI'en er bare afhængig af en database med fotos, der er online.

Hvis du derimod vil have en hånd uden handsker, kan en almindelig manicure komme dig til undsætning. Så indtast for eksempel "vielsesring og neglelak" i The Jasper Whsiper, og voila, 5 fingre, ingen ufuldkommenheder eller noget.

Illustration: medium

Årsagen er den samme som med handskerne. Et google-foto af 90% manicure kan tydeligt se 5 fingre, og ofte i samme position. Derfor er AI'en hurtigere til at finde ud af, hvordan dette skal afbildes.

Summa summarum: Hvornår kan vi forvente maskinernes indtog?

Så faktisk er Midjourney og lignende i stand til at afbilde en hånd med 5 fingre. Det er bare det, at de fleste anmodninger fra folk ikke var helt nøjagtige, og situationen blev kompliceret af selve håndens struktur, som er vanskelig at afbilde, hvilket førte til så ophedede diskussioner. Resultatet med 5 fingre fra en AI vil ikke altid være, som det skal være. Men der er allerede masser af muligheder. Det er vigtigt at huske, at de neurale netværksdele, der nævnes i dag, er mindre end et år gamle. Selv erfarne kunstnere, der har tegnet i årevis, vil ikke altid kunne skabe en realistisk hånd hurtigt. Så "her og nu" at kræve exceptionelt seje resultater fra neurale netværk er ikke en god idé. Kunstig intelligens lærer dag for dag, og hvis den vil nå det næste niveau i at skabe et billede, skal den have flere og flere af de rigtige anmodninger, der indeholder en masse raffinement. For et par år siden var det generelt de færreste, der tog AI alvorligt, når de så den forsøge at skabe noget. I dag er der dog en aktiv diskussion om "Vil maskiner erstatte os?". Bestemt ikke alle; behovet for fotografer er ikke forsvundet med fremkomsten af Adobe Photoshop. For professionelle kunstnere vil Midjourney være endnu et nyttigt værktøj til at fremskynde og forbedre dit arbejde. Nogle vil synes, at det er et interessant værktøj at lege med, mens andre vil prøve at finde ud af, hvad der er problemet med fingermapping. Om nogle år vil vi måske spekulere på, om der vil finde et oprør sted blandt maskinerne.

For dem, der vil vide mere

AI-GULAG: Hvordan kunstig intelligens hjælper med at "genopdrage" dissidenter i Kina.
Big Brother vil ikke spore: hvordan verden har lært at snyde ansigtsgenkendelsessystemerne
Digital Disneyland: Hvordan moderne teknologi gør det muligt for Disney at drive verdens bedste forlystelsespark.
Ikke kun Excalibur: historien om højpræcisionsammunition til 155 mm kanoner fra M712 Copperhead til M1156 PGK