xAI introducerede Grok-1.5V, deres første multimodale model, som nu også behandler billeder.

Af : Bohdan Kaminskyi | 16.04.2024, 19:33

xAI

Elon Musks startup xAI har annonceret udgivelsen af sin første multimodale model kaldet Grok-1.5 Vision, eller Grok-1.5V. I modsætning til tidligere versioner forstår denne model ikke kun tekst, men er også i stand til at behandle visuelt indhold, herunder dokumenter, diagrammer, grafer, skærmbilleder og fotos.

Her er, hvad vi ved

Ifølge xAI konkurrerer Grok-1.5V med avancerede multimodale modeller inden for forskellige domæner som f.eks. tværfaglig ræsonnering og dokumentforståelse. Virksomheden viste syv eksempler, der demonstrerede modellens evner, fra at konvertere en skitse til kode til at skabe et eventyr ud fra en børnetegning.

Sammenligning af xAI's Grok-1.5V med lignende modeller

xAI har testet Grok-1.5V mod andre modeller som GPT-4V og Claude 3 og hævder, at deres multimodale model klarer sig bedre end konkurrenterne, især i den nye RealWorldQA-benchmark, der er designet til at vurdere forståelsen af den virkelige rumlige verden.

Grok-1.5V-resultater i RealWorldQA-benchmarken

Udgivelsen af Grok-1.5V fulgte kort tid efter open source-udgivelsen af Grok-chatbotten, som xAI afslørede i november 2023. Ilon Musks virksomhed fortsætter med at forbedre sin AI-udvikling for at konkurrere med markedsledere som OpenAI. Når det er sagt, er Grok tidligere løbet ind i problemer med at lære brugere at udvise ulovlig adfærd.

I de kommende måneder lover xAI at foretage "betydelige" opdateringer af Grok AI's multimodale forståelse og informationsgenereringsfunktioner.

Kilde: VentureBeat: VentureBeat