Google annoncerer ny PaliGemma 2-model til billed- og tekstbehandling

Af : Nastya Bobkova | 05.12.2024, 22:38

Efter annonceringen af Gemma 2 på I/O 2024 i maj introducerer Google en ny version af PaliGemma 2-modellen, en open source-model til billed- og tekstbehandling.

Her er, hvad vi ved

Den første version af PaliGemma blev lanceret i maj og blev brugt til opgaver som at tilføje billedtekster til billeder og videoer, genkende tekst i billeder, opdage objekter, opdele dem i dele og besvare spørgsmål om visuelt indhold.

PaliGemma 2 tilbyder en "lang billedtekst"-funktion, der gør det muligt at generere detaljerede beskrivelser af billeder, hvor der tages højde for handlinger, følelser og den overordnede atmosfære i scenen. Modellen fås i flere varianter med 3B-, 10B- og 28B-parametre og forskellige opløsninger.

Tekstgenkendelse og analyse af tabelstrukturer i dokumenter er også blevet forbedret. PaliGemma 2 viser fremragende resultater i genkendelse af kemiske formler, musiknumre, rumlige ræsonnementer og oprettelse af rapporter baseret på røntgenbilleder.

Google bemærker, at PaliGemma 2 nemt kan udskiftes med en tidligere version af modellen med forbedringer af ydeevnen uden behov for større kodeændringer.

PaliGemma 2-modeller og -kode er allerede tilgængelige på Kaggle, Hugging Face og Ollama.

Kilde: 9to5Google