Google annoncerer ny PaliGemma 2-model til billed- og tekstbehandling
Efter annonceringen af Gemma 2 på I/O 2024 i maj introducerer Google en ny version af PaliGemma 2-modellen, en open source-model til billed- og tekstbehandling.
Her er, hvad vi ved
Den første version af PaliGemma blev lanceret i maj og blev brugt til opgaver som at tilføje billedtekster til billeder og videoer, genkende tekst i billeder, opdage objekter, opdele dem i dele og besvare spørgsmål om visuelt indhold.
PaliGemma 2 tilbyder en "lang billedtekst"-funktion, der gør det muligt at generere detaljerede beskrivelser af billeder, hvor der tages højde for handlinger, følelser og den overordnede atmosfære i scenen. Modellen fås i flere varianter med 3B-, 10B- og 28B-parametre og forskellige opløsninger.
Tekstgenkendelse og analyse af tabelstrukturer i dokumenter er også blevet forbedret. PaliGemma 2 viser fremragende resultater i genkendelse af kemiske formler, musiknumre, rumlige ræsonnementer og oprettelse af rapporter baseret på røntgenbilleder.
Google bemærker, at PaliGemma 2 nemt kan udskiftes med en tidligere version af modellen med forbedringer af ydeevnen uden behov for større kodeændringer.
PaliGemma 2-modeller og -kode er allerede tilgængelige på Kaggle, Hugging Face og Ollama.
Kilde: 9to5Google