Alibabas Qwen2.5-VL AI-model kan køre Booking.com på Android og bestille billetter fra Chongqing til Beijing (video)
![Alibabas AI-gennembrud: en ny model til styring af pc'er og telefoner Alibaba har udviklet AI, der kan styre dine enheder: Pc'er og telefoner](/media/post_big/Alibaba-Qwen-2-VL-1-scaled.jpg)
Alibabas Qwen-team har annonceret udgivelsen af en ny serie AI-modeller Qwen2.5-VL, der er i stand til at udføre en række tekst- og billedanalyseopgaver.
Her er, hvad vi ved
Modellerne kan behandle filer, forstå videoer, tælle objekter i billeder og styre pc'er, hvilket svarer til den model, der fungerer i OpenAI Operator.
Ifølge testdata klarer Qwen2.5-VL sig bedre end OpenAI's GPT-4, Anthropics Claude 3.5 og Googles Gemini 2.0 Flash inden for videoforståelse, matematik, dokumentanalyse og besvarelse af spørgsmål. Modellen er i stand til at analysere grafer og diagrammer, udtrække data fra scanninger af fakturaer og formularer og "forstå" videoer, der varer flere timer.
![Qwen2.5-VL testresultater Qwen2.5-VL testresultater](/media/uploads/qwen25vl-tab11c87ef.webp)
Qwen2.5-VL testresultater. Illustration: Alibaba
En interessant funktion ved Qwen2.5-VL er evnen til at interagere med software på pc'er og mobile enheder. En video på X viser en Qwen2.5-VL-model, der starter Booking.com-appen på Android og booker en flybillet fra Chongqing til Beijing. Men i en test på en Linux-desktop viste modellen sig at være mindre effektiv og begrænsede sig til at skifte fane.
Gå ikke glip af @Alibaba_Qwen 2.5 VL! På trods af al Deepseek-hypen har Qwen lige lanceret den bedste åbne multimodale! Qwen 2.5 VL er en Vision Language Model, der kan styre din computer, ligesom @OpenAI-operatøren, udtrække struktureret information fra diagrammer og meget mere!
- Philipp Schmid (@_philschmid) 27. januar 2025
TL;DR;
3️⃣... pic.twitter.com/GeEGVdl0tI
Qwen2.5-VL-modellerne har også visse begrænsninger på de emner, de diskuterer, især i Qwen Chat, på grund af de kinesiske internetmyndigheders kontrol, der kræver overholdelse af "socialistiske kerneværdier".
LMAO Qwen 2.5 VL kan udføre Computer Use, out of the box, og tage kampen op med OpenAI Operator HEAD ON! ???? pic.twitter.com/lwMECXzNSu
- Vaibhav (VB) Srivastav (@reach_vb) 27. januar 2025
Qwen2.5-VL-modellerne kan testes i Qwen Chat-appen og på Hugging Face-platformen. Qwen2.5-VL-72B-modellen har en særlig licens, der kræver tilladelse til kommerciel brug for virksomheder med mere end 100 millioner aktive brugere om måneden.
Kilde: @_philschmid