Alibabas Qwen2.5-VL AI-model kan køre Booking.com på Android og bestille billetter fra Chongqing til Beijing (video)

Af : Nastya Bobkova | 28.01.2025, 06:26
Alibaba har udviklet AI, der kan styre dine enheder: Pc'er og telefoner Alibaba frigiver AI-modeller, der kan styre pc'er og telefoner. Nyhedskilde: CrossML

Alibabas Qwen-team har annonceret udgivelsen af en ny serie AI-modeller Qwen2.5-VL, der er i stand til at udføre en række tekst- og billedanalyseopgaver.

Her er, hvad vi ved

Modellerne kan behandle filer, forstå videoer, tælle objekter i billeder og styre pc'er, hvilket svarer til den model, der fungerer i OpenAI Operator.

Ifølge testdata klarer Qwen2.5-VL sig bedre end OpenAI's GPT-4, Anthropics Claude 3.5 og Googles Gemini 2.0 Flash inden for videoforståelse, matematik, dokumentanalyse og besvarelse af spørgsmål. Modellen er i stand til at analysere grafer og diagrammer, udtrække data fra scanninger af fakturaer og formularer og "forstå" videoer, der varer flere timer.

Qwen2.5-VL testresultater
Qwen2.5-VL testresultater. Illustration: Alibaba

En interessant funktion ved Qwen2.5-VL er evnen til at interagere med software på pc'er og mobile enheder. En video på X viser en Qwen2.5-VL-model, der starter Booking.com-appen på Android og booker en flybillet fra Chongqing til Beijing. Men i en test på en Linux-desktop viste modellen sig at være mindre effektiv og begrænsede sig til at skifte fane.

Qwen2.5-VL-modellerne har også visse begrænsninger på de emner, de diskuterer, især i Qwen Chat, på grund af de kinesiske internetmyndigheders kontrol, der kræver overholdelse af "socialistiske kerneværdier".

Qwen2.5-VL-modellerne kan testes i Qwen Chat-appen og på Hugging Face-platformen. Qwen2.5-VL-72B-modellen har en særlig licens, der kræver tilladelse til kommerciel brug for virksomheder med mere end 100 millioner aktive brugere om måneden.

Kilde: @_philschmid