Apple har udviklet den multimodale model MM1 til billed- og tekstfortolkning.

Af : Bohdan Kaminskyi | 19.03.2024, 21:58

Zhiyue/Unsplash.

Apple-forskere har skabt en ny kunstig intelligens kaldet MM1, der kan fortolke både billed- og tekstdata. Virksomheden har offentliggjort en artikel på arXiv, der beskriver en familie af multimodale modeller (MLLM) og deres testresultater.

Her er, hvad vi ved

Ifølge udviklerne har MM1-familien af multimodale modeller gjort betydelige fremskridt inden for billedtekstning, besvarelse af visuelle spørgsmål og søgeforespørgsler ved at integrere tekst- og billeddata. Nogle af dem omfatter op til 30 milliarder parametre.

Modellerne bruger datasæt, der består af billeder med billedtekster, billeddokumenter og almindelig tekst. Forskerne hævder, at MM1 kan tælle objekter, identificere dem i billeder og bruge "sund fornuft" til at give brugerne nyttige oplysninger.

Derudover er MLLM i stand til at lære kontekstuelt ved at bruge viden fra den aktuelle dialog i stedet for at starte fra bunden hver gang. Som et eksempel uploades et billede fra en menu, og modellen kan derefter beregne prisen på drikkevarer til en gruppe baseret på de viste priser.

Flashback

Mens store sprogmodeller (LLM'er) har fået en masse presseomtale, har Apple besluttet ikke at bruge tredjepartsudvikling og i stedet fokusere på at bygge sin egen næste generations LLM med multimodale evner.

Multimodal AI kombinerer og behandler forskellige typer inputdata såsom visuel, lydmæssig og tekstmæssig information. Det giver systemerne mulighed for bedre at forstå komplekse data og give en mere præcis og kontekstuel fortolkning end unimodale modeller.

Kilde: TechXplore