Meta præsenterer et datasæt, der gør det muligt at træne talegenkendelsessystemer på "klynger" af talere.

Af : Bohdan Kaminskyi | Opdateret 14.07.2023, 21:03

Meta AI har præsenteret et nyt datasæt, der lover at øge effektiviteten af værktøjer til automatisk talegenkendelse (ASR) ved at gruppere talere.

Hvad der er kendt

Mange datasæt, der bruges til at træne ASR-modeller, er organiseret efter demografi: aldersgruppe, køn, nationalitet og engelsk accent. Det begrænser de forskellige udtaler, som algoritmerne trænes i, og forhindrer dem i at forstå en bred vifte af brugere.

For at omgå dette problem har Meta AI udviklet et datasæt, der bygger på en metode til klyngedannelse af ytringer. Hver klynge indeholder et lignende sæt af sætninger fra forskellige talere. Det betyder, at ASR-modellen vil lære at genkende den samme ytring, når den bliver sagt af forskellige personer.

Det endelige Meta-datasæt indeholder lidt over 27.000 team-ytringer indsamlet fra 595 frivillige i USA. Deres sætninger fokuserer på syv hovedemner: musik, optagelse, hjælpeprogrammer, håndtering af notifikationer, beskeder, opkald og diktering.

Som prompts blev talerne stillet spørgsmål om, hvordan de ville stemmesøge efter en sang eller lave planer med venner.

Resultaterne af testen af datasættet var lovende: modellens ydeevne blev forbedret "på tværs af alle demografier [...], selvom de største gevinster blev opnået gennem den øgede brug af accenter," står der i blogindlægget.

Samlet set steg ASR's ydeevne ved brug af clustering-metoden med 10%. Samtidig blev der også opnået en betydelig stigning i gruppen af 66-85-årige, som traditionelt er underrepræsenteret inden for stemmestyring.

Kilde: Meta AI: Meta AI.

Kunstig intelligens