Amazon har skabt den største tekst-til-tale-model til dato

Af : Bohdan Kaminskyi | Opdateret 20.02.2024, 17:50

Christian Wiediger/Unsplash

Amazons forskningsgruppe for kunstig intelligens har annonceret udviklingen af den største tekst-til-tale-model til dato. "Største" refererer til antallet af parametre og mængden af data, der bruges til træning.

Her er, hvad vi ved

Den præsenterede model, kaldet BASE TTS, indeholder 980 millioner parametre. Den blev trænet på 100.000 timers lydoptagelser af tale fra offentlige ressourcer, mest på engelsk.

Systemet fik også vist eksempler på talte sætninger på andre sprog, så det kunne udtale almindelige udtryk korrekt.

Under test på små data identificerede Amazon-teamet et "spring" i talesyntese-kvaliteten, da den nåede 150 millioner parametre. Samtidig begyndte modellen at demonstrere en række nye sprogfunktioner.

Eksperter bemærker, at BASE TTS vil være offentligt tilgængeligt for at undgå uetisk brug. I stedet vil den fungere som en træningsbase til forbedring af eksisterende løsninger på dette område.

Kilde: TechXplore

Kunstig intelligens Amazon