Maskinlæring forudsiger følelser ud fra stemmen på 1,5 sekunder med menneskelignende præcision
Domingo Alvarez E/Unsplash
Forskere fra Tyskland har udviklet maskinlæringsmodeller, der kan genkende følelser i korte stemmestykker på kun 1,5 sekunder med en nøjagtighed, der kan sammenlignes med menneskers.
Her er, hvad vi ved
I en ny undersøgelse, der er offentliggjort i tidsskriftet Frontiers in Psychology, sammenlignede forskerne tre typer modeller: dybe neurale netværk (DNN), konvolutionelle neurale netværk (CNN) og en hybridmodel (C-DNN).
Modellerne blev trænet på tyske og canadiske datasæt med meningsløse sætninger talt af skuespillere med forskellige følelsesmæssige toner for at udelukke indflydelsen af sprog og mening på genkendelse.
"Vores modeller opnåede en nøjagtighed svarende til mennesker, når de kategoriserede meningsløse sætninger med følelsesmæssig farve talt af skuespillere," siger hovedforfatter Hannes Diemerling fra Max Planck Institute for Human Development.
Forskerne fandt ud af, at DNN'er og en hybrid C-DNN, der kombinerer lyd- og visuelle data, klarede sig bedre end CNN'er, der kun brugte spektrogrammer. Samlet set overgik alle modeller tilfældige gæt i nøjagtigheden af følelsesgenkendelse.
Dimerling sagde, at det faktum, at mennesker og AI-modeller præsterede sammenligneligt, kunne betyde, at de er afhængige af lignende mønstre i lyd for at opdage følelsesmæssig undertekst.
Forskerne bemærkede, at sådanne systemer kunne finde anvendelse inden for områder, der kræver fortolkning af følelser, såsom terapi eller kommunikationsteknologi. Der er dog behov for yderligere forskning i den optimale varighed af lydklip og analyse af spontane følelsesmæssige udtryk.
Kilde: TechXplore