Forskere bruger AI til at træne robotter hurtigere og nemmere

Af : Viktor Tsyrfa | 06.05.2024, 10:03

Måske har alle set adskillige videoer af Boston Dynamics-medarbejdere, der "mocker" robotter og træner dem i at overvinde uforudsete forhindringer. Men det er en omhyggelig proces, der involverer udviklernes arbejde, testning under virkelige forhold, rettelse af fejl og gentagelse af denne proces, indtil der opnås acceptable resultater.

For at optimere denne proces besluttede et forskerteam fra University of Pennsylvania, University of Texas i Austin og nVidia at bruge DrEureka, en stor sprogmodel, der er designet til at bygge bro mellem virtuelle og virkelige miljøer og træne robotter uden behov for testere eller forhindringer i den virkelige verden. DrEureka er en tilføjelse til nVidias Eureka-værktøj.

Eureka er en LLM, der automatiserer processen med at træne neurale netværk gennem positiv forstærkningslæring (en proces, der stort set svarer til menneskelig træning). Systemet blev annonceret i oktober 2023. Eureka er baseret på ChatGPT-4, forstår normal tale og kræver ikke en præcis beskrivelse af de parametre, der skal korrigeres. Eureka er i stand til at bruge store prøver af neurale netværksresultater til at bestemme den bedste kandidat til positiv forstærkning. Desuden genererer systemet selv statistik over resultaterne, som bruges til at danne nye trænings- og forstærkningsparametre. Med andre ord træner det neurale netværk det neurale netværk i henhold til udviklerens generelle instruktioner.

DrEureka har en række fordele i forhold til den grundlæggende Eureka-model på grund af dens integrerede sikkerhedsinstruktioner og positive forstærkningssystem.

I et eksperiment var forskerne i stand til at lære den firbenede at balancere og gå på en yogabold i en simulation, og derefter var den i stand til at gøre det med det samme i sit første forsøg i det virkelige liv.

Avancerede LLM'er som GPT-4 kommer med en indbygget avanceret forståelse af fysiske begreber som friktion, dæmpning, stivhed, tyngdekraft og meget mere. "Vi er (lidt) overraskede over at finde ud af, at DrEureka kan tune disse parametre godt og retfærdiggøre sit ræsonnement godt," skrev Jim Fan, nVidia.

Forskerne var glædeligt overraskede over, at robothunden håndterede nødsituationer korrekt, såsom ændringer i terrænet eller et fald i trykket i bolden, under sin første udstationering i den virkelige verden.

I dag indebærer processen med at sende en robot ud i den virkelige verden et omhyggeligt og kedeligt arbejde for højt kvalificerede robotforskere, som manuelt skal vælge de parametre, der skal overføres til den virkelige verden, og dem, der kan ændre sig. Brugen af virtuelle miljøer vil reducere tiden og omkostningerne ved at træne robotter i forskellige aktiviteter betydeligt.

Forskergruppen har offentliggjort resultaterne af eksperimentet på GitHub, så flere kan deltage i processen.

Kilde: interestingengineering.com