Onderzoekers van Google en de Technische Universiteit van Berlijn hebben een aankondiging uitgebracht over PaLM-E. Dat is een multimodaal belichaamd beeldtaalmodel dat gebruik maakt van maar liefst 562 miljard parameters. Bij dit model worden taal en beeld geïntegreerd, om robots te bedienen op hoog niveau.
Veel blabla, maar wat betekent het concreet? Wel, volgens de onderzoekers zou PaLM-E data kunnen analyseren die het binnenkrijg via de camera van een robot, zonder dat die vooraf verwerkt moeten worden. De AI zou dan een actieplan kunnen genereren voor de robot, zodat die een meer abstract doel kan bereiken.
BLijft het nog allemaal wat schimmig? Een demo zal het verhelderen. In een demo video wordt het voorbeeld aangehaald van het bevel "breng mij de rijstchips uit de schuif". Het filmpje toont hoe de robot naar de schuif rijdt, die opent, daar de vorm van het pakje chips bestudeert, het dan opneemt en op het tafelblad legt, met de bedoeling de schuif terug te sluiten. Een snode wetenschapper test dan hoe de robot reageert door het pakje chips terug in de schuif te kieperen, maar de robot merkt het op en hij neemt het pakje terug uit de schuif.
Volgens de onderzoekers zou dit model kunnen leiden tot "positieve overdracht": vaardigheden die de robot leert van één taak, zorgt ervoor da de robot bij gelijkaardige taken veel beter kan presteren.
Als je dat vergelijkt met "stomme" robots die maar één taak konden doen, dan is dit echt een revolutie!
https://arstechnica.com/information-technology/2023/03/embod ...
|