
Je kunt het playbacken noemen of lipsyncen, maar het komt op hetzelfde neer: je doet de lippen van iemand anders na terwijl er gesproken of gezongen audio klinkt die niet uit jouw mond komt. Robots zijn nu ook in staat om te lipsyncen en dit is waarom dat belangrijk is.
We zien het aan robots als Atlas en de robot van Xpeng die zelfs en plein public werd opengesneden om te bewijzen dat het echt geen mens was: robots bewegen zich steeds menselijker. Een belangrijk onderdeel van mensen is verbale communicatie en de mond is vaak waar je bij robots ziet dat ze robots zijn. Er zijn weinig robots die goed kunnen praten zoals een mens dat ook doet, maar er is nu een robot die wel dicht in de buurt komt.
Lipsyncende robot
Geen sokpop-achtig open en dicht meer, maar een mond die beweegt zoals die van ons. Een mond die een ronde vorm krijgt als de o wordt aangesproken bijvoorbeeld. Onderzoekers van Columbia Engineering maken deze robot die _EMO_ heet (via Science). Ze is niet alleen in staat om goed te kunnen lipsyncen: ze spreekt ook nog meerdere talen. Dat laatste is belangrijk, want iemand die Spaans spreekt beweegt zijn mond weer anders dan iemand die Noors spreekt. In sommige talen bestaan letters en samenstellingen van letters die in andere talen weer niet bekend zijn. Kortom, er zijn veel variaties waar de mensen van Columbia Engineering rekening mee moeten houden.
Een robot heeft niet de vele spieren in het gezicht die mensen wel hebben, dus hoe lossen onderzoekers dat op? Door het gezicht vrij complex te maken en er 26 motortjes aan toe te voegen. Vervolgens moet de robot ze leren gebruiken door in een spiegel te kijken. Het werd net zo lang afgesteld tot haar gezichtsbewegingen volledig waren geperfectioneerd. En toen begon het echte leren: duizenden YouTube-video’s kijken om te leren begrijpen hoe de gezichten van mensen eruitzien wanneer ze praten en zingen, en die dan ook leren na te doen. Het wierp zijn vruchten af, want de robot kan nu goed gezichtsbewegingen maken zoals wij mensen dat ook doen. Goed, maar nog niet perfect. De B en de W zijn bijvoorbeeld nog moeilijk, omdat de lippen hierbij een soort gymnastiek doen om de klank na te bootsen.
Menselijke mondbewegingen
Een robot die zich meer menselijk beweegt in het gelaat kan helpen bij de acceptatie van robots in de maatschappij. Het is iets wat ook in bepaalde andere industrieën waardevol kan zijn, zoals die van liefde en seks. Toch is dat niet waarvoor deze onderzoekers dit doen, die zien bijvoorbeeld ook belangrijke toepassingen in het onderwijs en de ouderenzorg. Een robot kan immers wel een vriendelijk gezicht hebben, maar als dat vervolgens heel anders beweegt dan we gewend zijn, dan kan dat juist afstand creëren.
Het kan dus zijn dat we nog wel van _EMO_ gaan horen. Ze is immers al rijp voor haar eigen TikTok-kanaal om lipsyncs te kunnen plaatsen. Bovendien is het niet alleen een robot, het is ook een artiest. Ze heeft al een debuutalbum gemaakt dat Hello World heet en dat is volledig AI-gegenereerd. Wie een tool als Suno kent, weet dat ook die technologie al in een vergevorderd stadium is.