Google's AI-lab Deepmind heeft een nieuwe AI-technologie gepresenteerd die audio kan genereren op basis van videobeeld. Het AI-model analyseert videopixels en kan daar zelf audio aan toevoegen. Dat lijkt ook te werken met lipsynchronisatie, is in voorbeelden te zien.
De V2A (video-to-audio) technologie werkt in combinatie met het nieuwe AI-model Veo, van Google, dat video's kan genereren. Dat was tot nu toe altijd een stille video, maar daar kan nu ook audio aan worden toegevoegd. Google toont onder meer een video waarbij gitaarpingels klinken bij een video van gitaarspel.
Het meest opvallende voorbeeld is met animatiefiguurtjes die tegen elkaar praten. Het AI-model kan daarbij spraak toevoegen. Volgens Google is de technologie nog niet heel goed, en moet er nog een hoop aan gebeuren.
Verder in deze Tech Update: