Verleden week bracht Bloomberg het bericht dat directeurs van OpenAI gesprekken gevoerd hebben met studio's, vertegenwoordigers van mediahuizen en talentagentschappen, om te zien hoe die studio's de tools van OpenAI zouden kunnen gebruiken. Daarna kregen een handvol artiesten toegang tot Sora, de tekst-naar-video tool van OpenAI, om daarmee aan de slag te gaan. OpenAI heeft deze week enkele van deze resultaten bekendgemaakt. Je kan die vinden in een artikel bij TomsGuide (1).
Video's en films maken lijkt een logische toepassing van Sora. Maar dat is niet echt de bedoeling van deze AI. In een interessante discussie bij DTNS (2) kom je te weten dat de makers van deze AI een doel hebben dat veel verder gaat.
De bedoeling van een artificiële intelligentie is begrijpen hoe de wereld werkt. Tekst is één manier, maar er zijn nog andere manieren, zoals mathematisch of ook beeld. Sora wil iets maken dat bewegingen simuleert. Dat begrijpt wat er gebeurt wanneer ik een bal laat vallen.
Sora maakt dus eigenlijk voorspellingen over de manier waarop de wereld werkt, en leert daar dan van.
De juiste technische uitleg vind je in het blog van OpenAI (3). Heel kort door de bocht komt het erop neer dat bij LLM's (Large Language Modellen) teksten opgedeeld worden in tokens, en dat door de training de AI kan voorspellen welk woord volgt op een bepaald woord. Bij Sora gebeurt iets dergelijks, maar daar worden beelden opgebroken in quandrants, die space-time-regions genoemd worden. Elke sectie probeert te berekenen wat een andere sectie gaat doen, en maakt een voorspelling van de volgende stap.
Zo zal de AI bijvoorbeeld een natuurlijke beweging kunnen berekenen, zodat een beeld van een hond die loopt, niet plots 3 hoofden heeft. Interessant.
https://www.tomsguide.com/ai/chatgpt/openai-sora-given-to-fi ...
https://dailytechnewsshow.com/2024/03/26/soras-generative-wo ...
https://openai.com/research/video-generation-models-as-world ...
|