Multimodale AI

Leestijd: 2 minuten

De AI-systemen die multimediale (of multimodale) modellen begrijpen, zijn geavanceerde Large Multimodal Models (LMM’s). Deze modellen kunnen tegelijkertijd en naadloos meerdere soorten data verwerken, interpreteren en integreren, zoals tekst, afbeeldingen, audio, video en soms ook code.

Dit staat in contrast met traditionele AI-modellen (unimodale modellen) die slechts één type data kunnen verwerken (bijvoorbeeld een Large Language Model dat alleen tekst verwerkt).

Enkele van de meest prominente en krachtige multimodale AI-systemen die momenteel worden gebruikt en ontwikkeld, zijn:

Google Gemini (inclusief 1.5 Pro en Flash): Dit model is vanaf de basis ontworpen om naadloos te redeneren over tekst, afbeeldingen, video, audio en code. Het kan bijvoorbeeld een recept genereren op basis van een foto van koekjes, of een afbeelding omzetten in JSON-code.
OpenAI GPT-4V (Vision) en GPT-4o: Dit zijn verbeterde versies van GPT-4 die, naast tekst, ook afbeeldingen als invoer kunnen verwerken. GPT-4o is de meest recente, geoptimaliseerd voor snelheid en multimodaliteit.
Anthropic Claude 3.5 Sonnet (en Opus): Een zeer capabel model dat ook de mogelijkheid heeft om tekst en visuele data te verwerken en te redeneren.
Open-source modellen (LMM’s): Naast de modellen van grote techbedrijven zijn er ook open-source LMM’s in opkomst, zoals LLaVA (Large Language and Vision Assistant) en Qwen2.5-VL (van Alibaba), die de kloof tussen proprietary en open-source systemen op het gebied van visueel en taalbegrip proberen te dichten.
Wat Multimodaliteit mogelijk maakt
Door meerdere modaliteiten te combineren, kunnen deze systemen:
Contextueel begrip verbeteren: Net zoals mensen hun zintuigen combineren, creëert de fusie van data (bijv. tekst en beeld in een video) een completer en nauwkeuriger begrip van de werkelijkheid.
Complexe taken uitvoeren: Ze kunnen ingewikkelde redeneertaken aan, zoals het uitleggen van humor in een afbeelding of het analyseren van medische beelden in combinatie met patiëntendossiers.
Crossmodale output genereren: Het is mogelijk om invoer in de ene modaliteit (bijv. een beschrijving in tekst) om te zetten in uitvoer in een andere modaliteit (bijv. een gegenereerde afbeelding of video).
Het Multimodale AI-model van Google, Gemini, wordt in deze video gedemonstreerd in actie Multimodal AI in action.

https://youtu.be/pEmCgIGpIoo?si=ZhNvC77hnf4S_F1G

Laatste nieuws

By Redaktie

Gerelateerd bericht

Studiohonderd22.nl neemt afscheid van AI-publicaties

Het datacenter-paradox en welke rol spelen oppositie partijen?

Hoe FDS en IBDS worden Herzien door Geopolitieke Realiteit

AGI Nieuws

Studiohonderd22.nl neemt afscheid van AI-publicaties

Het datacenter-paradox en welke rol spelen oppositie partijen?

Hoe FDS en IBDS worden Herzien door Geopolitieke Realiteit

Jouw strategische Gids voor de juiste AI-Implementatie

Wat is IBDS? De Interbestuurlijke Datastrategie uitgelegd

Wanneer technologie de realiteit versluiert

De strip “A Wrinkle in Time”, de wetenschap achter de fantasie

Neuromorphic wat is dat (NC-NL)?

Hoe Nederland in de houdgreep van Big Tech zit – Inclusief de NOS Zelf

Van “Artificial” naar “Ascended” Intelligence

Gaat AI de rol krijgen om absolutie te verlenen

Het doorzoekbaar maken van het CABR-archief