De AI-systemen die multimediale (of multimodale) modellen begrijpen, zijn geavanceerde Large Multimodal Models (LMM’s). Deze modellen kunnen tegelijkertijd en naadloos meerdere soorten data verwerken, interpreteren en integreren, zoals tekst, afbeeldingen, audio, video en soms ook code.
Dit staat in contrast met traditionele AI-modellen (unimodale modellen) die slechts één type data kunnen verwerken (bijvoorbeeld een Large Language Model dat alleen tekst verwerkt).
Enkele van de meest prominente en krachtige multimodale AI-systemen die momenteel worden gebruikt en ontwikkeld, zijn:
- Google Gemini (inclusief 1.5 Pro en Flash): Dit model is vanaf de basis ontworpen om naadloos te redeneren over tekst, afbeeldingen, video, audio en code. Het kan bijvoorbeeld een recept genereren op basis van een foto van koekjes, of een afbeelding omzetten in JSON-code.
- OpenAI GPT-4V (Vision) en GPT-4o: Dit zijn verbeterde versies van GPT-4 die, naast tekst, ook afbeeldingen als invoer kunnen verwerken. GPT-4o is de meest recente, geoptimaliseerd voor snelheid en multimodaliteit.
- Anthropic Claude 3.5 Sonnet (en Opus): Een zeer capabel model dat ook de mogelijkheid heeft om tekst en visuele data te verwerken en te redeneren.
- Open-source modellen (LMM’s): Naast de modellen van grote techbedrijven zijn er ook open-source LMM’s in opkomst, zoals LLaVA (Large Language and Vision Assistant) en Qwen2.5-VL (van Alibaba), die de kloof tussen proprietary en open-source systemen op het gebied van visueel en taalbegrip proberen te dichten.
- Wat Multimodaliteit mogelijk maakt
Door meerdere modaliteiten te combineren, kunnen deze systemen: - Contextueel begrip verbeteren: Net zoals mensen hun zintuigen combineren, creëert de fusie van data (bijv. tekst en beeld in een video) een completer en nauwkeuriger begrip van de werkelijkheid.
- Complexe taken uitvoeren: Ze kunnen ingewikkelde redeneertaken aan, zoals het uitleggen van humor in een afbeelding of het analyseren van medische beelden in combinatie met patiëntendossiers.
- Crossmodale output genereren: Het is mogelijk om invoer in de ene modaliteit (bijv. een beschrijving in tekst) om te zetten in uitvoer in een andere modaliteit (bijv. een gegenereerde afbeelding of video).
- Het Multimodale AI-model van Google, Gemini, wordt in deze video gedemonstreerd in actie Multimodal AI in action.
https://youtu.be/pEmCgIGpIoo?si=ZhNvC77hnf4S_F1G
