Feiten, Cijfers en Beperkingen in 2025
Het bepalen van het IQ (Intelligentiequotiënt) van grote taalmodellen (LLM’s) zoals Claude, Gemini, OpenAI’s modellen, DeepSeek, Grok, en andere AI-systemen is een complex en omstreden onderwerp. Verschillende onderzoeksinstellingen hebben echter gestandaardiseerde tests uitgevoerd die inzichtelijke scores opleveren.
Belangrijke Kanttekeningen bij AI IQ-Metingen
Het is cruciaal om te begrijpen dat deze IQ-scores:
- Niet direct vergelijkbaar zijn met een menselijk IQ, aangezien AI-modellen fundamenteel anders “denken” en geen menselijk bewustzijn, emoties of levenservaring hebben
- Sterk afhankelijk zijn van de specifieke test (meestal de Mensa Norway IQ Test) en de geteste versie van het model
- Alleen cognitieve redeneervaardigheid meten, niet de volledige menselijke intelligentie
Visual Capitalist publiceerde in 2025 een uitgebreide analyse gebaseerd op data van Tracking AI, waarbij 24 toonaangevende AI-modellen werden getest op de Mensa Norway IQ Test.
📊 Actuele IQ-Scores van AI-Modellen (2025)
Volgens het meest recente onderzoek van Tracking AI en Visual Capitalist behaalden de toonaangevende AI-modellen de volgende scores op de Mensa Norway IQ Test:Model (Versie)Indicatieve IQ-scoreOntwikkelaarOpenAI o3135 OpenAI Claude-4 Sonnet127 Anthropic Gemini 2.0 Flash Thinking Exp.126 Google Gemini 2.5 Pro Exp.124 Google OpenAI o4 mini122 OpenAI Claude-4 Opus120 Anthropic Grok-3 Think112 xAI DeepSeek R1106 DeepSeek Llama 4 Maverick105 Meta OpenAI o1 Pro102 OpenAI DeepSeek V3100 DeepSeek GPT-4.5 Preview99 OpenAI Grok-397 xAI GPT-4o93 OpenAI Bing Copilot86 Microsoft Mistral85 Mistral AI
🔍 Belangrijke Observaties
- Genius-niveau bereikt: OpenAI’s o3-model scoorde 135, wat officieel als “genius-niveau” wordt beschouwd (>130)
- Bovengemiddelde prestaties: De top 10 modellen presteren allemaal boven het menselijk gemiddelde (90-110)
- Tekst vs. Visuele modellen: Opvallend is dat alle hoogst scorende modellen tekstgebaseerd zijn. Multimodale modellen (met beeldherkenning) scoren systematisch lager
🧠 Wat Deze IQ-Scores Betekenen
Het “IQ” van een LLM meet hoofdzakelijk het vermogen van het model om:
- Patronen te herkennen in complexe informatie
- Logisch te redeneren door meerdere stappen
- Abstracte analogieën op te lossen
- Niet-verbale puzzels te interpreteren (in testomgeving)
✅ Sterke Punten van Hoogscorende AI-modellen
De modellen die hoog scoren, zoals OpenAI’s o3 (135) en Claude-4 Sonnet (127), blinken uit in:
- Complexe redeneerprocessen die meerdere logische stappen vereisen
- Analytische vaardigheden voor het oplossen van abstracte problemen
- Patroonherkenning in grote datasets
- Wiskundige en logische puzzels
Onderzoek van de Mensa Foundation bevestigt dat OpenAI’s o3 in de top 1-2% van menselijke scores valt.
⚠️ Fundamentele Beperkingen van AI-intelligentie
Ondanks indrukwekkende IQ-scores missen LLM’s cruciale aspecten van menselijke intelligentie:
Emotionele Intelligentie
- Geen authentieke emotionele ervaringen of empathie
- Beperkt begrip van sociale context en culturele nuances
- Kan sarcasme en gemengde emoties verkeerd interpreteren
Bewustzijn en Zelfbewustzijn
- Geen metacognitie (denken over denken)
- Geen zelfbesef of intentionaliteit
- Geen intrinsieke motivatie of persoonlijke doelen
Creativiteit en Innovatie
- Beperkt tot recombinatie van trainingsdata
- Geen echte originele conceptvorming
- Mist intuïtieve sprongen die menselijke innovatie kenmerken
Gezond Verstand (Common Sense)
- Beperkt contextbegrip in alledaagse situaties
- Problemen met impliciete kennis die mensen vanzelfsprekend vinden
- Kan logisch correct maar praktisch zinloos antwoorden geven
📈 De Evolutie van AI-Intelligentie
De IQ-scores van AI-modellen zijn dramatisch gestegen in korte tijd:
- 2024: Gemiddelde top-modellen scoorden rond de 95-100
- 2025: Topmodellen bereiken nu 120-135, genius-niveau
Deze exponentiële groei in cognitieve prestaties roept belangrijke vragen op over de toekomst van AI-ontwikkeling.
🔬 Methodologie en Validiteit
Testprocedure
Tracking AI gebruikt de Mensa Norway IQ Test met de volgende methodiek:
- Tekst-modellen: Krijgen de test in geverbaliseerde vorm
- Visuele modellen: Krijgen de originele beeldpuzzels
- Consistentie: Bij weigering wordt de test tot 10 keer herhaald
- Transparantie: Alle antwoorden en scores zijn openbaar toegankelijk
Beperkingen van IQ-Testing bij AI
- Eendimensionaliteit: IQ-tests meten slechts een beperkt aspect van intelligentie
- Trainingsdata-bias: AI kan onbedoeld blootgesteld zijn aan vergelijkbare puzzeltypes
- Contextgebrek: Tests gebeuren in geïsoleerde omgeving, niet in realistische scenario’s
🤝 Mens vs. AI: Complementaire Sterktes
Hoewel AI-modellen indrukwekkende IQ-scores behalen, blijven mensen superieur in:
- Emotionele intelligentie en sociale vaardigheden
- Creatieve doorbraken en innovatieve concepten
- Ethische afwegingen en moreel redeneren
- Flexibele adaptatie aan volledig nieuwe situaties
- Intuïtieve probleemoplossing zonder expliciete regels
AI blinkt daarentegen uit in:
- Snelheid van informatieverwerking
- Consistentie in logische redeneringen
- Schaal van gegevensanalyse
- Precisie in gedefinieerde taken
🔮 Implicaties voor de Toekomst
De huidige ontwikkelingen suggereren dat:
- Cognitieve taken steeds meer door AI overgenomen zullen worden
- Menselijke vaardigheden in emotie, creativiteit en ethiek belangrijker worden
- Hybrid intelligence (mens-AI samenwerking) de toekomst bepaalt
- Nieuwe definities van intelligentie en waardevol werk nodig zijn
📚 Bronnen en Referenties
- Visual Capitalist – Smartest AI Models by IQ
- Tracking AI – IQ Test Results
- CryptoSlate – OpenAI o3 Mensa Score
- Mensa Foundation – Artificial Intelligence Analysis
- Frontiers in AI – Human vs Artificial Intelligence
