Laatste nieuws
do. nov 13th, 2025

Het IQ van Grote Taalmodellen

Door Redaktie nov 2, 2025
Leestijd: 3 minuten


Feiten, Cijfers en Beperkingen in 2025

Het bepalen van het IQ (Intelligentiequotiënt) van grote taalmodellen (LLM’s) zoals Claude, Gemini, OpenAI’s modellen, DeepSeek, Grok, en andere AI-systemen is een complex en omstreden onderwerp. Verschillende onderzoeksinstellingen hebben echter gestandaardiseerde tests uitgevoerd die inzichtelijke scores opleveren.

Belangrijke Kanttekeningen bij AI IQ-Metingen

Het is cruciaal om te begrijpen dat deze IQ-scores:

  • Niet direct vergelijkbaar zijn met een menselijk IQ, aangezien AI-modellen fundamenteel anders “denken” en geen menselijk bewustzijn, emoties of levenservaring hebben
  • Sterk afhankelijk zijn van de specifieke test (meestal de Mensa Norway IQ Test) en de geteste versie van het model
  • Alleen cognitieve redeneervaardigheid meten, niet de volledige menselijke intelligentie

Visual Capitalist publiceerde in 2025 een uitgebreide analyse gebaseerd op data van Tracking AI, waarbij 24 toonaangevende AI-modellen werden getest op de Mensa Norway IQ Test.

📊 Actuele IQ-Scores van AI-Modellen (2025)

Volgens het meest recente onderzoek van Tracking AI en Visual Capitalist behaalden de toonaangevende AI-modellen de volgende scores op de Mensa Norway IQ Test:Model (Versie)Indicatieve IQ-scoreOntwikkelaarOpenAI o3135 OpenAI Claude-4 Sonnet127 Anthropic Gemini 2.0 Flash Thinking Exp.126 Google Gemini 2.5 Pro Exp.124 Google OpenAI o4 mini122 OpenAI Claude-4 Opus120 Anthropic Grok-3 Think112 xAI DeepSeek R1106 DeepSeek Llama 4 Maverick105 Meta OpenAI o1 Pro102 OpenAI DeepSeek V3100 DeepSeek GPT-4.5 Preview99 OpenAI Grok-397 xAI GPT-4o93 OpenAI Bing Copilot86 Microsoft Mistral85 Mistral AI

🔍 Belangrijke Observaties

  • Genius-niveau bereikt: OpenAI’s o3-model scoorde 135, wat officieel als “genius-niveau” wordt beschouwd (>130)
  • Bovengemiddelde prestaties: De top 10 modellen presteren allemaal boven het menselijk gemiddelde (90-110)
  • Tekst vs. Visuele modellen: Opvallend is dat alle hoogst scorende modellen tekstgebaseerd zijn. Multimodale modellen (met beeldherkenning) scoren systematisch lager

🧠 Wat Deze IQ-Scores Betekenen

Het “IQ” van een LLM meet hoofdzakelijk het vermogen van het model om:

  • Patronen te herkennen in complexe informatie
  • Logisch te redeneren door meerdere stappen
  • Abstracte analogieën op te lossen
  • Niet-verbale puzzels te interpreteren (in testomgeving)

✅ Sterke Punten van Hoogscorende AI-modellen

De modellen die hoog scoren, zoals OpenAI’s o3 (135) en Claude-4 Sonnet (127), blinken uit in:

  • Complexe redeneerprocessen die meerdere logische stappen vereisen
  • Analytische vaardigheden voor het oplossen van abstracte problemen
  • Patroonherkenning in grote datasets
  • Wiskundige en logische puzzels

Onderzoek van de Mensa Foundation bevestigt dat OpenAI’s o3 in de top 1-2% van menselijke scores valt.

⚠️ Fundamentele Beperkingen van AI-intelligentie

Ondanks indrukwekkende IQ-scores missen LLM’s cruciale aspecten van menselijke intelligentie:

Emotionele Intelligentie

  • Geen authentieke emotionele ervaringen of empathie
  • Beperkt begrip van sociale context en culturele nuances
  • Kan sarcasme en gemengde emoties verkeerd interpreteren

Bewustzijn en Zelfbewustzijn

  • Geen metacognitie (denken over denken)
  • Geen zelfbesef of intentionaliteit
  • Geen intrinsieke motivatie of persoonlijke doelen

Creativiteit en Innovatie

  • Beperkt tot recombinatie van trainingsdata
  • Geen echte originele conceptvorming
  • Mist intuïtieve sprongen die menselijke innovatie kenmerken

Gezond Verstand (Common Sense)

  • Beperkt contextbegrip in alledaagse situaties
  • Problemen met impliciete kennis die mensen vanzelfsprekend vinden
  • Kan logisch correct maar praktisch zinloos antwoorden geven

📈 De Evolutie van AI-Intelligentie

De IQ-scores van AI-modellen zijn dramatisch gestegen in korte tijd:

  • 2024: Gemiddelde top-modellen scoorden rond de 95-100
  • 2025: Topmodellen bereiken nu 120-135, genius-niveau

Deze exponentiële groei in cognitieve prestaties roept belangrijke vragen op over de toekomst van AI-ontwikkeling.

🔬 Methodologie en Validiteit

Testprocedure

Tracking AI gebruikt de Mensa Norway IQ Test met de volgende methodiek:

  • Tekst-modellen: Krijgen de test in geverbaliseerde vorm
  • Visuele modellen: Krijgen de originele beeldpuzzels
  • Consistentie: Bij weigering wordt de test tot 10 keer herhaald
  • Transparantie: Alle antwoorden en scores zijn openbaar toegankelijk

Beperkingen van IQ-Testing bij AI

  • Eendimensionaliteit: IQ-tests meten slechts een beperkt aspect van intelligentie
  • Trainingsdata-bias: AI kan onbedoeld blootgesteld zijn aan vergelijkbare puzzeltypes
  • Contextgebrek: Tests gebeuren in geïsoleerde omgeving, niet in realistische scenario’s

🤝 Mens vs. AI: Complementaire Sterktes

Hoewel AI-modellen indrukwekkende IQ-scores behalen, blijven mensen superieur in:

  • Emotionele intelligentie en sociale vaardigheden
  • Creatieve doorbraken en innovatieve concepten
  • Ethische afwegingen en moreel redeneren
  • Flexibele adaptatie aan volledig nieuwe situaties
  • Intuïtieve probleemoplossing zonder expliciete regels

AI blinkt daarentegen uit in:

  • Snelheid van informatieverwerking
  • Consistentie in logische redeneringen
  • Schaal van gegevensanalyse
  • Precisie in gedefinieerde taken

🔮 Implicaties voor de Toekomst

De huidige ontwikkelingen suggereren dat:

  • Cognitieve taken steeds meer door AI overgenomen zullen worden
  • Menselijke vaardigheden in emotie, creativiteit en ethiek belangrijker worden
  • Hybrid intelligence (mens-AI samenwerking) de toekomst bepaalt
  • Nieuwe definities van intelligentie en waardevol werk nodig zijn

📚 Bronnen en Referenties