Laatste nieuws
zo. dec 7th, 2025

AI Faalt Bij Alledaagse Rekensommen

Door admin nov 19, 2025
Leestijd: 4 minuten

ORCA Benchmark Toont Aan

Het ORCA (Omni Research on Calculation in AI) Benchmark-onderzoek heeft onthullende resultaten opgeleverd over de rekennauwkeurigheid van de meest geavanceerde grote taalmodellen (LLM’s) die momenteel beschikbaar zijn. Dit baanbrekende onderzoek, gepubliceerd in november 2024, toont aan dat AI-systemen waarop miljoenen mensen dagelijks vertrouwen voor berekeningen, verrassend vaak de fout in gaan.

🎯 Doel en Opzet van het Onderzoek

Het ORCA-onderzoek werd uitgevoerd door een multidisciplinair team van onderzoekers verbonden aan Omni Calculator en verschillende Europese universiteiten. Het hoofddoel was om vast te stellen hoe betrouwbaar toonaangevende LLM’s zijn in het uitvoeren van praktische, alledaagse rekenkundige taken in natuurlijke taal – precies het type berekeningen waar mensen AI voor gebruiken in hun dagelijks leven ArXiv.

In tegenstelling tot bestaande benchmarks zoals GSM8K en MATH-500, die zich richten op academische wiskundeproblemen, evalueert ORCA real-world kwantitatieve redeneertaken zoals het berekenen van hypotheekrente, het omrekenen van recepthoeveelheden, of het plannen van een budget Omni Calculator.

🔢 Testmethodologie en Scope

De onderzoekers ontwikkelden 500 unieke rekenkundige vragen verspreid over zeven praktijkdomeinen:

  • Biologie en Scheikunde (57 vragen)
  • Engineering en Bouw (27 vragen)
  • Financiën en Economie (43 vragen)
  • Gezondheid en Sport (67 vragen)
  • Wiskunde en Conversies (147 vragen)
  • Natuurkunde (128 vragen)
  • Statistiek en Waarschijnlijkheid (31 vragen)

Elke vraag werd getest op vijf toonaangevende AI-modellen:

  • ChatGPT-5 (OpenAI)
  • Gemini 2.5 Flash (Google)
  • Claude 4.5 Sonnet (Anthropic)
  • DeepSeek V3.2 (DeepSeek AI)
  • Grok-4 (xAI)

Cruciaal is dat de onderzoekers alleen de gratis, publiek toegankelijke versies gebruikten om een realistisch beeld te geven van wat gewone gebruikers kunnen verwachten The Register.

📊 Verontrustende Resultaten

Algemene Prestaties

De resultaten zijn alarmerend: geen enkel AI-model scoorde hoger dan 63% nauwkeurigheid. Dit betekent dat bij elke 10 rekenvragen die gebruikers stellen, ongeveer 4 antwoorden fout zijn.

Gedetailleerde scores per model:

  • Gemini 2.5 Flash: 63% (beste prestatie)
  • Grok-4: 62,8% (tweede plaats)
  • DeepSeek V3.2: 52,0% (middenmoot)
  • ChatGPT-5: 49,4% (teleurstellend)
  • Claude 4.5 Sonnet: 45,2% (slechtste prestatie)

Prestaties per Domein

De resultaten varieerden sterk per vakgebied:

Sterkste prestaties:

  • Wiskunde & Conversies: De meeste modellen scoorden boven 65%
  • Statistiek & Waarschijnlijkheid: Gemini behaalde hier 80,6%

Zwakste prestaties:

  • Biologie & Scheikunde: DeepSeek scoorde slechts 10,5%
  • Natuurkunde: Algemeen lage scores, DeepSeek 31,3%
  • Gezondheid & Sport: Inconsistente prestaties across modellen

Financiën tonen grootste verschillen: Terwijl Gemini en Grok 70-80% accuracy behaalden, presteerden ChatGPT, Claude en DeepSeek vaak onder de 40% op dezelfde vragen Omni Calculator.

🚨 Analyse van Fouttypes

Het onderzoek categoriseerde de fouten in vier hoofdtypen:

1. Mechanische Fouten (68% van alle fouten)

  • Afrondingsfouten (35%): AI maakt verkeerde keuzes bij het afronden van getallen
  • Rekenfouten (33%): Simpele rekensommen gaan mis

Voorbeeld: Bij het berekenen van een hardloper’s VO2 max produceerde Grok-4 47,89 in plaats van het correcte 47,86 door verkeerde afronding tijdens de berekening.

2. Logische Fouten (26% van alle fouten)

  • Methode/Formula fouten (14%): Verkeerde wiskundige aanpak gebruiken
  • Verkeerde aannames (12%): AI voegt eigen foutieve logica toe

Voorbeeld: Bij het berekenen van het oppervlak van een hexagram gebruikte DeepSeek de formule voor een gewone zeshoek, wat resulteerde in 21,65 cm² in plaats van het correcte 129,9 cm².

3. Instructie-interpretatie Fouten (5% van alle fouten)

Voorbeeld: In een LED-circuit probleem paste Claude per ongeluk 5 mA toe op elke LED afzonderlijk in plaats van als totaalstroom, wat leidde tot een zeven keer te hoge uitkomst.

4. Weigering om te Antwoorden

Soms weigert AI simpelweg een antwoord te geven, zelfs wanneer alle benodigde informatie beschikbaar is Omni Calculator.

🧠 Waarom AI Faalt bij Rekenen

Het onderliggende probleem ligt in de transformer-architectuur van grote taalmodellen. Deze systemen zijn ontworpen voor patroonherkenning, niet voor logische berekening. AI “weet” niet dat 2+2=4 door wiskundige logica, maar omdat het deze sequentie ontelbare keren heeft gezien in trainingsdata.

Dr. Joanna Śmietańska-Nowak, een van de hoofdonderzoekers, legt uit: “AI behandelt getallen als tokens in een reeks, niet als kwantitatieve waarden met precieze betekenis. Het imiteert wiskundige redenering zonder werkelijk te ‘begrijpen’ wat het doet” ArXiv.

⚠️ Praktische Implicaties en Risico’s

Deze bevindingen hebben verstrekkende gevolgen:

Financiële Risico’s:

  • Hypotheekberekeningen kunnen tot kostbare fouten leiden
  • Investeringsadvies gebaseerd op AI-berekeningen is onbetrouwbaar
  • Budgetplanning kan fundamenteel fout zijn

Dagelijkse Beslissingen:

  • Receptomrekeningen kunnen mislukte gerechten opleveren
  • Bouwprojecten kunnen material overschotten of tekorten hebben
  • Gezondheidsberekeningen kunnen tot verkeerde conclusies leiden

Het Gevaar van “Zelfverzekerde Onjuistheid”:
AI geeft zelden toe dat het onzeker is. In plaats daarvan levert het gedetailleerde, logisch klinkende uitleg met kritieke fouten in het eindantwoord, wat een gevaarlijk gevoel van zekerheid creëert The Register.

🔍 Vergelijking met Andere Benchmarks

Het ORCA-onderzoek contrasteert scherp met traditionele AI-benchmarks:

  • GSM8K en MATH-500: Veel AI-modellen scoren hier 95%+
  • ORCA: Geen enkel model haalt 65%

Dit verschil toont aan dat academische wiskundevaardigheden niet automatisch vertalen naar praktische rekenbetrouwbaarheid. Dr. Anna Szczepanek van de Universiteit Jagiellonian merkt op: “De kloof tussen gecontroleerde testomstandigheden en real-world toepassingen is veel groter dan we dachten” ResearchGate.

📈 Aanbevelingen voor Gebruikers

Gebaseerd op de ORCA-resultaten adviseren onderzoekers:

Gebruik AI Verstandig

  • Wel: Brainstormen, schrijven, concepten uitleggen
  • Niet: Vertrouwen op AI voor kritieke berekeningen zonder verificatie

Dubbel-Check Protocol

Voor elke berekening die echte gevolgen heeft:

  1. Gebruik AI als startpunt
  2. Verifieer het antwoord met gespecialiseerde tools
  3. Bij twijfel: raadpleeg een expert

Domein-Specifieke Voorzorgen

  • Financiën: Extra voorzichtig met Gemini en Grok (beste presteerders)
  • Gezondheid: Altijd professionele verificatie
  • Engineering: Gebruik AI alleen voor grove schattingen

🔮 Toekomstperspectieven

Het ORCA-onderzoek markeert een keerpunt in ons begrip van AI-beperkingen. Terwijl AI-ontwikkelaars werken aan verbeteringen, blijft de fundamentele uitdaging bestaan: hoe kunnen we systemen die gebaseerd zijn op patroonherkenning, betrouwbaar laten rekenen?

Toekomstige ontwikkelingen kunnen zijn:

  • Hybride systemen die AI combineren met traditionele rekenmotoren
  • Gespecialiseerde rekenmodules binnen AI-systemen
  • Verbeterde verificatiemechanismen voor numerieke output

Conclusie

Het ORCA Benchmark-onderzoek dient als een belangrijke waarschuwing: hoewel AI een krachtig hulpmiddel is voor veel taken, zijn we nog lang niet op het punt waar we blind kunnen vertrouwen op AI voor berekeningen die er echt toe doen.

De boodschap is duidelijk: gebruik AI als een slimme maar soms onzorgvuldige assistent. Voor elke berekening waarbij het getal werkelijk belangrijk is – van je hypotheek tot je gezondheidsgegevens – moet je het werk dubbel-checken.

Het volledige ORCA Benchmark-onderzoek is beschikbaar via ArXiv en de Omni Calculator website.


Bronnen:

By admin