Een Vending-Bench is een gesimuleerde omgeving die is ontworpen om de consistentie en coherentie op lange termijn van AI-modellen, met name Large Language Models (LLM’s), te testen. Het simuleert een eenvoudig maar langdurig bedrijfsscenario: het beheren van een verkoopautomaat.
De AI-agent in de Vending-Bench moet taken uitvoeren zoals:
- Voorraadbeheer: Bijhouden van de beschikbare producten.
- Bestellingen plaatsen: Nieuwe producten bestellen wanneer de voorraad laag is.
- Prijzen instellen: Bepalen van de verkoopprijzen.
- Dagelijkse kosten dekken: Ervoor zorgen dat de inkomsten de kosten overtreffen.
Hoewel deze taken individueel eenvoudig zijn, wordt de complexiteit verhoogd doordat ze over een lange periode (met veel “stappen” of “context”) moeten worden uitgevoerd. Het doel is te zien of een AI-model consistente en intelligente beslissingen kan blijven nemen zonder te “deraileren” (bijvoorbeeld door orders te vergeten, leveringsschema’s verkeerd te interpreteren of in ‘meltdown’-loops te belanden).
Verband met de Turingtest
Er is een interessant verband tussen de Vending-Bench en de Turingtest, hoewel ze verschillende aspecten van AI-intelligentie meten.
De Turingtest (voorgesteld door Alan Turing in 1950) is een gedachte-experiment om te beoordelen of een machine menselijke intelligentie kan vertonen. Een ondervrager communiceert via tekst met zowel een mens als een machine, zonder te weten wie wie is. Als de ondervrager niet consistent kan bepalen welke van de twee de machine is, dan slaagt de machine voor de Turingtest. De focus ligt hierbij op het vermogen van de AI om menselijk gedrag en taalgebruik te imiteren op een manier die niet te onderscheiden is van een mens.
De Vending-Bench gaat verder dan alleen imitatie. Het richt zich op: - Autonomie: De AI-agent moet zelfstandig beslissingen nemen en handelen in een dynamische omgeving.
- Consistentie en coherentie op lange termijn: In tegenstelling tot de Turingtest, die vaak focust op een kort gesprek, test de Vending-Bench het vermogen van een AI om over een lange periode (soms miljoenen “tokens” aan context) logisch en doelgericht te blijven functioneren.
- Probleemoplossing en planning: De AI moet real-world problemen (zoals voorraadtekorten of financiƫle verliezen) identificeren en strategieƫn ontwikkelen om deze op te lossen.
- Real-world relevantie: Hoewel gesimuleerd, bootsen de taken in de Vending-Bench situaties na die relevant zijn voor de inzet van AI in de echte wereld, waar betrouwbare en transparante prestaties over langere tijd cruciaal zijn voor veiligheid.
In essentie: - De Turingtest beoordeelt of een machine lijkt te denken als een mens (door middel van interactie).
- De Vending-Bench beoordeelt of een machine daadwerkelijk kan functioneren en coherente beslissingen kan nemen over een langere periode in een complexe, dynamische taakomgeving, wat een dieper inzicht geeft in de autonomie en betrouwbaarheid van AI-systemen.
De Vending-Bench kan gezien worden als een modernere, meer praktische test die aanvullend is op de klassieke Turingtest, vooral nu AI-systemen steeds autonomer en complexer worden en ingezet worden voor langdurige taken. Het test of AI-modellen niet alleen slim overkomen in korte interacties, maar ook standvastig en betrouwbaar zijn bij langdurige operaties.