Steering Conversational Surprise bij AI
Inleiding
“Steering conversational surprise” bij kunstmatige intelligentie verwijst naar het vermogen van een taalmodel om de delicate balans te vinden tussen voorspelbaarheid en creativiteit. Dit concept staat momenteel centraal in het onderzoek naar large language models (LLM’s) en hun toepassing in creatieve taken.
In de kern proberen AI-modellen altijd het “volgende meest waarschijnlijke woord” te voorspellen op basis van geleerde waarschijnlijkheidsverdelingen. Als een AI echter uitsluitend de meest logische keuzes maakt, wordt het gesprek saai, herhalend en robotachtig. “Surprise” (verrassing) is precies wat een gesprek menselijk en boeiend maakt IBM.
De Balans tussen Logica en Verrassing
Om een AI “aan te sturen” op verrassing, moeten we rekening houden met twee uitersten:
Te weinig verrassing: De AI produceert clichés en veilige antwoorden die weinig waarde toevoegen. Denk aan uitspraken als “Het is belangrijk om gezond te eten” – correct, maar weinig inspirerend.
Te veel verrassing: De AI wordt onsamenhangend, hallucineert of springt van de hak op de tak, waardoor de output onbruikbaar wordt.
De “Sweet Spot”: De AI komt met een origineel inzicht, een onverwachte analogie of een kwinkslag die de gebruiker niet zag aankomen, maar die wel relevant blijft voor de context.
Recent onderzoek aan de Universiteit van Kent en Universiteit Leiden toont aan dat deze balans genuanceerder is dan vaak wordt gedacht. Onderzoekers Peeperkorn et al. ontdekten dat “temperatuur slechts zwak gecorreleerd is met nieuwigheid, en zoals verwacht, matig gecorreleerd met incoherentie” arXiv. Dit betekent dat het verhogen van de temperatuur niet automatisch leidt tot meer creativiteit, maar vooral tot meer variabiliteit.
Technische Parameters: De Knoppen voor Creativiteit
Ontwikkelaars en gebruikers kunnen de mate van verrassing beïnvloeden met specifieke instellingen, ook wel hyperparameters genoemd:
1. Temperature (Temperatuur)
De temperatuurparameter is een waarde tussen 0 en 2 die de willekeurigheid van tekstgeneratie reguleert IBM. Het werkt als volgt:
- Lage temperatuur (0-0.2): De AI kiest bijna altijd het meest waarschijnlijke woord, wat resulteert in consistente, voorspelbare output. Dit is ideaal voor taken die precisie vereisen, zoals technische documentatie of medische samenvattingen NIH.
- Gemiddelde temperatuur (0.5-0.8): Een evenwichtige benadering die variatie introduceert zonder coherentie op te offeren.
- Hoge temperatuur (0.8-2.0): De AI selecteert vaker minder waarschijnlijke woorden, wat leidt tot meer variatie en creativiteit. Dit is geschikt voor creatief schrijven, brainstormsessies en innovatieve probleemoplossing.
Belangrijk om te weten: ChatGPT-documentatie raadt aan om een temperatuurwaarde van 0 tot 0.2 te gebruiken voor meer gerichte (minder creatieve) taken en 0.8 tot 1 voor meer willekeurige (meer creatieve) taken NIH.
2. Top-P (Nucleus Sampling)
Top-P, ook bekend als “nucleus sampling”, bepaalt uit welke verzameling woorden de AI mag kiezen op basis van cumulatieve waarschijnlijkheid Medium.
In plaats van een vast aantal kandidaat-tokens (zoals bij Top-K), selecteert Top-P dynamisch tokens waarvan de cumulatieve waarschijnlijkheid een bepaalde drempelwaarde overschrijdt. Bijvoorbeeld, bij Top-P = 0.9 kiest de AI alleen uit tokens die samen 90% van de waarschijnlijkheidsmassa vertegenwoordigen.
Dit beperken of verbreden van de selectie beïnvloedt direct hoe “gedurfd” de AI is in haar woordkeuzes. Een lagere Top-P waarde (bijv. 0.5) dwingt het model om uit een kleinere, meer voorspelbare set tokens te kiezen, terwijl een hogere waarde (0.9-1.0) meer diversiteit toestaat.
Waarom is Steering Conversational Surprise Belangrijk?
1. Verhoogde Betrokkenheid (Engagement)
Mensen blijven langer in gesprek met een AI die hen prikkelt of positief verrast. Onderzoek toont aan dat generatieve AI de individuele creativiteit kan vergroten, vooral bij minder creatieve schrijvers Science.
2. Creatief Schrijven en Brainstormen
Voor brainstormsessies of het schrijven van verhalen is een AI nodig die buiten de gebaande paden treedt. Uit een studie blijkt dat hogere temperaturen leiden tot meer diverse en verrassende verhaallijnen, hoewel dit soms ten koste gaat van coherentie arXiv.
3. Innovatieve Probleemoplossing
Soms komt de beste oplossing uit een onverwachte hoek. Door “unconventional thinking” te stimuleren via aangepaste parameters, kunnen AI-systemen nieuwe perspectieven bieden die menselijke gebruikers over het hoofd zouden zien.
Praktisch Voorbeeld: De Kleur van de Lucht
Laten we het concept illustreren met een eenvoudige vraag:
Vraag: “Wat is de kleur van de lucht?”
Geen verrassing (lage temperatuur):
“Blauw.”
Met gestuurde verrassing (hogere temperatuur):
“Dat hangt ervan af of je een dichter bent die naar de zonsondergang kijkt, of een natuurkundige die Rayleigh-verstrooiing bestudeert. Maar meestal: blauw.”
Het tweede antwoord is niet alleen correct, maar ook intellectueel stimulerend en contextueel rijker. Het nodigt uit tot verder nadenken zonder de kernvraag te ontwijken.
Wetenschappelijke Onderbouwing: Wat Zegt het Onderzoek?
Een grootschalig onderzoek door Peeperkorn et al. (2024) aan de Universiteit van Kent onderzocht specifiek of temperatuur de “creativiteitsparameter” is. Ze evalueerden verhalen gegenereerd door Llama 2-Chat op vier noodzakelijke voorwaarden voor creativiteit arXiv:
- Nieuwigheid (Novelty): In hoeverre wijkt de output af van bestaande voorbeelden?
- Typicaliteit: Is de output herkenbaar als lid van zijn categorie (bijv. een verhaal)?
- Cohesie: Zijn zinnen goed verbonden en grammaticaal consistent?
- Coherentie: Is de tekst logisch en begrijpelijk voor de lezer?
Belangrijkste bevindingen:
- Temperatuur vertoont een zwakke positieve correlatie met nieuwigheid
- Er is een matige negatieve correlatie met coherentie (hogere temperatuur = lagere coherentie)
- Geen significante relatie met cohesie of typicaliteit
- De invloed van temperatuur op creativiteit is veel genuanceerder dan vaak wordt gesuggereerd
Dit betekent dat het simpelweg verhogen van de temperatuur niet automatisch leidt tot meer creativiteit, maar wel tot meer variabiliteit – met risico op verlies van samenhang.
Praktische Toepassingen in de Gezondheidszorg
Een interessante toepassing komt uit medisch onderzoek. Een studie gepubliceerd in het Journal of Medical Internet Research onderzocht hoe de temperatuurparameter gebruikt kan worden voor verschillende klinische taken NIH:
Lage creativiteit (temperatuur 0-0.2):
- Samenvatten van patiëntgegevens
- Medische administratie
- Consistent rapporteren
Hoge creativiteit (temperatuur 0.8-1.0):
- Schrijven van patiëntenvoorlichting
- Wetenschapscommunicatie op sociale media
- Brainstormen over medische opleidingsmaterialen
De onderzoekers waarschuwen echter: “Overmatige creativiteit kan leiden tot het verfraaien of verkeerd weergeven van cruciale informatie, wat gevolgen kan hebben voor de behandeling en uitkomsten van patiënten.”
Zelf de Verrassingsgraad Beïnvloeden: Praktische Tips
Als je zelf met AI-modellen werkt, kun je de output sturen via:
1. Promptengineering:
- Voeg context toe: “Leg uit alsof je met een 10-jarige praat” (stimuleert creativiteit)
- Wees specifiek: “Geef een technische uitleg met formules” (beperkt creativiteit)
2. Parameterconfiguratie:
- Experimenteer met verschillende temperatuurwaarden voor je specifieke use case
- Combineer temperatuur met Top-P voor fijnmazige controle
- Test consistent: bij temperatuur = 0 zou je identieke outputs moeten krijgen
3. Model Selectie:
- Verschillende AI-modellen reageren anders op dezelfde parameters
- Test altijd hoe parameters werken binnen het specifieke model dat je gebruikt
Conclusie: De Toekomst van Gestuurde Creativiteit
“Steering conversational surprise” is het gericht finetunen van AI zodat deze niet alleen correcte antwoorden geeft, maar ook intellectueel stimulerend blijft door net genoeg af te wijken van de meest voor de hand liggende route.
Het wetenschappelijk bewijs toont aan dat creativiteit in AI een complex samenspel is van meerdere factoren, waarbij temperatuur slechts één – en niet eens de dominante – rol speelt. De toekomst ligt waarschijnlijk in meer verfijnde controle-mechanismen die verder gaan dan simpele randomness, en die rekening houden met context, doelgroep en gewenste balans tussen verrassing en bruikbaarheid.
Voor nu blijft het belangrijkste advies: test, valideer en stem af op jouw specifieke toepassing. Wat werkt voor creatief schrijven, kan desastreus zijn voor medische documentatie – en vice versa.
Bronnen
- Peeperkorn, M., Kouwenhoven, T., Brown, D., & Jordanous, A. (2024). Is Temperature the Creativity Parameter of Large Language Models? arXiv. https://arxiv.org/html/2405.00492v1
- IBM (2024). What is LLM Temperature? IBM Think Topics. https://www.ibm.com/think/topics/llm-temperature
- Van Bulck, L., Durieux, J.B.N., Lindvall, C., & Moons, P. (2024). The Temperature Feature of ChatGPT: Modifying Creativity for Clinical Communication. NIH/PMC. https://pmc.ncbi.nlm.nih.gov/articles/PMC10960206/
- Holtzman, A., et al. (2020). The Curious Case of Neural Text Degeneration. arXiv. https://arxiv.org/pdf/1904.09751
- Aher, G.V., Arriaga, R.I., & Kalai, A.T. (2024). Generative AI enhances individual creativity but reduces diversity. Science Advances. https://www.science.org/doi/10.1126/sciadv.adn5290
