Het artikel met de titel “The Medium is the Message: How Non-Clinical Information Shapes Clinical Decisions in LLMs” gaat over hoe onnodige en niet-klinische informatie, zoals de manier van formuleren of het taalgebruik, de medische beslissingen van grote taalmodellen (LLM’s) kan beïnvloeden.
De belangrijkste bevindingen zijn:
- Onnauwkeurigheid en inconsistentie: De studie toont aan dat LLM’s onnauwkeurige en inconsistente behandelingsaanbevelingen kunnen geven. Wanneer niet-klinische details in patiëntberichten worden gewijzigd, verslechtert de klinische nauwkeurigheid van de modellen aanzienlijk.
- Gevoeligheid voor niet-relevante informatie: De modellen bleken gevoelig te zijn voor non-content signalen, zoals het gebruik van straattaal, typfouten of een vragende in plaats van stellende toon. Deze factoren kunnen de behandelingsaanbevelingen beïnvloeden.
- Ongelijkheid in aanbevelingen: Er werden significante verschillen in behandelingsaanbevelingen gevonden tussen verschillende gender-subgroepen, wat duidt op potentiële vooroordelen (biases) in de LLM’s.
- Oproep tot betere evaluatie: Het onderzoek benadrukt de noodzaak van evaluatiekaders die verder gaan dan alleen nauwkeurigheid om te onderzoeken hoe taal, vooringenomenheid en vertrouwen de beslissingen van AI-systemen in de medische sector beïnvloeden.