Skip to main content

Fachverlag und Nachrichtenagentur

GPT-4 raggiunge i valori umani nelle risposte ai test di formazione in ambito oftalmologico

DEEP LEARNING Londra – In che modo il Large Language Model (LLM) GPT-4 aiuta a rispondere alle domande sulle conoscenze in campo oftalmologico nella formazione medica? Fares Antaki del Moorfields Eye Hospital NHS Foundation Trust di Londra, Regno Unito, e altri autori, hanno cercato di dare una risposta proprio a questa domanda. Generative Pre-trained Transformer 4 (GPT-4) è stato testato utilizzando due test a scelta multipla con 260 domande ciascuno dal Basic and Clinical Science Course™ Self-Assessment Program dell’American Academy of Ophthalmology e dai database di domande di OphthoQuestions™. È stata confrontata l’accuratezza di vari modelli GPT-4 a diverse „temperature“. La temperatura determina la “creatività” dell’output di ChatGPT. Più alta è la temperatura, più casuale e “creativo” è l’output. Per alcune delle domande, sono state valutate le risposte del programma e il modello GPT-4 con le migliori prestazioni è stato confrontato con GPT-3.5 e con le precedenti prestazioni umane. GPT-4-0.3 (GPT-4 con una temperatura di 0,3) ha ottenuto la massima accuratezza tra i modelli GPT-4, con il 75,8% per il set di domande BCSC e il 70,0% per il set di domande OphthoQuestions. L’accuratezza combinata è stata del 72,9% e i dati grezzi hanno mostrato un miglioramento del 18,3% rispetto al GPT-3.5 (p < 0,001). I giudici umani hanno preferito le risposte dei modelli con una temperatura superiore a 0 (più creativi). La sezione dell’esame, la difficoltà delle domande e il livello cognitivo erano tutti predittivi dell’accuratezza delle risposte GPT-4-0.3. Le prestazioni del GPT-4-0.3 erano numericamente superiori a quelle umane nella BCSC (75,8% contro 73,3%) e in OphthoQuestions (70,0% contro 63,0%), ma la differenza non era statisticamente significativa (p = 0,55 e p = 0,09, rispettivamente). Nella pre-pubblicazione elettronica del novembre 2023 sul BRITISH JOURNAL OF OPHTHALMOLOGY, gli autori riassumono che il GPT-4, un LLM non addestrato su dati oftalmologici specifici, ha ottenuto risultati significativamente migliori rispetto al suo predecessore nei test di formazione oftalmologica simulata. Da notare che le prestazioni tendevano ad essere migliori rispetto ai precedenti risultati umani, ma questa differenza non era statisticamente significativa in questo studio.

Autori: Antaki F, Milad D, Chia MA, Giguère CÉ, Touma S, El-Khoury J, Keane PA, Duval R. Corrispondenza: Dr Renaud Duval, Ophthalmology, University of Montreal, Montreal, Canada. Mr Pearse A Keane, Institute of Ophthalmology, UCL, London, UK. E-Mail: renaud.duval@gmail.com, p.keane@ucl.ac.uk Studio: Capabilities of GPT-4 in ophthalmology: an analysis of model entropy and progress towards human-level medical question answering. Fonte: Br J Ophthalmol. 2023 Nov 3:bjo-2023-324438. doi: 10.1136/bjo-2023-324438. Pubblicazione elettronica prima della stampa. PMID: 37923374. Web: https://bjo.bmj.com/content/early/2023/11/02/bjo-2023-324438.long