Gli studenti hanno affermato che si sentirebbero “imbrogliati” se il loro lavoro fosse segnato dall’intelligenza artificialeAmika Piplapure per Varsity
Un team di psicologi ed esperti di intelligenza artificiale guidato da Cambridge ha scoperto che i principali sistemi di intelligenza artificiale generativa corrispondevano alle classificazioni dei voti universitari assegnati dagli esseri umani solo circa la metà delle volte nella valutazione dei saggi universitari.
Lo studio ha testato l’ultima versione di tre grandi modelli linguistici: Claude, ChatGPT e Gemini, su 761 saggi di psicologia universitari di studenti di Cambridge, Nottingham e Manchester Metropolitan. La dottoressa Deborah Talmi, la psicologa di Cambridge che guida il progetto, ha affermato che la psicologia è “un banco di prova ideale per la valutazione dell’intelligenza artificiale poiché valorizza la sintesi delle prove e il giudizio critico sulle singole risposte corrette”.
I ricercatori hanno concluso che i sistemi potrebbero avvicinarsi ampiamente alle fasce di valutazione, come First o 2:i. Tuttavia, i loro giudizi furono considerati superficiali e incoerenti, sottovalutando i saggi dati il massimo dei voti da esaminatori umani e sopravvalutando le proposte più deboli. Ciascuno dei modelli ha dato punteggi più vicini tra loro rispetto a quelli assegnati dagli esaminatori umani.
Secondo quanto riferito, tutti i modelli di intelligenza artificiale erano “ipersensibili alle caratteristiche linguistiche”, premiando strutture di frasi più dense e vocabolario complesso, indipendentemente dalla qualità dell’argomentazione.
Talmi ha avvertito che le università che si trovano ad affrontare pressioni finanziarie potrebbero essere sempre più tentate di fare affidamento su strumenti di valutazione dell’intelligenza artificiale. Secondo lei, ciò solleva serie preoccupazioni riguardo alla crescente pressione sulle università affinché utilizzino l’intelligenza artificiale per automatizzare i metodi di valutazione per ridurre il carico di lavoro.
Secondo il rapporto, i sistemi di intelligenza artificiale corrispondevano alle corrette classificazioni dei titoli di studio assegnati dagli esseri umani tra il 35 e il 65% delle volte, a seconda dell’istituto da cui provenivano i saggi. La precisione è stata più alta per i saggi Cambridge (63%) e più bassa per quelli presentati al Manchester Metropolitan (35%). I ricercatori hanno suggerito che questa variazione potrebbe riflettere la gamma di voti, che differiva tra le università. Ad esempio, i saggi di Cambridge sono stati scritti in condizioni di esame supervisionate e avevano la gamma più ristretta, mentre le proposte al Manchester Metropolitan erano basate sui corsi e hanno mostrato la variazione più ampia.
Gli autori del rapporto sostengono che l’intelligenza artificiale ha un “bias di tendenza centrale”, che la porta a gravitare verso punteggi medi. Fa quindi fatica a riconoscere un lavoro veramente eccezionale.
Il dottor Alexandru Marcoci, dell’Institute for Technology and Humanity di Cambridge, coautore del rapporto, ha dichiarato: “I valutatori umani giudicano ogni saggio in base ai propri meriti argomentativi e concettuali, mentre i voti dell’intelligenza artificiale si basano su previsioni statistiche”.
Il personale universitario e gli studenti che hanno partecipato allo studio hanno detto ai ricercatori che considerano la valutazione umana come una parte fondamentale del rapporto tra accademici e studenti, mentre alcuni studenti hanno affermato che si sentirebbero “imbrogliati” se il loro lavoro fosse valutato principalmente dall’intelligenza artificiale. Il rapporto conclude che questi modelli di intelligenza artificiale non sono ancora abbastanza coerenti da poter essere utilizzati per valutare il lavoro universitario e che “un essere umano dovrebbe sempre determinare il voto finale”.