Prüfungen generieren mit KI? Neue Erkenntnisse aus der RWTH Aachen University
01.02.2024: Im Rahmen einer internen Studie am Center für Lehr- und Lernservices (CLS) an der RWTH Aachen University wurde untersucht, wie generative KI – z. B. ChatGPT – genutzt werden kann, um die Vorbereitung und die Korrektur von Prüfungen zu unterstützen. PD Dr. Malte Persike, Leiter des CLS und selbst Lehrender an der RWTH Aachen University, stellt im e-teaching.org-Interview mit Dr. Anne Thillosen einige Ergebnisse der Studie vor und geht darauf ein, wo KI in diesem Kontext für Lehrende hilfreich ist – und wann sie nicht genutzt werden sollte.
Der Einsatz von generativer künstlicher Intelligenz (KI) in der Hochschullehre eröffnet viele neue Möglichkeiten. Im Prüfungskontext stand zunächst die Diskussion über mögliche Täuschungsversuche von Studierenden im Vordergrund. Doch früh wurde – u. a. von Prof. Dr. Doris Weßels – auch vorgeschlagen, ChatGPT zu nutzen, um beispielsweise Aufgaben zu generieren oder KI-Modelle zur Korrektur von Prüfungen bzw. für Rückmeldungen an die Studierenden einzusetzen. Was auf den ersten Blick nach einer Unterstützung der Lehrenden aussieht, birgt allerdings auch einige Fallstricke.
Das Center für Lehr- und Lernservices (CLS) an der RWTH Aachen University untersuchte deshalb in einer internen Studie, ob KI tatsächlich den erwarteten Nutzen bringt und konzentrierte sich dabei auf zwei Schwerpunkte: die Erstellung von Prüfungsaufgaben (sowohl Single- und Multiple-Choice-Aufgaben als auch Freitextaufgaben) sowie die Korrektur von Prüfungen bzw. die Rückmeldungen an Studierende.
Im e-teaching.org-Podcast stellt der Leiter des CLS, PD Dr. Malte Persike, einige zentrale Ergebnisse der Studie vor. So zeigte sich beispielsweise, dass ChatGPT (zumindest in der getesteten Version ChatGPT4) zwar gut darin ist, Fragen für Auswahl-Aufgaben zu stellen und auch schnell Antwortoptionen generiert – doch die Formulierung von eindeutig falschen Antworten ist offensichtlich ein Problem. Überraschend war auch, wie unterschiedlich die Ergebnisse in den verschiedenen Fächern teilweise ausgefallen sind und dass sich die KI vor allem bei der Bewertung von frei formulierten Aufgabenlösungen als besonders unzuverlässig erwies.