Prüfungen generieren mit KI? Neue Erkenntnisse aus der RWTH Aachen University

01.02.2024: Im Rahmen einer internen Studie am Center für Lehr- und Lernservices (CLS) an der RWTH Aachen University wurde untersucht, wie generative KI – z. B. ChatGPT – genutzt werden kann, um die Vorbereitung und die Korrektur von Prüfungen zu unterstützen. PD Dr. Malte Persike, Leiter des CLS und selbst Lehrender an der RWTH Aachen University, stellt im e-teaching.org-Interview mit Dr. Anne Thillosen einige Ergebnisse der Studie vor und geht darauf ein, wo KI in diesem Kontext für Lehrende hilfreich ist – und wann sie nicht genutzt werden sollte.

Hauptbild des Beitrags

PD Dr. Malte Persike (RWTH Aachen University, Fotograf: Fotodesign Hartmann, Mainz)

Der Einsatz von generativer künstlicher Intelligenz (KI) in der Hochschullehre eröffnet viele neue Möglichkeiten. Im Prüfungskontext stand zunächst die Diskussion über mögliche Täuschungsversuche von Studierenden im Vordergrund. Doch früh wurde – u. a. von Prof. Dr. Doris Weßels – auch vorgeschlagen, ChatGPT zu nutzen, um beispielsweise Aufgaben zu generieren oder KI-Modelle zur Korrektur von Prüfungen bzw. für Rückmeldungen an die Studierenden einzusetzen. Was auf den ersten Blick nach einer Unterstützung der Lehrenden aussieht, birgt allerdings auch einige Fallstricke.

Das Center für Lehr- und Lernservices (CLS) an der RWTH Aachen University untersuchte deshalb in einer internen Studie, ob KI tatsächlich den erwarteten Nutzen bringt und konzentrierte sich dabei auf zwei Schwerpunkte: die Erstellung von Prüfungsaufgaben (sowohl Single- und Multiple-Choice-Aufgaben als auch Freitextaufgaben) sowie die Korrektur von Prüfungen bzw. die Rückmeldungen an Studierende.

Im e-teaching.org-Podcast stellt der Leiter des CLS, PD Dr. Malte Persike, einige zentrale Ergebnisse der Studie vor. So zeigte sich beispielsweise, dass ChatGPT (zumindest in der getesteten Version ChatGPT4) zwar gut darin ist, Fragen für Auswahl-Aufgaben zu stellen und auch schnell Antwortoptionen generiert – doch die Formulierung von eindeutig falschen Antworten ist offensichtlich ein Problem. Überraschend war auch, wie unterschiedlich die Ergebnisse in den verschiedenen Fächern teilweise ausgefallen sind und dass sich die KI vor allem bei der Bewertung von frei formulierten Aufgabenlösungen als besonders unzuverlässig erwies.

Beitragende

PD Dr. Malte Persike ist habilitierter Psychologe und als Wissenschaftlicher Leiter des Center für Lehr- und Lernservices (CLS) an der RWTH Aachen University tätig. Nach seiner Promotion an der Johannes Gutenberg-Universität Mainz wurde er im Jahr 2012
mit dem Ars legendi Preis für exzellente Hochschullehre in den Sozialwissenschaften ausgezeichnet, 2014 erhielt er für sein Inverted Classroom Konzept den Landeslehrpreis Rheinland-Pfalz. Er ist Produzent der ersten beiden MOOCs auf dem Gebiet der Statistik im deutschsprachigen Raum und ist derzeit unter anderem als Mitglied des Hochschulforum Digitalisierung aktiv.

Weitere Informationen

Dieser Erfahrungsbericht ist Teil des Themenspecials KI in der Hochschulpraxis.