Prüfungen generieren mit KI? Neue Erkenntnisse aus der RWTH Aachen University

01.02.2024: Als Leiter des Center für Lehr- und Lernservices (CLS) an der RWTH Aachen University und Partner im Projekt KI:edu.nrw beschäftigt sich PD Dr. Malte Persike schon lange mit dem Einsatz von Künstlicher Intelligenz (KI) im Hochschulbereich. Im e-teaching.org-Podcast mit Dr. Anne Thillosen spricht er über eine am CLS intern durchgeführte Studie zum Thema „KI in Prüfungen“. Im Gespräch ging es darum, wie ChatGPT genutzt werden kann, um die Erstellung und die Korrektur von Prüfungen zu erleichtern – aber auch darum, wann KI nicht eingesetzt werden sollte.

interview_2024_persike_pruefungen-und-ki.mp3

Bild: PD Dr. Malte Persike (RWTH Aachen University, Fotograf: Fotodesign Hartmann, Mainz)

Dieser Podcast ist Teil des Erfahrungsberichts „Prüfungen generieren mit KI? Neue Erkenntnisse aus der RWTH Aachen University“ und wurde im Rahmen des Themenspecials „KI in der Hochschulpraxis“ veröffentlicht.

Transkript

Herzlich Willkommen zum Podcast auf e-teaching.org im Rahmen unseres Themenspecials „KI in der Hochschulpraxis“. Mein Name ist Anne Thillosen und ich spreche heute mit PD Dr. Malte Persike von der RWTH Aachen University über das Thema „Prüfungen und KI“. Herzlich Willkommen, Malte!

Malte Persike: Hallo, ich freue mich, dass ich dabei sein darf.

Ja, ich bin gespannt. Die Veröffentlichung von ChatGPT-3.5 Ende November 2022, da wurde ja im Kontext Prüfungen und Hochschule von ganz vielen insbesondere unter der Perspektive von möglichen studentischen Täuschungsversuchen diskutiert. Aber darum soll es in unserem Gespräch heute nicht gehen. Hier steht ein anderes Thema im Mittelpunkt, nämlich wie können Lehrende ChatGPT nutzen, um die Erstellung, um vielleicht auch die Durchführung von Prüfungen, zu erleichtern? Und für solche Fragen ist Malte ein perfekter Gesprächspartner. Er ist habilitierter Psychologe, und er ist wissenschaftlicher Leiter des Center für Lehr- und Lernservices an der RWTH Aachen University, und er befasst sich unter anderem als Partner des Projekts KI:edu.nrw bereits seit langem mit KI im Hochschulbereich. Los geht's, Malte! Am Center für Lehr- und Lernservices an der RWTH Aachen University habt ihr eine interne Studie zum Thema „KI in Prüfungen“ durchgeführt. Was war der Hintergrund dafür?

Malte Persike: Ja, also, wir sind ja in Aachen als zentrale wissenschaftliche Serviceeinrichtung im Jahr 2019 gegründet worden, und zu uns, zum CLS, gehört eben auch das E-Prüfungsteam. Das heißt, wir bieten für die gesamte Hochschule den E-Prüfungsservice an, und da lag es natürlich nahe, dass wir uns auch mal anschauen, wie kann man eigentlich ChatGPT, also generative KI, im Prüfungskontext einsetzen, und zwar für die verschiedenen Phasen der Vorbereitung, der Durchführung, vielleicht aber auch der Korrektur einer Prüfung.

Dann kam noch dazu, dass es in Aachen ja jährlich die sogenannten Exploratory Teaching Space, die ETS-Ausschreibungen gibt. Das ist eine Lehrförderung, wo sich innovative Lehrprojekte bewerben können und dann ein bisschen Geld bekommen können. Venture Capital wie wir das immer so nennen, um spannende neue innovative Lehrprojekte durchzuführen, und da hatten wir jetzt in diesem Jahr 2023 als Oberthema für die Ausschreibung eben auch generative KI gesetzt. Das heißt, die Antragstellenden waren explizit aufgerufen, dort auch Projekte an den Start zu bringen, die sich mit generativer KI befassen, und wir hatten natürlich so ein bisschen den Verdacht, dass das natürlich auch in den Prüfungskontext hineingehen würde.

Denn genau wie du gesagt hast, Anne, man kann sich als Lehrender sofort vorstellen, dass man zum Beispiel Multiple-Choice-Aufgaben mit generativer KI erstellen lässt oder auch die Aufgabenstellung für Freitextaufgaben. Aber natürlich könnte man sich auch sofort vorstellen, dass man ChatGPT benutzen könnte, um etwa eine Klausur korrigieren zu lassen oder vielleicht das Feedback für eine Klausurkorrektur schreiben zu lassen. Also in all diesen Phasen der Klausur, Vorbereitung, Durchführung und Korrektur ließe sich generative KI möglicherweise einsetzen. Deswegen haben wir damit gerechnet, dass gerade im Rahmen der ETS-Ausschreibung auch Projekte kommen werden, die sich mit der Erstellung und Korrektur von Prüfungsaufgaben, von Assessment, vielleicht auch von formativen Aufgaben befassen.

Deswegen wollten wir so ein bisschen Erfahrungen machen im Vorfeld. Was geht aktuell, was geht vielleicht noch nicht, um so ein bisschen besser einschätzen zu können, ob das, was in den Anträgen beantragt wird, realistisch ist, zum aktuellen Zeitpunkt schon geht oder wo wir vielleicht auch zum aktuellen Zeitpunkt noch sagen müssen, das ist eher ein explorativer Antrag, wo vielleicht nicht ganz so sicher ist, ob das Antragsziel erreicht werden kann, weil die generative KI einfach noch noch nicht so weit ist.

Der letzte Punkt, warum ich ganz persönlich daran Interesse habe: Ich bin ja auch Lehrender und ich muss ja auch Prüfungen stellen. Ich mache das in der Statistik und Methodenlehre hier vor allem und in unserem Data-Literacy-Projekt, und gerade da hätte ich jetzt gedacht, Mensch, da kannst du ChatGPT wahrscheinlich ganz gut einsetzen, um mal die eine oder andere Prüfungsaufgabe zu formulieren.

Also, jetzt hast du den Rahmen skizziert, was ihr erfahren wolltet in eurer Studie. Wie seid ihr denn dabei vorgegangen, um das herauszubekommen, und was sind die Ergebnisse?

Malte Persike: Also, wir haben eigentlich zwei verschiedene Studien durchgeführt. Wir haben einmal eine Studie durchgeführt, wo wir ChatGPT gebeten haben, Prüfungsaufgaben zu formulieren, sowohl geschlossene Aufgaben, also Multiple-Choice-Aufgaben, und zwar sowohl Multiple Choice Single Response, also Multiple-Choice-Aufgaben, wo nur eine Antwort richtig ist, aber auch Multiple Choice Multiple Response, also wo mehrere Antworten richtig sein können. Das war der erste zu generierende Aufgabentyp. Der zweite Aufgabentyp waren wirklich ganz einfache offene Aufgaben, also offene Aufgabenstellungen wie in so einer typischen Essay-Klausur, wo die Studierenden einfach Text generieren sollen. Das war sozusagen der Fokus bei der Studie, die sich mit der Erstellung von Prüfungsaufgaben beschäftigt hat.

Und dann haben wir gedacht, wenn wir schon soweit sind und wenn wir die Technik, die jetzt dahinter steht, schon haben, um eine solche Studie durchzuführen, dann gucken wir uns doch direkt auch mal an, wie gut ChatGPT eigentlich bei der Korrektur von Prüfungen wäre, wenn man das dürfte. Also haben wir dafür Klausurlösungen generiert, wir haben Klausuren generiert, wir haben Erwartungshorizonte generiert, wir haben Punkteschemata generiert und haben damit die KI gefüttert, viele, viele, viele Male, und haben dann geschaut, wie gut ist die KI eigentlich bei der Vergabe von Punkten, und wie sehr stimmt sie überein mit dem, was wir als professionelle, menschliche Prüfer vergeben würden. Also eigentlich zwei Studien, die eine zur Erstellung von Prüfungsaufgaben und die andere zur Korrektur von Prüfungsaufgaben.

Also tatsächlich erinnere ich mich, dass Doris Weßels schon ganz früh vorgeschlagen hat, ChatGPT zu nutzen, um Klausurfragen zu stellen im Mehrfach-Wahl-Stil oder auch im Einfach-Wahl-Stil. Und ja, du hast es ja selber gesagt, auch für dich als Lehrender ist das attraktiv. Aber wie gut klappt das denn jetzt nach eurer Studie?

Malte Persike: Ich war nämlich auch genau von der Doris, war ich angefixt, sozusagen als sie das damals gesagt hat. Ich habe gedacht, ja, okay, wenn Doris Weßels das sagt, dann müssen wir das ausprobieren, und die Ergebnisse waren extrem durchwachsen. Das hätte ich gar nicht so erwartet. Also, wir können sagen, dass ChatGPT ganz gut in der Lage ist, Aufgabenstellungen zu formulieren.

Was moderat gut gelingt, ist, dass ChatGPT Aufgabenstellungen auf einem bestimmten Kompetenzlevel entwickelt. Also, wir haben, wenn man zum Beispiel nach der Bloomschen Taxonomie vorgeht, vom Erinnern über das Verstehen, über das Anwenden, das Kreieren und so weiter und so fort, das klappt so bedingt gut, dass eben ChatGPT in vielen, vielen, vielen Versuchen es schafft, die von uns vorgegebenen Kompetenzebenen über die Aufgabenstellung tatsächlich zu adressieren. Das gilt sowohl bei den Mehrfach-Wahlaufgaben als auch bei den offenen Aufgaben.

Ganz speziell zu den Mehrfach-Wahlaufgaben muss man noch sagen, dass wir da ja sozusagen drei Komponenten der KI-Generierung haben. Wir haben einmal den Aufgabenstamm, das ist der Text, den eine Aufgabe einleitet, dann haben wir die richtigen Antworten, und wir haben die falschen Antworten, und, wie gerade gesagt, dieser Aufgabenstamm, der Text, das gelingt ChatGPT gut. Da kommen vernünftige Aufgabenstellungen raus, und auch im Wesentlichen quer durch die Fächer. Das klappt sowohl bei sozial und geisteswissenschaftlichen Aufgabenstellungen recht gut. Das funktioniert auch bei naturwissenschaftlichen Aufgabenstellungen moderat gut, und wenn es dann aber um die Generierung der richtigen und falschen Antworten geht, dann wird tatsächlich das Bild nach unserer Erfahrung zumindest sehr durchwachsen.

Wir haben das mit der aktuellen Version von GPT-4 aus dem, ich glaube aus dem August 2023 gemacht, also schon mit einer... nicht mehr mit GPT-3.5, sondern eben mit GPT-4, allerdings noch nicht mit GPT-4 mit der Möglichkeit, dass es im Internet recherchieren kann. Das heißt, all das, was da rauskam, eben ja, basierte auf dem Wissens- oder aus dem Training, das GPT-4 hatte, ohne im Internet recherchieren zu können. Und da stellen wir fest, dass die KI recht gut in der Lage ist, richtige Antworten zu formulieren, dass sie aber größere Schwierigkeiten dabei hat, falsche Antworten zu formulieren, also auf jeden Fall Antworten, die eindeutig falsch sind. Das gelingt der KI manchmal erstaunlich gut, aber manchmal eben auch überhaupt nicht.

Wir haben da auch gesehen, dass, je formaler und abstrakter ein Fach wird, zum Beispiel die Mathematik etwa oder die theoretische Physik, wo es viel um Formeln, auch um Symbole geht, dass auch dabei GPT größere Probleme hat, tatsächlich die richtigen und falschen Antworten zu generieren. Das heißt, und unsere Erkenntnis da ganz klar, man kann sich sehr schnell Aufgabenstämme, richtige und falsche Antworten generieren lassen. Da kann man innerhalb von kürzester Zeit sehr, sehr viel erzeugen, aber man kommt als Lehrender weiterhin nicht darum herum, jede einzelne Aufgabe tatsächlich zu kontrollieren, und zwar sowohl im Hinblick auf: ist das richtige Kompetenzlevel adressiert, das ich eigentlich haben wollte, und vor allem aber auch: sind die richtigen Antworten wirklich richtig und sind die falschen Antworten wirklich falsch?

Das komplett zu automatisieren ist zumindest in unserer Studie nicht gelungen. Wir hatten eine recht hohe Fehlerquote, sowohl dass richtige Antworten falsch waren, aber die noch größere Fehlerquote war eben dabei, dass falsche Antworten eigentlich auch als richtig hätten qualifiziert werden können, sodass mein Fazit da für die Aufgabengenerierung ganz klar ist: Vorsicht, das menschliche Auge ist nach wie vor komplett unverzichtbar.

Ist das auch die Empfehlung, die daraus folgt, für Lehrende aus eurer Perspektive, wenn sie Mehrfachfragen erstellen lassen wollen?

Malte Persike: Ja, ganz klar, also, wir haben so ein bisschen auch auf die Zeit geschaut, die wir dafür brauchen, um eine bestimmte Menge von Aufgaben zu generieren, und das ist ja tatsächlich für uns Lehrende durchaus ein höherer Zeitaufwand, vernünftige Klausuraufgaben zu erstellen, und da sorgt ChatGPT tatsächlich für eine Zeitersparnis, indem es einfach sehr schnell viele Aufgaben mit richtigen und falschen Antworten generieren kann. Das heißt, wenn ich die Zeit zusammenrechne, die eben ChatGPT braucht, um die Aufgaben zu generieren, und die wir dann als Menschen brauchen, um die Aufgaben nochmal zu selegieren und uns die Aufgaben rauszusuchen, wo es wirklich so ist, dass die richtigen Antworten richtig und die falschen Antworten falsch sind. Das dauert natürlich ein bisschen, aber es geht immer noch schneller in vielen Fällen als sich diese Aufgaben selber zu überlegen.

Dasselbe gilt für offene Aufgaben. Auch da ist die Formulierung von den offenen Fragestellungen und auch ja der Erzeugung von so einem grundsätzlichen Erwartungshorizont, was sollte denn drinstehen in der Antwort der Studierenden, geht nach unserer Erfahrung schneller, wenn man ChatGPT benutzt, als wenn man sich als Lehrender selber hinsetzt oder hinsetzt und verzweifelt versucht, Aufgaben zu erstellen.

Ich würde inzwischen tatsächlich ChatGPT immer fragen bei den Aufgaben, würde aber unseren Lehrenden immer mitgeben, ihr kommt nicht drum herum, die Aufgaben hinterher nochmal sehr sorgfältig zu prüfen, vor allem bei Multiple-Choice-Aufgaben, sind die richtigen Antwortalternativen wirklich richtig und sind die falschen wirklich falsch? Und da sehr viel Sorgfalt drauf zu verwenden, da kommt man nach meiner Erfahrung, selbst wenn man die Internetrecherche einschalten würde, nicht drum herum. Das ist unverzichtbar, dass wir unser menschliches Prüferauge und Prüferinnenauge dann nochmal einmal drauf schauen lassen.

Also, du hast jetzt mehrfach betont, dass gerade bei den Fragestellungen, bei Wahlaufgaben und auch offenen Aufgaben, das zu empfehlen ist. Gibt es aber für offene Aufgaben irgendwie noch mal Besonderheiten, auf die man achten sollte?

Malte Persike: Ganz klar, also nach unserer Erfahrung ist es so, wie gesagt, wir haben die ChatGPT-4-Version bei uns, die noch nicht im Internet recherchieren konnte, dass je faktenbasierter eine Aufgabenstellung ist, desto problematischer wird deren Richtigkeit, denn das wissen wir inzwischen ja wahrscheinlich alle, zumindest habe ich es inzwischen gelernt. Mir war das am Anfang auch nicht so klar, dass eben ChatGPT durch diese Halluzination auch einfach Fake News, also falsche Fakten generiert. Und das tut es mit einer Selbstsicherheit, die es uns Menschen sehr schwer macht, immer sofort zu erkennen, dass ein bestimmter Umstand falsch ist.

Wenn man zum Beispiel ChatGPT nach Auszügen aus deutschen Gesetzestexten fragt, dann gibt ChatGPT zum Teil wörtliche Zitate, im Brustton der Überzeugung werden da Paragraphen genannt, die so gar nicht existieren. Dasselbe gilt für Fakten aus der Mathematik, aus der Physik, aus der Psychologie. Teilweise sind einfach Fakten, die ChatGPT als Fakten generiert, falsch, und damit sind es keine Fakten, sondern es sind einfach Täuschungen, das sind Halluzinationen. Und je faktenbasierter eine Aufgabenstellung wird, desto problematischer werden die Antworten von ChatGPT. Das verbessert sich mit der Internetrecherche. Aber auch da erleben wir nach wie vor, dass eben ChatGPT diese Halluzinationen zeigt, dass also Fakten dort eben genannt oder dass von Fakten ausgegangen wird, die in Wahrheit gar keine Fakten sind, sondern Halluzinationen.

Und dieses Problem haben wir natürlich auch bei der Generierung von Aufgaben, dass ChatGPT dort Fakten annimmt, die gar keine Fakten sind, und auch das zu erkennen, ist für uns Lehrende unbedingt notwendig. Das heißt, selbst bei freien Antworten würde ich niemals eine Antwort unbesehen durchgehen lassen und in eine Klausur aufnehmen. Man muss das prüfen. Ohne die Prüfung durch das menschliche Auge kommt man nach wie vor nicht weiter.

Ich denke gerade nach, so faktenbasiert heißt ja, du hast die Rechtswissenschaften genannt, aber wahrscheinlich auch die Naturwissenschaften. Es ist ein bisschen ein merkwürdiges Ergebnis. Für die Geisteswissenschaften kann man es dann offensichtlich eher benutzen, also diese weichen Fächer. Das macht eigentlich auch so ein bisschen skeptisch, was das Wissenschaftsbasierte der weichen Fächer, sag ich jetzt mal, oder der Geisteswissenschaften, angeht.

Malte Persike: Also ich glaube, da kommt's ganz extrem zum einen auf das Fach und zum zweiten aber auch auf das Inhaltsniveau der Aufgabenstellung an. Also wenn ich mir etwa die Geschichtswissenschaft anschaue, das ist ja ganz klar faktenbasiert, also da müssen Fakten genannt werden, da müssen Jahreszahlen stimmen, da müssen die Namen von Personen stimmen. Also da kann man sich ja nichts ausdenken, sondern da müssen Fakten einfach stimmen.

Und je, sagen wir mal, je weniger üblich solche Fakten sind, das heißt, je seltener ChatGPT bestimmte Dinge während seines Trainings gesehen hat, desto wahrscheinlicher ist es, dass ChatGPT bei ganz konkreten Fragen, zum Beispiel zu historischen Ereignissen auch Halluzinationen produziert, also nicht zutreffende Fakten behauptet. Also insofern haben wir, glaube ich, geisteswissenschaftliche Aufgabenstellungen oder sozialwissenschaftliche Aufgabenstellungen, die auch sehr stark faktenbasiert sind.

Was anderes ist es zum Beispiel, wenn wir ChatGPT zum Beispiel in der Filmwissenschaft dazu benutzen würden, eine Art Drehbuchskizze zu schreiben. ChatGPT ist wahnsinnig gut in der Lage, so diese typische Struktur zum Beispiel eines Heldenepos zu reproduzieren und auch mit Text zu füllen, das heißt, wo der Text selber oder eine Textstruktur das Wesen der Aufgabe ist, da, glaube ich, ist ChatGPT inzwischen wahnsinnig gut. Sobald es aber um Fakten geht, und zwar in egal welcher Wissenschaftsdisziplin, ist ChatGPT gleich gut oder schlecht, und wir müssen immer damit rechnen, dass da Fake News dabei herauskommen.

Ja, das war glaube ich, eine wichtige Klarstellung jetzt nochmal. Lass uns nochmal auf eure Studie zurückkommen. Du hast ja gesagt, es hatte zwei Teile. Über die Aufgabenstellung haben wir jetzt relativ ausführlich gesprochen. Es ging ja aber auch nochmal um die Notenvorschläge oder Notengebung durch ChatGPT. Was gab es denn da an Ergebnissen?

Malte Persike: Das war auch durchaus für mich ein absolut überraschendes Ergebnis. Wir haben folgendes gemacht: Wir haben Klausuraufgaben gestellt aus verschiedenen Gebieten, wir hatten die Statistik dabei, wir hatten aber auch andere Fächer dabei, wie zum Beispiel die Germanistik und auch andere Fächer, wo wir einfach Klausuraufgaben gestellt haben. Wir haben dann Lösungen generiert mit Fehlern darin.

Wir haben zum Teil studentische Lösungen aus Altklausuren genommen, haben die umgeschrieben, sonst Lösungen, da kommen wir vielleicht auch noch mal nachher drauf, man darf ja die Antworten von denen nicht einfach so nehmen, denn die Studierenden haben unter Umständen Urheberrecht darauf. Das heißt, man muss schon so ein bisschen was tun. Das heißt, wir haben verfremdete Lösungen genommen, wir haben zum Teil eigene Lösungen generiert mit Fehlern darin, haben dann eine Musterlösung geschrieben oder einen Erwartungshorizont geschrieben und haben sehr konkrete Punkteschemata geschrieben. Also, was soll vorkommen in der Aufgabe und wie viel Punkte gibt es?

Also, ich habe, das kann ich ganz offen sagen, für noch keine meiner Klausuren jemals ein so detailliertes Punkteschema geschrieben wie für diese Studie, weil wir einfach davon ausgegangen sind, dass man ChatGPT schon relativ genau sagen muss, was man da erwartet, und dann haben wir das da reingefüttert, und zwar nicht nur einmal, sondern wir haben jede Lösung, die wir an der Stelle generiert haben, haben wir nicht nur einmal reingegeben, sondern wir haben sie 1000 Mal von ChatGPT bewerten lassen, einfach um eine Stichprobe zu haben von der Bewertung.

Und unsere Qualitätskriterien dabei waren eigentlich im Wesentlichen zwei Stück. Das kennen wir aus der psychologischen Diagnostik. Wir haben zum einen die Reliabilität von Beurteilung. Das bezieht sich auf die Tatsache, dass derselbe Urteiler bei derselben Leistung auch er immer zum gleichen Urteil kommen sollte. Also, es sollte nicht vorkommen, dass ich als Prüfender, wenn ich dieselbe Prüfungsleistung mehrfach lese, dass ich beim ersten Mal sage, oh das ist so eine 3 und beim zweiten Mal ist's eine 5, und beim dritten Mal ist's eine 1. Das sollte nicht passieren.

Und dann haben wir die sogenannte Interrater-Übereinstimmung. Das ist die Übereinstimmung, wenn wir zwei verschiedene Urteile haben, ob die sich einig sind in ihren Urteilen, so, und das ist grundsätzlich verschieden. Also, es kann sein, dass ich in meinem Urteil sehr konsistent bin, dass auch mein Kollege Herr Müller, in seinem Urteil sehr konsistent ist. Aber wir unterscheiden uns einfach systematisch voneinander. Ich könnte zum Beispiel immer netter sein als Herr Müller und immer eine Note besser geben. Solange das konstant ist, ist das auch okay. Das heißt, das sind diese beiden Arten von Zuverlässigkeit oder von Präzision bei der Notengebung.

Und wenn wir das dann mit ChatGPT ausprobieren, dann wäre meine Erwartung wenigstens gewesen, dass die Urteile, die ChatGPT in mehreren Durchläufen produziert, zumindest ähnlich sind in der Benotung. Und da müssen wir sagen, zumindest bei den Aufgaben, die wir ausprobiert haben, das waren vier verschiedene Aufgaben, also aus vier verschiedenen Fachgebieten, ist das überhaupt nicht so. Wir haben zum Beispiel in der, also in der Statistik Aufgabe, haben wir für dieselbe Lösung ein Spektrum gehabt von 3 bis zu 10 von 10 möglichen Punkten. Also in verschiedenen Durchläufen hat ChatGPT für dieselbe Aufgabenlösung mal 3 Punkte vorgeschlagen als Bewertung, mal 5, mal 9 oder mal 10 Punkte, und das ist inakzeptabel. Das geht nicht.

Wenn man davon ausgeht, dass ein menschlicher Bewerter natürlich mal schwanken kann in seiner Punktevergabe, wenn auf so einer Punkteskala von 0 bis 10, da kann es sicherlich mal passieren, dass je nach Tagesform mal 5 und mal 6 Punkte vergeben werden, vielleicht auch mal 4, aber dass derselbe Bewerter bei derselben Leistung mal 3 und mal 10 von 10 möglichen Punkten gibt. Das sollte nicht vorkommen. Das ist bei ChatGPT aber regelmäßig vorgekommen, sodass wir ganz klar sagen müssen, für die Bepunktung von Klausuren, für die Notenfindung ist nach unserer Erfahrung zumindest für die Fächer, die wir ausprobiert haben, und für die konkreten Klausurlösungen, die wir gegeben haben, ChatGPT aktuell nicht brauchbar. Und das finde ich, ist ein Ergebnis, das hätte ich so nicht erwartet, aber das hat sich einfach gezeigt, und ich würde das Ergebnis relativ stabil vertreten, weil wir einfach so viele Versuche gemacht haben.

Ja, das ist sehr interessant, weil man denkt ja in dem Fall auch, dass es um Hard Facts geht bei Aufgabenlösungen. Wir kommen damit schon in einen Bereich, den ich auch noch kurz ansprechen möchte, nämlich die Rechtslage. Was darf man denn, nachdem ihr jetzt so viel ausprobiert habt, als Lehrender überhaupt bei Prüfungen, und was darf man nicht?

Malte Persike: Ja. Da kann ich zunächst mal ergänzen, dass es einen Aspekt gibt, wo ich zumindest anekdotisch die Erfahrung gemacht habe, dass ChatGPT da sehr gut performt. Und das ist dann, wenn wir als Bewertende, als Prüfende, die Punkte vorgeben. Das heißt, wenn wir eigentlich genau das machen, was wir in der Studie gemacht haben. Wir geben eine Lösung rein, wir geben einen Punktehorizont rein, wir geben dann eine Aufgabenlösung von Studierenden rein, und dann sagen wir, als Prüfende, dieser Aufgabenstellung vergebe ich 8 von 10 möglichen Punkten. Liebes ChatGPT, schreib du mal die Begründung dafür, warum ich 8 von 10 Punkten gegeben habe. Dieses Feedback ist erstaunlich gut, das funktioniert.

Das heißt, man könnte sich als Lehrender jetzt natürlich sofort vorstellen, dass man sich nur noch in Anführungszeichen die Mühe macht, Punkte zu vergeben, und wenn es dann darum geht, diese Punktevergabe zu begründen, dann schmeißt man einfach ChatGPT an und sagt so, jetzt formuliere mal bitte zu dieser Lösung eines Studierenden vor dem Hintergrund der Musterlösung und so weiter, und des Punkteschemas, ein Feedback. Das könnte man machen und das könnte ganz gut funktionieren.

Aber wir müssen leider sagen, dass gerade bei offenen Klausurleistungen von Studierenden regelmäßig davon auszugehen ist, dass das ein Werk der Studierenden ist, auf das die Studierenden ein Urheberrecht haben. Das heißt, wenn wir dann als Lehrender einfach hergehen und und dieses Werk irgendwo hochladen, zum Beispiel zu ChatGPT, dann vervielfältigen wir das Werk, und damit sind wir im Bereich des Urheberrechts, und die Studierenden müssten dieser Vervielfältigung eigentlich zustimmen.

Wie gesagt, ich mache immer den Hashtag, also ich bin kein... ich bin nicht rechtswissenschaftlich vorgebildet, aber wir haben hier in Aachen mit unserer Rechtsabteilung sehr lange und intensiv über eben genau solche Punkte gesprochen. Es gibt ja auch das Gutachten aus Bochum, das sich mit Rechtsfragen bei der Benutzung von ChatGPT auseinandersetzt, und wir kommen klar zu dem Schluss, dass erstens gerade offene Klausurlösungen von Studierenden regelmäßig ein Werk ist, das zunächst urheberrechtlich geschützt ist. Damit müssten die Studierenden der Verwendung als Upload zu so einer KI zustimmen. Allerdings müssten sie diese Zustimme freiwillig erteilen, und von einer freiwilligen Zustimmung ist bei Studierenden in aller Regel nicht auszugehen, weil die sich zu uns als Hochschule in einem Abhängigkeitsverhältnis befinden.

Das heißt aus meiner Sicht, ich würde ein großes, großes Ausrufezeichen machen: bitte noch keine Klausurlösung hochladen, sondern auf Regularien der Hochschule warten, die einen eindeutigen Umgang mit so etwas ermöglichen. Wenn Prüfungsordnungen geändert werden zum Beispiel, und da explizit drin steht, dass eine solche Verwendung von Prüfungsleistungen von Studierenden erlaubt ist und zulässig ist, dann sind wir in einem ganz anderen Bereich. Aber solange wir das nicht haben, wäre ich sehr vorsichtig dabei, studentische Prüfungsleistungen hochzuladen.

Und dann kommt ein zweiter Punkt aus dem Urheberrecht rein, nämlich es gibt ja auch noch dieses Verbot der vollständig automatisierten Einzelentscheidung, das heißt, diese Punktevergabe auf Basis von ChatGPT, die wir da ja so ein bisschen erprobt haben. Das eine KI machen zu lassen, ist ohnehin unzulässig, weil laut eben DSGVO, ich glaube, es ist Paragraph 21 oder 22, bzw. der Artikel 21 oder 22, dürfen wir diese vollautomatischen Entscheidungen im Einzelfall nicht durchführen. Das heißt, die KI zu benutzen, um Prüfungsleistungen zu bewerten und daraus Noten zu vergeben, das geht ohnehin nicht. Also, sehr vorsichtig bitte sein beim Hochladen von Prüfungsleistungen. Ich würde das eher nicht tun im Augenblick.

Vor dem Hintergrund all dessen, was wir jetzt besprochen haben, hast du einen Überblick darüber, wo bzw. wie an der RWTH Aachen zurzeit ChatGPT schon in Prüfungen verwendet wird?

Malte Persike: Also, es gibt so ein paar Pilotprojekte in Aachen. Wir haben ChatGPT zum Beispiel, wie auch andere Hochschulen, in unserem Moodle-System in der Erprobung. Das ist eine absolute Pilotphase in einzelnen Projekten mit einem klaren Forschungsfokus, wo eben, ja ChatGPT als Moodle-Plug-in benutzt wird. Wir haben einzelne Anwendungen, wo zum Beispiel ChatGPT tatsächlich zur Generierung von formativen Quizaufgaben benutzt wird.

Ich kenne vor allem eine für mich sehr interessante Anwendung, die ich gerne weiterverfolgen würde, und das ist nämlich die Frage, wie gehen wir eigentlich mit nicht überwachten Abschlussprüfungen in Zeiten von ChatGPT um? Wir müssen davon ausgehen, dass unsere Studierenden ChatGPT benutzen beim Anfertigen von nicht überwachten Prüfungsleistungen, zum Beispiel die klassische Bachelor- oder Masterarbeit, wo wir eigentlich nicht nachprüfen können, ob der Studierende oder die Studierende ChatGPT eingesetzt hat oder andere generative KIs eingesetzt hat oder nicht.

Und nach meiner Erfahrung müssen wir an der Stelle ganz klar sagen, die Hoffnung, dass wir elektronische Systeme benutzen können, um solche Täuschungen zu entdecken, die hätte ich eher nicht, also den Anscheinsbeweis führen zu können auf Basis irgendeines Wahrscheinlichkeitswerte, das uns so ein KI-System rausgibt, wenn wir eine Studierenden-Prüfungsarbeit dort hochladen und sagen, jetzt sag mir doch mal, ob diese Arbeit irgendwie ChatGPT geschrieben ist oder nicht, und dann kommt da raus, ja zu 69 Prozent ist sie mit ChatGPT geschrieben. Darauf würde ich keinen Anscheinsbeweis fußen.

Das heißt, wir müssen davon ausgehen, dass wir ChatGPT in Abschlussarbeiten erleben und dass Studierende ChatGPT in nicht überwachten Abschlussarbeiten einsetzen, und dann ist für mich die Frage, wie gehen wir mit solchen Arbeiten um? Da gibt es ja diese Idee der mündlichen Ergänzungsprüfung, kann man machen. Da würde ich aber sagen, gerade dann, wenn es viele Prüfungen gibt, skaliert das nicht. Wir können nicht 1000 schriftliche Arbeiten dann einfach nochmal mit 1000 mündlichen Ergänzungsprüfungen unterlegen. Das wird einfach auf Dauer nicht skalieren.

Was ich aber für eine gute Idee halte, ist, dass Studierenden explizit erlaubt wird, solche Werkzeuge in Abschlussarbeiten, in Prüfungen zu benutzen, dass sie aber dann ihrer Nutzung zum Beispiel einen Anhang beigeben müssen, wo sie beschreiben, wie sie es genutzt haben, und wo sie reflektieren, an welcher Stelle das Tool geholfen hat und an welcher Stelle eben auch nicht. Das heißt, den Einsatz von ChatGPT oder generativer KI für Abschlussarbeiten tatsächlich vielleicht sogar verpflichtend zu machen, aber immer mit der Notwendigkeit zu unterlegen, das muss in einem Anhang aufgenommen werden, der eben dokumentiert, wie der Einsatz dieses Tools stattgefunden hat. Das, finde ich, ist eine sehr schlaue Art und Weise, mit dieser Bedrohung ChatGPT für nicht überwachte Abschlussarbeiten umzugehen.

Der zweite Punkt, und das ist für mich auch ein ganz spannender Einsatz. Wir wissen ja zum Beispiel, dass generative KI sehr gut Programmierleistungen unterstützen kann, also Code zu schreiben und überprüfen zu lassen. Das kann generative KI recht gut. Da würde ich natürlich sofort fragen, warum dann nicht in Prüfungen einsetzen, ruhig auch in schriftlichen Prüfungen, die in einem überwachten Kontext stattfinden. Warum den Studierenden nicht erlauben, wenn es zum Beispiel um Programmier-Klausuren geht, wo aber eigentlich das Probieren, das Programmieren selber gar nicht im Vordergrund steht, sondern vielleicht ja die Entwicklung einer Software-Architektur, in solchen Fällen die Nutzung generativer KI in Prüfungen selber zu erlauben, das kann auch, glaube ich, ein guter Weg sein, um mit diesen Werkzeugen proaktiv und konstruktiv umzugehen und sie nicht einfach von vornerein zu verbieten.

Das finde ich ganz interessant, weil ich hatte ja das Gespräch angefangen damit zu sagen, es geht in unserem Gespräch jetzt erst mal gar nicht um diese Frage der Abschlussarbeiten oder Täuschungsversuche in dem Fall. Jetzt hast du Vorschläge gemacht, die wahrscheinlich also, die finde ich jetzt auch relativ komplex, das zu dokumentieren, das ist ja wahrscheinlich gar nicht so ganz einfach. Und das ist das, wo du zum Schluss in unserem Gespräch noch mal quasi von selber drauf gekommen ist. Nachdem wir ja eigentlich ganz lange andere Themen im Mittelpunkt hatten, also die Aufgabenerstellung, Mehrfachaufgaben und auch offene Klausuraufgaben und so weiter, kommen wir jetzt zum Schluss doch auf dieses besonders häufig diskutierte Thema zurück. Vielleicht passt das ganz gut mit der Abschlussfrage. Was ist denn, wenn du jetzt diese Bilanz ziehst aus all dem, wie du dich schon damit beschäftigt hast, mit all dem, was wir jetzt besprochen haben, was ist für dich in diesem Themenfeld am spannensten und am überraschendsten?

Malte Persike: Also, am spannendsten, am überraschendsten ist für mich tatsächlich, und das verweist wirklich auf das, was du gerade angesprochen hast, die Diskrepanz zwischen diesem Gefühl, die KI kann irgendwie alles, und dann in der Praxis, wenn wir das wirklich mal empirisch ausprobieren, was klappt denn wie gut, zu sehen, dass es an ganz konkreten Punkten immer noch Lücken gibt, bei denen die KI eben nicht so performt, wie wir das erwarten würden.

Und deswegen bin ich auch zum Schluss - da hast du natürlich völlig recht - so ein bisschen ausgewichen, weil all das, was wir heute besprochen haben, nämlich die Güte der Aufgabenerstellung durch ChatGPT, die Güte der Aufgabenkorrektur durch ChatGPT, die Güte der Feedback-Generierung durch ChatGPT, das wird sich mit jeder zukünftigen Iteration dieser Tools verändern, und wahrscheinlich wird es sich verbessern. Also zumindest, wenn wir die letzten zwölf Monate Revue passieren lassen, dann sind wir bei dem, was ChatGPT-4 heute kann, weit jenseits von dem, was im vorigen November ChatGPT-3 konnte.

Das heißt, das sind alles nur Momentaufnahmen, und ich würde zunächst mal davon ausgehen, dass die Leistungsgüte der KI in Zukunft einfach immer nur noch besser werden wird, und deswegen ist es, glaube ich, für uns gerade im Prüfungskontext eine gute Idee, nicht über verbieten nachzudenken, sondern immer wieder zu testen, was geht denn jetzt inzwischen und vor allem auch in Bezug auf die Kompetenzen, die wir eigentlich abprüfen wollen. Denn darum geht es ja in den Prüfungen im Wesentlichen bei den Studierenden, immer auch in den Blick zu nehmen, in welcher Weise kann die generative KI dort unterstützen oder in welcher Weise müssen wir, um authentische Prüfungen zu stellen, generative KI tatsächlich als Tool in solchen Prüfungen einbinden?

Das heißt, an beiden Ecken des Spektrums, zum einen bei uns Lehrenden, wenn wir die Prüfungen erstellen, durchführen, korrigieren, als auch bei den Studierenden, wenn sie die Prüfungen bearbeiten, müssen wir, glaube ich, uns der Tatsache gewahr sein, dass wir nicht von einem Kenntnisstand ausgehen können, den wir jetzt heute haben. Wir haben nicht irgendeine Studie wie die aus Aachen, die uns sagt, das geht, und das geht nicht, sondern dass wir uns ganz klar sein müssen, das kann morgen anders aussehen, und wir müssen Wege finden, wie wir mit dieser hohen Dynamik umgehen, und das kann nicht der Weg sein, dass wir es in allen möglichen Kontexten verbieten, sondern wir müssen einfach immer wieder ausprobieren, um zu schauen, wo wir nachsteuern müssen und wie wir diese Tools dann eben am Ende doch sinnvoll in die Prüfungsdurchführung eingebunden bekommen.

Bleibt herausfordernd und sehr spannend. Herzlichen Dank für dieses Interview, Malte.

Malte Persike: Sehr, sehr gerne.