Kriteriumsorientierte adaptive Hochschulklausuren

14.02.2018: Im Beitrag wird Hanna Köhler, wissenschaftliche Mitarbeiterin am Lehrstuhl für empirische Methoden der erziehungswissenschaftlichen Forschung, interviewt. Außerdem berichten Studierende und eine Dozentin über ihre Erfahrungen mit Klausuren – sowohl mit herkömmlichen, als auch mit solchen, die auf die Studierenden und deren relevante Kompetenzen zugeschnitten sind.

interview 2018 koehler hanna kriteriumsorientierte adaptive hochschulklausuren.mp3

Transkript

Im e-teaching.org-Interview wird heute eine weitere Antwort auf die Frage des aktuellen Themenspecials „Was macht Lernen mit digitalen Medien erfolgreich?“ gegeben. Das Forschungsprojekt „KAT-HS“ beschäftigt sich mit Prüfungen und stellt sich im Interview vor. Die etwas sperrige Buchstabenkombination steht dabei für „Kriteriumsorientiertes adaptives Testen in der Hochschule“. Mein Name ist Stephan Brosch und bei mir ist Hanna Köhler, Doktorandin am Institut für Erziehungswissenschaft der Friedrich-Schiller-Universität und vom Lehrstuhl für Empirische Methoden der erziehungswissenschaftlichen Forschung. Hallo Hanna!

Frau Hanna Köhler: Hallo!

Als ich mich auf diese Sendung vorbereitet habe, habe ich mich gefragt: „Kriteriumsorientiert? Was heißt das eigentlich?“

Frau Hanna Köhler: „Kriteriumsorientiert“ im Falle von Prüfungen bedeutet, dass der Lernende allein auf Basis seiner Fähigkeit in einem jeweiligen Modul bewertet wird, unabhängig von der Fähigkeit anderer Lernender. Das heißt in diesem Falle, dass seit der Bologna-Reform ja die Module auf den Erwerb von Kompetenzen ausgerichtet sind. Es werden konkrete Erwartungen formuliert, was eine Studentin oder ein Student können muss, um ein Modul oder bzw. später auch einen Studiengang erfolgreich abzuschließen. Das heißt wiederum, dass die Klausurnoten Aussagen machen müssen über das, was ein Student beziehungsweise eine Studentin kann. Das Erreichen einer bestimmten Notenstufe ist dabei an konkrete Kompetenzanforderungen festgemacht: Meine Note spiegelt wirklich konkret wider, was ich kann.

Und darum geht’s auch in dem Projekt jetzt?

Frau Hanna Köhler: Genau! In dem Projekt geht es um die Erhöhung der Qualität und Aussagekraft von Klausuren, aber im Sinne von diesem computerisierten-adaptiven Testen auch zur Verbesserung der Klausurdurchführung und -auswertung, sodass es effizienter ist und weniger fehleranfällig.

Jetzt ist da noch ein zweiter Teil drin: Adaptives Testen. Was muss ich mir denn darunter vorstellen?

Frau Hanna Köhler: Klassischerweise – wie man das kennt bei konventionellen Klausuren – ist es so, dass vor der Testanwendung feststeht, welche Aufgaben, in welcher Reihenfolge eine Studentin oder ein Student bekommt. Manchmal gibt es verschiedene Klausurversionen, aber in der Regel ist eben vorher klar, welche Aufgaben ich beantworten muss. Beim computerisierten-adaptiven Testen dagegen ist es so, dass nicht jeder Student die gleichen Aufgaben bekommt, sondern eine Aufgabenauswahl stattfindet und zwar auf Basis des bisherig gezeigten Antwortverhalten der Testperson. Je nachdem wie gut ich vorher in den Aufgaben war, bekomme ich andere Aufgaben präsentiert. Der Vorteil davon ist, dass nur solche Aufgaben ausgewählt werden, die besonders viel diagnostische Information über die Merkmalsausprägung der Testpersonen liefern. Somit wird auf Aufgaben verzichtet, die die Person sehr wahrscheinlich oder sehr unwahrscheinlich lösen kann, sodass die Testlänge verkürzt werden kann, gleichzeitig aber die Effizienz oder die Testgenauigkeit eben erhöht werden kann.

Im Falle von Klausuren bedeutet das, dass mit einer mittelschweren Aufgabe begonnen wird und dann je nachdem, ob die Person die Aufgabe richtig oder falsch gelöst hat, eine schwierigere oder leichtere Aufgabe präsentiert wird. So ist es so, dass Personen, die sehr gut sind, keine leichten Aufgaben bekommen, die sie sowieso lösen würden. Beziehungsweise andersherum: Ein schlechterer Student bekommt nicht die sehr schweren Aufgaben, die er auf jeden Fall nicht lösen wird, sondern die Aufgabenschwierigkeit wird angepasst an die gezeigte Fähigkeit.

Das kann man sich vorstellen, wie bei einem Vorgehen bei einer mündlichen Prüfung: Bei mündlichen Prüfungen ist es ebenso, dass der Prüfer meist Aufgaben auswählt, je nachdem was gerade geantwortet wurde. Beim computerisierten-adaptiven Testen wird der Prüfer dann ersetzt. Es findet ein Algorithmus statt, der die Aufgaben auswählt. Als Konsequenz ergibt sich aber dadurch, dass unterschiedliche Testpersonen auch unterschiedliche Aufgaben bekommen und dadurch nicht einfach nur die Anzahl der richtig gelösten Aufgaben gewählt werden kann, als andere Basis für die Noten. Ich kann nicht einfach nur eine Summe bilden und dann entscheiden, die Note ist richtig, weil eben Studierende mit sehr leichten Aufgaben genauso viele richtig lösen können, wie Studierenden mit sehr schweren Aufgaben. Stattdessen müssen mathematische Modelle verwendet werden, meist im Rahmen der Item Response Theory, auf die ich jetzt nicht konkreter eingehe, aber es wird eben mathematisch berechnet, wie die Note festgelegt wird. Und die Basis dafür bildet das Projekt, mit dem wir den Dozierenden eine Grundlage geben wollen und ihnen ein Werkzeug geben wollen, um Klausuren so besser gestalten zu können.

Ja, wir machen jetzt mal einen ganz, ganz kleinen Schritt zurück und schauen einfach mal: Wie ist es denn jetzt gerade aus Sicht der Studierenden? Und da haben wir einfach mal ein paar aufgenommen und die hören wir uns jetzt mal zusammen an.

Student/in Nr. 1: In vielen Klausuren war es einfach nur reines Faktenwissen und Auswendiglernen und einfach genauso wiedergeben, wie es auch in den Vorlesungsfolien steht. Und bei den anderen musste man dann auch eher eine Frage richtig beantworten oder bearbeiten und einen Essay dazu schreiben, einen kurzen, wo man dann schon deutlich mehr das anwenden muss.

Student/in Nr. 2: Ich hatte schon eine Klausur, da war’s überhaupt nicht transparent. Da gab es auch tatsächlich nur sieben Punkte auf fünfzehn Aufgaben.

Student/in Nr. 3: Wenn es um das blankes Faktenwissen geht, denke ich, ist es sehr klar, wie die Notenabstufungen sind. Wenn es dann darum geht, eben das Erlernte zu verknüpfen und anzuwenden, hat glaube ich der Dozent sehr großen Einfluss eben darauf. Und es ist auch manchmal nicht so ganz von außen nachvollziehbar, wo es dann wahrscheinlich am ehesten darum geht, wie man dann argumentiert. Aber wahrscheinlich kanns da auch Differenzen zwischen den unterschiedlichen Beratungen geben, denke ich.

Student/in Nr. 4: Bei manchen wird vorher klipp und klar gesagt – also auch von den Folien – was für Lernziele das sind und dann ist das auch echt transparent, wie dann auch die Bewertung erfolgen wird. Und bei manchen halt gar nicht.

Okay, was hast du denn da jetzt herausgehört?

Frau Hanna Köhler: Im Wesentlichen werden hier zwei wichtige Punkte adressiert von den Studierenden. Erstens: Die Operationalisierung der Lernziele durch die Klausuraufgaben. Meist ist es so, dass in den Klausuraufgaben Wissen abgefragt wird, obwohl in den Modulkatalogen als Lernziele höhere kognitive Anforderungen adressiert werden. Der zweite Punkt, der hier angesprochen wird, ist die Kriteriumsorientierung beim Wertungsmaßstab. Für die reine Abfrage von Wissen ist den Studierenden meist klar, wie sie bewertet werden und es wird als transparent wahrgenommen. Bei höheren kognitiven Anforderungen hingegen ist den Studierenden nicht klar, auf welcher Basis sie bewertet werden. Oft erfolgt hier die Bewertung nur in Relation zu anderen Studierenden. Dieser Vergleich mit anderen sagt aber eigentlich nichts darüber aus, was der Studierende kann, denn je nachdem in welcher Gruppe er sich befindet, würde seine Leistung zu einer unterschiedlichen Note führen. Die Note selbst beschreibt also nicht die Fähigkeit

Jetzt hast du vorher „kognitive Anforderungen“ erwähnt. Was muss ich mir denn darunter vorstellen?

Frau Hanna Köhler: Es gibt verschiedene kognitive Anforderungen oder verschiedene Stufen kognitiver Anforderungen. Die unterste Stufe ist das reine Wissen, das heißt die Wiedergabe von gelernten Inhalten. Das wird von den Studierenden auch als am häufigsten abgefragt genannt. Wichtig sind aber eigentlich auch andere Aspekte: Die höheren kognitiven Anforderungen. Dazu zählt zum Beispiel das Verständnis, das heißt mit eigenen Worten zu begründen, Wissen auf neue Situationen anzuwenden, Zusammenhänge zu erkennen, sich Neues erschließen zu können und auch Dinge bewerten zu können. Das heißt nicht nur rein wiederzugeben, was eigentlich in der Vorlesung drankam. Diese Aspekte werden aber häufig in den Klausuren nicht abgefragt. Später im Beruf sind aber vor allem die höheren kognitiven Anforderungen relevant. Die Noten in den Klausuren spiegeln aber das reine Wissen meist wider, da nur dieses abgefragt wird, obwohl heutzutage Informationen viel leichter zur Verfügung stehen.

Es hat also sogar Auswirkungen auf meine spätere berufliche Laufbahn?

Frau Hanna Köhler: Ja und nein. Es hat vor allem Auswirkungen auf den Auswahlprozess, also ob ich überhaupt einen Beruf bekomme, denn häufig findet die Auswahl auf Basis der Noten statt. Die Noten spiegeln aber meist eben nicht die Kompetenz wider, die für das Modul formuliert ist, sondern eben nur das Auswendiglernen.

Also das adaptive Testen mit dieser Kriteriumsorientierung, das greift dem Problem also vor?

Frau Hanna Köhler: Genau. Also diese Kriteriumsorientierung, die soll die Aussagekraft und die Vergleichbarkeit der Noten zwischen verschiedenen Jahrgängen und zwischen den Studierenden erhöhen und gleichzeitig soll das computerisierte adaptive Testen in der Klausur eine bessere Passung zwischen Fähigkeiten und Aufgaben ermöglichen und dadurch eine höhere Messpräzision, was zu einer faireren Bewertung führt. Gleichzeitig führt es auch dazu, dass die Auswertung viel, viel schneller stattfinden kann.

Jetzt stellt sich natürlich die Frage: Wie ist es denn jetzt gerade und was machen die Dozierenden eigentlich? Dazu haben wir hier auch mal eine Dozentin befragt und das hören wir uns jetzt einfach auch nochmal an.

Dozentin: Es sind immer so zwei bis vier Fragen pro Sitzung. So als Zielvorstellung. Ja, und dann handelt es sich immer um ähnliche, wichtige Konzepte und da variiere ich dann eben also so die Aufgabenstellung. Ja, mal ist es irgendwie negativ oder mal ist es positiv. Mal ist es der eine Schwerpunkt, mal ist es der andere Schwerpunkt. Also, dass ich über diesen Inhalten dann die konkrete Frage variiere.

Ich prüfe nur Faktenwissen, weil ich zwei Bärengruppen habe. Einmal die Lehramtstudierenden, die habe ich im zweiten Semester. Da sind es zwischen 400 und 600 Klausuren, die da gestellt werden und ich habe überhaupt nicht das Personal dazu, dass wir Transferaufgaben in irgendeiner Weise stellen könnten. Und jetzt so ausgeklügelte Multiple-Choice-Aufgaben mir zu überlegen, dass da Transfer irgendwie möglich ist - Dazu habe ich auch überhaupt nicht das Potenzial. Deswegen sind das relativ einfache „Wissensüberprüfungsaufgaben“.

Es ist immer so, dass 50% erreicht werden müssen, um eine 4,0 zu bekommen. Dann staffele ich das eben nach diesen konkreten Punkten: Es ist gleichabständig zwischen einer 3,0 und 4,0; einer 2,0 und 1,0 und so weiter. Es gibt natürlich alle Teilnoten. Zehn bis fünfzehn Prozent können ruhig durchfallen, weil ich davon ausgehe, dass manche es einfach probieren, aber ohne zu lernen. Die möchte ich gerne „bestrafen“ sozusagen. Ich bin sehr zufrieden, wenn es einen Schnitt von 2,5 gibt. Wenn die Klausur aus dem Vorjahr wieder so gut funktioniert hat. Ich strebe an, dass sich fünfzig Prozent der „Items“, die ich da benutzt habe oder der Fragen, die ich da benutzt habe, dass die in irgendeiner Weise ausgetauscht werden. Also, dass ich meinetwegen aus einer positiven eine negative mache oder einen leicht anderen Aspekt betone. Also, dass man nicht einfach, wenn man von irgendjemanden die Klausur aus dem letzten Jahr mitbekommen hat, dass man dann automatisch besteht.

Was hast du da jetzt herausgehört?

Frau Hanna Köhler: Aus Sicht der Dozentin werden mehrere Dinge angesprochen. Zum einen, dass die Zeit für die Erstellung und Korrektur von Aufgaben vor allem mit höheren kognitiven Anforderungen einfach nicht vorhanden ist. Sie fokussiert sich auf die reine Abfrage von Faktenwissen. Zum anderem orientiert sich der Bewertungsmaßstab an der Leistung des Jahrgangs. Es findet keine kriteriale Verankerung statt.

Durch dieses computerisierte Testen in der Klausur, was wir erreichen wollen, ist war zum Beginn ein höherer Initialaufwand nötig, weil die Klausuren erstmal grundlegend neu konzipiert werden müssen. Später findet aber eine massive Zeitersparnis statt, sodass diesem Problem vorgebeugt wird. Diese Zeitersparnis kann auch für die Erstellung besserer Aufgaben mit höheren kognitiven Anforderungen genutzt werden.

Gleichzeitig ermöglicht die Kriteriumsorientierung, die wir zum Ziel haben, einen konstanten Bewertungsmaßstab zwischen den Studierenden und über die Zeit hinweg, sodass nicht die Lernkompetenz der anderen Studierenden als Vergleichsmaßstab gilt, sondern eben wirklich die Fähigkeit selbst für das Modul.

Das heißt also diese Lerngruppengröße, die sie da anspricht und auch die Komplexität in der Erstellung derartiger Klausuren – Das fällt dann einfach weg?

Frau Hanna Köhler: Ja, also es findet eine leichtere Auswertung statt, die deutlich schneller geht und die Klausuren selbst werden auch kürzer.

Also eine bessere Vergleichbarkeit und schnellere Auswertung und auf jeden Fall ein klarer Umriss der kognitiven Anforderungen. Das klingt auf jeden Fall schon mal nach der Lösung aller Probleme gerade, oder?

Frau Hanna Köhler: Ja, ob wir alle Probleme damit lösen können, ist natürlich die Frage. Aber es soll auf jeden Fall den Prozess schon mal generell verbessern und aus Sicht der Dozierenden die Erstellung von Klausuren deutlich erleichtern und dadurch aber auch die Fairness für die Studierenden selbst. Also findet sowohl für die Dozierenden als auch für die Studierenden eine Verbesserung der Situation statt.

Das wäre ja in Zeiten, in denen „Moodle“ oder „Ilias“ eine immer größere Rolle im universitären Kontext spielen, ein relativ nötiger Schritt, oder?

Frau Hanna Köhler: Die Computerisierung von Klausuren ist eigentlich schon längst überfällig. Immer mehr Inhalte an der Universität finden online statt: Es gibt Lernplattformen wie „Moodle“, Aufgaben werden online abgegeben, Hausarbeiten werden am Computer durchgeführt. Trotzdem sind die Klausuren immer noch „Stift und Papier“-basiert.

Das ist komisch.

Frau Hanna Köhler: Ja, diese Passung ist eigentlich längst überfällig, dass auch Klausuren am Computer stattfinden sollten, weil eben immer mehr Kompetenzen einfach generell am Computer durchgeführt werden. Auch später im Berufsleben. Immer mehr findet digital statt, also warum sollten nicht auch Klausuren digital stattfinden?

Wie geht's denn jetzt weiter?

Frau Hanna Köhler: Das Ziel des Projektes ist es, eine Software für die Dozierenden bereitzustellen, um für sie die Erstellung und Auswertung von Klausuren zu erleichtern, sodass fairer bewertet werden kann und mehr Zeit für bessere Aufgaben zur Verfügung steht. Zusätzlich wollen wir Workshops erstellen für die Einführung und für die Verwendung der Software.

Was natürlich auch zwingend erforderlich ist, ist die Untersuchung von sogenannten Hinderungsgründen. Was kann einer Umsetzung im Wege stehen? Weil gerade wenn nicht computerisiert getestet wird, müssen Dinge geklärt werden, wie technische Voraussetzungen. Sind die gegeben? Ist es vergleichbar zwischen den Voraussetzungen? Wie gehen wir mit Datenschutzaspekten um? Was sind rechtliche Aspekte? Was muss da alles beachtet werden? Das heißt, auch diese Dinge müssen geklärt werden. Zusätzlich muss natürlich geschaut werden, wie die ganzen Sachen implementiert werden. Das Gesamtziel ist jedoch, den Dozierenden ein Werkzeug zu geben, um leichter und schneller, aber auch vor allem genauere und fairere Klausuren zu erstellen.

Das klingt doch ganz hervorragend und ist ein wunderbares Schlusswort. Bessere Klausuren für alle.