Laut Herrn NTD hänge der derzeitige Testentwicklungsprozess zu stark von persönlichen Gefühlen und Erfahrungen ab. Obwohl es sich bei vielen Mitgliedern des Testentwicklungsteams um hochqualifizierte Lehrer handele, mangele es ihnen an Testexpertise und sie hätten nicht einmal Ahnung von grundlegenden statistischen Methoden zur Beurteilung des Schwierigkeitsgrades einer Frage oder der Wirksamkeit von Interventionsmöglichkeiten. Dies mache die Testentwicklung zu einem manuellen, unwissenschaftlichen Prozess und führe zu Kontroversen über Schwierigkeitsgrad, Einfachheit, Kürze, Länge und potenzielle Risiken.
![]() |
Kandidaten für die Abiturprüfungen in Mathematik und Englisch beschwerten sich, dass es schwierig sei. Foto: Nhu Y |
Die Folge davon ist der „wahrnehmungsbezogene“ Schwierigkeitsgrad: Eine Frage wird basierend auf der subjektiven Wahrnehmung des Prüfungsteilnehmers oder den Erfahrungen aus früheren Jahren als „schwierig“ oder „leicht“ eingestuft. Diese Wahrnehmung kann jedoch bei Zehntausenden von Kandidaten völlig von der Realität abweichen. Ohne Indikatoren wie den aus realen Daten berechneten Schwierigkeitsindex (p-Wert) können wir nicht genau wissen, wie „schwierig“ oder „leicht“ eine Frage im Vergleich zur Gesamtkompetenz der Kandidaten ist.
Die Distraktoranalyse ist nutzlos. Ohne statistische Analyse der Effektivität der Distraktoranalyse können falsche Entscheidungen zu offensichtlich oder umgekehrt zu irreführend sein, um die tatsächlichen Fähigkeiten widerzuspiegeln. Dadurch verliert die Frage ihre Trennschärfe und wird zu einer Zufallsfrage oder einem einfachen Gedächtnistest.
Der Frage fehlt die Unterscheidungsfähigkeit. Ohne diesen Index können wir nicht wissen, ob eine Frage tatsächlich gute Filterwirkung hat. Eine Frage, die für jeden zu einfach oder für jeden zu schwierig zu beantworten ist, ist ein schlechter Diskriminator.
Wenn Testentwickler Fragen auf der Grundlage persönlicher Erfahrungen formulieren, kann es passieren, dass sie unbeabsichtigt Fragen erstellen, die auf einen bestimmten Wissensaspekt abzielen, mit dem sie vertraut sind, oder Ausdrücke verwenden, die nur einer bestimmten Gruppe von Kandidaten zugänglich sind. Dies untergräbt die Fairness der Prüfung und ist höchst riskant.
Die Lösung dieses Problems erfordert laut Herrn NTD eine Revolution in der Testentwicklung hin zu Professionalisierung und wissenschaftlicher Anwendung. Dazu gehören eine umfassende Testschulung, der Aufbau eines standardisierten Fragenkatalogs, ein professioneller Testentwicklungsprozess und die Beteiligung von Statistikexperten.
Die Abkehr von Emotionen und Erfahrungen hin zu einem professionellen Testerstellungsprozess auf Basis statistischer Daten verbessert nicht nur die Qualität der Prüfungsfragen, sondern stärkt auch das Vertrauen der Gesellschaft in die Fairness und Transparenz von Aufnahmeprüfungen.
Die 4 Ursachen analysieren
Prüfungsexperte Dr. Tran Nam Ha analysierte die Gründe, warum die Prüfungsfragen für einige Fächer der Abiturprüfung 2025 „absolut“ schwierig sind.
Der erste Grund liegt laut Dr. Nam Ha in der Diskrepanz zwischen den Prüfungszielen und der Prüfungsstruktur. Die Anzahl der Fragen auf Anwendungs- und höheren Anwendungsniveaus macht einen großen Teil aus, während die Wissens- und Verständnisfragen, die für durchschnittliche Studierende eine Unterstützung darstellen, stark zurückgegangen sind. Diese Verzerrung zeigt, dass die Prüfung auf die Einstufung statt auf den Abschluss abzielt.
Noch wichtiger ist, dass die Art und Weise, wie Fragen gestellt und Materialien ausgewählt werden, in vielen akademischen Fächern – insbesondere in Literatur und Englisch –, die tiefgründig, langwierig und ungewohnt sind, dazu führt, dass die Schüler viel Zeit mit Lesen und Verstehen verbringen und ihnen nicht genügend Energie bleibt, um die Kernanforderungen zu erfüllen.
Der zweite Grund ist ein Fehler beim Verständnis und der Anwendung der Testmatrix. Die Testmatrix, die eigentlich ein Instrument zur Gewährleistung der Ausgewogenheit von Inhalt und kognitivem Niveau sein soll, wurde missverstanden und falsch angewendet. Viele Einheiten betrachten die Matrix lediglich als eine Tabelle mit der Verteilung der Fragennummern, aus der sie mithilfe einer Zufallsauswahlsoftware die Ergebnisse ziehen, während sie die detaillierten Spezifikationen für jede Frage ignorieren.
Da die Kontrolle über die zu prüfenden Kompetenzen, den Schwierigkeitsgrad und die Trennschärfe fehlt, wird der Test zu einem Lotterieprodukt statt zu einem wissenschaftlichen Bewertungsinstrument. Noch beunruhigender ist, dass die Verwechslung zwischen der Matrix und den Testspezifikationen dazu geführt hat, dass der Testentwicklungsprozess völlig losgelöst von den Anforderungen des Bildungsprogramms 2018 verläuft.
Drittens ist das Fehlen eines bundesweit standardisierten Fragenkatalogs eine weitere wesentliche Schwäche. Die aktuelle Fragenstellung stützt sich nach wie vor stark auf Expertenerfahrungen, ohne dass empirische Daten zu Schwierigkeitsgrad oder Differenzierung vorliegen. Dadurch ist die Qualität der Fragen von persönlichen Gefühlen und Erfahrungen abhängig, was zu starken Schwankungen zwischen den Jahren und zwischen den Prüfungsordnungen führt.
Dies hat zur Folge, dass Durchschnittsschüler, die Hauptzielgruppe der Abiturprüfung, nicht mehr die Möglichkeit haben, einen fairen Zugang zu den Prüfungsfragen zu erhalten.
Der letzte Grund sind Inkonsistenzen in der politischen Kommunikation und den technischen Verfahren. Im Februar kündigten Vertreter des Ministeriums für Bildung und Ausbildung den Aufbau einer Fragendatenbank für die Prüfung gemäß dem neuen Programm an.
Doch nur wenige Monate später erklärte ein Leiter auf einer Pressekonferenz (nach der Prüfung), dass im ersten Jahr „keine Testdatenbank verwendet wurde“. Inkonsistenz in der politischen Kommunikation untergräbt nicht nur das soziale Vertrauen, sondern führt auch zu einer falschen Vorbereitung von Lehrern und Schülern.
Quelle: https://tienphong.vn/de-thi-kho-nong-bong-cac-dien-dan-quy-trinh-ra-de-thi-can-duoc-chuyen-nghiep-hoa-post1756576.tpo
Kommentar (0)