Die letzte Prüfung der Menschheit – warum selbst die beste KI an ihre Grenzen stößt

Published on March 5, 2026

Künstliche Intelligenz beeindruckt derzeit mit erstaunlichen Fähigkeiten. Sprachmodelle schreiben Texte, analysieren Daten und bestehen sogar komplexe akademische Prüfungen. Doch genau darin liegt ein Problem: Viele der bisherigen Tests sind für moderne KI-Systeme inzwischen zu leicht geworden. Was früher als anspruchsvolle Messlatte galt, stellt heute oft keine wirkliche Herausforderung mehr dar.

Ein bekanntes Beispiel ist der sogenannte Massive Multitask Language Understanding Test (MMLU). Dieser Benchmark wurde ursprünglich entwickelt, um die Fähigkeiten von KI in unterschiedlichsten Wissensgebieten zu messen. Moderne Modelle bestehen ihn jedoch inzwischen mit sehr hohen Ergebnissen. Damit verlieren solche Tests zunehmend ihre Aussagekraft darüber, wie „intelligent“ KI tatsächlich ist.

Vor diesem Hintergrund entstand ein neues Projekt mit einem ebenso provokanten wie ambitionierten Namen: „Humanity’s Last Exam“ – die letzte Prüfung der Menschheit.

 

Ein Test an der Grenze des Machbaren

Für dieses Projekt haben knapp 1000 Wissenschaftlerinnen und Wissenschaftler aus aller Welt einen neuen Benchmark entwickelt. Der Test umfasst rund 2500 Fragen aus verschiedensten Disziplinen, darunter Mathematik, Naturwissenschaften, Geisteswissenschaften, antike Sprachen und hochspezialisierte Fachgebiete.

Das Besondere dabei: Jede Frage musste eine eindeutige, überprüfbare Antwort besitzen – und gleichzeitig so schwierig sein, dass kein aktuelles KI-Modell sie zuverlässig beantworten kann. Wenn ein System eine Frage korrekt löste, wurde diese aus dem Test entfernt.

Auf diese Weise entstand eine Sammlung von Aufgaben, die gezielt an den Grenzen heutiger KI-Systeme ansetzt. Die Ergebnisse des Projekts wurden im renommierten Wissenschaftsjournal Nature veröffentlicht; eine Dokumentation ist unter lastexam.ai verfügbar.

 

Die Ergebnisse: überraschend niedrig

Die ersten Testergebnisse zeigen deutlich, wie groß der Abstand zwischen menschlicher Expertise und KI in bestimmten Bereichen noch ist.

Modelle wie GPT-4o erreichten lediglich rund 2,7 Prozent der möglichen Punkte. Claude 3.5 Sonnet kam auf etwa 4,1 Prozent, während ein damaliges Spitzenmodell von OpenAI etwa 8 Prozent erzielte. Selbst neuere und leistungsfähigere Systeme erreichen bislang meist nur 40 bis 50 Prozent.

Dabei handelt es sich um Aufgaben, die gezielt für menschliche Expertinnen und Experten konzipiert wurden. Die Fragen reichen vom Übersetzen altpalmyrenischer Inschriften über die Analyse mikroanatomischer Strukturen bei Vögeln bis hin zu feinen Besonderheiten der biblisch-hebräischen Aussprache.

 

Intelligenz ist mehr als Mustererkennung

An dem Projekt beteiligt war unter anderem Dr. Tung Nguyen, Dozent für Informatik und Ingenieurwissenschaften an der Texas A&M University. Er steuerte allein 73 der 2500 Fragen bei und war damit einer der produktivsten Autoren des Projekts – insbesondere in den Bereichen Mathematik und Informatik.

Nguyen sieht in den Ergebnissen eine wichtige Erinnerung daran, was menschliche Expertise ausmacht.

Wenn KI-Systeme bei etablierten Tests sehr gut abschneiden, entsteht schnell der Eindruck, sie würden menschliches Verständnis erreichen. Doch Intelligenz besteht nicht nur aus Mustererkennung. Sie erfordert auch Kontextverständnis, Fachwissen, Erfahrung und die Fähigkeit, Wissen aus unterschiedlichen Bereichen miteinander zu verknüpfen.

Gerade deshalb sind zuverlässige Benchmarks entscheidend. Ohne präzise Messinstrumente besteht die Gefahr, dass Politik, Unternehmen oder Anwender die tatsächlichen Fähigkeiten von KI überschätzen – mit möglicherweise weitreichenden Folgen.

 

Kein Wettkampf zwischen Mensch und Maschine

Trotz seines dramatischen Namens ist „Humanity’s Last Exam“ kein Wettbewerb zwischen Menschen und Maschinen. Vielmehr soll der Benchmark langfristig helfen, den Fortschritt – aber auch die Grenzen – von KI-Systemen transparent zu messen.

Ein Großteil der Fragen bleibt bewusst unveröffentlicht. Dadurch soll verhindert werden, dass KI-Modelle die Antworten einfach auswendig lernen und der Test seine Aussagekraft verliert.

Die zentrale Botschaft des Projekts ist deshalb keineswegs pessimistisch. Im Gegenteil: Es zeigt, dass menschliche Expertise weiterhin eine zentrale Rolle spielt – gerade in komplexen, interdisziplinären Fragestellungen.

 

Die Stärke liegt in der Vielfalt

Ein weiterer bemerkenswerter Aspekt des Projekts ist die Zusammensetzung der Beteiligten. Historikerinnen, Physiker, Linguistinnen, Mediziner und viele andere Fachrichtungen arbeiteten gemeinsam an der Entwicklung der Fragen.

Gerade diese Vielfalt macht sichtbar, wo KI-Systeme heute noch Schwächen haben. Während Maschinen hervorragend darin sind, Muster zu erkennen oder große Datenmengen zu analysieren, fällt ihnen das Zusammenspiel unterschiedlichster Wissensbereiche oft deutlich schwerer.

Ironischerweise zeigt gerade dieses Projekt, dass Fortschritt häufig dort entsteht, wo Menschen mit unterschiedlichen Perspektiven zusammenarbeiten.

 

Wenn KI die Forschung vereinheitlicht

Dass menschliche Expertise weiterhin unverzichtbar ist, zeigt auch eine andere aktuelle Studie. Forschende der Universität Cambridge weisen auf ein mögliches Paradox im Umgang mit KI hin.

Die Studie, veröffentlicht im Fachjournal Communications Psychology, beschreibt eine zunehmende intellektuelle Vereinheitlichung in der Wissenschaft. Wer KI in der Forschung nutzt, kann schneller publizieren und wird häufiger zitiert. Dadurch neigen immer mehr Forschende dazu, ähnliche Methoden, Fragestellungen und Formulierungen zu verwenden.

Das Ergebnis bringt eine prägnante Aussage zweier Wissenschaftlerinnen auf den Punkt:
Wir produzieren mehr – aber verstehen weniger.

 

Was wir daraus lernen können

Der Fortschritt der Künstlichen Intelligenz ist beeindruckend und wird viele Bereiche unseres Lebens weiter verändern. Doch Projekte wie „Humanity’s Last Exam“ zeigen auch, dass technologische Leistungsfähigkeit nicht automatisch mit tiefem Verständnis gleichzusetzen ist.

Gerade dort, wo Kontext, Erfahrung und interdisziplinäres Denken gefragt sind, bleibt menschliche Expertise ein entscheidender Faktor.

Für Branchen wie die Steuerberatung – aber auch für viele andere Wissensberufe – bedeutet das vor allem eines: KI ist ein mächtiges Werkzeug, aber kein Ersatz für menschliche Kompetenz.

 

 

Quelle: Frankfurter Rundschau