Forscher haben die Genauigkeit von fünf KI-Modellen anhand von 500 alltäglichen Mathematik‑Aufgaben getestet. Die Ergebnisse zeigen, dass es ungefähr eine 40‑Prozentige Chance gibt, dass eine KI die Antwort falsch liefert.
Künstliche Intelligenz (KI) wird zu einem integralen Bestandteil des täglichen Lebens, auch bei alltäglichen Berechnungen. Aber wie gut bewältigen diese Systeme tatsächlich grundlegende Mathematik? Und wie sehr sollten Benutzer ihnen vertrauen?
Eine jüngste Studie warnt vor Vorsicht. Das Omni Research on Calculation in AI (ORCA) zeigt, dass man eine KI-Chatbot bei alltäglicher Mathematik bittet, es eine ungefähre 40‑prozentige Chance gibt, dass die Antwort falsch ist. Die Genauigkeit variiert deutlich zwischen KI-Unternehmen und je nach Art mathematischer Aufgaben.
Welche KI-Tools sind also genauer, und wie schneiden sie bei unterschiedlichen Arten von Berechnungen ab, etwa Statistik, Finanzen oder Physik?
Die Ergebnisse basieren auf der Leistung von 500 Aufforderungen, die aus realen, berechenbaren Problemen stammen. Jedes KI-Modell wurde mit demselben Satz von 500 Fragen getestet. Die fünf KI-Modelle wurden im Oktober 2025 getestet.
Die ausgewählten Modelle sind:
- ChatGPT-5 (OpenAI)
- Gemini 2.5 Flash (Google)
- Claude 4.5 Sonnet (Anthropic)
- DeepSeek V3.2 (DeepSeek AI)
- Grok-4 (xAI).
Der ORCA Benchmark ergab, dass kein KI-Modell im Alltagsmathematik-Aufgaben mehr als 63 Prozent erzielte. Das führende Modell, Gemini (63 Prozent), macht damit immer noch fast 4 von 10 Problemen falsch. Grok liegt mit fast derselben Punktzahl bei 62,8 Prozent. DeepSeek belegt Platz drei mit 52 Prozent. ChatGPT folgt mit 49,4 Prozent, und Claude landet mit 45,2 Prozent am Schluss.
Der einfache Durchschnitt der fünf Modelle liegt bei 54,5 Prozent. Diese Werte spiegeln die Gesamtleistung der Modelle über alle 500 Aufforderungen hinweg wider.
„Auch wenn die genauen Rangfolgen sich ändern könnten, wenn wir den Benchmark heute erneut durchführen würden, würde die breitere Schlussfolgerung wahrscheinlich dieselbe bleiben: Numerische Zuverlässigkeit bleibt eine Schwachstelle aktueller KI-Modelle“, sagte Dawid Siuda, Mitautor des ORCA-Benchmarks, Euronews Next.
Höchste Genauigkeit bei Mathematik & Umrechnungen, niedrigste bei Physik
Ihre Leistung variiert je nach Kategorie. In Mathematik und Umrechnungen (147 von 500 Aufforderungen) führt Gemini mit 83 Prozent, gefolgt von Grok mit 76,9 Prozent und DeepSeek mit 74,1 Prozent. ChatGPT erreicht in dieser Kategorie 66,7 Prozent.
Der einfache Durchschnitt der Genauigkeit über alle fünf Modelle liegt bei 72,1 Prozent, dem höchsten Wert unter den sieben Kategorien.
Im Gegensatz dazu ist Physik (128 Aufforderungen) die schwächste Kategorie, mit einer durchschnittlichen Genauigkeit von nur 35,8 Prozent. Grok ist am besten mit 43,8 Prozent, knapp vor Gemini mit 43 Prozent, während Claude auf 26,6 Prozent absinkt.
In den sieben Kategorien belegen Gemini und Grok jeweils den ersten Platz in drei Kategorien, und sie teilen sich den Spitzenplatz in einer weiteren.
Die Genauigkeit von DeepSeek liegt nur bei 11 Prozent in Biologie und Chemie
DeepSeek verzeichnete die niedrigste Genauigkeit über alle Kategorien hinweg in Biologie und Chemie mit 10,6 Prozent. Das bedeutet, das Modell lieferte in ungefähr neun von zehn Fragen keine korrekte Antwort.
Die größten Leistungslücken treten in Finanzen und Wirtschaft auf. Grok und Gemini erreichen beide Genauigkeiten von 76,7 Prozent, während die anderen drei Modelle – ChatGPT, Claude und DeepSeek – unter 50 Prozent liegen.
Hinweis an die Nutzer: Überprüfen Sie Ergebnisse immer mit einem Taschenrechner
„Wenn die Aufgabe kritisch ist, verwenden Sie Taschenrechner oder verifizierte Quellen oder prüfen Sie die Ergebnisse zumindest mit einer weiteren KI“, sagte Siuda und empfahl, zusätzlich mit einem Taschenrechner zu prüfen.
Vier Fehlerarten, die KI-Modelle machen
Die Experten gruppierten die Fehler in vier Kategorien. Die Herausforderung besteht laut dem Bericht darin, eine reale Situation in die richtige Formel zu übertragen.
- „Nachlässige Mathematik“-Fehler (68 Prozent aller Fehler). In diesen Fällen versteht die KI die Frage und die Formel, scheitert jedoch an der eigentlichen Berechnung. Diese Kategorie umfasst „Präzisions- und Rundungsprobleme“ (35 Prozent) und „Berechnungsfehler“ (33 Prozent).
Beispielsweise lautete die Aufforderung: „Bei einer Lotterie, bei der 6 Kugeln aus einem Pool von 76 gezogen werden, wie hoch sind meine Chancen, 5 davon richtig zu tippen?“ Das Ergebnis sollte „1 zu 520521“ sein. ChatGPT-5 fand heraus, es sei „1 zu 401397“.
2. „Fehlerhafte Logik“-Fehler (26 Prozent aller Fehler). Diese sind gravierender, weil sie zeigen, dass die KI Schwierigkeiten hat, die zugrunde liegende Logik des Problems zu verstehen. Sie umfassen „Methode- oder Formelfehler (14 Prozent)“, zum Beispiel die Verwendung eines völlig falschen mathematischen Ansatzes, und „falsche Annahmen (12 Prozent).
3. „Misslesen der Anweisungen“ Fehler (5 Prozent aller Fehler). Diese treten auf, wenn die KI nicht korrekt interpretiert, was die Frage verlangt. Beispiele umfassen „falsche Parameterfehler“ und „unvollständige Antworten“.
4. „Aufgeben“-Fehler. In einigen Fällen verweigert oder lenkt die KI einfach ab, anstatt eine Antwort zu versuchen.
„Ihre Schwachstelle liegt im Runden – wenn die Berechnung mehrstufig ist und irgendwo gerundet werden muss, ist das Endergebnis in der Regel stark abweichend“, sagte Siuda.
Die Forschung nutzte die fortschrittlichsten Modelle, die der Allgemeinheit kostenlos zur Verfügung stehen. Jede einzelne Aufforderung hatte eine und nur eine richtige Antwort.