Was leistet KI schon heute? Wo liegen ihre Grenzen? Und was bedeutet das für die Arbeit von Compliance-Verantwortlichen?
Um diese Fragen fundiert zu beantworten, hat die EQS Group gemeinsam mit dem Berufsverband der Compliance Manager e.V. (BCM) den ersten unabhängigen AI Benchmark Report für den Compliance-Bereich veröffentlicht. Es ging dabei nicht um hypothetische Szenarien. Vielmehr war es das Ziel, reale Aufgabenstellungen aus dem Arbeitsalltag von Compliance-Verantwortlichen zu testen – darunter die Bewertung von Interessenkonflikten, Drittparteienprüfung, Risikoanalysen oder Fallbewertungen.
Sechs Modelle, 120 Aufgaben, echte Erkenntnisse
Getestet wurden sechs führende Sprachmodelle, darunter GPT-5, GPT-4o, Gemini 2.5 Pro und Claude Opus 4.1. Diese wurden mit 120 Aufgaben aus zehn typischen Compliance-Bereichen konfrontiert – von strukturierten Entscheidungsfragen bis hin zu offenen Textaufgaben wie Managementbriefings.
Die Daten zeichnen ein klares Bild: Bei strukturierten Aufgaben wie Klassifizierungen und regelbasierten Entscheidungen erzielten die besten Modelle Genauigkeitswerte von über 95 Prozent. Auch beim Erkennen von Risiken in Datensätzen oder beim Zuordnen von Fällen zu Richtlinien zeigten sie hohe Zuverlässigkeit.
Sobald jedoch Ambiguität ins Spiel kam – etwa bei offenen Bewertungen oder der Interpretation komplexer Sachverhalte – fielen die Ergebnisse deutlich ab. Das leistungsstärkste Modell, GPT-5, erreichte bei offenen Aufgaben noch knapp 67 Prozent, schwächere Modelle lagen weit darunter. In diesen Fällen entschied nicht mehr nur die Technologie über das Ergebnis, sondern auch die Fähigkeit des Modells, den Kontext zu verstehen – und die Qualität der Prompts.
Wo einzelne Modelle glänzen – und wo sie an ihre Grenzen stoßen
Was bedeutet das für Compliance-Teams?
Die gute Nachricht: Trotz dieser Einschränkungen kann KI bereits heute viele Compliance-Prozesse effizient unterstützen – vor allem bei strukturierten Routineaufgaben, bei denen Regelkonformität im Vordergrund steht. Das spart Zeit, reduziert Fehler und schafft Freiräume für strategische Themen.
Und dennoch ist einer der Erkenntnisse aus dem Benchmark: Menschliches Urteilsvermögen bleibt unersetzlich. Zwar lieferten die Modelle grundsätzlich konsistente Antworten und Halluzinationen traten im Test nur sehr selten auf – nämlich nur in drei Fällen, was einer Rate von 0,71 Prozent entspricht. Allerdings stößt KI gerade in sensiblen Bereichen wie internen Untersuchungen, Reputationsbewertung oder ethischer Abwägung (noch) an ihre Grenzen. Die Antwortqualität der neuesten Modelle wie GPT-5 oder Gemini 2.5 Pro zeigt den signifikanten Fortschritt der Technologie, aber die sachkundige Einschätzung durch Compliance-Verantwortliche bleibt weiterhin essenziell – nicht nur aus regulatorischen, sondern auch aus ethischen Gründen.
Klarheit in der Transformation
Der EQS AI Benchmark bietet Orientierung in einem Umfeld, das sich gerade rasant verändert. Er hilft Compliance-Verantwortlichen technologische Möglichkeiten realistisch einzuschätzen, Chancen gezielt zu nutzen – und Risiken bewusst zu steuern. Denn wir befinden uns mitten in dieser technologischen Transformation: zu mächtig, um sie zu ignorieren, aber noch zu unausgereift, um ihr komplexe Entscheidungen zu überlassen. Gerade in Zeiten knapper Ressourcen und wachsender Anforderungen in der Compliance ist eine Einordnung, die KI-Hype von Realität trennt, wertvoller denn je.
Am 7. November stelle ich die zentralen Erkenntnisse des Benchmark-Reports beim Bundeskongress Compliance in Berlin vor. Die englische Version des Reports steht ab sofort zum Download bereit.






