Claude Sonnet 4.6 vs. Sonnet 4.5: Wie groß ist der Sprung wirklich?

von Maximilian Wüstenkamp

13. März 2026

Anthropic hat im Februar 2026 Claude Sonnet 4.6 vorgestellt und damit nur fünf Monate nach Sonnet 4.5 nachgelegt. Die Frage liegt auf der Hand, nämlich ob so ein kurzer Abstand überhaupt ein Update rechtfertigt. Die Benchmarks sprechen eine klare Sprache. Bei einigen Aufgaben verdoppelt das neue Modell die Leistung seines Vorgängers.

Infos auf einen Blick

Preis bleibt gleich: Sonnet 4.6 kostet wie Sonnet 4.5 weiterhin $3 pro Million Input-Token und $15 pro Million Output-Token.
Coding-Sprung messbar: In Entwickler-Tests bevorzugten 70 % der Teilnehmer Sonnet 4.6 gegenüber 4.5, bei komplexen Coding-Aufgaben sogar 59 % gegenüber dem teureren Opus 4.5.
Computer Use explodiert: Die Fähigkeit, Computer autonom zu bedienen, steigerte sich von 61,4 % auf 72,5 % im OSWorld-Benchmark, ein Sprung um 11 Prozentpunkte.

Reasoning: Der dramatischste Sprung

Die größte Überraschung liefert Sonnet 4.6 beim abstrakten Denken. Im ARC-AGI-2-Benchmark, der neuartige Problemlösungsaufgaben testet, erreicht das Modell 58,3 %. Sonnet 4.5 kam gerade mal auf 13,6 %. Das ist kein gradueller Fortschritt. Das Modell löst Aufgaben, bei denen sein Vorgänger fast komplett versagte.

Dieser Sprung zeigt sich auch in der Praxis. Nutzer berichten, dass Sonnet 4.6 komplexe Multi-Step-Aufgaben durchhält, ohne den Faden zu verlieren. Es halluziniert seltener und behauptet nicht mehr vorschnell, eine Aufgabe erfolgreich erledigt zu haben, wenn das Gegenteil der Fall ist.

Coding: Weniger Overengineering, mehr Pragmatismus

Entwickler feiern vor allem eine Eigenschaft, nämlich dass Sonnet 4.6 keine Kathedralen mehr baut, wenn eine Hütte reicht. Das Modell neigt weniger zu Overengineering und liefert Code, der funktioniert, statt theoretisch perfekt zu sein.

Im SWE-bench Verified, einem Benchmark für reale GitHub-Issues, steigt die Performance von 77,2 % auf 79,6 %.

Die Verbesserung klingt marginal, wirkt sich aber spürbar aus. Sonnet 4.6 liest den bestehenden Code aufmerksamer, bevor es Änderungen vornimmt. Es konsolidiert geteilte Logik, statt sie zu duplizieren und es folgt Anweisungen präziser, ohne kreative Umwege zu nehmen.

Ein weiterer Vorteil liegt auf der Hand, nämlich dass das Modell über lange Sessions nicht „faul“ wird. Bei Sonnet 4.5 kam es vor, dass das Modell nach mehreren Iterationen nachlässig wurde und Shortcuts nahm. Sonnet 4.6 bleibt konsistenter.

Computer Use: Von Spielerei zu ernsthaftem Werkzeug

Computer Use erlaubt es Claude, einen Computer wie ein Mensch zu bedienen, also Bildschirm sehen, Maus bewegen, tippen. Im Oktober 2024 lag die Erfolgsrate bei mickrigen 14,9%. Sonnet 4.5 brachte sie auf 61,4%. Sonnet 4.6 erreicht jetzt 72,5 % im OSWorld-Verified-Benchmark.

In der Praxis bedeutet das folgendes, nämlich dass das Modell zuverlässiger durch komplexe Workflows navigiert, etwa beim Ausfüllen von Formularen, Bearbeiten von Dokumenten oder Recherchieren im Web. Ein Versicherungsunternehmen berichtete von 94 % Erfolgsrate bei seinen spezifischen Computer-Use-Tasks.

Die Verbesserung macht Computer Use erstmals produktionsreif für Unternehmensanwendungen. Aufgaben, die bisher menschliche Aufmerksamkeit erforderten, lassen sich jetzt automatisieren, dennoch sind die Richtlinien zur Ethik weiterhin von Menschen abhängig.

Office-Aufgaben: Sonnet holt zu Opus auf

Bei typischen Büro-Tasks wie dem Verarbeiten von Dokumenten, Tabellen oder Charts macht Sonnet 4.6 einen gewaltigen Satz. Im GDPval-AA-Benchmark steigt der Elo-Score von 1276 auf 1633 Punkte. Das entspricht einem Sprung um 357 Elo.

Noch bemerkenswerter ist die Tatsache, dass Sonnet 4.6 in manchen Office-Benchmarks das Niveau von Opus 4.6 erreicht, dem deutlich teureren Flaggschiff-Modell. Für viele Anwendungsfälle brauchst du Opus nicht mehr. Sonnet reicht aus und kostet die Hälfte.

Praktisch zeigt sich das bei der Arbeit mit PDFs, Excel-Dateien oder komplexen Charts. Sonnet 4.6 extrahiert Informationen präziser und versteht Zusammenhänge besser. Es verwechselt Spalten nicht mehr so leicht und zieht korrektere Schlüsse aus mehrseitigen Dokumenten.

Adaptive Thinking: Das Modell denkt mit

Eine neue Funktion macht den Unterschied beim Lösen schwieriger Probleme, nämlich Adaptive Thinking. Das Modell entscheidet selbst, wann es mehr Zeit zum Nachdenken braucht.

Du kannst den Effort-Parameter auf low, medium, high oder max setzen. Sonnet 4.6 passt dann dynamisch an, wie intensiv es über die Aufgabe grübelt.

Das ersetzt das bisherige Extended Thinking, das du manuell aktivieren musstest. Jetzt läuft das automatisch im Hintergrund. Bei einfachen Fragen antwortet das Modell sofort, bei komplexen nimmt es sich Zeit.

In Benchmarks macht sich das bemerkbar. Bei schwierigen Reasoning-Tasks schneidet Sonnet 4.6 deutlich besser ab als 4.5, weil es die Aufgabe gründlicher durchdenkt, bevor es antwortet.

Design und Frontend: Weniger Iterationen nötig

Designer und Frontend-Entwickler profitieren von einer subtilen, aber wichtigen Verbesserung. Sonnet 4.6 produziert visuell ansprechendere Ergebnisse. Layouts wirken ausgewogener, Animationen flüssiger, Farbschemata durchdachter.

Das spart Zeit. Während du bei Sonnet 4.5 oft mehrere Iterationen brauchtest, um ein produktionsreifes Design zu erreichen, kommst du mit 4.6 schneller ans Ziel. Das Modell versteht Design-Prinzipien besser und setzt sie konsequenter um.

Auch dabei zeigt sich folgendes, nämlich dass Sonnet 4.6 weniger Fehler macht, die du nachträglich korrigieren musst. Es respektiert Spacing, achtet auf Accessibility und baut responsives Design von Anfang an ein.

Neue Features: Connectors und File Creation

Sonnet 4.6 bringt nicht nur Performance-Upgrades mit, es liefert auch neue Funktionen. Die wichtigste davon sind die Connectors, die jetzt auch im Free-Tier verfügbar sind. Du kannst Claude direkt mit Google Workspace, Slack und anderen Tools verbinden.

Das Modell greift in Echtzeit auf deine Daten zu und beantwortet Fragen zu deinen Dokumenten oder Nachrichten.

File Creation läuft jetzt direkt in Konversationen. Du kannst Claude bitten, eine PowerPoint-Präsentation, ein Excel-Sheet oder ein Word-Dokument zu erstellen. Das Modell liefert fertige Dateien, die du sofort herunterladen kannst.

Auch Web Search wurde verbessert. Sonnet 4.6 nutzt Code Execution, um Suchergebnisse zu filtern, bevor sie ins Context Window wandern. Das spart Tokens und erhöht die Genauigkeit. Du bekommst relevantere Antworten, ohne dass das Modell von irrelevanten Treffern abgelenkt wird.

Context Window: Weniger „Context Rot“

Beide Modelle unterstützen 1 Million Token im Context Window. Der Unterschied liegt in der Verarbeitung. Sonnet 4.6 verarbeitet große Kontexte besser und verliert weniger Informationen über lange Konversationen.

Nutzer berichten, dass das Modell auch nach Dutzenden Nachrichten noch präzise auf frühere Details zurückgreift. Bei Sonnet 4.5 kam es häufiger vor, dass wichtige Informationen aus dem Blick gerieten, je länger die Session dauerte.

Automatische Context Compaction komprimiert jetzt alte Nachrichten, wenn die Grenze erreicht wird. Das funktioniert transparenter als bei 4.5 und du verlierst weniger wichtige Informationen.

Breaking Changes: Was sich für Entwickler ändert

Falls du Sonnet 4.6 über die API nutzt, solltest du ein paar Änderungen beachten. Prefilling wurde entfernt. Du kannst also keine Assistant-Role-Messages mehr vorab füllen, um die Antwort zu steuern. Anthropic argumentiert, dass das Modell jetzt gut genug ist, um ohne diesen Trick die gewünschten Ergebnisse zu liefern.

Der thinking-Parameter mit budget_tokens wurde deprecated. Stattdessen nutzt du jetzt Adaptive Thinking mit dem effort-Parameter. Die Migration ist simpel, aber du musst deine Prompts anpassen.

Auch output_format wurde durch output_config.format ersetzt. Das betrifft alle, die strukturierte Outputs erzwingen wollen.

Sonnet 4.6 vs. Konkurrenz: Wo steht es wirklich?

Gegen GPT-5.2 und Gemini 3 Pro schneidet Sonnet 4.6 gemischt ab. Bei Coding, Enterprise-Tasks und Computer Use führt es klar.

GPT-5.2 ist besser bei Tool Coordination und kostet weniger pro Output-Token ($15 vs. $25). Gemini 3 Pro punktet mit einem doppelt so großen Context Window (2 Millionen Token) und etwas besseren multilingualen Fähigkeiten.

Für die meisten Use Cases bleibt Sonnet 4.6 die beste Wahl, wenn du auf Coding und autonome Workflows setzt. Für sehr lange Dokumente oder internationale Projekte kann Gemini 3 Pro Vorteile bieten.

Sicherheit: Wie gefährlich ist Sonnet 4.6?

Anthropic testet seine Modelle rigoros auf böswillige Nutzung. Sonnet 4.6 verweigert 99,38 % der explizit böswilligen Anfragen in Sandbox-Tests. Mit Standard-Mitigations steigt die Rate auf 99,39 %. Gleichzeitig gelingt es dem Modell, 91,78 % der gutartigen Dual-Use-Anfragen erfolgreich zu beantworten.

Das Modell wurde auch gegen Prompt Injection getestet und zeigt verbesserte Resistenz gegenüber Versuchen, die Sicherheitsvorkehrungen zu umgehen. Anthropic beschreibt die Persönlichkeit des Modells als warm, ehrlich, prosozial und zeitweise witzig, aber Lügen seien weiterhin möglich.

Fazit: Lohnt sich der Umstieg auf Sonnet 4.6?

Falls du Sonnet 4.5 nutzt, ist die Antwort eindeutig ja. Der Preis bleibt gleich, die Leistung steigt spürbar. Bei Reasoning, Computer Use und Coding macht das Modell Sprünge, die über inkrementelle Verbesserungen hinausgehen.

Du bekommst mehr Zuverlässigkeit, weniger Fehler und bessere Ergebnisse bei komplexen Aufgaben. Sonnet 4.6 ist kein kleines Update. Es ist ein substanzieller Schritt nach vorn.

Maximilian Wüstenkamp

Maximilian beschäftigt sich seit dem Launch von ChatGPT im Jahr 2022 intensiv mit KI und weiß seitdem, dass es noch weitaus mehr gibt als nur generative LLMs.

KI in der Therapie: Kann ein Chatbot den Psychologen ersetzen?

KI-Assistenten bauen: In 5 Schritten zum persönlichen Helfer!