Softwareentwicklung mit AI Unterstützung (Agentic-Coding) Part 2

Meine Erfahrungen beim Einsatz von AI in der Softwareentwicklung

18.12.2025

7 Min. Lesezeit

Im Post Softwareentwicklung mit AI Unterstützung (Pre-Agentic-Coding) habe ich meine Erfahrungen mit verschiedenen LLMs und Coding-Assistenten beschrieben - ohne Agentic-Coding Funktionalität.

In diesem Post möchte ich meine Erfahrungen mit den neueren Agentic-Coding-Ansätzen teilen, die es ermöglichen, dass AI-Modelle komplexere Aufgaben in der Softwareentwicklung übernehmen können, indem sie mehrere Schritte und Entscheidungen selbstständig ausführen und den Code direkt in deine Klassen schreiben.

Disclaimer!

Die in diesem Post beschriebenen Erfahrungen basieren auf meinen persönlichen Tests und Beobachtungen mit verschiedenen AI-Modellen und Coding-Assistenten. Die Ergebnisse folgen keinem bestimmten wissenschaftlichen oder statistischen Standard und sind daher subjektiv.!

Einführung

Nach wie vor habe ich ein großes Interesse daran meinen Entwicklungsprozess mit AI Unterstützung zu verbessern und zu beschleunigen, ohne dabei die Kontrolle über den Code zu verlieren oder schlechtere Qualität in kauf zu nehmen. So versuche ich immer wieder größere Aufgabenblöcke an die KI zu übergeben, um zu sehen, wie gut die Modelle mittlerweile darin sind, komplexere Aufgaben zu erfolgreich zu erledigen. Das Feature "Agentic Coding", das sowohl im Copilot als auch in Claude Code verfügbar ist, hat mich besonders interessiert, da es verspricht, dass die KI eigenständig mehrere Schritte ausführen und den Code direkt in die entsprechenden Klassen schreiben kann.

Entwickungs Sprachen & Frameworks, Prompt und Ausgabesprache!

Die Sprachen, die ich hauptsächlich für die Entwicklung nutze, sind TypeScript, Python und Dart. Daher beziehen sich meine Erfahrungen hauptsächlich auf diese Sprachen.!

Die Sprachen die ich hauptsächlich für die Analyse, Dokumentation und Diagrammerstellung nutze sind Englisch und Deutsch. Daher beziehen sich meine Erfahrungen hauptsächlich auf diese beiden Sprachen.!

Die Frameworks, die ich hauptsächlich für die Entwicklung nutze, sind Nuxt 3/4, Vue 3, FastAPI und Flutter. Daher beziehen sich meine Erfahrungen hauptsächlich auf diese Frameworks.!

Meine Anwendungsfälle

Meine Erwartungen an die Ergebnisse sind gestiegen, die Anwendungsfälle sind im Wesentlichen jedoch die gleichen geblieben:

  • Funktionen erklären lassen – Super hilfreich, um in eine komplett fremde Codebase einzusteigen. (!Nicht mehr Betrachtet!)
  • Funktionen entwickeln lassen – Schnell mal eine Funktion schreiben lassen, die eine bestimmte Aufgabe erfüllt.
  • App-Features entwickeln lassen – Nach dem erfolgreichen Erstellen einer Funktion wollte ich wissen, ob ich ein komplettes Feature schreiben lassen kann. Das würde mehrere Klassen und Funktionen beinhalten.
  • Tests schreiben lassen – Tests sind super wichtig, aber auch ziemlich aufwendig zu schreiben. Hier wollte ich wissen, ob die Modelle mir helfen können.
  • Applikationen auf Bugs und Performance-Probleme prüfen lassen – Nachdem ich ein Feature oder eine Funktion entwickelt habe, lasse ich diese gerne auf Bugs und Performance-Probleme prüfen.
  • Applikationen auf die Einhaltung von Best Practices und Projektarchitekturen prüfen lassen – Hierzu lasse ich mir gerne Vorschläge machen, wie ich meinen Code verbessern kann: Wo weiche ich von Best Practices ab und wie kann ich das verbessern?
  • Dokumentation von bestehendem Code erstellen lassen – Auch wenn man ein Projekt alleine startet, kommen früher oder später ein oder mehrere Entwickler dazu. Damit der Einstieg in das Projekt so reibungslos wie möglich verläuft, ist eine gute Dokumentation super wichtig, aber auch ziemlich aufwendig zu erstellen. Hier wollte ich wissen, ob die Modelle eine komplette Codebase verarbeiten können und dann eine korrekte Dokumentation erstellen können.
  • Flussdiagramme zu Datenflüssen in einem unbekannten Softwareprojekt erstellen – Ein weiterer Punkt, der beim Einstieg in ein neues Projekt super hilfreich sein kann, sind Flussdiagramme, die einem den Datenfluss in der Applikation erklären.
  • Vibe-Faktor - Wie gut kann man mit dem Assistenten arbeiten, ist es bequem? Liefert der Assistent gute Ergebnisse? Passen die Ergebnisse zu meinem Stil? Oder muss ich ihm ständig sagen, dass er einen Fehler gemacht hat? All diese Punkte fließen in den Vibe-Faktor ein.
  • App-Features verbessern lassen - Hier wollte ich wissen, ob die Modelle mir helfen können, bestehende Features zu optimieren und zu verbessern.

ANMERKUNG: Die Auflistung meiner Erfahrungen mit den verschiedenen Modellen und Tools ist in keiner speziellen Reihenfolge dargestellt. Das liegt vor allem daran, dass ich die Tools und Modelle parallel ausprobiert habe und nicht nacheinander. Je nachdem, welches Tool ein vielversprechendes Feature hatte, habe ich dieses ausprobiert.

Claude Code (Agentic, Modell: Claude Sonnet-4.5)

Ich habe Claude Code erst eingesetzt als es ein es in meine IDE als Plugin integrieren konnte, das heißt ich bin etwas später in den Genuss von Claude Code gekommen. Als ich damit angefangen hatte, gab es schon die Funktion '/init', die es ermöglicht hat, dass Claude Code den Kontext der Codebase besser erfassen konnte. Ich musste also nicht mehr alle Klassen und Funktionen manuell in den Prompt einfügen, sondern konnte einfach das Tool den Code analysieren lassen. Das hat den Prozess deutlich vereinfacht und beschleunigt. Claude Code hat über diese Funktion sich auch eine Struktur und die Eigenheiten des Codes in einer CLAUDE.md Datei gespeichert, die ich dann immer wieder erweitern konnte um auch die letzten Entwicklungen der Codebase dort abzubilden.

Die Erfüllung meiner Use Cases:

Loading timeline data...

Ich finde die Ergebnisse von Claude Code sehr gut. Es gibt ab und zu mal Bugs, wenn man mit dem Modell nicht kommunizieren kann, oder wenn man sich mehrmals pro Session authentifizieren muss. Das ist aber alles noch vertretbar. Ich finde jedoch die immer kleineren Limits sehr störend. Hier habe ich das Gefühl, dass ich öfter an die Grenzen stoße und dann wieder warten muss, bis ich weiterarbeiten kann. Manchmal ist es mitten in einer Aufgabe, und man muss bis zum nächsten Tag warten, bis man wieder weitermachen kann. Einfach nur schlimm.

Codex

Die Erfüllung meiner Use Cases:

Loading timeline data...

Grundsätzlich erfüllt Codex meine Anwendungsfälle ganz gut. Ich habe das Gefühl, dass meine Prompts hier nicht so gut funktionieren wie bei den Anthropic Modellen.

Fazit

Hier treffen die gleichen Punkte zu wie auch bei dem Einsatz von Github Copilot als IDE Plugin.

Was ist jedoch der Unterschied zwischen den beiden Ansätzen? Tatsächlich schwankt es bei mir, mit welchem Tool ich lieber arbeite und bei welchem der Vibe-Faktor höher ist. Ich habe den Eindruck, dass ich größere Aufgaben, sei es 'Applikationen auf Bugs und Performance-Probleme prüfen lassen' oder 'Applikationen auf die Einhaltung von Best Practices und Projektarchitekturen prüfen lassen', auf Claude Code oder Codex besser abgeben kann. Hier sind die Ergebnisse oft etwas besser als bei Copilot. Allerdings habe ich bei Copilot das Gefühl, dass ich kleinere Aufgaben wie 'Funktionen entwickeln lassen' oder 'Tests schreiben lassen' schneller erledigt bekomme. Hier ist der Vibe-Faktor höher und ich habe das Gefühl, dass ich schneller zu einem guten Ergebnis komme. Was natürlich problematisch ist, sind die Limits, die Claude Code immer wieder heruntersetzt. Hier habe ich das Gefühl, dass ich öfter an die Grenzen stoße und dann wieder warten muss, bis ich weiterarbeiten kann. Manchmal ist es mitten in einer Aufgabe, und man steckt quasi fest, da die KI mehrere Punkte schon erledigt hat, dafür 5 - 10 Dateien angepasst hat und noch weitere Punkte mit weiteren Anpassungen in verschiedenen Dateien erledigt werden müssen. Das hat mir schon mehrmals den Abend versaut.

In beiden Gegenüberstellungen – Post Softwareentwicklung mit AI Unterstützung (Agentic-Coding) und diesem Post – ist es so, dass meine Aufgaben alle recht gut erledigt werden. Bei dem einen Modell muss man eine Iteration mehr machen, bei dem anderen Modell weniger. Aber im Großen und Ganzen sind die Ergebnisse gut. Was mir jedoch auffällt, ist, dass man das eine oder andere Modell präferiert oder sich daran gewöhnt hat. Ich habe mehrere Reddit-Posts gelesen, die auf CodeX und die GPT-Modelle schwören. Ich hingegen finde die Anthropic-Modelle besser. Dadurch benutze ich CodeX und die GPT-Modelle weniger. Jetzt stelle ich mir die Frage, ob die Systeme vielleicht den Nutzer doch kennenlernen und seine Präferenzen und seinen Stil adaptieren? Vielleicht aber hat man sich unbewusst einen Prompt-Stil angeeignet, der besser zu dem einen oder anderen Modell passt? Ich weiß es nicht.