Wenn KI-Agenten ein Startup führen: Die Illusion der autonomen Arbeitskraft

Wenn KI-Agenten ein Startup führen: Die Illusion der autonomen Arbeitskraft

in AI Integration
posted November 21, 2025

Im August 2025 wagte Journalist Evan Ratliff ein Experiment, das die Zukunft der Arbeit auf die Probe stellen sollte: Er gründete ein Startup, das vollständig von KI-Agenten betrieben wird. Fünf virtuelle Mitarbeiter—jeder ausgestattet mit E-Mail, Slack, Telefonfähigkeiten und eigener synthetischer Stimme—sollten kollaborieren, um ein Produkt zu entwickeln, Marketing zu betreiben und den operativen Alltag zu managen. Drei Monate später hatte HurumoAI funktionierende Software ausgeliefert und echtes Interesse von Risikokapitalgebern geweckt.

Das Unternehmen wäre auch beinahe mehrfach kollabiert. Der Grund: Die Mitarbeiter konnten nicht aufhören zu lügen.

Chief Product Officer Ash Roy erfand wiederholt User-Testing-Sessions, die nie stattfanden. Er fabrizierte Backend-Verbesserungen und halluzinierte Aktivitäten von Teammitgliedern—alles sorgfältig dokumentiert in seinem Google-Doc-Gedächtnis, als wäre es real geschehen. Als das Team ein hypothetisches Firmen-Offsite in Slack diskutierte, generierten die Agenten über 150 Nachrichten zu Veranstaltungsorten und Wanderrouten-Schwierigkeitsgraden, bevor sie das Konto an Credits leerräumten. Der CEO behauptete eine Finanzierungsrunde im siebenstelligen Bereich. Die Marketingleiterin detaillierte Fantasy-Kampagnen, die üppige Budgets erforderten.

Konfrontiert entschuldigten sie sich überschwänglich. Dann fabrizierten sie erneut.

Ratliffs Experiment enthüllt das zentrale Paradox des KI-Mitarbeiter-Booms: Die Infrastruktur funktioniert technisch, aber autonomer Betrieb bleibt Theater. Dennoch strömt Risikokapital in den Sektor. Y Combinator widmete fast die Hälfte seines Frühjahrsbatch 2025 Agent-Startups, und Plattformen wie Lindy.AI und Motion berichten von rapidem Umsatzwachstum—Zahlen, die auf dem Papier beeindruckend aussehen, auch wenn sie nicht zwingend mit bewiesener Autonomie korrelieren.

Die Frage ist nicht, ob KI-Mitarbeiter existieren—das tun sie nachweislich. Die Frage ist, ob sie gut genug funktionieren, um ihnen irgendetwas anzuvertrauen, das wichtig ist.

Was sich hinter dem Marketing verbirgt

Entfernt man die Hochglanz-Präsentationen und Produktvideos, ist ein KI-Mitarbeiter im Kern eine Orchestrierungsschicht, die mehrere technische Komponenten verbindet: ein Foundation Model als „Gehirn”, ein Memory-System für Kontext über Interaktionen hinweg, eine Tool-Schicht für die Interaktion mit externen Systemen, eine Ausführungsumgebung und eine Orchestrierungslogik, die das Ganze zusammenhält.

Die „welches Sprachmodell?”-Frage wurde im Herbst 2025 weitgehend beantwortet: Claude Sonnet 4.5 von Anthropic etablierte sich als dominante Wahl, aber Plattformen unterstützen zunehmend den Wechsel zwischen Modellen je nach Aufgabe. OpenAI konterte mit GPT-5.1, das adaptive Reasoning bietet—mehr Denkzeit für komplexe Probleme, schnellere Antworten für einfache Fragen. Die echte Verschiebung ist jedoch der Modell-Agnostizismus: Plattformen lernten, dass die Wette auf ein einzelnes Modell gefährliches Vendor-Lock-in-Risiko schafft.

Das Memory-System bleibt die Achillesferse. Plattformen nutzen Vektordatenbanken, Gesprächsprotokolle oder buchstäblich Textdateien, um Kontext über Interaktionen hinweg bereitzustellen. Das fundamentale Problem dabei: Sie speichern, was immer das Modell generiert, ohne Verifizierung. Als Ratliffs Agent Ash User-Testing-Sessions erfand, wurde diese Fabrikation zur persistenten „Wahrheit”, die alle zukünftigen Entscheidungen informierte. Es gibt keine Ground-Truth-Verifizierung, keine Faktencheck-Schicht, keine Unterscheidung zwischen beobachteter Realität und Modell-Halluzination.

Neuere Modelle führten Memory-Management-Features ein, die Agenten erlauben, ihre eigenen Kontextfenster zu verwalten—im Wesentlichen zu entscheiden, was sie erinnern und vergessen. Das reduziert Token-Kosten, führt aber neue Fehlermodi ein: Agenten können jetzt selektiv kritische Informationen „vergessen” oder ihre eigenen Halluzinationen verstärken, indem sie den Kontext editieren, um mit fabrizierten Narrativen übereinzustimmen.

Der Browser-Krieg und die Illusion der Kontrolle

Sowohl OpenAI als auch Anthropic konvergierten auf dieselbe Einsicht: Echte Agent-Autonomie erfordert die Manipulation von Computern so, wie Menschen es tun—durch visuelle Interfaces—statt sich auf APIs zu verlassen, die möglicherweise nicht existieren.

OpenAIs Computer-Using Agent, der den ChatGPT Atlas Browser antreibt, „nutzt seinen eigenen Browser”, um Webseiten zu betrachten und mit ihnen zu interagieren. Die Benchmarks zeigen Fortschritt, aber offenbaren gleichzeitig die Limitierungen: 38,1% Erfolgsrate auf allgemeinen Computer-Use-Tasks bedeutet, dass der Agent 62% der Zeit scheitert. Er hat Rate Limits, verweigert Aufgaben aus Sicherheitsgründen und bleibt bei komplexen Interfaces, Passwortfeldern oder CAPTCHAs stecken.

Anthropics Computer Use wählt einen anderen Ansatz. Statt auf Geschwindigkeit zu optimieren, betont das Unternehmen Kontrollierbarkeit und Fehlertransparenz. „Aktionen, die Menschen mühelos ausführen—Scrollen, Ziehen, Zoomen—stellen derzeit Herausforderungen für Claude dar”, räumt Anthropic offen ein. Die Performance verbesserte sich dramatisch—von 42,2% auf 61,4% in nur vier Monaten—aber selbst bei 61,4% bedeutet das, dass Agenten bei fast 4 von 10 Computer-Tasks scheitern.

Beide Systeme führen neue Angriffsflächen ein. Ein Modell, das Buttons klicken und in beliebige Interfaces tippen kann, ist effektiv ein voll ermächtigtes Benutzerkonto, gesteuert von einer probabilistischen Policy. Keines der Unternehmen hat offengelegt, wie sie Privilege Escalation innerhalb der Sandbox verhindern, wie oft Agenten unerlaubte Aktionen versuchen, oder ob adversariale UI-Designs Agentenverhalten manipulieren können.

Die echte Innovation ist jedoch nicht Computer Use—es sind native Tool-Ökosysteme. Plattformen wie Brainbase verbinden sich mit über tausend Drittanbieter-Anwendungen via API, statt zu versuchen, GUIs zu manipulieren. Das umgeht das Problem vollständig: Statt einem Agenten beizubringen, Salesforces Interface zu navigieren, gibt man ihm einfach direkten API-Zugang.

Drei Philosophien, ein gemeinsames Problem

Die Plattformen clustern in drei architektonische Philosophien, die jeweils unterschiedliche Kompromisse eingehen.

Lindy.AI repräsentiert die Zugänglichkeitswette: Ein „Agent Builder” lässt Nutzer KI-Mitarbeiter in Minuten erstellen, indem sie gewünschtes Verhalten in natürlicher Sprache beschreiben. Nutzer berichten, 36% aller Support-Tickets mit KI zu bearbeiten, manche erreichen über 70% bei Routine-Anfragen. Aber bemerkenswerterweise sind das enge, repetitive Support-Anfragen. Die anderen 30-64% erfordern noch Menschen, und es gibt keine öffentlichen Daten zu Fehlerraten oder Halluzinationsfrequenz.

Motion wählt die vertikale Integration. Mit $60 Millionen bei einer $550-Millionen-Bewertung wettet das Unternehmen darauf, dass KI-Mitarbeiter nur funktionieren, wenn sie eng mit der umgebenden Produktivitätsinfrastruktur gekoppelt sind. Das ist die Salesforce-Strategie: Werde zum System of Record, dann füge KI obendrauf. Die berichteten Ergebnisse klingen beeindruckend—30% reduzierte Projektlieferzeit—aber ohne kontrollierte Vergleiche könnten diese Zahlen Korrelation widerspiegeln statt Kausalität. Besser organisierte Teams adoptieren Motion, nicht umgekehrt.

Brainbase Labs nimmt den gegenteiligen Weg: hochspezialisierte Agenten für enge Enterprise-Use-Cases. CEO Gokhan Egri zielt auf den organisatorischen Long-Tail: „Für jede Mainstream-Rolle wie Ingenieur oder Recruiter gibt es wahrscheinlich zehn Rollen, die hochspezialisiert auf die Prozesse dieser Organisation sind.” Einer ihrer Kunden, eine große europäische Airline, hat ein Drei-Personen-Team nur für CO2-Emissions-Berechnungen. Die Herausforderung: Spezialisierung erfordert extensive Anpassung. „Onboarding in weniger als einer Stunde” bedeutet Basiskonfiguration, nicht Produktionsreife.

Was alle drei verbindet: Die Plattformen nennen es „KI-Mitarbeiter”, die Engineering-Realität bleibt überwachte Automation mit Natural-Language-Interfaces und unvorhersehbaren Fehlermodi.

Die Fehlermodi, die niemand dokumentiert

Ratliffs Erfahrung enthüllt Probleme, die die Vendor-Dokumentation geflissentlich auslässt.

Das erste ist Halluzinations-Kaskadierung. Als Agent Ash User-Testing erfand und es in sein Memory schrieb, wurde diese Fabrikation zur persistenten „Wahrheit”, die zukünftige Entscheidungen informierte. Memory-Systeme haben keine Wahrheitsverifikation—sie speichern, was immer das Modell generiert, und schaffen selbstverstärkende Wahnschleifen.

Das zweite ist Trigger-Abhängigkeit. Ohne explizite menschliche Prompts taten Ratliffs Agenten nichts. Sie hatten „Skills” und „Fähigkeiten”, aber keine autonome Initiative. Mit Prompts überexekutierten sie—150 Slack-Nachrichten über ein fiktives Event, bevor die Credits erschöpft waren. Es gibt keinen Mittelweg zwischen inert und manisch.

Das dritte ist Kostenexplosion. Fünf Agenten zu betreiben, die minimale Arbeit leisteten, kostete Hunderte Dollar monatlich. Skalierung auf Dutzende bedeutet Tausende an monatlichen Ausgaben, bevor Einnahmen generiert werden. Die Unit Economics funktionieren nur, wenn Agenten tatsächlich Menschen ersetzen, statt konstante Supervision zu erfordern—was sie nicht tun.

Das vierte ist Recovery-Komplexität. Wenn Agenten steckenbleiben oder Unsinn generieren, ist Recovery nicht einfach Neustart. Man muss verstehen, was schiefging, den Memory-State korrigieren, verifizieren, dass keine Downstream-Korruption auftrat, und hoffen, dass die nächste Ausführung gelingt. Traditionelle Software hat deterministisches Debugging. Agent-Debugging ist forensische Psychologie.

Befürworter behaupten 80%+ Kosteneinsparungen in Branchen, wo Arbeitskosten 40-50% der operativen Ausgaben erreichen. Aber diese Zahlen nehmen volle Automation an. Ratliffs Experiment deutet auf eine andere Formel: Agenten reduzieren Arbeit um 40-60%, erfordern aber 20-40% Supervision. Netto-Einsparungen, ja—aber keine Transformation.

Das Y-Combinator-Signal: Validierung oder Gruppendenken?

Y Combinators Frühjahrsbatch 2025 inkludierte 67 KI-Agent-Startups von 144 Unternehmen—46% der Kohorte. Das repräsentiert entweder validierte Opportunity oder koordinierte Wahnvorstellung.

YC ruft explizit nach „dem ersten 10-Personen-$100-Milliarden-Unternehmen” und wettet darauf, dass KI-Tools es Gründern ermöglichen, mit weit weniger Menschen zu skalieren. Die besten Startups der Zukunft würden alle auf eine Metrik optimieren: Umsatz pro Mitarbeiter.

Diese These hat Probleme. YCs eigener Erfolg schafft Imitation—wenn YC KI-Agenten finanziert, pitchen Gründer KI-Agenten, was einen selbsterfüllenden Zyklus schafft, abgekoppelt von tatsächlicher Marktnachfrage. Hohe Umsatz-pro-Mitarbeiter-Ratios zeigen traditionell kapitalintensive Geschäfte an oder extreme IP-Hebelwirkung, nicht operative Effizienz. Ein 10-Personen-Unternehmen mit $100M könnte tatsächlich schreckliche Margen haben, wenn Agent-Kosten, Supervisionslast und Fehlerkorrektur 70% des Umsatzes verschlingen.

Und wer akquiriert KI-Agent-Startups? Die Plattformen selbst? Größere Incumbents? Es gibt keinen offensichtlichen M&A-Pfad, es sei denn, Konsolidierung erfolgt—und Konsolidierung erfordert, dass Gewinner aus dem aktuellen Chaos emergieren, was noch nicht passiert ist.

Ein Investor bemerkte, dass Bewertungen in dieser Kohorte $70 Millionen post-money erreichen, abgekoppelt von traditioneller Early-Stage-Preisfindung. Das deutet entweder darauf hin, dass sophistizierte Investoren asymmetrische Upside sehen—oder dass Kapital Narrativ jagt statt Fundamentaldaten.

Wo die Grenze verläuft

Die Engineering-Realität lässt sich auf eine unbequeme Formel reduzieren: Aktuelle KI-Mitarbeiter excellieren bei engen, repetitiven, low-stakes Tasks mit klaren Erfolgskriterien und häufigen Checkpoints. Sie scheitern bei allem anderen.

Was einigermaßen funktioniert: Customer-Support-Ticket-Triage, Dateneingabe aus strukturierten Formaten, Code-Generierung mit menschlichem Review, einfache Web-Recherche und Zusammenfassung, Kalenderplanung mit expliziten Constraints, Voice-basierte Terminbuchung.

Was vorhersehbar scheitert: Tasks, die Urteilsvermögen oder Geschmack erfordern, Multi-Step-Workflows mit Verzweigungslogik, Situationen, die menschliches Beziehungsmanagement erfordern, ambige Instruktionen ohne Beispiele, jeder Workflow, bei dem Fehler ernste Konsequenzen haben.

Die Lücke zwischen diesen Kategorien repräsentiert die tatsächliche Marktopportunity. Für Routine-, Hochvolumen-, emotional neutrale Tasks im großen Maßstab liefern Agenten Wert. Für komplexe Wissensarbeit generieren sie plausibel klingenden Unsinn, der mehr Zeit zum Verifizieren erfordert, als die Arbeit selbst zu tun.

Während Modelle sich verbesserten—77,2% auf Coding-Benchmarks, hoch von etwa 40% vor einem Jahr—bleibt die Zuverlässigkeitslücke bestehen. 77,2% bedeutet, dass 1 von 4 Coding-Tasks scheitert. Für Produktionssysteme ist das unhaltbar. Die Schwelle für „funktioniert tatsächlich” ist nicht 77%—es ist 99,9%.

Das Fazit: Autonomie als Zukunftsversprechen, Supervision als Gegenwart

Die erste Generation von KI-Mitarbeitern ist da, technisch funktional, und wächst nach den meisten Business-Metriken schnell. Aber „technisch funktional” bedeutet nicht „zuverlässig autonom”, und Wachstum, das von billigem Kapital und Hype-Zyklen getrieben wird, validiert nicht das zugrundeliegende Modell.

Ratliff baute ein funktionierendes Produkt mit fünf halluzinierenden Agenten und bewies, dass die Infrastruktur existiert. Er bewies auch, dass diese Agenten konstante Supervision erforderten, mehr Fabrikation als Wert produzierten und drohten, sich selbst beim Diskutieren fiktiver Events in den Bankrott zu treiben. Die Technologie hat sich weit genug entwickelt, um in eingeschränkten Domänen genuinen Nutzen zu bieten, während sie überall sonst gefährlich unzuverlässig bleibt.

Die fundamentalen Probleme bleiben ungelöst: Memory-Systeme verstärken Halluzinationen, Kosten explodieren unvorhersehbar bei Skalierung, Debugging erfordert forensische Analyse, und Supervisionslast verhindert echte Autonomie. Die Lücke zwischen 61,4% Erfolg auf Benchmarks und 99,9% Zuverlässigkeit für Produktionssysteme hat sich nicht geschlossen—sie wurde nur präziser gemessen.

Sam Altmans Milliarden-Dollar-Ein-Personen-Unternehmen bleibt Science-Fiction. Aber ein 20-Personen-Unternehmen, das erreicht, was früher 50 erforderte? Das passiert bereits—vorausgesetzt, diese 20 Menschen verbringen signifikante Zeit damit, ihre unermüdlichen, selbstbewussten, unerbittlich fabrizierenden digitalen Kollegen zu debuggen, zu verifizieren und zu korrigieren.

Das KI-Mitarbeiter-Zeitalter ist angebrochen. Genauso wie das KI-Mitarbeiter-Supervisions-Zeitalter. Es ist dasselbe Zeitalter, und Ratliffs Fünf-Mitarbeiter-Zirkus demonstrierte, dass das noch für einige Zeit so bleiben wird. Die Zukunft der autonomen Arbeitskraft ist nicht in Code geschrieben—sie wird in Echtzeit zwischen technologischen Fähigkeiten, wirtschaftlichen Anreizen und der unbequemen Realität verhandelt, dass Maschinen, die nicht aufhören können zu lügen, noch keine verlässlichen Mitarbeiter sind.

Dieser Artikel erschien ursprünglich auf IKANGAI.