KI-Agenten ROI messen: warum es so schwer ist

Kurz gesagt: Den ROI von KI-Agenten zu messen ist schwer, weil der eigentliche Gegenwert hypothetisch bleibt und Wissensarbeit kein anerkanntes Mengenmaß hat. Microsoft zeigt die echten Kosten pro Agent zudem nur im Admin-Portal, nicht als abrufbare Zahl. Belastbar wird der ROI erst, wenn Sie die Kosten messen statt schätzen und den Nutzen mit belegten Annahmen statt Bauchwerten ansetzen.

Warum lässt sich der Nutzen von KI-Agenten so schwer beziffern?

Weil schon die Wertfrage konzeptionell hart ist, lange bevor es um Microsoft-Tools geht. Sechs Hürden stecken in jeder Agenten-Rechnung.

Der Gegenwert ist hypothetisch. Um den Nutzen zu beziffern, müssten Sie wissen, was ohne den Agenten passiert wäre. Diesen Vergleich beobachten Sie nie direkt, Sie müssen ihn schätzen. Hätte ein Mensch die Aufgabe gemacht, schneller, langsamer, oder gar nicht?

Wissensarbeit hat keinen Stückzähler. Anders als in der Fertigung gibt es kein anerkanntes Maß für den Output von Wissensarbeit. Eine gelöste Anfrage ist nicht gleich eine gelöste Anfrage. Qualität entscheidet, und Qualität ist schwerer zu zählen als Menge.

Der Wert verteilt sich auf Mensch und Maschine. Ein Agent ersetzt selten eine ganze Aufgabe, er unterstützt einen Menschen, der den Rest erledigt. Das Ergebnis sauber dem Agenten zuzurechnen, statt dem Team oder dem Prozess, ist der Kern des Problems.

Zeitersparnis ist nur die halbe Rechnung. Wer nur gesparte Minuten zählt, übersieht den größeren Hebel. Manche Aufgaben werden durch KI überhaupt erst möglich oder in besserer Qualität erledigt. Reine Substitution misst den Wert zu niedrig.

Der Effekt kann negativ sein. Ein Feldexperiment von Harvard und der Boston Consulting Group zeigte 2023: Bei Aufgaben jenseits der KI-Stärken schnitten Berater mit KI rund 19 Prozentpunkte schlechter ab als ohne. Eine pauschale Wert-Annahme pro Agent stimmt deshalb nicht für jede Aufgabe.

Vieles wird produziert, aber verworfen. KI-Output ist billig erzeugt, und billig Erzeugtes wird schneller weggeworfen als Arbeit, in die ein Mensch sichtbar Mühe gesteckt hat. Ein Lauf, dessen Ergebnis niemand nutzt, realisiert keinen Wert, kostet aber Credits. Eine 2025 in der Harvard Business Review veröffentlichte Untersuchung prägte dafür den Begriff „Workslop": polierter KI-Output ohne Substanz, der beim Empfänger im Schnitt rund zwei Stunden Nacharbeit auslöst. Wer den Wert an Läufen oder Output misst, zählt also auch das mit, was am Ende im Papierkorb landet.

Was die Zahlen sagen

Die Branche scheitert an der Wertfrage, nicht an der Technik. Gartner erwartet, dass über 40 Prozent der agentischen KI-Projekte bis Ende 2027 abgebrochen werden, vor allem wegen steigender Kosten und unklarem Geschäftswert.

Ein MIT-Bericht aus dem Jahr 2025 kam zu einem ähnlichen Befund: 95 Prozent der Unternehmen sahen keinen messbaren Return auf ihre Investitionen in generative KI. Der Engpass ist dabei selten der Agent selbst.

Viele dieser Projekte haben funktionierende Agenten, was fehlt, ist der belastbare Nachweis ihres Nutzens. Das Problem ist die Messung, nicht das Modell.

Im Mittelstand kommt die Kostenseite dazu. Auswertungen zu Microsoft 365 Copilot berichten, dass ein großer Teil der gekauften Lizenzen nach einigen Monaten kaum noch genutzt wird. Ohne Messung bleibt unsichtbar, welche Agenten und Lizenzen ihr Geld nicht verdienen.

Wie misst Microsoft den ROI, und wo hört es auf?

Microsoft hat eine eingebaute Antwort, aber sie löst das leichtere Ende. In Copilot Studio gibt es die Savings-Kachel. Dort tragen Sie ein, wie viel Zeit oder Geld ein Mensch für dieselbe Aufgabe bräuchte, und Microsoft multipliziert das mit der Zahl der gelösten Läufe.

Das verschiebt das eigentliche Problem auf Sie. Die schwierigste Zahl, der menschliche Gegenwert, ist eine Handeingabe pro Agent. Der ausgewiesene ROI ist nur so gut wie diese Annahme, und die Annahme verschwindet danach in der Zahl.

Dazu kommt ein Bruch in der Rechnung. In die Ersparnis zählen nur die erfolgreichen Läufe, bezahlt wird aber für alle. Kosten und Nutzen messen also nicht dieselbe Menge.

Und die echten Kosten? Was ein einzelner Agent an Copilot Credits verbraucht, steht nur im Admin-Portal, im Power Platform Admin Center unter Manage Agents. Einen offiziellen, abrufbaren Weg, diese Zahl in eigene Auswertungen zu ziehen, gibt es nicht. Sie können sie ablesen, aber nicht automatisiert weiterverarbeiten.

Microsoft liefert also Werkzeuge, aber der Nutzen bleibt eine getippte Annahme und die Kosten eine Zahl zum Ablesen. Genau hier hört die eingebaute Lösung auf.

Wie Sie den ROI von KI-Agenten trotzdem ehrlich messen

Belastbar wird der ROI nicht durch eine schönere Annahme, sondern durch eine ehrlichere Methode. Vier Schritte machen aus dem Bauchwert eine begründete Zahl.

Kosten messen statt schätzen. Lesen Sie aus, was jeder Agent tatsächlich an Credits verbraucht, statt mit einer Pauschale zu rechnen. Die Ist-Zahl steht im Admin-Portal, nutzen Sie sie als Grundlage.

Nur den kontrafaktischen Nutzen zählen. Wert entsteht dort, wo der Agent eine Aufgabe wirklich gelöst hat, ohne dass ein Mensch übernehmen musste. Eskalierte oder verworfene Läufe zählen nicht als Ersparnis, auch wenn sie Credits gekostet haben.

Den Wert mit belegten Annahmen ansetzen. Statt pro Agent eine Zeitersparnis zu erfinden, nehmen Sie gemessene Werte aus Studien je Aufgabentyp als Ausgangspunkt. Schreibaufgaben, Recherche und Kundenservice haben unterschiedliche, erforschte Effekte. Das ersetzt das Bauchgefühl durch einen nachvollziehbaren Default.

Die Unsicherheit offen ausweisen. Jede Wertzahl bleibt am Ende eine Schätzung, kein Kontoauszug. Ehrlich ist, sie mit einer Spanne zu zeigen, statt eine scheingenaue Zahl zu liefern, deren Annahme niemand sieht.

Genau diese Haltung leitet LessLicense: auf eine komplexe Frage eine geradlinige Antwort, und die Grenzen offen dazu. Heute analysiert LessLicense Ihre Microsoft-365-Lizenzen datenbasiert und zeigt, wo Budget ungenutzt liegt, statt Sie eine Annahme eintippen zu lassen. Wie der Ablauf aussieht, sehen Sie unter So funktioniert es.

FAQ

Kann man den ROI von KI-Agenten überhaupt messen?

Ja, aber als begründete Schätzung, nicht als exakten Wert. Die Kosten lassen sich aus dem Credit-Verbrauch messen, der Nutzen bleibt eine kalibrierte Annahme. Entscheidend ist, diese Unsicherheit offen auszuweisen statt eine scheingenaue Zahl zu liefern.

Was kostet ein KI-Agent in Microsoft 365?

Abgerechnet wird in Copilot Credits pro Aktion, ein Credit kostet rund 0,01 US-Dollar. Eine generative Antwort sind 2 Credits, eine Aktion 5, eine komplexe Antwort mit Tenant-Grounding rund 12. Details und versteckte Posten zeigt der Leitfaden Was KI-Agenten in Microsoft 365 kosten.

Ab wann lohnt sich ein KI-Agent?

Ein Agent lohnt sich, sobald sein gemessener, kontrafaktischer Nutzen die laufenden Credits plus Lizenz- und Betreuungskosten übersteigt. Faustregeln über pauschale Minuten pro Woche taugen nur als grobe Orientierung. Verlässlich wird die Antwort erst mit echten Nutzungsdaten pro Agent.

Lohnt es sich, KI-Agenten zu bauen, wenn der ROI so unsicher ist?

Ja, aber nur mit Messung von Anfang an. Gartner führt einen großen Teil der gescheiterten Projekte auf unklaren Geschäftswert zurück, nicht auf schlechte Technik. Wer die Messung erst nachträglich aufsetzt, kann den Nutzen funktionierender Agenten oft nicht mehr belegen.