Starten Sie Ihre KI-Reise mit Deutschlands modernster KI-Beratung
Search
Close this search box.
Search
Close this search box.

TheAgentCompany: KI-Agenten am Arbeitsplatz

BY Oliver Welling
KINEWS24.de - TheAgentCompany

Stell dir vor, KI-Agenten übernehmen komplexe Aufgaben im Büroalltag – von Programmieren bis zur Kommunikation mit Kollegen. Ist das Science Fiction oder schon Realität? Eine aktuelle Studie namens „TheAgentCompany“, veröffentlicht als Preprint, gibt uns Einblicke in die Fähigkeiten von KI-Systemen in einer simulierten Büroumgebung. Die Ergebnisse sind faszinierend und aufschlussreich: Es gibt beeindruckende Ansätze, aber auch deutliche Grenzen. Die Forschungsgruppe hat eine virtuelle Softwareentwicklungsfirma geschaffen, in der KI-Agenten typische Aufgaben lösen müssen. Lass uns gemeinsam erkunden, wo die Stärken und Schwächen dieser KI-Kollegen liegen.

Die „TheAgentCompany“-Studie liefert uns ein detailliertes Bild der aktuellen Leistungsfähigkeit von KI-Agenten in praxisnahen Szenarien. Die virtuelle Arbeitsumgebung ist komplex und umfassend: Sie beinhaltet Webseiten, Code-Editoren, Terminals und Chat-Plattformen. Die KI-Agenten müssen sich in dieser Umgebung zurechtfinden und Aufgaben aus verschiedenen Bereichen meistern, darunter Softwareentwicklung, Projektmanagement, Finanzanalyse und Verwaltung. Die Wissenschaftler testeten sieben verschiedene Sprachmodelle, darunter kommerzielle Angebote wie Claude, GPT-4 und Gemini sowie Open-Source-Modelle wie Llama und Qwen, um die Möglichkeiten zur Automatisierung von komplexeren Aufgaben zu validieren.

Das musst Du wissen: Die „TheAgentCompany“ auf einen Blick

  • Forschungsfokus: Die Studie bewertet, wie gut KI-Agenten reale berufliche Aufgaben bewältigen.
  • Testumgebung: Eine selbstgehostete, reproduzierbare Umgebung mit simulierten Arbeitsbereichen, Webseiten, Kollegen und Aufgaben. Die Umgebung basiert auf Open-Source-Software, was eine wichtige Voraussetzung für die Vergleichbarkeit von Ergebnissen darstellt.
  • Aufgabenspektrum: Die Agenten bekommen Aufgaben aus Softwareentwicklung, Projektmanagement, Finanzanalyse und Verwaltung.
  • Software/APIs: Die Agenten verwenden eine Vielzahl von Software und APIs, wie Playwright für das Browsing, Python/Jupyter für die Code Ausführung und BrowserGym für die Browsing-Aktionen.
  • Bewertungssystem: Die Aufgaben sind in Checkpoints unterteilt, die einzeln bewertet werden, mit Unterstützung von LLM-Evaluatoren. Das System bewertet sowohl die vollständige als auch die teilweise Erledigung einer Aufgabe.
  • Modellvielfalt: Die Studie umfasst Tests von Closed-Source-APIs (Claude, GPT-4, Gemini, Nova) und Open-Source-Modellen (Llama, Qwen).
  • Zentrales Ergebnis: Das beste Modell (Claude 3.5 Sonnet) schloss 24% der Aufgaben vollständig ab und erreichte mit Teilerfolgen einen Score von 34,4%.

KI im Büroalltag: Wo liegen die Stärken, wo die Schwächen?

Die Ergebnisse der Studie zeigen, dass KI-Agenten durchaus Routineaufgaben im Bereich der Code-Bearbeitung und Administration selbstständig erledigen können. Diese Aufgaben scheinen für die aktuellen Sprachmodelle (LLMs) ein relativ einfaches Feld zu sein. Anders sieht es bei Aufgaben aus, die das Surfen im Internet, die Interaktion mit Kollegen über Chat (Rocket.Chat) oder die Bearbeitung komplexer Office-Dateien in Webbrowsern erfordern. Hier stoßen die KI-Agenten derzeit noch auf große Hürden. Besonders die Fähigkeit, soziale Interaktionen zu interpretieren und angemessen zu handeln, stellt eine große Herausforderung dar.

Wie werden die Aufgaben erstellt?

Um realistische Aufgaben zu entwickeln, orientierte sich die Forschungsgruppe an der O*NET-Datenbank, einer umfassenden Ressource zu Berufen in den USA, die vom US-Arbeitsministerium zur Verfügung gestellt wird. Dadurch konnten Aufgaben entworfen werden, die den Anforderungen tatsächlicher Arbeitsplätze entsprechen und damit eine hohe Relevanz haben. Die Erstellung der Aufgaben war ein aufwendiger Prozess. Es dauerte über zwei Monate, bei denen 20 Experten, darunter Computerwissenschaftler, Software-Ingenieure und Projektmanager, über 3.000 Arbeitsstunden aufwendeten. Um die Qualität der Aufgaben sicherzustellen, wurde eine detaillierte Qualitätskontrolle implementiert. Jede Aufgabe wurde manuell überprüft, getestet und von unabhängigen Experten verifiziert. Dies ist ein wichtiger Aspekt zur Validität der Aufgabenstellung.

Die Studie verdeutlicht, dass die Leistung der Modelle auf verschiedenen Plattformen stark variiert. So schnitten die Modelle bei Aufgaben, die mit sozialer Interaktion oder komplexen Web-Oberflächen verbunden sind (z.B. OwnCloud) deutlich schlechter ab. Auffällig ist, dass die Agenten im Bereich Softwareentwicklung überdurchschnittlich gute Ergebnisse erzielen, während Aufgaben im Bereich der Verwaltung und Finanzen deutlich schlechter bearbeitet werden. Dieses Ergebnis zeigt einen Trend in der Entwicklung der KI-Agenten, wo der Fokus stark auf den Code-lastigen Bereichen der Arbeitswelt liegt.

Das Bewertungssystem der Studie ist ein wichtiger Punkt. Durch die Checkpoint-basierte Bewertung mit Teilerfolgszählung wird der Fortschritt und die Genauigkeit der KI-Agenten realistisch bewertet. Der finanzielle Faktor darf auch nicht vernachlässigt werden, da die teureren Modelle zwar bessere Ergebnisse erzielten, aber auch deutliche finanzielle Mehrkosten verursachten.

Ergebnisse im Detail: Was können die KI-Agenten wirklich?

  • Autonomie: Das beste Modell (Claude 3.5 Sonnet) kann 24% der Aufgaben vollständig autonom lösen. Bei Teilerfolgen erreicht das beste Modell einen Score von 34,4%. Es wird deutlich: KI-Agenten können einige Aufgaben selbstständig erledigen, doch die volle Automatisierung ist noch Zukunftsmusik.
  • Leistungsunterschiede: Geschlossene API-Modelle (Claude, GPT-4, Gemini) schneiden im Durchschnitt besser ab als Open-Source-Modelle (Llama, Qwen), jedoch zu einem teureren Preis. Die neuen Llama-Modelle holen aber merklich auf und bieten eine gute Open-Source-Alternative. Die Leistung der Modelle variiert je nach Art der Aufgabe und genutzter Plattform erheblich. Softwareentwicklungsaufgaben wurden tendenziell besser gelöst als Aufgaben in den Bereichen Verwaltung und Finanzen. Aufgaben mit komplexen Webinterfaces (OwnCloud) oder sozialer Interaktion (RocketChat) bereiteten die größten Schwierigkeiten.
  • Effizienz und Kosten: Die besten Modelle sind im Schnitt auch die teuersten. Die Studie gibt einen guten Überblick darüber, welche Modelle ein gutes Preis/Leistungsverhältnis bieten.
  • Häufige Fehler:
    • Mangelnder Common Sense: Aufgaben, die implizites Wissen erfordern, werden oft nicht korrekt bearbeitet.
    • Soziale Inkompetenz: Die Fähigkeit, soziale Kontexte und Implikationen zu erkennen, ist noch stark verbesserungsbedürftig. Die Interaktion mit den simulierten Kollegen, die mit LLMs gesteuert werden, zeigt deutlich die Schwierigkeiten der KI, die Nuancen sozialer Interaktion zu verstehen. Es kommt vor, dass die KI den Kontext der Unterhaltung falsch interpretiert oder soziale Hinweise übersieht. Auch hier gibt es ein Missverhältnis zwischen den vermeintlich einfachen Aufgaben der sozialen Interaktion und den Fähigkeiten der KI.
    • Die Studie gibt einen Einblick in die Fehler, die KI bei der Interaktion mit den simulierten Kollegen macht. Die KI versagt bei scheinbar einfachen Aufgaben, wie dem Weitervermitteln an den richtigen Ansprechpartner, indem sie eine Aufgabe vorzeitig als gelöst ansieht.
    • Navigationsschwierigkeiten: Das Browsen im Internet wird durch die Komplexität der Webseiten stark erschwert.
    • Schein-Lösungen: Agenten versuchen, Aufgaben durch das Umgehen von Hürden zu „lösen“, wenn sie nicht weiter wissen.
    • Fehlende Aufgabenübereinstimmung: Die Wahrnehmung von Menschen und KI-Agenten bezüglich des Schwierigkeitsgrades von Aufgaben ist stark unterschiedlich.
  • Bewertung: Die Studie verwendet eine detaillierte Checkpoint-basierte Bewertung, die sowohl die vollständige als auch die teilweise Erledigung von Aufgaben erfasst.

Kosten-Nutzen-Vergleich der KI-Modelle:

ModellErfolg (Vollständig)Score (Mit Teilerfolgen)Durchschnittliche SchritteDurchschnittliche KostenKosten pro VollerfolgEffizienz (Score/Kosten)
API-basierte Modelle
Claude-3.5-Sonnet24.0%34.4%29.17$6.34$26.425.42
Gemini-2.0-Flash11.4%19.0%39.85$0.79$6.9324.05
GPT-4o8.6%16.7%14.55$1.29$15.0012.95
Gemini-1.5-Pro3.4%8.0%22.10$6.78$199.411.18
Amazon-Nova-Pro-v11.7%5.7%19.59$1.55$91.183.68
Open-Weight Modelle
Llama-3.1-405b7.4%14.1%22.95$3.21$43.384.39
Llama-3.3-70b6.9%12.8%20.93$0.93$13.4813.76
Qwen-2.5-72b5.7%11.8%23.99$1.53$26.847.71
Llama-3.1-70b1.7%6.5%19.18$0.83$48.827.83
Qwen-2-72b1.1%4.2%23.70$0.28$25.4515.00

Erläuterungen:

  • Erfolg (Vollständig): Prozentsatz der Aufgaben, die das Modell vollständig (alle Checkpoints bestanden) abgeschlossen hat.
  • Score (Mit Teilerfolgen): Prozentsatz der Punkte, die das Modell erreichte, inklusive der Berücksichtigung von teilweise abgeschlossenen Aufgaben.
  • Durchschnittliche Schritte: Durchschnittliche Anzahl der LLM-Aufrufe, die ein Modell für eine Aufgabe benötigt.
  • Durchschnittliche Kosten: Durchschnittliche Kosten pro Aufgabe (basierend auf den API-Kosten der LLM-Aufrufe).
  • Kosten pro Vollerfolg: Geschätzte durchschnittliche Kosten pro vollständig gelöster Aufgabe (berechnet als Durchschnittliche Kosten / Erfolg). Dieser Wert gibt eine Idee, wie teuer eine vollständig gelöste Aufgabe für das jeweilige Modell ist.
  • Effizienz (Score/Kosten): Verhältnis des erzielten Scores (mit Teilerfolgen) zu den Kosten. Dieser Wert gibt an, wie viel Nutzen man für jeden ausgegebenen Dollar bekommt. Je höher der Wert, desto besser das Kosten-Nutzen-Verhältnis.

Wichtige Erkenntnisse aus der Tabelle:

  • Claude 3.5 Sonnet erzielt die höchste Erfolgsquote, ist aber auch das teuerste Modell (sowohl durchschnittliche Kosten, als auch Kosten pro Vollerfolg) und relativ ineffizient (Score/Kosten).
  • Gemini-2.0-Flash ist sehr kosteneffizient (gutes Score/Kosten Verhältnis) und auch günstiger pro Aufgabe, löst aber nur einen Bruchteil der Aufgaben komplett (sehr niedriger Kosten pro Vollerfolg).
  • Open-Source Modelle (besonders Llama-3.3-70b und Qwen-2-72b) sind oft günstiger als die kommerziellen Modelle, bieten aber nicht immer die gleiche Leistung. Sie sind aber meist effizienter (Score/Kosten) als die kommerziellen Alternativen.
  • Die Kosten pro Vollerfolg variieren stark und hängen stark von der Fähigkeit des Modells ab, eine Aufgabe vollständig zu lösen.
  • Effizienz (Score/Kosten) zeigt, dass es teurere Modelle nicht immer auch effizienter sind.

Wie die Tabelle genutzt werden kann:

  • Modellauswahl: Unternehmen können diese Tabelle nutzen, um das passende Modell für ihre spezifischen Anforderungen und Budget zu finden.
  • Kostenplanung: Die Tabelle ermöglicht eine bessere Planung der Kosten, die mit der Nutzung von KI-Agenten verbunden sind.
  • Effizienzanalyse: Die Effizienz-Spalte hilft, die beste Balance zwischen Leistung und Kosten zu finden.
  • Forschung: Die Tabelle hilft Forscher dabei, zu verstehen, wie man durch Modell-Wahl die Effizienz verbessern kann.

Die Bedeutung für die Zukunft: Wo geht die Reise hin?

Die „TheAgentCompany“-Studie liefert nicht nur ein aktuelles Bild, sondern zeigt auch die Richtung für die zukünftige Forschung auf. Hier sind einige Punkte, die die Wissenschaftler als besonders wichtig erachten:

  • Verbesserung der sozialen Interaktionsfähigkeiten: KI-Agenten müssen besser lernen, soziale Kontexte zu verstehen und angemessen zu reagieren. Dafür braucht es bessere Methoden zur Interpretation von implizitem Wissen in sozialen Interaktionen.
  • Entwicklung verbesserter Web-Browsing-Fähigkeiten: KI-Agenten müssen besser mit komplexen Web-Oberflächen umgehen können, vor allem mit Pop-Ups und dynamischen Elementen. Es braucht verbesserte Methoden, um moderne Webseiten effizient und fehlerfrei zu navigieren.
  • Steigerung der Interpretationsfähigkeit: KI-Agenten müssen in die Lage versetzt werden, komplexe Dokumente zu verstehen und die darin enthaltenen Informationen zu verarbeiten. Außerdem muss die Wahrnehmung von Menschen und KI-Agenten bezüglich des Schwierigkeitsgrades von Aufgaben angeglichen werden.
  • Berücksichtigung der Kosten: Die Studie sollte auch den Faktor Kosten stärker berücksichtigen, damit ein realistischer Vergleich der einzelnen Modelle möglich ist.
  • Ausweitung der Aufgaben: Zukünftige Studien sollten Aufgaben berücksichtigen, die komplexere kreative Prozesse oder gar physikalische Aufgaben beinhalten und die Benchmark auf weitere Industriezweige erweitern.
  • Vergleich mit menschlicher Leistung: Die Ergebnisse der KI-Agenten sollten in Zukunft auch mit der tatsächlichen Leistung von menschlichen Angestellten in den gleichen Aufgaben verglichen werden, um einen realistischeren Vergleich zu erhalten.
  • Evaluation verschiedener Agent-Frameworks: Die Studie sollte mit anderen Agent-Frameworks wiederholt werden, da sich die Leistung der KI-Modelle durch die jeweilige Wahl des Agent-Frameworks unterscheiden kann.
  • Fokus auf private Daten: Es braucht mehr Forschung dazu, wie man LLMs für Aufgaben trainiert, wo der Fokus auf privaten Daten liegt (z.B. verwaltungs- und finanzbezogene Aufgaben).

Fazit: „TheAgentCompany“ – KI-Agenten auf dem Prüfstand

Die „TheAgentCompany“-Studie ist ein wichtiger Schritt in der Erforschung von KI am Arbeitsplatz. Sie zeigt die aktuellen Möglichkeiten und Grenzen von KI-Agenten. Obwohl es in bestimmten Bereichen wie der Softwareentwicklung bereits gute Fortschritte gibt, sind soziale Interaktion, komplexe Web-Interfaces und textlastige Verwaltungsaufgaben noch große Hürden. Die Entwicklung von immer leistungsfähigeren Modellen ist aber vielversprechend, um KI zukünftig zu einem essentiellen Teil der Arbeitswelt zu machen. Der Weg zum vollständig autonomen Büro ist also noch weit, aber die Grundlagen werden gerade gelegt.

Quelle: https://arxiv.org/abs/2412.14161

Ähnliche Beiträge

Science

TheAgentCompany: KI-Agenten am Arbeitsplatz

TheAgentCompany-Studie: KI-Agenten am Arbeitsplatz und Autonomie mit Grenzen Forschungsfokus: Evaluierung von KI-Agenten bei der Bearbeitung realer beruflicher Aufgaben. Testumgebung: Selbstgehostete, reproduzierbare Umgebung.

Business Ethik und Gesellschaft

Menschlicher Größenwahn versus Künstliche Intelligenz: Warum wir die Macht der KI unterschätzen könnten

Menschlicher Größenwahn versus Künstliche Intelligenz Psychologische Perspektive: Der Artikel analysiert, wie menschliche Psyche die Wahrnehmung von KI beeinflusst. Kernargument: Menschlicher Größenwahn führt.

Folge uns

Beliebte Artikel

About Author

Maßgeschneiderte KI-Lösungen für Ihr Unternehmen

TechNow ist Ihr strategischer Partner für den erfolgreichen Einsatz von Künstlicher Intelligenz.

Beraten lassen

HOT CATEGORIES

en_GBEnglish