Künstliche Intelligenz kann das Internet mittlerweile effizient durchkämmen und uns helfen, alltägliche Aufgaben wie Online-Shopping oder Projektmanagement zu vereinfachen. Doch was wäre, wenn KI-Agenten statt über simulierte Klicks und menschliche Bedienungsmuster direkt über maschinenfreundliche APIs auf das Web zugreifen könnten? Eine solche neue Dimension eröffnet die aktuelle Arbeit von Yueqi Song, Frank Xu, Shuyan Zhou und Graham Neubig an der Carnegie Mellon University. Sie präsentieren zwei innovative Ansätze, wie Web-Agenten mit APIs statt über herkömmliches Browsen komplexe Aufgaben effizienter, schneller und präziser bewältigen können.
Das musst du wissen
- Zwei Agentenarten: Ein API-basierter Agent, der ausschließlich über APIs arbeitet, und ein Hybrid-Agent, der nahtlos zwischen API-Zugriff und klassischem Browsing wechselt.
- Vorteile des Hybrid-Agenten: Mit einer Erfolgsrate von 35,8 % bei WebArena-Benchmark-Tests übertrifft er herkömmliche Modelle signifikant.
- Effizientere Aufgabenbewältigung: Besonders stark auf Plattformen mit umfassender API-Unterstützung wie GitLab und Map-Dienste.
- Weniger Rechenaufwand: Durch die direkte API-Kommunikation wird der Ressourcenverbrauch drastisch gesenkt.
- Zukunftsweisend: Die Forschung deutet darauf hin, dass APIs die Struktur und Interaktionsfähigkeit von Web-Agenten revolutionieren könnten.
Beyond Browsing: API-Based Web Agents (Jenseits des Browsers: API-basierte Web-Agenten)
Autoren: Yueqi Song, Frank Xu, Shuyan Zhou, Graham Neubig
Veröffentlichungsdatum: 26. Oktober 2024
Veröffentlichungsdatum des Papers: 21. Oktober 2024
Schlüsselbegriffe: Web-Agenten, APIs, Hybrid-Agent, WebArena, künstliche Intelligenz
Problemstellung:
Die Mehrheit der aktuellen Web-Agenten ist darauf ausgelegt, grafische Benutzeroberflächen (GUIs) zu bedienen, als wären sie menschliche Nutzer: Sie klicken sich durch Menüs, füllen Formulare aus und navigieren durch komplexe Seitenstrukturen. Doch solche, für Menschen designte Oberflächen sind für Maschinen eine Herausforderung, da viele Inhalte dynamisch nachgeladen werden, sich ständig verändern und Interaktionen vielfach wiederholt werden müssen. Ein typisches Beispiel ist die Suche nach bestimmten Informationen auf GitLab, etwa um die Anzahl der Commits eines bestimmten Nutzers in einem Repository zu finden. Die Nutzung traditioneller Web-Browsing-Techniken wie simulierte Klicks und Scrollen erfordert dabei oft 15 Schritte oder mehr – häufig erfolglos und ineffizient.
Die zentrale Frage dieses Papers: Was wäre, wenn KI-Agenten mit Websites direkt über APIs kommunizieren könnten, anstatt sich durch diese komplizierten und oft ineffizienten GUI-Interaktionen zu arbeiten? APIs, die auf maschinenlesbare Formate wie JSON setzen, könnten es Agenten ermöglichen, effizienter und präziser auf Daten zuzugreifen, ohne sich durch Webseiten klicken zu müssen. Eine solche Lösung verspricht nicht nur einen enormen Effizienzgewinn, sondern auch einen deutlich reduzierten Rechenaufwand.
Hauptbeitrag:
Das Forschungsteam stellt zwei innovative Arten von Web-Agenten vor:
- API-basierter Agent: Dieser Agent nutzt ausschließlich APIs, um Informationen abzurufen und Aufgaben zu erledigen, und umgeht damit vollständig die Nutzung grafischer Oberflächen. Durch standardisierte API-Protokolle wie REST werden Informationen direkt aus der Datenbank der Webseite abgerufen und verarbeitet – ohne die Notwendigkeit, sich durch die sichtbaren Oberflächen zu klicken.
- Hybrid-Agent: Hierbei handelt es sich um eine flexible Kombination aus API-Zugriff und klassischem Web-Browsing. Der Hybrid-Agent kann je nach Bedarf zwischen beiden Methoden wechseln und API-Zugriffe mit Browsing-Aktionen kombinieren, falls eine API für eine bestimmte Aktion nicht vorhanden ist. Damit bietet dieser Ansatz das Beste aus beiden Welten: Effizienz, wo APIs verfügbar sind, und Flexibilität, wenn Webseiten nur eingeschränkte API-Funktionalität bieten.
Methodik:
Zur Evaluierung dieser beiden Ansätze setzten die Forscher auf den WebArena-Benchmark, eine Plattform, die verschiedene realitätsnahe Web-Interaktionen simuliert und eine breite Palette an Webseiten enthält. Diese Tests stellen den Agenten diverse Aufgaben, wie beispielsweise das Verwalten von Projekten auf GitLab, das Abrufen von Karteninformationen und das Bearbeiten von Artikeln in einer E-Commerce-Umgebung. Auf jeder dieser Webseiten mussten die Agenten Aufgaben bewältigen, die sowohl API-Aufrufe als auch Interaktionen über klassische Web-Browsing-Methoden erforderten.
Der API-basierte Agent wurde speziell für die direkte API-Kommunikation konzipiert. Dies beinhaltete:
- API-Zugriff: Der Agent sendet HTTP-Anfragen (z. B. GET, POST) an die API-Endpunkte, um Daten abzurufen oder zu verändern.
- Dokumentationszugriff: Kleine API-Sets (<100 Endpunkte) wurden dem Agenten direkt zur Verfügung gestellt, während für größere Sets eine zweistufige Dokumentationsabfrage eingerichtet wurde. Dies ermöglichte es dem Agenten, nur die relevanten Informationen bei Bedarf zu laden, wodurch der Ressourcenverbrauch optimiert wurde.
Der Hybrid-Agent nutzt hingegen beide Methoden und wechselt dynamisch zwischen API-Aufrufen und Browsing-Aktionen, je nach Bedarf und Verfügbarkeit. Das ermöglicht eine effizientere Aufgabenbewältigung und vermeidet unnötige Schritte.
Ergebnisse:
In den Tests zeigte sich der Hybrid-Agent als überlegen: Er erzielte eine durchschnittliche Erfolgsrate von 35,8 % und übertraf damit alle rein API- oder rein Browsing-basierten Agenten. Besonders effizient war der Hybrid-Agent auf Seiten mit starker API-Unterstützung, wie GitLab und Map-Dienste, wo er Aufgaben mit höherer Geschwindigkeit und weniger Interaktionsschritten abschließen konnte als klassische Web-Agenten.
Der API-basierte Agent schnitt ebenfalls gut ab und erreichte eine durchschnittliche Erfolgsquote von 29,2 %. Besonders positiv zeigte sich seine Leistung auf Plattformen mit detaillierter API-Dokumentation und umfassender API-Unterstützung. Der traditionelle Browsing-Agent hingegen war häufig ineffizient und wies auf den komplexen Webseiten eine Erfolgsquote von lediglich 14,8 % auf. Diese Ergebnisse unterstreichen die Potenziale einer hybriden API/Browsing-Nutzung bei Web-Agenten.
Bedeutung:
Diese Forschung deutet darauf hin, dass die Zukunft der KI-basierten Web-Interaktion in der Kombination von Browsing und API-Kommunikation liegt. Die Möglichkeit, bei Bedarf nahtlos zwischen beiden Interaktionsmethoden zu wechseln, führt nicht nur zu einer effizienteren Aufgabenerfüllung, sondern senkt auch den Ressourcenaufwand drastisch. Die Agenten könnten in der Zukunft auf nahezu alle Web-Datenstrukturen zugreifen und effizienter als bisher Informationen sammeln oder Aufgaben ausführen. Besonders relevant wird dies in Bereichen, in denen große Mengen an strukturierten Daten verarbeitet werden müssen, wie etwa bei der Analyse von Social Media Plattformen, in der Online-Produktverwaltung oder in intelligenten Assistenten.
Offene Fragen / Zukünftige Arbeit:
Ein zentrales Ziel zukünftiger Forschung wird die Automatisierung der API-Dokumentation sein. Durch Methoden wie Agent Workflow Memory (AWM) könnten neue APIs automatisch identifiziert und erstellt werden, wodurch Web-Agenten noch flexibler auf Webseiten ohne API-Unterstützung zugreifen könnten. Weitere Forschung ist auch erforderlich, um die Leistung in noch komplexeren Aufgaben zu verbessern, insbesondere bei Plattformen mit eingeschränkten API-Schnittstellen.
#ArtificialIntelligence #AIScience #WebAgents #APIBasedInteraction #HybridAgent #WebArena