Mentat WebAgent verbessert die autonome Web-Navigation durch Planung, HTML-Zusammenfassung und Python-Programmgenerierung, steigert den Erfolg um 50%.Mentat WebAgent verbessert die autonome Web-Navigation durch Planung, HTML-Zusammenfassung und Python-Programmgenerierung, steigert den Erfolg um 50%.

Einleitung

Mentat WebAgent: Die Nutzung von vortrainierten, großen Sprachmodellen (LLMs) hat in der automatisierten Web-Navigation an Bedeutung gewonnen. Doch trotz Fortschritten leiden diese Modelle immer noch unter bestimmten Problemen wie offener Domänenzugriff, begrenzter Kontextlänge und mangelndem induktivem Bias bei HTML. In diesem Artikel stellen wir WebAgent vor, eine Innovation, die diese Probleme adressiert. Der Name dieses WebAgents ist Mentat:

Überblick über Mentat WebAgent

Mentat ist ein KI-Tool, das Coding-Unterstützung über die Kommandozeile bietet. Es kann koordinierte Änderungen über mehrere Dateien hinweg vornehmen. Der Name stammt aus der Science-Fiction-Reihe Dune, in der Mentaten Menschen waren, die trainiert wurden, komplexe Analysen wie KIs durchzuführen.

Hauptfunktionen Mentat WebAgent

  • Unterstützt bei jeder Codierungsaufgabe durch natürliche Sprachanweisungen
  • Ermöglicht nahtlose Änderungen über mehrere Dateien
  • Großer Codebasis, so dass nur kleine Abschnitte für Eingabeaufforderungen abgerufen werden
  • Kann lokales LLM-Modell anstelle von API verwenden
  • Findet Anwendung in Finanzanalyse, Cybersicherheit, Gesundheitswesen, Forschung und mehr

Entwicklung und technische Details

  • Ursprünglich Probleme mit ungültiger Syntax und SSL-Zertifikaten
  • Probleme durch Upgrade auf Python und Zertifikats-Fehlerbehebung behoben
  • Forschungsteam empfiehlt lokales LLM-Modell gegenüber OpenAI API
  • Große Codebasis veranlasste Abruf kleiner Abschnitte zur Zusammenfassung für LLM

WebAgent: Planung und Ausführung

Offene Domäne, begrenzte Kontextlänge und HTML-Probleme

WebAgent wurde entwickelt, um die Herausforderungen von (1) offener Domänenzugriff, (2) begrenzter Kontextlänge und (3) mangelndem induktivem Bias bei HTML zu überwinden.

Canonical Sub-Instructions

Um diese Probleme zu lösen, plant WebAgent im Voraus, indem es Anweisungen in kanonische Unteranweisungen zerlegt. Dadurch wird die Navigation einfacher und effizienter.

Zusammenfassung von HTML-Dokumenten

WebAgent kann lange HTML-Dokumente in für die Aufgabe relevante Ausschnitte zusammenfassen. Dies erleichtert die Bearbeitung von komplexen Web-Inhalten.

Generierung von Python-Programmen

Das Modell generiert Python-Programme, um auf Websites zu agieren. Dies bietet eine vielseitige und flexible Lösung für Web-Navigation und Interaktion.

Flan-U-PaLM und HTML-T5

Flan-U-PaLM

Dieses Design ermöglicht es, auf dem Boden stehende Code-Generierung zu erzielen, und stellt eine Schlüsselkomponente in der Architektur von WebAgent dar.

HTML-T5

HTML-T5, ein neues vortrainiertes LLM speziell für lange HTML-Dokumente, verwendet lokale und globale Aufmerksamkeitsmechanismen und eine Mischung aus langspannenden Denoising-Zielen für Planung und Zusammenfassung.

Ergebnisse

Die Ergebnisse zeigen, dass WebAgent den Erfolg auf realen Websites um über 50% steigert. HTML-T5 erwies sich dabei als bestes Modell für HTML-basierte Aufgaben, mit einer Erfolgsrate, die 14,9% höher liegt als bei früheren Spitzenmodellen.

Mentat WebAgent Fazit

Mentat ist ein KI-Assistent, der Entwickler unterstützt, indem er Code-Änderungen über Dateien hinweg durch natürliche Sprachanweisungen koordiniert. Nach anfänglichen technischen Hürden ermöglicht er jetzt ein einfacheres Management großer, komplexer Projekte. Mentat hat ein breites Anwendungsspektrum und wird durch die Forschung weiter verbessert.

WebAgent stellt einen bedeutenden Schritt in der Entwicklung autonomer Web-Navigation dar. Durch die Integration von Techniken wie kanonischen Unteranweisungen, Zusammenfassungen von HTML-Dokumenten und der Generierung von Python-Programmen bietet WebAgent eine robuste und effiziente Lösung für die Herausforderungen der offenen Domäne, begrenzter Kontextlänge und HTML-Verarbeitung. Die Verwendung von Flan-U-PaLM und HTML-T5 trägt ebenfalls zur Verbesserung bei, wobei die Ergebnisse deutlich die Vorteile dieser Ansätze aufzeigen.

#WebAgent, #vortrainierteSprachmodelle, #HTML, #FlanUPaLM, #HTMLT5, #WebNavigation, #PythonProgramme, #Planung, #Zusammenfassung, #autonomeNavigation

Quelle: Studien-Paper