Einleitung
Mentat WebAgent: Die Nutzung von vortrainierten, großen Sprachmodellen (LLMs) hat in der automatisierten Web-Navigation an Bedeutung gewonnen. Doch trotz Fortschritten leiden diese Modelle immer noch unter bestimmten Problemen wie offener Domänenzugriff, begrenzter Kontextlänge und mangelndem induktivem Bias bei HTML. In diesem Artikel stellen wir WebAgent vor, eine Innovation, die diese Probleme adressiert. Der Name dieses WebAgents ist Mentat:
Überblick über Mentat WebAgent
Mentat ist ein KI-Tool, das Coding-Unterstützung über die Kommandozeile bietet. Es kann koordinierte Änderungen über mehrere Dateien hinweg vornehmen. Der Name stammt aus der Science-Fiction-Reihe Dune, in der Mentaten Menschen waren, die trainiert wurden, komplexe Analysen wie KIs durchzuführen.
Hauptfunktionen Mentat WebAgent
- Unterstützt bei jeder Codierungsaufgabe durch natürliche Sprachanweisungen
- Ermöglicht nahtlose Änderungen über mehrere Dateien
- Großer Codebasis, so dass nur kleine Abschnitte für Eingabeaufforderungen abgerufen werden
- Kann lokales LLM-Modell anstelle von API verwenden
- Findet Anwendung in Finanzanalyse, Cybersicherheit, Gesundheitswesen, Forschung und mehr
Entwicklung und technische Details
- Ursprünglich Probleme mit ungültiger Syntax und SSL-Zertifikaten
- Probleme durch Upgrade auf Python und Zertifikats-Fehlerbehebung behoben
- Forschungsteam empfiehlt lokales LLM-Modell gegenüber OpenAI API
- Große Codebasis veranlasste Abruf kleiner Abschnitte zur Zusammenfassung für LLM
WebAgent: Planung und Ausführung
Offene Domäne, begrenzte Kontextlänge und HTML-Probleme
WebAgent wurde entwickelt, um die Herausforderungen von (1) offener Domänenzugriff, (2) begrenzter Kontextlänge und (3) mangelndem induktivem Bias bei HTML zu überwinden.
Canonical Sub-Instructions
Um diese Probleme zu lösen, plant WebAgent im Voraus, indem es Anweisungen in kanonische Unteranweisungen zerlegt. Dadurch wird die Navigation einfacher und effizienter.
Zusammenfassung von HTML-Dokumenten
WebAgent kann lange HTML-Dokumente in für die Aufgabe relevante Ausschnitte zusammenfassen. Dies erleichtert die Bearbeitung von komplexen Web-Inhalten.
Generierung von Python-Programmen
Das Modell generiert Python-Programme, um auf Websites zu agieren. Dies bietet eine vielseitige und flexible Lösung für Web-Navigation und Interaktion.
Flan-U-PaLM und HTML-T5
Flan-U-PaLM
Dieses Design ermöglicht es, auf dem Boden stehende Code-Generierung zu erzielen, und stellt eine Schlüsselkomponente in der Architektur von WebAgent dar.
HTML-T5
HTML-T5, ein neues vortrainiertes LLM speziell für lange HTML-Dokumente, verwendet lokale und globale Aufmerksamkeitsmechanismen und eine Mischung aus langspannenden Denoising-Zielen für Planung und Zusammenfassung.
Ergebnisse
Die Ergebnisse zeigen, dass WebAgent den Erfolg auf realen Websites um über 50% steigert. HTML-T5 erwies sich dabei als bestes Modell für HTML-basierte Aufgaben, mit einer Erfolgsrate, die 14,9% höher liegt als bei früheren Spitzenmodellen.
Mentat WebAgent Fazit
Mentat ist ein KI-Assistent, der Entwickler unterstützt, indem er Code-Änderungen über Dateien hinweg durch natürliche Sprachanweisungen koordiniert. Nach anfänglichen technischen Hürden ermöglicht er jetzt ein einfacheres Management großer, komplexer Projekte. Mentat hat ein breites Anwendungsspektrum und wird durch die Forschung weiter verbessert.
WebAgent stellt einen bedeutenden Schritt in der Entwicklung autonomer Web-Navigation dar. Durch die Integration von Techniken wie kanonischen Unteranweisungen, Zusammenfassungen von HTML-Dokumenten und der Generierung von Python-Programmen bietet WebAgent eine robuste und effiziente Lösung für die Herausforderungen der offenen Domäne, begrenzter Kontextlänge und HTML-Verarbeitung. Die Verwendung von Flan-U-PaLM und HTML-T5 trägt ebenfalls zur Verbesserung bei, wobei die Ergebnisse deutlich die Vorteile dieser Ansätze aufzeigen.
#WebAgent, #vortrainierteSprachmodelle, #HTML, #FlanUPaLM, #HTMLT5, #WebNavigation, #PythonProgramme, #Planung, #Zusammenfassung, #autonomeNavigation
Quelle: Studien-Paper