Objaverse-XL: Revolutionäres Open Dataset mit über 10 Millionen 3D Objekten. Fortschritte in AR, VR und 3D Vision durch verbesserte Datensätze.Objaverse-XL: Revolutionäres Open Dataset mit über 10 Millionen 3D Objekten. Fortschritte in AR, VR und 3D Vision durch verbesserte Datensätze.

Einführung

Wir freuen uns, dir Objaverse-XL vorstellen zu können. Es ist ein Open Dataset mit über 10 Millionen 3D Objekten! Mit seiner Hilfe haben wir Zero123-XL trainiert, ein Grundmodell für 3D, das bemerkenswerte Generalisierungsfähigkeiten zeigt. In der KI-Welt spielt Größe eine entscheidende Rolle. In den letzten zehn Jahren haben wir einen starken Trend zur Nutzung großer Datenmengen zur Modellbildung gesehen. Aber was ist mit 3D-Sehaufgaben? Trotz der wachsenden Nachfrage nach Augmented Reality (AR) und Virtual Reality (VR) Anwendungen, hinken die Fortschritte in der 3D Vision hinterher. Das liegt hauptsächlich am Mangel an hochwertigen 3D Daten.

Die Entwicklung von Objaverse

Objaverse 1.0, das wir im Dezember veröffentlicht haben, war ein Schritt in die richtige Richtung. Es ermöglichte spannende Forschungen wie Zero-1-to-3 für die Synthese von neuen Ansichten und die 3D-Rekonstruktion aus einer einzelnen Ansicht. Doch es war noch recht klein und umfasste nur rund 800.000 Objekte. Mit Objaverse-XL haben wir die Anzahl der 3D Objekte, die wir nutzen, von 800.000 auf über 10 Millionen deduplizierte 3D Objekte erhöht. Wir haben Objekte aus verschiedenen Quellen zusammengetragen.

Was ist Objaverse-XL?

Objaverse-XL ist eine kuratierte Sammlung von 3D Objekten aus verschiedenen Internetquellen. Sie umfasst Objekte von GitHub, die aus über 500.000 Repositories stammen, sowie Assets von Plattformen wie Thingiverse, Sketchfab, Polycam und dem Smithsonian 3D Digitalisierungsprojekt. Das Ergebnis ist eine bemerkenswerte Kollektion von über 10 Millionen einzigartigen 3D Objekten, jedes mit seinen eigenen Metadaten.

Das Training von Zero123-XL

Mit Objaverse-XL haben wir Zero123-XL trainiert. Wir nutzen das von Zero123 vorgeschlagene Ansicht-konditionierte Diffusionsmodell. Zero123-XL wurde auf einem größeren Dataset, Objaverse-XL, vortrainiert, um eine bessere Zero-Shot-Generalisierungsleistung zu erzielen. Beeindruckenderweise hat das erweiterte Vortraining auf Objaverse-XL es dem Modell ermöglicht, sich deutlich besser auf herausfordernde Datenkategorien wie Menschen, Cartoons und Skizzen zu generalisieren. Es zeigte Verbesserungen bei der Erzeugung neuer Ansichten, die sowohl den ursprünglichen Stil als auch die geometrischen Details des Objekts beibehielten.

Anwendungsbereiche und Fortschritte

In der Abbildung oben zeigen wir die Synthese neuer Ansichten auf Bilder, die direkt aus dem Internet oder Text-zu-Bild-Modellen stammen. Es wird ein Vergleich zwischen Zero123-XL, das auf Objaverse-XL trainiert wurde, und Zero123, das auf Objaverse trainiert wurde, gezeigt. Besonders bei Kategorien wie Menschen, Anime, Cartoons, Möbeln und Skizzen kann durch Training mit mehr Daten eine deutliche Verbesserung festgestellt werden.

Abschluss

Wir sind gespannt, was die Community mit Objaverse-XL schaffen wird! Weitere Informationen zum Zugriff auf das Dataset, die Modelle und den Code werden bald zur Verfügung gestellt!

Danksagung

Objaverse-XL war eine gemeinsame Anstrengung mehrerer Teams, darunter das Allen Institute for AI, die Columbia University, die University of Washington, Stability AI, LAION und Caltech. Ein besonderer Dank geht an Ruoshi Liu, der die Zero123-XL Anstrengungen hervorragend geleitet hat. Wir möchten auch Stability AI für die Berechnungsressourcen danken, die zur Durchführung der Experimente verwendet wurden, und LAION für ihre Unterstützung. Schließlich möchten wir den Teams hinter mehreren Open-Source-Paketen, die in diesem Projekt verwendet wurden, sowie den Inhaltserstellern, die zum Dataset beigetragen haben, unseren Dank aussprechen.

Quelle: LAION Blog