Sora und V-JEPA – KIs auf dem Weg zur Welterkenntnis

Starten Sie Ihre KI-Reise mit Deutschlands modernster KI-Beratung

Science

Sora und V-JEPA – KIs auf dem Weg zur Welterkenntnis

BY Oliver Welling

16 July, 2024
10:26

OpenAI und Meta haben mit ihren neuesten Video-KI-Technologien, Sora und V-JEPA, die Diskussion über das Verständnis der realen Welt durch künstliche Intelligenz erneut entfacht. Während Sora für seine Fähigkeit, hochrealistische Videos aus Textanweisungen zu generieren, gelobt wird, bleibt die Frage offen, ob dies ein echtes Verständnis der Welt bedeutet. Kritiker argumentieren, dass Sora grundlegende Aspekte des Weltverständnisses fehlen, die V-JEPA von Meta mit seinem joint embedding approach zu adressieren versucht. Diese Debatte ist entscheidend für die zukünftige Ausrichtung der Artificial General Intelligence (AGI). Durch die Entwicklung einer Theorie der produktiven Imagination basierend auf der Kantischen Philosophie tragen wir zur Klärung dieser Debatte bei. Das musst Du wissen – Sora und V-JEPA – KIs auf dem Weg zur Welterkenntnis Kantianische Philosophie: Die Analyse basiert auf Kants Theorie der produktiven Imagination, die als Rahmen für das Verständnis von KI dient. Sora von OpenAI: Beeindruckt durch realistische Videogenerierung, kämpft jedoch mit der Integration grundlegender Kausalgesetze und kantianischer Kategorien. V-JEPA von Meta: Nutzt ein gemeinsames Einbettungssystem, um kontextabhängige Änderungen zu verstehen, aber es fehlen ihm tiefere konzeptionelle Kategorien und Erfahrung. Innovativer Trainingsrahmen: Vorschlag eines neuen Trainingsmodells für eine KI, die fähig ist, ein kohärentes Weltmodell zu entwickeln. Zukünftige Forschung: Identifikation offener Fragen und zukünftiger Richtungen für die Entwicklung von AGI. Titel Sora and V-JEPA Have Not Learned The Complete Real World Model Autoren: Jianqiu Zhang Veröffentlichungsdatum: 6. Mai 2024 Schlüsselbegriffe: Video-KI, Künstliche Intelligenz, Kantische Philosophie, Produktive Imagination, Weltmodelle Problemstellung Sora von OpenAI und V-JEPA von Meta zielen darauf ab, durch fortschrittliche Videogenerierung und kontextuelles Verständnis ein tiefes Verständnis der realen Welt zu erreichen. Kritiker argumentieren jedoch, dass beide Systeme an fundamentalen konzeptionellen und erfahrungsbasierten Defiziten leiden. Sora operiert im sogenannten „Traummodus“, in dem es Videos aus Textbeschreibungen erzeugt, jedoch ohne feste Verankerung in realen Wahrnehmungen. Dies führt zu fragmentierten Weltmodellen und einer fehlenden Integration physikalischer Gesetze, wie das Fehlen eines apriorischen Gesetzes der Veränderung und kantianischer Kategorien. V-JEPA hingegen, obwohl es kontextabhängige Änderungen besser versteht, kann die tieferen konzeptionellen Kategorien und Erfahrungen nicht vollständig erfassen, was seine Leistung in komplexen Szenarien beeinträchtigt. Hauptbeitrag Der Hauptbeitrag des Papers besteht in der Entwicklung einer Theorie der produktiven Imagination auf Basis der kantianischen Philosophie. Diese Theorie identifiziert drei wesentliche Komponenten eines kohärenten Weltmodells: die Repräsentation isolierter Objekte, ein apriorisches Gesetz der Veränderung über Raum und Zeit sowie kantianische Kategorien. Die Untersuchung zeigt, dass Sora aufgrund des Fehlens dieser Komponenten in seinen architektonischen Grundlagen begrenzt ist, während V-JEPA zwar einige Aspekte des apriorischen Veränderungsgesetzes lernt, aber ebenfalls die kantianischen Kategorien und die Integration von Erfahrung nicht vollständig erfasst. Methodik Die Analyse erfolgt durch eine kritische Untersuchung der KI-Systeme Sora und V-JEPA im Kontext der kantianischen Philosophie. Es wird ein neuer Trainingsrahmen vorgeschlagen, der darauf abzielt, ein kohärentes Weltmodell zu entwickeln, indem er unsortierte Wahrnehmungseingaben in ein strukturiertes Modell transformiert. Der vorgeschlagene Rahmen nutzt Elemente aus beiden Systemen und richtet sich darauf, die latenten Variablen, die ein kohärentes Weltmodell repräsentieren, durch Vergleiche mit ordnungsgemäß sequenzierten Videoclips zu trainieren. Textbeschreibungen, die detaillierte Beschreibungen der Objekte und relevanten kantianischen Kategorien enthalten, sind dabei ein entscheidender Bestandteil des Trainings. Ergebnisse Sora zeigt Einschränkungen aufgrund des Mangels an Integration des apriorischen Gesetzes der Veränderung und kantianischer Kategorien (grundlegende konzeptuelle Rahmenbedingungen, die notwendig sind, um eine kohärente und realistische Weltvorstellung zu entwickeln). Dies führt zu Fehlern in der physischen Darstellung und Sequenzierung von Ereignissen. Beispielsweise zeigt ein Video einen Stuhl, der plötzlich seine Form ändert, was auf ein Missverständnis der Stabilität von Objekten hinweist. V-JEPA erfasst kontextabhängige Aspekte dieses Gesetzes, jedoch fehlen ihm die tiefere Einbettung der Kategorien und die Integration von Erfahrung. Es schneidet bei der Erkennung von Aktionen in komplexen Szenarien, wie im AVA-Datensatz, schlechter ab. Bedeutung Die Forschung unterstreicht die Notwendigkeit eines kohärenten Weltmodells für die Weiterentwicklung von AGI. Die vorgeschlagene Theorie und der Trainingsrahmen bieten eine Richtung für zukünftige Entwicklungen und die Integration komplexer kognitiver Fähigkeiten in KI-Systeme. Ein umfassendes Verständnis der realen Welt durch KI könnte zu bedeutenden Fortschritten in der Planung und im vernunftbasierten Handeln führen, was essenziell für die Entwicklung echter AGI ist. Offene Fragen / Zukünftige Arbeit Zukünftige Forschung sollte sich darauf konzentrieren, wie KI-Systeme Erfahrungen besser integrieren können, um ein tieferes Verständnis der realen Welt zu entwickeln. Wichtige Fragen umfassen die detaillierte Untersuchung der kantianischen Kategorien und deren Anwendung in der KI. Außerdem sollte untersucht werden, wie textbasierte Beschreibungen und reale Wahrnehmungsdaten kombiniert werden können, um die Kohärenz und Genauigkeit von Weltmodellen weiter zu verbessern. #ProduktiveImagination, #KantischeKategorien, #Weltmodelle, #Sora, #VJEPA ArXiv, Studien-Paper-PDF

Business

NVIDIA Cosmos: Der ultimative Guide für Physical AI & World Foundation Models 2025

Was ist NVIDIA Cosmos und wie revolutioniert es Physical AI? Unser Guide erklärt die World Foundation Models, Hardware-Anforderungen und erste.

by Oliver Welling
11 August, 2025

Business Audio

MiniMax Audio 2025: Der ultimative Guide für KI-Stimmen & Voice Cloning

MiniMax Audio revolutioniert 2025 die KI-Stimmgenerierung. Erfahre alles über Voice Cloning, Text-to-Speech mit den neuen Speech-2.5-Modellen und die unschlagbaren Preise..

by Oliver Welling
11 August, 2025

by Oliver Welling
11 August, 2025

Business Audio

MiniMax Audio 2025: Der ultimative Guide für KI-Stimmen & Voice Cloning

by Oliver Welling
11 August, 2025

Business Audio

ElevenLabs Artist: Dein Guide für KI-Stimmen, Musik & Preise (2025)

by Oliver Welling
11 August, 2025

English

FOLLOW US:

Cybersecurity

Ethik und Gesellschaft

Events

Interviews und Meinungen

Investment

Politik und Regulierung

Unternehmen

Audio

Grafik

Hardware

Language Models

Video

Cybersecurity

Ethik und Gesellschaft

Events

Interviews und Meinungen

Investment

Politik und Regulierung

Unternehmen

Audio

Grafik

Hardware

Language Models

Video

Sora und V-JEPA – KIs auf dem Weg zur Welterkenntnis

Ähnliche Beiträge

Folge uns

Beliebte Artikel

About Author

Maßgeschneiderte KI-Lösungen für Ihr Unternehmen

TechNow ist Ihr strategischer Partner für den erfolgreichen Einsatz von Künstlicher Intelligenz.

HOT CATEGORIES

Cybersecurity

Events

Interviews und Meinungen

Investment

Unternehmen

TAGS

Tags

Kategorien

Weitere Seiten