Starten Sie Ihre KI-Reise mit Deutschlands modernster KI-Beratung
Search
Close this search box.
Search
Close this search box.

AI Index Report – Alle Fakten und Zahlen in der Übersicht

BY Oliver Welling

Nvidia im Kreuzfeuer: AI-Training durch massives YouTube-Scraping und fragwürdige Datenpraktiken

Nvidia steht erneut im Rampenlicht – und dieses Mal wegen seiner umstrittenen Praktiken beim Trainieren von AI-Modellen. Interne Slack-Chats, E-Mails und Dokumente, die von 404 Media eingesehen wurden, enthüllen, dass Nvidia massenhaft Videos von YouTube und anderen Quellen gescraped hat, um Trainingsdaten für seine AI-Produkte zu generieren. Die Enthüllungen werfen ernste Fragen zur rechtlichen und ethischen Grundlage dieser Praktiken auf.

Das musst Du wissen – Nvidia und das Cosmos-Projekt

Rechtslage: Nvidia behauptet, ihre Praxis sei vollständig im Einklang mit dem Urheberrecht.

Mitarbeiterfragen: Bedenken der Mitarbeiter bezüglich der Rechtslage wurden von Managern oft abgewiesen.

Projektumfang: Ziel des Cosmos-Projekts ist ein hochmodernes Video-Foundation-Modell.

Datenbeschaffung: Videos wurden mit yt-dlp und Amazon Web Services heruntergeladen.

Externe Datenquellen: Auch Videos von Netflix und anderen Quellen wurden ohne Erlaubnis genutzt.

Nvidia verteidigt seine Praxis als „vollständig im Einklang mit dem Urheberrecht“. Interne Gespräche zeigen jedoch, dass Mitarbeiter, die rechtliche Fragen zum Gebrauch von YouTube-Videos und anderen akademischen Datensätzen aufwarfen, von ihren Managern beruhigt wurden: Die Erlaubnis zur Nutzung dieser Inhalte käme von höchster Stelle des Unternehmens. Diese Offenbarungen beleuchten die teils laxen Einstellungen gegenüber den rechtlichen Grauzonen in der AI-Entwicklung.

Ein ehemaliger Mitarbeiter, der anonym bleiben möchte, berichtete, dass Angestellte Videos von Plattformen wie Netflix und YouTube scrapen sollten, um AI-Modelle für Nvidia’s Omniverse 3D-Weltgenerator, selbstfahrende Autos und „digitale Menschen“ zu trainieren. Das intern als „Cosmos“ bezeichnete Projekt, das sich von Nvidias existierendem Cosmos Deep Learning Produkt unterscheidet, wurde bisher noch nicht veröffentlicht. Es zeigt jedoch, wie tiefgreifend Nvidia in die Datenbeschaffung eingreift.

In internen E-Mails wurde der Zweck des Cosmos-Projekts klar umrissen: ein hochmodernes Video-Foundation-Modell zu entwickeln, das Lichttransport, Physik und Intelligenz simuliert und diverse Anwendungen unterstützt, die für Nvidia entscheidend sind. Dies zeigt, wie ambitioniert und zugleich problematisch das Projekt ist.

Eine Grafik aus einer E-Mail zeigt, wie das Cosmos-Modell in verschiedene Nvidia-Produkte integriert werden soll. Slack-Nachrichten belegen, dass Mitarbeiter einen Open-Source-YouTube-Video-Downloader namens yt-dlp verwendeten, kombiniert mit virtuellen Maschinen, um IP-Adressen zu ändern und nicht von YouTube blockiert zu werden. Emails verdeutlichen, dass Projektmanager diskutierten, 20 bis 30 virtuelle Maschinen bei Amazon Web Services zu nutzen, um täglich 80 Jahre an Videos herunterzuladen.

Laut Ming-Yu Liu, Vizepräsident für Forschung bei Nvidia und Leiter des Cosmos-Projekts, wurde im Mai 2024 der Datenpipeline finalisiert und die notwendigen Rechenressourcen gesichert, um eine Video-Datenfabrik aufzubauen, die täglich das visuelle Erlebnis eines menschlichen Lebens liefern kann.

Interne Gespräche zeigen, dass die legalen und ethischen Bedenken der Mitarbeiter oft zurückgewiesen wurden. Projektmanager erklärten, dass die Entscheidung, Videos ohne Erlaubnis zu scrapen, eine „exekutive Entscheidung“ sei, die sie nicht weiter zu hinterfragen bräuchten. Dies wirft Fragen über die Unternehmenskultur und die langfristigen Implikationen solcher Entscheidungen auf.

Ein bedeutendes Problem bei der Nutzung von YouTube-Videos zur Datenbeschaffung ist der Widerspruch zu den Nutzungsbedingungen der Plattform. Ein Google-Sprecher betonte, dass die Nutzung von YouTube-Videos ohne Erlaubnis eine klare Verletzung der Nutzungsbedingungen darstellt. Auch Netflix dementierte jegliche Vereinbarung mit Nvidia bezüglich der Nutzung von Inhalten.

Nvidia-Mitarbeiter diskutierten darüber, wie sie am besten Videos für das Projekt finden und downloaden könnten. Eine große Herausforderung bestand darin, IP-Adressen zu wechseln, um von YouTube nicht blockiert zu werden. Hierfür nutzten sie AWS und andere Methoden, um die Blockierung zu umgehen.

Bedenklich ist auch die Nutzung von Datensätzen, die nur für akademische Zwecke freigegeben sind. Ein Mitarbeiter des MIT’s Data Provenance Initiative betonte die ethischen und legalen Unterschiede zwischen der akademischen und kommerziellen Nutzung solcher Daten. Nvidia scheint sich jedoch wenig um diese Unterscheidungen zu kümmern und nutzt die Daten, um kommerzielle Vorteile zu erzielen.

Obwohl Nvidia betont, dass ihre Praktiken im Einklang mit dem Urheberrecht stehen, zeigen die internen Dokumente eine Kultur des „erst handeln, dann um Erlaubnis fragen“. Dies führt zu einer unsicheren Rechtslage und könnte schwerwiegende Konsequenzen für die Zukunft der AI-Entwicklung haben.

Die Gespräche innerhalb Nvidias machen deutlich, dass die Mitarbeiter sich der rechtlichen Grauzonen bewusst sind, aber dennoch weiterhin massive Datenmengen scrapen. In einem Fall erwähnte ein Mitarbeiter, dass das Scrapen von 100.000 Videos in nur zwei Wochen erreicht wurde, was die riesigen Dimensionen des Projekts unterstreicht.

Ein weiteres Beispiel zeigt, dass Mitarbeiter diskutierten, ob sie auch Videos von Plattformen wie Netflix scrapen sollten. Dies zeigt die aggressive Vorgehensweise von Nvidia bei der Datenbeschaffung, um seine AI-Modelle zu trainieren. Die rechtlichen und ethischen Konsequenzen dieser Praxis bleiben unklar und könnten zu erheblichen rechtlichen Problemen führen.

Insgesamt zeigt diese Enthüllung, wie tech-Giganten wie Nvidia die Grenzen des Legalen und Ethischen ausloten, um im wettbewerbsintensiven AI-Markt zu bestehen. Die langfristigen Auswirkungen solcher Praktiken auf die AI-Industrie und die Rechte der Inhaltsersteller sind noch nicht vollständig absehbar, könnten jedoch erhebliche Veränderungen in der rechtlichen Landschaft zur Folge haben.

Fazit: Nvidia’s fragwürdige Datenpraktiken im Fokus Die Enthüllungen um Nvidia und das Cosmos-Projekt werfen ein scharfes Licht auf die fragwürdigen Datenpraktiken eines der führenden Unternehmen im AI-Sektor. Durch das massenhafte Scrapen von Videos von YouTube und anderen Plattformen ohne Erlaubnis bewegen sich die Praktiken des Unternehmens in einer rechtlichen Grauzone. Die Behauptung, im Einklang mit dem Urheberrecht zu handeln, steht im krassen Widerspruch zu den internen Diskussionen und den deutlich geäußerten Bedenken der Mitarbeiter.

Die langfristigen Auswirkungen solcher Praktiken auf die AI-Industrie und die Rechte der Inhaltsersteller sind noch nicht vollständig absehbar. Die Enthüllungen zeigen jedoch, dass es dringend notwendig ist, klare rechtliche Rahmenbedingungen für die Nutzung von Daten zum Training von AI-Modellen zu schaffen. Nur so kann sichergestellt werden, dass die Rechte der Inhaltsersteller geschützt und die ethischen Standards in der AI-Entwicklung gewahrt bleiben.

In einer Branche, die von schnellem Wandel und intensiver Konkurrenz geprägt ist, müssen Unternehmen wie Nvidia Verantwortung übernehmen und transparente, rechtlich einwandfreie Methoden zur Datenbeschaffung entwickeln. Andernfalls riskieren sie nicht nur rechtliche Konsequenzen, sondern auch den Verlust des Vertrauens ihrer Partner und Kunden.

#AI #ArtificialIntelligence #Nvidia #YouTubeScraping #DataEthics

404 Media: Nvidia AI scraping foundational model Cosmos project

Ähnliche Beiträge

Business

H präsentiert Runner H: Neue agentische KI-Lösung für Unternehmen

H bringt mit Runner H eine kompakte, agentische KI-Lösung für Unternehmen auf den Markt Effiziente KI mit kompaktem LLM: Runner.

Business

Prime Intellect revolutioniert KI: Dezentrale KI-Modellentwicklung erreicht Meilenstein

Prime Intellect revolutioniert KI: Dezentrale KI-Modellentwicklung erreicht Meilenstein INTELLECT-1-Modell: Ein Sprachmodell mit 10 Milliarden Parametern, basierend auf der LLaMA-3-Architektur. OpenDiLoCo.

Folge uns

Beliebte Artikel

About Author

Maßgeschneiderte KI-Lösungen für Ihr Unternehmen

TechNow ist Ihr strategischer Partner für den erfolgreichen Einsatz von Künstlicher Intelligenz.

Beraten lassen

HOT CATEGORIES

en_GBEnglish