Google DeepMind hat kürzlich eine neue Methode zur Schulung von KI-Modellen vorgestellt, die sowohl die Trainingsgeschwindigkeit als auch die Energieeffizienz erheblich verbessert. Diese bahnbrechende Methode, JEST (Joint Example Selection) genannt, verspricht eine 13-fach höhere Leistung und eine 10-fach größere Energieeffizienz im Vergleich zu herkömmlichen Techniken. Die Veröffentlichung dieser Forschung erfolgt zu einem Zeitpunkt, an dem die Diskussionen über die Umweltauswirkungen von KI-Rechenzentren zunehmend an Bedeutung gewinnen. Das musst Du wissen – Google DeepMind JEST Neue Methode: JEST (Joint Example Selection) von Google DeepMind. Effizienzsteigerung: 13-fach schnellere Trainingsgeschwindigkeit und 10-fach höhere Energieeffizienz. Trainingsprinzip: Fokus auf Batches statt individuelle Datenpunkte. Umweltaspekt: Reaktion auf die wachsende Sorge um den Energieverbrauch von KI-Rechenzentren. Datenqualität: Erfolgsfaktor ist die menschlich kuratierte hohe Datenqualität. Die JEST-Methode unterscheidet sich grundlegend von traditionellen KI-Trainingsansätzen. Während herkömmliche Methoden einzelne Datenpunkte für das Training nutzen, arbeitet JEST mit ganzen Datenbatches. Zunächst erstellt die Methode ein kleineres KI-Modell, das die Qualität der Daten aus sehr hochwertigen Quellen bewertet und die Batches entsprechend klassifiziert. Diese Bewertungen werden dann mit einem größeren, weniger hochwertigen Datensatz verglichen. Das kleine JEST-Modell bestimmt die für das Training am besten geeigneten Batches, und basierend auf diesen Erkenntnissen wird ein größeres Modell trainiert. Die Forscher von DeepMind betonen, dass der Erfolg der JEST-Methode wesentlich von der Fähigkeit abhängt, den Datenauswahlprozess auf kleinere, gut kuratierte Datensätze zu lenken. Diese „Steuerung des Datenauswahlprozesses“ ist entscheidend für die Effizienzsteigerung. Die Forschung hebt hervor, dass die Qualität eines Batches nicht nur von der Summe der einzelnen Datenpunkte abhängt, sondern auch von deren Zusammensetzung. In der Computer Vision haben sich „hard negatives“, also Gruppen von Datenpunkten, die nah beieinander liegen, aber unterschiedliche Labels haben, als effektiveres Lernsignal erwiesen. JEST generalisiert diesen Ansatz, indem es gesamte Batches bewertet und aus größeren „Super-Batches“ die lernbarsten Sub-Batches auswählt. Ein weiterer entscheidender Faktor ist die Nutzung von multimodalen kontrastiven Lernzielen, die die Abhängigkeiten zwischen Daten aufdecken und somit Kriterien für die gemeinsame Lernbarkeit eines Batches liefern. Dies führt zu einer signifikanten Beschleunigung des Trainings über herkömmliche Methoden hinaus. Die Effizienz der JEST-Methode wird durch die Verwendung von Modellapproximationen weiter gesteigert, wodurch der Rechenaufwand reduziert wird. Flexi-JEST, eine erweiterte Version der Methode, nutzt verschiedene Auflösungen während des Trainings, was zu weiteren Effizienzgewinnen führt. Im Kontext der Energiekrise Die Einführung der JEST-Methode könnte zu keinem besseren Zeitpunkt kommen, da sowohl die Technologiebranche als auch Regierungen weltweit die enormen Energieanforderungen von KI-Arbeitslasten diskutieren. Im Jahr 2023 verbrauchten KI-Workloads etwa 4,3 Gigawatt, was fast dem jährlichen Energieverbrauch von Zypern entspricht. Prognosen zufolge könnte KI bis 2030 ein Viertel des Stromnetzes der USA beanspruchen. Zukunftsperspektiven Ob und wie JEST von den großen Akteuren im KI-Bereich übernommen wird, bleibt abzuwarten. Das Training von Modellen wie GPT-4 kostete Berichten zufolge 100 Millionen Dollar, und zukünftige größere Modelle könnten bald die Milliarden-Dollar-Marke erreichen. Firmen sind daher auf der Suche nach Möglichkeiten, ihre Ausgaben zu senken. Die JEST-Methode bietet die Hoffnung, die aktuellen Trainingsproduktivitätsraten bei viel geringeren Energiekosten aufrechtzuerhalten und somit sowohl die Kosten als auch die Umweltauswirkungen zu verringern. Doch die Realität könnte anders aussehen: Wahrscheinlich werden Unternehmen die JEST-Methoden nutzen, um bei gleichbleibendem Energieverbrauch eine schnellere Trainingsleistung zu erzielen. Der Kampf zwischen Kosteneinsparungen und Output-Skalierung bleibt spannend. Methodische Details Die JEST-Methode optimiert die Batch-Auswahl durch eine Kombination aus Modellverlusten und vordefinierten Kriterien. Drei Hauptstrategien wurden untersucht: Hard Learner: Priorisiert Batches mit hohem Verlust, um triviale Daten auszuschließen. Easy Reference: Nutzt ein vortrainiertes Referenzmodell, um hochqualitative Daten zu identifizieren. Learnability: Kombiniert Verluste und priorisiert Daten, die sowohl unerlernt als auch lernbar sind. Diese Strategien ermöglichen es, Daten effizient zu filtern und Batches mit hoher Lernbarkeit zu erstellen, was zu einer erheblichen Beschleunigung des Trainings führt. Fazit Google DeepMind JEST Die JEST-Methode von Google DeepMind stellt einen bedeutenden Fortschritt im Bereich des KI-Trainings dar, der sowohl technologische als auch ökologische Vorteile bietet. Die Zukunft wird zeigen, ob diese Methode breite Anwendung findet und wie sie die KI-Industrie verändern wird. #GoogleDeepMind #KünstlicheIntelligenz #JEST #Technologie #Energieeffizienz #Umweltschutz #Zukunft Toms Hardware, ArXiv, Studien-Paper-PDF