Q-GaLore – Neue Forschung will weniger Speicher bei mehr Leistung

Starten Sie Ihre KI-Reise mit Deutschlands modernster KI-Beratung

Science

Q-GaLore – Neue Forschung will weniger Speicher bei mehr Leistung

Von Oliver Welling

15 Juli, 2024
10:44

Das Training großer Sprachmodelle (LLMs) ist ein intensiver Prozess, der oft durch den enormen Speicherbedarf aufgrund der großen Anzahl von Parametern und den damit verbundenen Optimierungszuständen behindert wird. GaLore hat kürzlich als Methode zur Reduzierung der Speichernutzung durch die Projektion von Gewichtungsgradienten in einen niedrigdimensionalen Subraum an Bedeutung gewonnen, ohne dabei die Leistung zu beeinträchtigen. Jedoch führt GaLore’s Abhängigkeit von häufigen Singular Value Decomposition (SVD)-Operationen zu erheblichen Trainingszeitüberhängen. Um diese Probleme zu lösen, bietet Q-GaLore, ein neuer Ansatz, der Quantisierung und niedrigdimensionale Projektion kombiniert, eine bahnbrechende Lösung, die die Speichernutzung erheblich reduziert und gleichzeitig eine hohe Leistung beibehält. Das musst Du wissen – Q-GaLore Innovativer Ansatz: Q-GaLore reduziert die Speichernutzung durch die Kombination von Quantisierung mit niedrigdimensionaler Projektion und verbessert die Methode von GaLore. Adaptive Aktualisierungen: Es aktualisiert den Gradienten-Subraum adaptiv basierend auf Konvergenzstatistiken, wodurch die Notwendigkeit häufiger SVD-Operationen reduziert wird. Quantisierungsgenauigkeit: Verwendet INT4-Format für Projektionsmatrizen und INT8 für Gewichte, wobei stochastisches Runden integriert wird, um eine hochpräzise Ausbildung beizubehalten. Außergewöhnliche Effizienz: Ermöglicht das Training eines LLaMA-7B-Modells von Grund auf mit nur einer NVIDIA RTX 4060 Ti und 16 GB Speicher. Vorteil beim Feintuning: Reduziert den Speicherverbrauch um bis zu 50% im Vergleich zu LoRA und GaLore und übertrifft QLoRA konsistent bei gleichem Speicherbedarf. Q-GaLore basiert auf zwei wichtigen Beobachtungen. Erstens zeigt der Gradienten-Subraum unterschiedliche Eigenschaften, wobei einige Schichten früh im Training konvergieren, während sich andere häufig ändern. Zweitens sind die Projektionsmatrizen äußerst widerstandsfähig gegenüber einer niedrigen Bit-Quantisierung. Durch die Nutzung dieser Erkenntnisse aktualisiert Q-GaLore den Gradienten-Subraum adaptiv basierend auf seinen Konvergenzstatistiken und erreicht vergleichbare Leistungen bei einer erheblichen Reduzierung der Anzahl von SVD-Operationen. Mit Projektionsmatrizen im INT4-Format und Gewichten im INT8-Format integriert Q-GaLore stochastisches Runden, um die akkumulierten Gradienteninformationen zu erfassen. Dieser Ansatz ermöglicht eine hochpräzise Ausbildung mit nur niedrigpräzisen Gewichten. Infolgedessen erreicht Q-GaLore eine hoch wettbewerbsfähige Leistung bei außergewöhnlicher Speichereffizienz. Beim Vortraining ermöglicht Q-GaLore das Training eines LLaMA-7B-Modells von Grund auf mit nur einer NVIDIA RTX 4060 Ti und 16 GB Speicher. Beim Feintuning reduziert es den Speicherverbrauch um bis zu 50% im Vergleich zu LoRA und GaLore und übertrifft QLoRA konsistent bei gleichem Speicherbedarf. Dies macht Q-GaLore zu einem entscheidenden Fortschritt für das effiziente und skalierbare Training großer Sprachmodelle. Fazit Q-GaLore Q-GaLore’s innovative Kombination aus Quantisierung und niedrigdimensionaler Projektion stellt einen bedeutenden Fortschritt in der speichereffizienten Ausbildung von LLMs dar. Durch die adaptive Aktualisierung von Gradienten-Subräumen und die Nutzung einer niedrigen Bit-Quantisierung bietet es eine praktische Lösung für das Training großer Modelle mit begrenzten Ressourcen und ebnet den Weg für zugänglichere und effizientere maschinelle Lernverfahren. #MaschinellesLernen #AIResearch #Quantisierung #NiedrigdimensionaleProjektion #QGaLore #LLMTraining #Speichereffizienz ArXiv, Studien-Paper-PDF – Q-GaLore: Quantized GaLore with INT4 Projection and Layer-Adaptive Low-Rank Gradients Lust auf viel mehr aktuelle KI-Forschung aus 2024 – einfach hier klicke

Business Ethik und Gesellschaft

KI-Energiekrise 2025: Warum Chinas gigantischer Strom-Vorsprung das KI-Rennen entscheiden könnte

Das US-Stromnetz bricht unter der Last der KI zusammen. China hingegen hat Energie im Überfluss. Entdecke die schockierende Wahrheit über.

VON Oliver Welling
8 September, 2025

Business

RL’s Razor: Der Geniestreich, mit dem KI 2025 aufhört zu vergessen

Schluss mit vergesslicher KI! Eine bahnbrechende MIT-Studie zeigt, warum Reinforcement Learning die überlegene Methode beim Fine-Tuning ist. Entdecke das "RL's.

VON Oliver Welling
8 September, 2025

VON Oliver Welling
8 September, 2025

Business

RL’s Razor: Der Geniestreich, mit dem KI 2025 aufhört zu vergessen

VON Oliver Welling
8 September, 2025

Business AI-Agents

DeepL Agent veröffentlicht: Der KI-Mitarbeiter, der Deinen Job für immer verändert

VON Oliver Welling
8 September, 2025

German

Cybersecurity

Ethik und Gesellschaft

Events

Interviews und Meinungen

Investment

Politik und Regulierung

Unternehmen

Audio

Grafik

Hardware

Language Models

Video

Cybersecurity

Ethik und Gesellschaft

Events

Interviews und Meinungen

Investment

Politik und Regulierung

Unternehmen

Audio

Grafik

Hardware

Language Models

Video

Q-GaLore – Neue Forschung will weniger Speicher bei mehr Leistung

Ähnliche Beiträge

Folge uns

Beliebte Artikel

About Author

Maßgeschneiderte KI-Lösungen für Ihr Unternehmen

TechNow ist Ihr strategischer Partner für den erfolgreichen Einsatz von Künstlicher Intelligenz.

HOT CATEGORIES

Cybersecurity

Events

Interviews und Meinungen

Investment

Unternehmen

TAGS