Das Training großer Sprachmodelle (LLMs) ist ein intensiver Prozess, der oft durch den enormen Speicherbedarf aufgrund der großen Anzahl von Parametern und den damit verbundenen Optimierungszuständen behindert wird. GaLore hat kürzlich als Methode zur Reduzierung der Speichernutzung durch die Projektion von Gewichtungsgradienten in einen niedrigdimensionalen Subraum an Bedeutung gewonnen, ohne dabei die Leistung zu beeinträchtigen. Jedoch führt GaLore’s Abhängigkeit von häufigen Singular Value Decomposition (SVD)-Operationen zu erheblichen Trainingszeitüberhängen. Um diese Probleme zu lösen, bietet Q-GaLore, ein neuer Ansatz, der Quantisierung und niedrigdimensionale Projektion kombiniert, eine bahnbrechende Lösung, die die Speichernutzung erheblich reduziert und gleichzeitig eine hohe Leistung beibehält. Das musst Du wissen – Q-GaLore Innovativer Ansatz: Q-GaLore reduziert die Speichernutzung durch die Kombination von Quantisierung mit niedrigdimensionaler Projektion und verbessert die Methode von GaLore. Adaptive Aktualisierungen: Es aktualisiert den Gradienten-Subraum adaptiv basierend auf Konvergenzstatistiken, wodurch die Notwendigkeit häufiger SVD-Operationen reduziert wird. Quantisierungsgenauigkeit: Verwendet INT4-Format für Projektionsmatrizen und INT8 für Gewichte, wobei stochastisches Runden integriert wird, um eine hochpräzise Ausbildung beizubehalten. Außergewöhnliche Effizienz: Ermöglicht das Training eines LLaMA-7B-Modells von Grund auf mit nur einer NVIDIA RTX 4060 Ti und 16 GB Speicher. Vorteil beim Feintuning: Reduziert den Speicherverbrauch um bis zu 50% im Vergleich zu LoRA und GaLore und übertrifft QLoRA konsistent bei gleichem Speicherbedarf. Q-GaLore basiert auf zwei wichtigen Beobachtungen. Erstens zeigt der Gradienten-Subraum unterschiedliche Eigenschaften, wobei einige Schichten früh im Training konvergieren, während sich andere häufig ändern. Zweitens sind die Projektionsmatrizen äußerst widerstandsfähig gegenüber einer niedrigen Bit-Quantisierung. Durch die Nutzung dieser Erkenntnisse aktualisiert Q-GaLore den Gradienten-Subraum adaptiv basierend auf seinen Konvergenzstatistiken und erreicht vergleichbare Leistungen bei einer erheblichen Reduzierung der Anzahl von SVD-Operationen. Mit Projektionsmatrizen im INT4-Format und Gewichten im INT8-Format integriert Q-GaLore stochastisches Runden, um die akkumulierten Gradienteninformationen zu erfassen. Dieser Ansatz ermöglicht eine hochpräzise Ausbildung mit nur niedrigpräzisen Gewichten. Infolgedessen erreicht Q-GaLore eine hoch wettbewerbsfähige Leistung bei außergewöhnlicher Speichereffizienz. Beim Vortraining ermöglicht Q-GaLore das Training eines LLaMA-7B-Modells von Grund auf mit nur einer NVIDIA RTX 4060 Ti und 16 GB Speicher. Beim Feintuning reduziert es den Speicherverbrauch um bis zu 50% im Vergleich zu LoRA und GaLore und übertrifft QLoRA konsistent bei gleichem Speicherbedarf. Dies macht Q-GaLore zu einem entscheidenden Fortschritt für das effiziente und skalierbare Training großer Sprachmodelle. Fazit Q-GaLore Q-GaLore’s innovative Kombination aus Quantisierung und niedrigdimensionaler Projektion stellt einen bedeutenden Fortschritt in der speichereffizienten Ausbildung von LLMs dar. Durch die adaptive Aktualisierung von Gradienten-Subräumen und die Nutzung einer niedrigen Bit-Quantisierung bietet es eine praktische Lösung für das Training großer Modelle mit begrenzten Ressourcen und ebnet den Weg für zugänglichere und effizientere maschinelle Lernverfahren. #MaschinellesLernen #AIResearch #Quantisierung #NiedrigdimensionaleProjektion #QGaLore #LLMTraining #Speichereffizienz ArXiv, Studien-Paper-PDF – Q-GaLore: Quantized GaLore with INT4 Projection and Layer-Adaptive Low-Rank Gradients Lust auf viel mehr aktuelle KI-Forschung aus 2024 – einfach hier klicke