Einleitung
In der heutigen datengetriebenen Geschäftswelt stehen Unternehmen oft vor der Herausforderung, wichtige Informationen zu extrahieren, die in unstrukturierten oder semi-strukturierten Formaten versteckt sind. Ein typisches Beispiel: Sie sollen die Gewinnmargen Ihres Unternehmens für das vergangene Jahr ermitteln. Diese Informationen sind in den Finanzdaten Ihres Unternehmens enthalten, aber sie sind in einem Diagramm und einer Tabelle versteckt, tief in einem 200-seitigen PDF-Bericht eingebettet.
Dieses Szenario zeigt die entscheidenden Grenzen vieler heutiger Systeme zur Informationsabfrage auf, insbesondere beim Umgang mit unstrukturierten, multimodalen Daten. Diese Systeme, darunter auch solche, die auf Retrieval-Augmented Generation (RAG) setzen, sind oft nicht in der Lage, die volle Bandbreite an Informationen zu verarbeiten, die in verschiedenen Datenformaten vorliegen.
Herausforderungen bei der Verarbeitung unstrukturierter, multimodaler Daten
- Starke Fokussierung auf Text: Die meisten Informationsabfragesysteme, insbesondere solche mit RAG-ähnlichen Ansätzen, sind stark auf die Verarbeitung von Textinhalten optimiert. Dabei sind 80 % der weltweit verfügbaren Daten multimodal.
- Einschränkungen von Einbettungsmodellen: Traditionelle Modelle zur Bild-Einbettung, wie CLIP, sind nicht darauf ausgelegt, mit den in geschäftlichen Umgebungen üblichen unstrukturierten Daten umzugehen. Sie können zwar zwischen einer Katze und einem Hund unterscheiden, aber nicht zwischen zwei Tabellen in einem Finanzdokument.
- Enge Verknüpfung zwischen Modalitäten: In realen Geschäftsdaten sind die verschiedenen Datenmodalitäten oft eng miteinander verbunden. Zum Beispiel enthalten eCommerce-Webseiten sowohl Textbeschreibungen als auch Bilder, und Finanzberichte haben Texte, die sich auf bestimmte Tabellen und Diagramme beziehen, die ihrerseits nur teilweise den Kontext abbilden.
Die Lösung: Multimodale KI von Reka und MongoDB Atlas
Mit der multimodalen KI von Reka können diese Herausforderungen überwunden werden, sodass das Potenzial unstrukturierter und multimodaler Daten für Ihr Unternehmen freigesetzt wird. Reka bietet eine Familie von vier Modellen in verschiedenen Größen, die über eine API oder eine On-Premise-/On-Device-Deployment-Lösung zugänglich sind. Diese Modelle sind von Grund auf neu trainiert und erzielen herausragende Leistungen bei geschäftsrelevanten Benchmarks.
Im Folgenden wird gezeigt, wie Reka’s multimodale KI und MongoDB Atlas zusammen verwendet werden können, um unstrukturierte Geschäftsdaten durchsuchbar und nützlich in RAG-basierten KI-Anwendungen zu machen.
Umwandlung unstrukturierter, multimodaler Daten in wertvolle Erkenntnisse
Der einfachste Weg, den maximalen Wert aus unstrukturierten Geschäftsdaten (wie Videos, Bilder, Audio, PDF-Dokumente) zu ziehen, besteht darin, die Modelle von Reka zu nutzen, um sie in ein strukturiertes Format umzuwandeln. Zwei Beispiele hierfür sind:
1. Diagramme in strukturierten Text umwandeln
In diesem Beispiel demonstrieren wir, wie wir die Modelle von Reka verwenden können, um Diagrammbilder direkt in Markdown umzuwandeln, diese in einer MongoDB Atlas-Datenbank zu speichern und darauf Analysen durchzuführen.
Einrichtung der Umgebung
- Registrieren Sie sich für die Reka API: Um Zugang zu den verschiedenen Modellen zu erhalten, die für multimodale Aufgaben optimiert sind.
- Registrieren Sie sich für ein MongoDB Atlas-Konto: MongoDB Atlas bietet eine vollständig verwaltete Cloud-Datenbanklösung.
- Python-Abhängigkeiten installieren:
reka-api
undpymongo[srv]
sind notwendig, um die Reka API und MongoDB Atlas zu verwenden.
bashCopy code$ pip install reka-api pymongo[srv]
Aufruf der Reka API
Wir verwenden die Reka API, um Diagrammbilder in Text-Markdown zu konvertieren. Für diese Demo wählen wir ein Modell aus der Reka-Core-Familie (z. B. reka-core-20240501
). Der konvertierte Text wird dann in einer MongoDB Atlas-Datenbank gespeichert, wo er durchsucht und weiter analysiert werden kann.
Ergebnisse in Atlas speichern
Ein MongoDB-Client wird erstellt, um die Ergebnisse in einer Datenbank zu speichern. Anschließend kann eine Suchindexierung durchgeführt werden, um die Daten effizient zu durchsuchen.
Suche
Nachdem die Diagramme in ein Textformat umgewandelt wurden, können sie von MongoDB Atlas für Suchzwecke indiziert werden. Es wird eine Suchmethode definiert und eine lexikalische Suche durchgeführt, um relevante Datensätze zu finden.
2. Videos in strukturierten Text umwandeln
Die Modelle von Reka unterstützen eine Vielzahl von unstrukturierten Datentypen, darunter Bilder, Audio und Video. Indem einfach der type
-Parameter in der Reka API von image_url
zu video_url
geändert wird, können Videos ebenso effizient in strukturierten Text umgewandelt werden.
Vorteile der Integration von Reka’s Modellen in RAG-Workflows
Neben der Umwandlung unstrukturierter Daten in Text bietet die direkte Integration von Reka’s Modellen in RAG-Workflows folgende Vorteile:
- Lange Kontexte: Die Modelle sind darauf trainiert, über vollständige Geschäftsdokumente hinweg mit sowohl strukturierten als auch unstrukturierten Daten zu arbeiten. Standardmäßig unterstützen sie eine Kontextlänge von 128k und bieten eine Langkontext-Variante für bis zu 400k (entspricht etwa 1000 Seiten).
- Gemischte Datentypen: Verbesserte Leistung für Prompts, die sowohl strukturierte (z. B. Tabellen) als auch unstrukturierte Daten (Text, Video, Bild, Audio) enthalten.
- Optimierung für Retrieval: Die Modelle sind darauf optimiert, abgerufene Kontexte in RAG-Umgebungen effizient zu verarbeiten. Sie können beispielsweise die Relevanz einer Gruppe von semantisch ähnlichen Informationsfragmenten im abgerufenen Kontext bewerten.
Fazit und Handlungsempfehlung
Durch die Kombination von Reka’s multimodalen KI-Modellen mit MongoDB Atlas können Unternehmen den verborgenen Wert ihrer unstrukturierten und multimodalen Geschäftsdaten nutzen und ihre Systeme zur Informationsabfrage optimieren. Dies ermöglicht fundiertere Entscheidungen und eröffnet neue Geschäftspotenziale. Registrieren Sie sich noch heute für Reka und MongoDB Atlas, um Ihre Datenstrategie auf das nächste Level zu heben.
Quellen und Referenzen
Dieser Artikel wird regelmäßig aktualisiert, um die neuesten Informationen und Entwicklungen zu berücksichtigen.