Was ist Gemini? Das neue KI-System von Google vereint Text-, Bild- und Videogenerierung und soll die Konkurrenz übertreffen. Alle Infos zu den Fähigkeiten, der Entwicklung und den Erwartungen.Was ist Gemini? Das neue KI-System von Google vereint Text-, Bild- und Videogenerierung und soll die Konkurrenz übertreffen. Alle Infos zu den Fähigkeiten, der Entwicklung und den Erwartungen.

Ein Blick auf Google Gemini

Google bereitet offenbar die Einführung von Google Gemini vor, einem revolutionären KI-Produkt. Was wir bis jetzt wissen und was noch im Raum steht, schauen wir uns hier an.

Wofür steht Gemini ?

Dieser Teil scheint wenigstens ziemlich zweifelsfrei klar zu sein:
Generative Enhanced Multimodal Intelligent NetworkInterface.

Das Wort “Gemini” stammt aus dem Lateinischen und bedeutet auf Deutsch “Zwillinge”.
Einige mögliche Bedeutungen im Kontext des KI-Systems von Google:

  • Gemini vereint zwei Komponenten: Text- und Bildverarbeitung. Es ist gewissermaßen ein “Zwillingssystem”.
  • Gemini könnte sich auf die “Zwillinge” Sergey Brin und Larry Page beziehen, die Gründer von Google.
  • Die Astrologie ordnet dem Sternzeichen Zwillinge Kommunikationsstärke und Flexibilität zu. Gemini als KI-Assistant zielt darauf ab, sich sprachlich und situativ anzupassen.
  • Der Name deutet auf eine doppelte Stärke oder Fähigkeit hin. Gemini soll die Text- und Bild-KI von Google vereinen und damit die Konkurrenz übertreffen.
  • Als Zwillingssystem vereint Gemini unterschiedliche Perspektiven und Herangehensweisen, ähnlich verschiedenen menschlichen Charakteren.

Der Name ist also einerseits eine Anspielung auf die integrativen Fähigkeiten des Systems, andererseits ein vielversprechender Hinweis auf die Ambitionen, die Google mit diesem KI-Produkt verfolgt.

Warum ist Google übermächtig?

Dazu muss man verstehen, auf WELCHEM Datenschatz Google tatsächlich sitzt. Hier ein paar Fakten:
Google verfügt durch seine verschiedenen Dienste wie die Google Suche, YouTube und andere über eine enorme Menge an Daten, die für die Entwicklung von KI-Systemen sehr nützlich sind.

Allein auf YouTube werden laut Statista jede Minute über 500 Stunden Videomaterial hochgeladen. Das sind 30.000 Stunden Video, die jede Stunde hochgeladen werden sowie 720.000 Stunden, die jeden Tag auf YouTube hochgeladen werden. Die gesamte Videodatenbank umfasst über 30 Millionen Stunden Video. Durch die Untertitel und Transkripte dieser Videos verfügt Google über einen gigantischen Textdatensatz zur Trainierung von Sprachmodellen.

Laut einem Bericht von ARK Invest besitzt Google über 130 Exabyte an Daten. Zum Vergleich: 1 Exabyte entspricht 1 Milliarde Gigabyte. Der gesamte Datenbestand umfasst damit mehr als 130.000.000.000.000.000.000 Bytes an Informationen.

Einen großen Teil dieser Daten macht die Google Suche aus. Google verarbeitet laut eigener Aussage über 40.000 Suchanfragen pro Sekunde. Das sind über 3,5 Billionen Suchanfragen pro Jahr. Aus diesen Anfragen und den geklickten Ergebnissen gewinnt Google weitere Einblicke.

Insgesamt zeigt sich, dass Google über praktisch unerschöpfliche Datenressourcen für die KI-Forschung verfügt. Sowohl die Breite an unterschiedlichen Datentypen als auch die schiere Menge dürften Google einen deutlichen Vorsprung im Bereich der KI verschaffen.

Google – Der Forschungsgigant

Im Jahr 2020 veröffentlichte Google laut der Datenbank Papers with Code über 1300 Forschungsarbeiten im Bereich der künstlichen Intelligenz. 2021 steigerte Google die Anzahl der Veröffentlichungen nochmal deutlich auf über 2000 Arbeiten zu KI und maschinellem Lernen.

Die Themenbereiche umfassten unter anderem:

  • Computer Vision (Bilderkennung)
  • Natural Language Processing (NLP)
  • Speech Recognition (Spracherkennung)
  • Reinforcement Learning
  • Robotics
  • Multimodale KI
  • Empfehlungssysteme
  • Anwendungen in der Medizin

Mit über 3300 KI-Publikationen in den Jahren 2020 und 2021 hat Google seinen Forschungsoutput im Bereich der künstlichen Intelligenz stark ausgebaut. Das Unternehmen gehört zu den aktivsten Akteuren in diesem Forschungsfeld. Diese intensive Arbeit der letzten Jahre fließt nun auch in die Entwicklung von Gemini ein.

Laut der KI-Publikationsdatenbank Papers with Code hat Google allein im Jahr 2022 über 1.500 Forschungsarbeiten im Bereich der künstlichen Intelligenz veröffentlicht. Das ist weit mehr als andere Tech-Konzerne wie Meta oder Microsoft.

Dies ist eine unvollständige Auswahl der bahnbrechendsten Entwicklungen von Google im KI-Bereich in den letzten Jahren. Die Liste zeigt die enorme Bandbreite an Forschung von maschinellem Lernen über Computer Vision bis hin zu Robotics und autonomen Systemen.

  • AlphaGo: Go-Spiel-KI, die 2016 den Weltmeister Lee Sedol besiegte
  • BERT (Bidirectional Encoder Representations from Transformers): bahnbrechendes Sprachmodell für NLP aus dem Jahr 2018
  • PaLM (Pathways Language Model): enormes Sprachmodell mit 540 Milliarden Parametern von 2022
  • PaLM-SayCan: Variante von PaLM, die menschenähnliche Konversationen führen kann
  • Imagen: Bilderzeugungs-KI für realistische und kreative Bilder
  • MusicLM: KI für Musikkomposition und -produktion
  • RLHF (Reinforcement Learning with Human Feedback): Verstärkungslernen mit menschlichem Feedback
  • Model Based RL: Verstärkungslernen mit expliziten Modellen der Umgebung
  • RobustFit: Robustes neuronales Netz gegen Verrauschen von Daten
  • T5: Text-zu-Text Transfertransducer für verschiedene NLP-Aufgaben
  • ViT (Vision Transformer): Bilderkennung mit Transformer-Architektur
  • WAYMO: Autonomes Fahren und Robotaxi-Service
  • ProteinFold: Proteinstrukturvorhersage mit Deep Learning
  • FLOOD: KI für Vorhersage und Prävention von Überschwemmungen
  • SLIDE: Bildsegmentierung auf Pixel-Ebene
  • Switch Transformers: effiziente Architektur für sehr große Transformers
  • MuZero: Verstärkungslernen ohne Umweltmodell in Spielen
  • Meena: Konversations-KI von 2020
  • DALL-E & DALL-E 2: Text-zu-Bild-Generation

Wenn man sich die schiere Menge an Daten ansieht, die Google über die Jahre gesammelt hat, wird einem zunächst schwindelig. Über 500 Stunden Videomaterial werden täglich auf YouTube hochgeladen. Die gesamte Videodatenbank umfasst über 30 Millionen Stunden. Dazu kommen unzählige Suchanfragen, Texte, Bilder und Konversationen. Es ist eine schier unvorstellbare Datenmenge.

Gepaart mit der intensiven Forschungstätigkeit im KI-Bereich ergibt sich ein enormes Potenzial. Google hat in den letzten Jahren bahnbrechende Innovationen wie das Sprachmodell BERT, die Go-KI AlphaGo oder die Bildgenerator DALL-E hervorgebracht. Wenn man all diese Puzzleteile zusammensetzt, nimmt die Sache beinahe beängstigende Ausmaße an.

Projekt: Google Gemini

Mit dem neuen KI-System Gemini scheint Google nun die Essenz dieser jahrelangen Daten Aggregation und Forschung gebündelt zu haben. Sollte es dem Konzern gelingen, all seine KI-Entwicklungen und den Datenschatz in diesem System zu vereinen, wäre das eine Demonstration der schieren Innovationskraft. Man darf gespannt sein, ob Gemini dieses versprechen einlösen kann. Die Erwartungen sind jedenfalls riesig – hier was wir wissen und was die Gerüchte sagen:

Fakten Google Gemini

Aus dem Google Blog gibt es schon einige Fakten:

  • Gemini soll diesen Herbst veröffentlicht werden
  • Gemini kombiniert Text- und Bildgenerierung
  • Kann kontextabhängige Bilder basierend auf Textgenerierung erstellen
  • Wurde mit YouTube-Transkripten trainiert
  • Google-Anwälte überwachen das Training, um Urheberrechtsprobleme zu vermeiden
  • Gemini soll über mehrere Modalitäten verfügen, z.B. Text, Bild, Audio, Video
  • Sergey Brin ist an der Entwicklung beteiligt

Gerüchte

Aus Reddit und zahllosen anderen Quellen im Netz könnte es auch weitere Features geben:

  • Gemini soll in der Lage sein, KI-Bildverständnis und -modifikation durchzuführen
  • Soll Textfähigkeiten wie GPT-4 mit Bildgenerierung kombinieren
  • Wurde von Grund auf als multimodales Modell entwickelt
  • Könnte Audio, Video, 3D-Renderings, Grafiken usw. verarbeiten
  • Soll mit Nutzerinteraktionen lernen und dadurch effektive AGI werden
  • Die Architektur könnte lebenslanges Lernen ermöglichen
  • Es gibt Bedenken bezüglich Datenschutz und Informationslecks zwischen Nutzern

Google Gemini und der (dann neue) KI Markt:

Die Marktsituation im Bereich KI dürfte sich mit der Einführung von Google Gemini deutlich verändern:

Für OpenAI:

  • Starker neuer Konkurrent für ChatGPT und DALL-E
  • Google hat deutlich mehr Ressourcen und Daten
  • OpenAI könnte Marktanteile verlieren und unter Druck geraten

Für Anthropic:

  • Claude muss sich gegen Google Assistant mit Gemini behaupten
  • Vorteil durch Fokus auf Sicherheit und Kontrolle
  • Risiko, ins Hintertreffen zu geraten

Für Microsoft:

  • Partnerschaft mit OpenAI wichtig für Wettbewerb mit Google
  • Microsoft muss Azure-KI-Dienste weiterentwickeln
  • Vorteil durch starke Cloud-Infrastruktur

Für andere:

  • Startups könnten es schwer haben gegen Google
  • Konsolidierung am Markt möglich
  • Deutlich höhere Innovationsgeschwindigkeit

Insgesamt wird der Konkurrenzdruck im KI-Markt stark zunehmen. Google hat dabei mit seinen Ressourcen eine sehr gute Ausgangsposition, um mit Gemini eine Führungsrolle einzunehmen. Für andere Anbieter wird es schwerer, mit Google Schritt zu halten. Es bleibt abzuwarten, ob die hohen Erwartungen an Gemini gerechtfertigt sind.

Google Gemini Fazit

Google Gemini scheint ein sehr ambitioniertes KI-Projekt zu sein, das dem Unternehmen einen Wettbewerbsvorteil verschaffen soll. Die Kombination verschiedener Modalitäten in einem Modell ist neu und könnte die KI-Fähigkeiten enorm verbessern. Allerdings gibt es noch viele offene Fragen bezüglich der konkreten Fähigkeiten und der Datensicherheit. Die Veröffentlichung diesen Herbst wird zeigen, ob Google sein Versprechen einlösen kann, die Konkurrenz zu übertreffen. Vieles ist noch Spekulation, aber die Erwartungen sind hoch.

#ai #ki #google #gemini #text #bild #multimodal