Die wissenschaftliche Forschung steht oft vor einem gewaltigen Flaschenhals: der manuellen Erstellung von hochspezialisierter Software. Dieser Prozess ist langsam, mühsam und bremst den Fortschritt. Doch was, wenn eine Künstliche Intelligenz diese Aufgabe übernehmen könnte – nicht nur als Assistent, sondern als autonomer Forscher, der Code schreibt, der menschliche Experten übertrifft? Genau das stellt Google Research nun mit einem neuen KI-System vor, das auf Gemini und einer von AlphaZero inspirierten Suchstrategie basiert. Die Ergebnisse sind bahnbrechend: Das System entdeckte bereits 40 völlig neue Methoden in der Genomik und entwickelte 14 Prognosemodelle für COVID-19-Krankenhauseinweisungen, die das offizielle Ensemble der US-Gesundheitsbehörde CDC übertrafen.
Dieses KI-System ist mehr als nur ein Code-Generator. Es ist eine unermüdliche Optimierungs-Engine, die systematisch Tausende von Lösungswegen erforscht, um die bestmögliche wissenschaftliche Software für ein gegebenes Problem zu entwickeln. In diesem Deep-Dive analysieren wir, wie diese revolutionäre Technologie funktioniert, wo sie bereits heute übermenschliche Leistungen erbringt und was sie für die Zukunft der Wissenschaft bedeutet.
Ungewöhnlich: In allen verfügbaren Unterlagen gibt es keine Namensnennung. Google Research spricht hier nur von „neue KI“, „autonome Software“ – lässt aber keinen Namen fallen. AlphaEvolve, AlphaFold waren da deutlich einfacher und griffiger – allerdings stammen beide auch von Google DeepMind. Vielleicht ist das der sehr einfache Grund 🙂
Google Research Autonome Software – Das Wichtigste in Kürze
- Neues KI-System: Google Research präsentiert ein KI-System, das mithilfe von Gemini und Tree Search (Baumsuche) selbstständig expertengleiche KI für wissenschaftliche Software schreibt und optimiert.
- Evolutionärer Prozess: Statt Code nur einmalig zu generieren, verbessert die KI ihn iterativ in Tausenden von Schleifen. Ihr Ziel ist es, eine klar definierte Qualitätsmetrik, einen „Score“, zu maximieren. Man spricht hier von „empirischer Software“ für „bewertbare Aufgaben“ (scorable tasks).
- Übermenschliche Leistung: Das System übertrifft in sechs verschiedenen Fachgebieten menschliche Experten. Es fand 40 neue Methoden in der Genomik , erstellte 14 Modelle, die besser sind als das CDC-Prognose-Ensemble , und erreichte Spitzenleistungen in der Geodatenanalyse, Neurowissenschaft, Zeitreihenprognose und numerischer Mathematik.
- Kreative Rekombination: Die KI kann nicht nur bestehende Methoden optimieren, sondern auch kreativ kombinieren. So entstand die beste Genomik-Lösung durch die neuartige Verbindung zweier bekannter Ansätze.
- Massive Beschleunigung: Ein Prozess, der für menschliche Forscherteams Monate oder gar Jahre dauern würde, wird auf Stunden oder Tage verkürzt. Dies verspricht eine revolutionäre Beschleunigung des wissenschaftlichen Fortschritts.
Das Kernproblem der modernen Forschung: Software als Flaschenhals
In fast jedem modernen Wissenschaftszweig, von der Chemie bis zur Klimaforschung, ist Software das zentrale Werkzeug. Forscher entwickeln sogenannte empirische Software: Programme, die nicht nur funktionieren, sondern darauf ausgelegt sind, eine messbare Qualitätsmetrik zu maximieren – sei es die Genauigkeit einer Vorhersage, die Übereinstimmung mit experimentellen Daten oder die Effizienz einer Simulation. Eine Aufgabe, die sich so lösen lässt, nennt Google eine „scorable task“ (bewertbare Aufgabe).
Das Problem: Die Entwicklung dieser Software ist extrem zeitaufwendig und mühsam. Designentscheidungen basieren oft auf Intuition statt auf einer systematischen Suche nach der besten Lösung. Genau hier setzt Googles neues System an, um diesen Engpass zu beseitigen.

Googles Antwort: Eine KI, die wie ein Forscher denkt – nur 1000x schneller
Das Herzstück des Systems ist ein iterativer Kreislauf, der stark an die evolutionäre Strategie von Programmen wie AlphaZero erinnert, das menschliche Meister in Go und Schach besiegte.
So funktioniert der Prozess im Detail:
- Input (Die Aufgabe): Ein Forscher definiert eine „scorable task“. Diese besteht aus einer Problembeschreibung, einer klaren Metrik zur Erfolgsmessung (z. B. „minimale Fehlerrate“) und den notwendigen Daten. Zusätzlich können Forschungsideen, etwa aus wissenschaftlichen Publikationen, als Starthilfe dienen.
- Code-Generierung (Der erste Versuch): Ein großes Sprachmodell (LLM) aus der Gemini-Familie schreibt eine erste Version des Python-Codes, um die Aufgabe zu lösen.
- Evaluation (Der Realitätscheck): Dieser Code wird in einer sicheren Umgebung (Sandbox) ausgeführt und anhand der definierten Metrik bewertet. Das Ergebnis ist ein erster „Score“.
- Tree Search (Die intelligente Suche): Jetzt kommt die Magie ins Spiel. Statt zufällig weiterzumachen, nutzt das System Tree Search (Baumsuche), einen Algorithmus, der intelligent den riesigen Raum möglicher Code-Verbesserungen durchsucht. Ähnlich wie ein Schachcomputer, der die besten Züge vorausplant, entscheidet die Baumsuche, welche Code-Varianten das größte Potenzial für eine Score-Verbesserung haben und weiterverfolgt werden sollten.
- Iteration (Die Evolution): Basierend auf der Entscheidung der Baumsuche weist das System das LLM an, den vielversprechendsten Code umzuschreiben und zu verbessern. Dieser neue Code wird wieder ausgeführt, bewertet, und der Kreislauf beginnt von vorn – Tausende Male.
Dieser Prozess ist eine Form der Code-Evolution. Die KI agiert nicht nur als Programmierer, sondern auch als unermüdlicher Forscher, der Hypothesen (Code-Varianten) aufstellt, testet und intelligent aus den Ergebnissen lernt, um zur optimalen Lösung zu gelangen.

Revolution in der Praxis: 6 Beispiele, in denen die KI bereits triumphiert
Die wahre Stärke des Systems zeigt sich in seiner breiten Anwendbarkeit. Google hat es auf sechs extrem unterschiedliche und anspruchsvolle Benchmarks losgelassen – und in jedem einzelnen hat es beeindruckende, oft übermenschliche Ergebnisse erzielt.
1. Genomik: 40 neue Wege zur Datenanalyse
Bei der Analyse von Einzelzell-RNA-Sequenzierungsdaten (scRNA-seq) ist die Entfernung von technischen Störsignalen („batch effects“) eine riesige Herausforderung. Auf dem führenden „OpenProblems“-Benchmark entdeckte das KI-System
40 neue Methoden, die alle bisherigen, von Menschen entwickelten Ansätze übertrafen. Die beste KI-Lösung erzielte eine
14%ige Verbesserung gegenüber der bis dahin besten veröffentlichten Methode.
2. Public Health: Präzisere COVID-19-Prognosen als die CDC
Das COVID-19 Forecast Hub der US-Gesundheitsbehörde CDC ist der Goldstandard für Pandemie-Prognosen. Dutzende Expertenteams reichen wöchentlich ihre Modelle ein. Das KI-System von Google entwickelte
14 verschiedene Modelle, die in einer retrospektiven Studie das offizielle, hoch angesehene CovidHub-Ensemble-Modell bei der Vorhersage von Krankenhauseinweisungen übertrafen.
3. Geodatenanalyse: Schärferer Blick auf die Erde
Bei der semantischen Segmentierung von Satellitenbildern – der pixelgenauen Zuordnung von Landnutzungsklassen (z. B. Gebäude, Wasser, Wald) – erreichte das System auf dem DLRSD-Benchmark
State-of-the-Art-Ergebnisse. Die drei besten KI-Lösungen waren besser als die in aktuellen wissenschaftlichen Publikationen vorgestellten Methoden.
4. Neurowissenschaften: Gehirnaktivität vorhersagen
Auf dem ZAPBench-Benchmark, bei dem die neuronale Aktivität von über 70.000 Neuronen im Gehirn einer Zebrafischlarve vorhergesagt wird, entwickelte die KI ein Zeitreihenmodell, das
alle bisherigen Methoden übertraf – einschließlich eines rechenintensiven Videomodells, das als bisheriger Spitzenreiter galt.
5. Zeitreihenprognose: Eine Universal-Bibliothek aus dem Nichts
Angesetzt auf den GIFT-Eval-Benchmark, der 28 verschiedene Datensätze aus sieben Domänen umfasst, erhielt die KI die Aufgabe, eine allgemeingültige Prognose-Bibliothek von Grund auf zu entwickeln. Das Ergebnis ist eine hochgradig wettbewerbsfähige Bibliothek, die nur auf Basis-Paketen wie
numpy
und pandas
aufbaut.
6. Numerische Mathematik: Unlösbare Integrale knacken
Selbst vor fundamentalen mathematischen Problemen macht das System nicht halt. Es entwickelte eine Methode zur numerischen Lösung komplexer Integrale, bei denen die Standard-Funktion
scipy.integrate.quad()
in Python systematisch versagt. Die KI-Lösung löste
17 von 19 als unlösbar geltenden Testfällen korrekt.
Mehr als nur Code: Die KI als kreativer Partner
Ein faszinierender Aspekt des Systems ist seine Fähigkeit zur „kreativen Rekombination“. Es optimiert nicht nur bestehende Algorithmen, sondern kann die Kernprinzipien verschiedener Ansätze analysieren und zu etwas Neuem und Besserem verschmelzen.
- In der Genomik entstand die Top-Lösung, indem die KI die Stärken zweier etablierter Methoden (ComBat und BBKNN) auf eine Weise kombinierte, die zuvor noch kein menschlicher Experte implementiert hatte.
- Bei den COVID-Prognosen entstanden die erfolgreichsten Modelle oft durch die Fusion unterschiedlicher Paradigmen, etwa indem ein epidemiologisches Modell mit einem rein statistischen Autoregressionsmodell gekreuzt wurde.
Diese Fähigkeit, das Beste aus verschiedenen Welten zu vereinen, hebt das System weit über traditionelle Optimierungsansätze hinaus und macht es zu einem echten Partner im Entdeckungsprozess.
Die Zukunft der Forschung: Ein KI-Co-Wissenschaftler für jedes Labor?
Googles Durchbruch hat das Potenzial, die wissenschaftliche Methodik grundlegend zu verändern. Indem die KI die mühsame und zeitintensive Arbeit der Softwareentwicklung und -optimierung übernimmt, können Forscher sich auf das konzentrieren, was sie am besten können: kreative Fragen stellen und die Ergebnisse interpretieren.
Die Beschleunigung von Monaten auf Tage ist dabei mehr als nur eine Zeitersparnis. Sie ermöglicht eine viel breitere und systematischere Erforschung des Lösungsraums, was die Wahrscheinlichkeit von Serendipität und echten Durchbrüchen erhöht. Da Google die Top-Lösungen Open Source zur Verfügung stellt und sogar eine interaktive Webseite zur Erkundung der Entscheidungsbäume anbietet, wird dieser Prozess transparent und nachvollziehbar.
Wir stehen möglicherweise am Beginn einer neuen Ära, in der die Partnerschaft zwischen menschlicher Intuition und unermüdlicher KI-Exploration die Grenzen des Wissens schneller verschiebt als je zuvor.
Häufig gestellte Fragen zu Googles KI für wissenschaftliche Software
Was ist das Besondere an diesem KI-System?
Das Besondere ist der iterative Optimierungsprozess. Statt nur einmalig Code zu generieren, nutzt es einen Kreislauf aus Codegenerierung, Bewertung und intelligenter Auswahl durch eine Baumsuche (Tree Search), um systematisch eine Qualitätsmetrik zu verbessern. Dadurch „evolviert“ die KI die Software hin zu einer optimalen Lösung, anstatt nur einen einzigen Vorschlag zu machen.
Welches Sprachmodell wird verwendet?
Laut dem offiziellen Blogbeitrag von Google Research wurde das System unter Verwendung von Gemini entwickelt. Das wissenschaftliche Paper spezifiziert zudem, dass für bestimmte Unteraufgaben wie das Zusammenfassen von Methoden oder das Kombinieren von Ideen „Gemini 2.5 Pro“ und „Gemini 2.5 Flash“ zum Einsatz kamen.
Ist das nur für große Forschungseinrichtungen mit Supercomputern?
Während der Suchprozess selbst rechenintensiv sein kann, stellt Google die besten gefundenen Softwarelösungen als Open Source zur Verfügung. Das bedeutet, dass die breitere wissenschaftliche Gemeinschaft die Ergebnisse nutzen und darauf aufbauen kann, auch ohne selbst über die Ressourcen für die initiale, umfangreiche Suche zu verfügen.
Wie unterscheidet sich dieses System von AlphaFold?
AlphaFold wird im Paper als Beispiel für erfolgreiche empirische Software genannt, ist aber hochspezialisiert. Dieses neue System ist hingegen ein allgemeinerer Ansatz , der auf jede wissenschaftliche Herausforderung angewendet werden kann, die sich als „bewertbare Aufgabe“ (scorable task) formulieren lässt. Dies wurde durch den erfolgreichen Einsatz in sechs verschiedenen multidisziplinären Bereichen demonstriert.
Kann die KI wirklich kreativ sein?
Ja, im Sinne der „kreativen Rekombination“ von Ideen. Die Fähigkeit des Systems, die Kernideen aus zwei unterschiedlichen Lösungsansätzen zu extrahieren und zu einer neuen, überlegenen Hybridlösung zu verschmelzen, wird als Schlüssel zum Erfolg gesehen. Zum Beispiel entstand die leistungsstärkste Genomik-Methode durch die Kombination der Ansätze ComBat und BBKNN.
Ist der von der KI geschriebene Code verständlich und nachvollziehbar?
Ja. Google betont, dass die erzeugten Lösungen überprüfbare, interpretierbare und reproduzierbare Code-Lösungen sind. Das Paper bestätigt, dass der von der KI erstellte Code von menschlichen Experten manuell überprüft wurde, um die Einhaltung der angeforderten Algorithmen zu bestätigen.
Fazit Google Research: Paradigmenwechsel für die computergestützte Wissenschaft
Google Research hat ein System geschaffen, das weit über die reine Code-Generierung hinausgeht. Es ist eine iterative Optimierungs-Engine, die KI für wissenschaftliche Software autonom auf ein Niveau hebt, das menschliche Experten nicht nur erreicht, sondern oft übertrifft. Die Fähigkeit, in Tagen Hypothesen zu testen, die früher Monate an mühsamer Arbeit erforderten, ist ein echter Paradigmenwechsel.
Diese Technologie beschleunigt nicht nur bestehende Forschung, sie ermöglicht potenziell völlig neue Ansätze, indem sie eine systematische und umfassende Erkundung von Lösungswegen erlaubt, die bisher undenkbar war. Die Zukunft der Wissenschaft liegt womöglich in einer Symbiose: Menschliche Forscher stellen die großen, kreativen Fragen, während eine unermüdliche KI systematisch den besten Weg zur Antwort findet. Der Wettlauf um die nächsten großen Entdeckungen hat gerade einen massiven Geschwindigkeitsschub erhalten.
Quellen und weiterführende Literatur
- Aygün, E., Belyaeva, A., Comanici, G. et al. (2025). An AI system to help scientists write expert-level empirical software. arXiv:2509.06503v1 [cs.AI]. Verfügbar unter: https://arxiv.org/abs/2509.06503
- Dorfman, L., & Brenner, M. (2025, 9. September). Accelerating scientific discovery with AI-powered empirical software. Google Research Blog. Verfügbar unter: https://research.google/blog/accelerating-scientific-discovery-with-ai-powered-empirical-software/
#KI #AI #GoogleResearch #Gemini #Wissenschaft #Forschung #Tech2025 #Softwareentwicklung