excerpt: Solarprognosen wirken zunächst technisch beherrschbar, stoßen in realen Anlagen jedoch schnell an Grenzen durch wechselhaftes Wetter, fehlerhafte Daten und systematische Modellabweichungen. Belastbare Prognosen entstehen deshalb nicht aus einem einzelnen Modell, sondern aus der Kombination von physikalischer Grundlage, datengetriebenem Lernen und laufender Kalibrierung.

Fusion Forecasting: Der Punkt, an dem ein Modell nicht mehr reicht

Solarprognosen wirken auf Distanz erstaunlich simpel. Man nimmt Wetterdaten, ein paar physikalische Zusammenhänge, vielleicht noch ein ML-Modell, und am Ende kommt eine vernünftige Leistungskurve heraus. So jedenfalls die verbreitete Erzählung.

In der Praxis hält diese Erzählung ungefähr so lange, bis man echte Anlagen über längere Zeit beobachtet.

Dann zeigt sich schnell: Das Problem ist nicht, eine Kurve zu berechnen. Das Problem ist, mit einer Realität umzugehen, die sich laufend verschiebt. Wetter ändert sich. Anlagen verhalten sich nicht ideal. Daten sind unvollständig, fehlerhaft oder schlicht falsch. Und Modelle, die auf dem Papier gut aussehen, tun in solchen Umgebungen genau das, was Modelle dann tun: Sie irren sich systematisch.

Genau daraus ist mein Fusion-Forecasting-System entstanden. Ich hatte die Idee, ein Prognosesystem zu entwickeln, das mit systematischen Fehlern leben kann.

Der Ausgangspunkt: GTI als saubere technische Antwort

Der erste logische Schritt war ein physikalisches Modell auf Basis von GTI, also Global Tilted Irradiance.

Das ist technisch naheliegend. GTI beschreibt die Einstrahlung auf eine geneigte Modulfläche und liefert damit eine physikalisch plausible Grundlage für PV-Prognosen. Der Vorteil liegt auf der Hand: Das Modell ist nachvollziehbar. Es ist stabil. Und es hängt nicht davon ab, ob historische Produktionsdaten in ausreichender Qualität vorliegen.

Das ist die technische Ebene.

Auf Marktebene sind solche Modelle attraktiv, weil sie schnell verfügbar sind und relativ wenig lokale Historie benötigen. Wer früh prognostizieren will, beginnt fast zwangsläufig dort.

Aber genau hier liegt auch die systemische Grenze. Ein GTI-Modell kennt die Anlage nur als abstrahierte Fläche. Es kennt keine lokalen Verschattungen, keine Eigenheiten des Wechselrichters, keine Schmutzeffekte, keine kleinen, aber persistenten Abweichungen im realen Betrieb. Mit anderen Worten: Es beschreibt die Physik der Einstrahlung, nicht das Verhalten des Systems.

Das ist kein Fehler des Modells. Es ist die logische Folge seiner Annahmen.

Der zweite Schritt: AI auf Basis realer Daten

Der nächste Schritt war deshalb ebenso folgerichtig: ein AI-Modell, trainiert auf realen Wetter- und Produktionsdaten, die 1700 Tage umfassen.

Auch das ist logisch. Wenn das physikalische Modell die lokale Realität nicht hinreichend abbildet, liegt es nahe, genau diese Realität aus historischen Daten lernen zu lassen. Das AI-Modell kann Muster erfassen, die im physikalischen Modell nicht explizit vorkommen: standortspezifische Effekte, saisonale Verschiebungen, typische Reaktionen auf bestimmte Wetterlagen.

Technisch ist das ein Fortschritt.

Marktlogisch ebenfalls: Wer bessere Vorhersagen will, nutzt die Daten, die im Betrieb ohnehin anfallen. Das ist inzwischen fast Standard. Sobald genug Historie vorhanden ist, wird aus „könnte man machen“ sehr schnell „muss man machen“.

Nur löst auch das nicht das Grundproblem. Ein datengetriebenes Modell ist stark, solange die Gegenwart der Vergangenheit ähnlich genug ist. Es lernt lokale Muster, aber es erbt auch lokale Verzerrungen. Es ist empfindlicher gegenüber Ausreißern, Messfehlern und Regimewechseln. Es kann sehr präzise sein und gleichzeitig strukturell fragil.

Das ist der Punkt, an dem viele Diskussionen schief laufen. Dann wird so getan, als müsse man sich entscheiden: Physik oder AI. Robustheit oder Anpassungsfähigkeit. Erklärbarkeit oder Genauigkeit.

In der Realität ist das eine Scheinalternative. Beide Modelle sehen unterschiedliche Teile desselben Problems. Keines sieht das Ganze.

Der dritte Schritt: Teamarbeit

Aus dieser Einsicht entstand die erste Fusion-Version: ein fester Hybrid, zum Beispiel 70 Prozent AI und 30 Prozent GTI. Die AI sollte lokale Lernfähigkeit einbringen, GTI die physikalische Stabilität. Der Hybrid war der Versuch, die Schwächen des einen Modells durch die Stärken des anderen zu dämpfen.

Und das hat funktioniert. Nicht perfekt, aber klar besser als die Einzelmodelle in vielen Situationen.

Warum war dieser Schritt logisch? Weil Kombination in solchen Systemen oft mehr bringt als zusätzliche Komplexität innerhalb eines einzelnen Modells. Zwei unvollständige Perspektiven können zusammen robuster sein als eine hochoptimierte, aber einseitige Sicht.

Nur hat der feste Hybrid eine Grenze, die man erst mit etwas Betriebszeit wirklich versteht: Er ist statisch. Die Realität ist es nicht.

Ein fixes 70/30-Gewicht unterstellt, dass die relative Qualität beider Modelle im Wesentlichen konstant bleibt. Genau das ist aber nicht der Fall. Je nach Jahreszeit, Wetterregime, Datenqualität oder Anlagenzustand verschiebt sich die Nützlichkeit der einzelnen Komponenten. Ein fixer Mix ist deshalb keine Lösung des Problems, sondern eine vernünftige Zwischenstufe.

Das ist ein wichtiger Unterschied. Viele Systeme scheitern nicht daran, dass ihre erste Architektur falsch war. Sie scheitern daran, dass eine sinnvolle Zwischenlösung später für die endgültige Antwort gehalten wird.

Die eigentliche Grenze: nicht Modellfehler, sondern Bias und Drift

Mit der Zeit wurde klar, dass die zentrale Frage gar nicht lautet, welches Modell „besser“ ist. Die eigentliche Frage lautet: Welche Art von Fehler produziert das System, und wie geht es damit um?

Denn Prognosefehler sind selten bloßes Rauschen. Sie haben Struktur.

Erstens gibt es Bias, also additive systematische Verschiebungen. Das Modell liegt dann über längere Phasen konstant etwas zu hoch oder zu niedrig.
Zweitens gibt es Drift, also veränderliche, oft multiplikative Fehlanpassungen. Das Modell skaliert die Realität falsch, und diese Fehlskalierung bleibt nicht konstant, sondern verändert sich mit den Bedingungen.

Das ist der Punkt, an dem aus einer Modellfrage eine Systemfrage wird.

Ein einzelnes Modell - egal ob physikalisch oder datengetrieben - versucht meist, beides gleichzeitig zu absorbieren. Das klingt elegant, ist aber in der Praxis oft unzuverlässig. Denn Bias und Drift sind nicht dasselbe Problem. Sie entstehen anders, sie verhalten sich anders, und sie müssen anders behandelt werden.

Wer beides in einen Topf wirft, bekommt selten ein intelligenteres System. Meist bekommt man nur ein komplizierteres.

Der vierte Schritt: Fusion Forecast als lernendes System

Die nächste Entwicklungsstufe war deshalb kein neues „besseres Modell“ im engen Sinn, sondern eine andere Architektur.

Aus dem festen Hybrid wurde ein Fusion Forecast mit gelernten Gewichten und expliziter Kalibrierung.

Das bedeutet zunächst: Die Gewichte für AI und GTI werden nicht mehr vorab festgelegt, sondern aus den Daten gelernt. Zusätzlich kommt ein Intercept hinzu, um additive Verzerrungen zu korrigieren.

Technisch ist das keine spektakuläre Revolution. Systemisch ist es ein Bruch.

Denn damit verschiebt sich die Logik des Forecasts. Das System behauptet nicht mehr, dass eine einmal definierte Modellkombination dauerhaft richtig ist. Es lernt stattdessen, wie die beiden Quellen unter realen Bedingungen zusammenspielen. Und es akzeptiert, dass diese Antwort nicht zeitlos ist.

Noch entscheidender ist aber der zweite Teil: die Kalibrierung.

Warum Kalibrierung der eigentliche Wendepunkt ist

Kalibrierung klingt unspektakulär. Fast nach Nacharbeit. In Wahrheit ist sie der entscheidende Schritt.

Warum? Weil sie anerkennt, dass selbst ein gut gelerntes Fusionsmodell die Welt nicht stabil genug repräsentiert, um ohne laufende Anpassung auszukommen. Nicht weil das Modell schlecht wäre, sondern weil das System, auf das es schaut, nicht stationär ist.

Genau hier trennt sich Modellbau von Systemdesign.

Die Regression lernt die strukturelle Beziehung zwischen AI, GTI und beobachteter Produktion. Sie beantwortet die Frage: Wie hängen diese Größen grundsätzlich zusammen?

Die Kalibrierung beantwortet eine andere Frage: Wie weit ist diese gelernte Beziehung in der aktuellen Situation aus dem Tritt geraten?

Für additive Fehler braucht es einen Bias-Term. Für multiplikative Drift braucht es eine Skalierung. In meinem Fall basiert diese Kalibrierung auf einem robusten Verhältnis zwischen Vorhersage und Realität über die letzten Tage, zusammengefasst über den Median statt den Mittelwert.

Der Median ist deshalb sinnvoll, weil reale Betriebsdaten keine höflichen Daten sind. Sie enthalten Ausreißer, Messfehler, ungewöhnliche Wetterlagen, fehlende Werte. Wer in so einer Umgebung mit zu viel statistischer Naivität arbeitet, bekommt keine feinere Prognose, sondern nur eine empfindlichere.

Kalibrierung ist deshalb nicht der letzte kosmetische Schritt nach dem eigentlichen Modell. Sie ist die Instanz, die das Modell überhaupt erst betriebsfähig macht.

Vom Modell zum System

An diesem Punkt ändert sich auch die Perspektive auf das gesamte Forecasting.

Es geht dann nicht mehr primär darum, ein Modell mit möglichst guten Offline-Metriken zu trainieren. Es geht darum, ein System zu bauen, das unter realen Bedingungen verlässlich bleibt. Das klingt banal, ist aber ein ziemlich harter Perspektivwechsel.

Denn ein Modell optimiert auf historische Güte. Ein System optimiert auf Verhalten unter Unsicherheit.

Das eine fragt: Wie gut war die Vorhersage im Mittel? Das andere fragt: Wie reagiert die Architektur, wenn sich die Welt verschiebt? Das ist nicht dasselbe.

Und genau deshalb reicht es nicht, AI und GTI einfach zu mischen. Entscheidend ist, ob das Gesamtsystem zwischen strukturellem Lernen und laufender Anpassung unterscheiden kann. Erst diese Trennung macht es robust gegenüber Bias, Drift und Datenproblemen.

Mit anderen Worten: Der Fortschritt bestand nicht darin, ein raffinierteres Modell zu bauen. Der Fortschritt bestand darin, Forecasting nicht länger als Modellproblem zu behandeln.

Was daraus folgt

Rückblickend war jede Stufe dieser Entwicklung sinnvoll.

GTI war der richtige Anfang, weil Physik eine stabile Basis liefert.

Das AI-Modell war der richtige nächste Schritt, weil reale Anlagen mehr sind als physikalische Idealisierungen.

Der feste Hybrid war logisch, weil sich komplementäre Schwächen oft besser kombinieren als wegoptimieren lassen.

Und der Fusion Forecast mit gelernten Gewichten und Kalibrierung war notwendig, weil ein statischer Hybrid an einer dynamischen Realität zwangsläufig an seine Grenzen stößt.

Die eigentliche Erkenntnis ist also nicht, dass das letzte Modell „am besten“ ist. Die eigentliche Erkenntnis ist, dass sich das Problem auf jeder Stufe präziser gezeigt hat. Erst sieht man die Physik. Dann die lokalen Muster. Dann die Grenzen fester Kombinationen. Und am Ende die eigentliche Struktur des Problems: Bias und Drift sind wichtiger als die Modellfrage selbst.

Das ist der Punkt, an dem aus Forecasting ein Systemthema wird.

Fazit

Die interessante Entwicklung bei PV-Forecasting verläuft nicht von einfach zu komplex. Sie verläuft von naiv zu präzise.

Am Anfang steht die Annahme, das richtige Modell werde das Problem schon lösen. Später wird klar: Das Problem ist nicht das Modell. Das Problem ist, dass reale Systeme ihre Fehler nicht ordentlich nach Lehrbuch produzieren.

Deshalb ist die strukturell überlegene Lösung nicht das immer raffiniertere Einzelmodell. Es ist die Kombination unterschiedlicher Perspektiven und vor allem eine Kalibrierungsschicht, die systematische Abweichungen laufend korrigiert.

Oder kürzer: Nicht das Modell macht den Forecast belastbar, sondern der Umgang mit seinem Irrtum.

Ein Jahr später, Version 2

Ein Jahr Betrieb verändert den Blick. Die Architektur ist im Kern gleich geblieben, aber das Verständnis dessen, was eigentlich passiert, ist deutlich präziser geworden. Viele Annahmen aus der ersten Version haben sich bestätigt. Andere mussten nachgeschärft werden. Vor allem ist klar geworden, wo die eigentlichen Grenzen liegen. Ein Prognosesystem wird damit nicht daran gemessen, wie genau es im Mittel ist, sondern wie stabil es bleibt, wenn die Realität sich verändert.

Die zentrale Verschiebung liegt in der Bewertung der Fehler. Anfangs stand die Frage im Vordergrund, welches Modell besser ist. Mit der Zeit zeigt sich, dass diese Frage zu kurz greift. Entscheidend ist nicht die Güte eines einzelnen Modells, sondern die Stabilität des Gesamtsystems über Zeit. Prognosen scheitern selten daran, dass sie grundsätzlich falsch sind. Sie scheitern daran, dass ihre Fehler eine Struktur haben, die sich verändert.

Genau hier wird die Trennung zwischen Bias und Drift zentral. Additive Abweichungen lassen sich relativ gut über einen Intercept auffangen. Diese Korrektur funktioniert stabil, solange sich die strukturellen Eigenschaften der Anlage nicht sprunghaft verändern. Multiplikative Abweichungen verhalten sich anders. Sie skalieren die Realität falsch und verschieben sich mit Wetterlagen, Jahreszeiten und Datenqualität. Diese Dynamik lässt sich nicht einfach im Modell „mitlernen“, ohne dass es instabil wird. Erst die saubere Trennung zwischen strukturellem Lernen und kurzfristiger Anpassung macht das System belastbar.

Damit rückt die Kalibrierung in eine andere Rolle. In der ersten Version war sie eine zusätzliche Schicht. In der Praxis hat sich gezeigt, dass sie der operative Kern ist. Selbst gut trainierte Modelle entfernen sich im laufenden Betrieb schneller von der Realität, als sich diese Abweichung durch Retraining sinnvoll einfangen lässt. Eine robuste, laufende Anpassung wird damit zur Voraussetzung, nicht zur Option. Die medianbasierte Skalierung hat sich hier als überraschend effektiv erwiesen, gerade weil sie unempfindlich gegenüber Ausreißern ist. Reale Daten sind selten sauber, und Methoden, die auf ideale Verteilungen angewiesen sind, verlieren im Alltag schnell ihre Stabilität.

Auch die Rolle der Regularisierung hat sich verschoben. In der ersten Version war sie vor allem ein statistisches Werkzeug. In der Praxis wird sie zu einem Stabilitätsmechanismus. AI- und GTI-Prognosen sind häufig stark korreliert. Ohne Dämpfung entstehen Gewichte, die kurzfristig gut passen, aber auf kleine Änderungen überreagieren. Regularisierung wirkt hier wie ein Puffer. Sie verhindert nicht, dass das Modell lernt, aber sie verhindert, dass es nervös wird. Genau diese Ruhe ist im Betrieb entscheidend.

Ein weiterer Punkt betrifft die Beziehung zwischen Training und Bewertung. In der Theorie wirken diese Schritte eng verbunden. In der Praxis verfolgen sie unterschiedliche Ziele. Robuste Trainingsverfahren wie Huber-Loss sind sinnvoll, um Ausreißer zu kontrollieren. Im Betrieb interessiert jedoch die durchschnittliche Abweichung in realen Einheiten. Version 2 trennt diese Ebenen klarer und macht damit sichtbar, dass Modelloptimierung und Systemverhalten zwei unterschiedliche Probleme sind.

Mit wachsender Betriebszeit rücken zudem die sogenannten Randfälle ins Zentrum. Unvollständige Tage, fehlerhafte Messungen oder ungewöhnliche Wetterlagen sind keine Ausnahmen, sondern Teil des normalen Datenstroms. Ein System, das nur unter idealen Bedingungen stabil ist, wird im Alltag unruhig. Deshalb sind Mindestanforderungen an Daten, konservative Fallback-Mechanismen und eine vorsichtige Behandlung fehlender Werte keine technischen Details, sondern grundlegende Designentscheidungen.

Der wichtigste Perspektivwechsel ist jedoch ein anderer. Die erste Version beschreibt im Kern ein Modell, das erweitert wird. Die zweite Version beschreibt ein System, das mit seiner eigenen Unvollkommenheit umgehen kann. Im Kern hat sich damit auch die Natur des Forecastings verändert: Aus einem statischen Prognosemodell ist ein Regelkreis geworden.

Modelle versuchen, die Welt möglichst genau abzubilden. Systeme müssen damit umgehen, dass diese Abbildung nie stabil ist. Daraus ergibt sich die heutige Architektur: ein Zusammenspiel aus strukturellem Lernen, laufender Kalibrierung und stabilisierenden Mechanismen, die verhindern, dass das System auf jede kleine Veränderung überreagiert.

Am grundlegenden Ansatz hat sich dabei nichts geändert. GTI liefert weiterhin die physikalische Referenz, AI bildet die lokale Realität ab, und ihre Kombination bleibt sinnvoll. Was sich verändert hat, ist das Verständnis ihres Zusammenspiels. Die Stärke liegt nicht in der einzelnen Komponente, sondern in der Art, wie sie unter realen Bedingungen zusammengeführt und korrigiert werden.

Am Ende bleibt eine einfache, aber entscheidende Erkenntnis: Prognosesysteme scheitern selten an fehlender Modellkomplexität. Sie scheitern daran, dass ihre Fehler nicht stabil sind.

Der Fortschritt dieses Jahres liegt nicht in besseren Modellen, sondern darin, ihre Instabilität beherrschbar zu machen.

Hier ist das überarbeitete Paper zum Fusion Forecast im PDF-Format: https://f97.be/download/fusion.pdf