In diesem Kapitel werden die bereits spezifizierten Modelle in Bezug auf Ihre Prognosegenauigkeit beurteilt. Ziel ist es für jedes Land das jeweils exakteste Prognosemodell auszuwählen. Die bereits erläuterten Informationskriterien sind für die Auswahl eines optimalen Modells innerhalb einer Modellklasse gut geeignet. Sie sind jedoch ungeeignet für einen Vergleich zwischen unterschiedlichen Modellklassen (z.B. ARIMA und ETS), da zum Teil unterschiedliche Datengrundlagen zur Berechnung herangezogen werden und jeweils verschiedene Parameter geschätzt werden.125 Zudem sind die Informationskriterien kein Maß zur Beurteilung der Prognosegenauigkeit . Hierfür bedarf es eines anderen Instrumentariums, welches kurz erläutert wird:

Messgrößen der Prognosegenauigkeit

Ein Forecast Fehler (Error) et ist die Differenz zwischen dem tatsächlich eingetreten Wert des Sachverhalts und dem korrespondierenden Forecast :

(4.6.1) eT +h = yT+h − 𝑦̂𝑇+ℎ|𝑇

Basierend auf den Forecast Fehlern wurden in der Literatur verschiedene Kennzahlen bzw. Durchschnitte definiert. Für die folgenden Definitionen wird angenommen, dass ein Forecast n Werte umfasst (h = 1, …, n):

Mean Absolute Error (MAE): 1 𝑛 Σ (|𝑒𝑗 |) 𝑛 𝑗 =1

Root Mean Squared Error (RMSE): 1 𝑛 Σ (𝑒𝑗 2) 𝑛 𝑗 =1

Mean absolute Percentage Error (MAPE): 1 𝑛 Σ (|𝑝𝑗 |), 𝑤𝑜𝑏𝑒𝑖 𝑝𝑗 = 100 𝑒𝑗 𝑦𝑗 𝑛 𝑗 =1

Der MAE ist als Durchschnitt der absoluten Prognosefehler intuitiv interpretierbar, da er in der gleichen Skala wie die zu prognostizierende Zeitreihe angegeben ist . Das RMSE „bestraft“ durch die Quadrierung der Fehler starke Abweichungen härter als der MAE. MAE und RMSE sind beide abhängig von der Skala der jeweils betrachteten Zeitreihe. Folglich lassen sich mit diesen nur die Prognosegenauigkeiten der Modelle innerhalb eines Landes vergleichen. Für einen länderübergreifenden Vergleich der Prognoseakkuranz, kann der skalenunabhängige MAPE herangezogen werden. Für die richtige Interpretation sei angemerkt, dass dieser Kennwert zu hoch angesetzte Prognosen (negative Fehler et ) härter bestraft als unterschätzende Vorhersagen (mit demselben absoluten Fehler).127 Im Folgenden werden mit den erstellten Prognosemodellen Forecasts für das erste Quartal im Jahr 2018 erstellt. Für diesen Zeitraum liegen Beobachtungen der tatsächlichen Zeitreihe vor, die als Testdaten einbehalten wurden. Da die Testdaten nicht in die Modellspezifikation und -schätzung eingeflossen sind, kann anhand dieser untersucht werden, wie gut die Prognosemodelle auf „unbekannten“ Daten operieren. Tabelle 10 zeigt, dass die Modelle, die lediglich auf der Zeitreihenstruktur der Zielvariable basieren (ETS und ARIMA Modelle) zu exakteren Prognosen in Deutschland führten als die DR-Modelle. Die Prognosegenauigkeit der ETS und ARIMA Modelle mit einem MAPE von jeweils unter 2,5 % ist für die bisherigen Prognosewerte zufriedenstellend. Für diese Modelle waren die 95% Konfidenzintervalle zu 100% akkurat, d.h. der tatsächliche Beobachtungswert lag für alle vier Monate im prognostizierten 95%-Konfidenzintervall. Nach den bisherigen Erkenntnissen sollte das ETS(A, Ad, M) als Forecast Modell für Deutschland gewählt werden, da es nach allen Kennzahlen den geringsten Prognosefehler im Vergleich zu den übrigen Modellen aufweist. Die Ergebnisse sind jedoch als vorläufig zu betrachten und müssen durch weitere Forecasts bekräftigt werden. Das bedeutet, dass mit den Daten bis einschließlic h April 2018 unter Verwendung der Modelle wiederum Forecasts für das nächste sich anschließende Tertial (Mai- August 2018) kalkuliert werden. Für den jeweiligen MAE, RMSE und MAPE Kennwert können dann vier weitere Werte kalkuliert werden, sodass diese Kennzahlen an Aussagekraft gewinnen. Dieses Schema kann fortgesetzt werden, um die Validität der Prognosemodelle zu bestätigen und zu erkennen, wann eine Reformulierung des Prognosemodells notwendig wird.

Tabelle 10: Evaluierung der Modellprognosen für Deutschland

In Anhang 4 und Anhang 5 wurde der ausführliche Modellvergleich für die Länder Italien und Spanien durchgeführt. Wie im Fall von Deutschland, führen die (aufwendigeren) DR-Modelle für diese Länder zu keinen (deutlich) exakteren Prognosen als die entsprechenden ARIMA und ETS Modelle.

In Tabelle 11 wurde sich daher auf einen Modellvergleich zwischen ARIMA und ETS Modellen konzentriert. Als jeweils zu vergleichender Kennwert wurde in diesem Fall der MAPE wegen seiner Skalenunabhängigkeit gewählt. In den Ländern Dänemark, Niederlande, Norwegen, Portugal, Schweden sowie dem Vereinigten Königreich erreichen die spezifizierten ARIMA Modelle gemessen am MAPE jeweils exaktere Prognosen als entsprechende ETS Modelle. In den übrigen Ländern sind die ETS Modelle
im Vorteil. Im Fall von Belgien führten beide Modellklassen zu unzufriedenstellenden Prognosen, da der MAPE jeweils über 40% lag.

Tabelle 11: Vergleich der Prognosegenauigkeit von ARIMA und ETS Modellen

Interessant ist ebenfalls, dass die Prognosegenauigkeit zwischen ARIMA und ETSModellen gemessen am MAPE stark korreliert (Abbildung 21, links). ARIMA und ETS Modelle scheinen in diesem Fallbeispiel zu ähnlichen Prognosen zu führen.

Abbildung 21: Beziehungen der Prognosegenauigkeit

Wie bereits bei Spezifikation der ARIMA Modelle erwähnt, empfehlen die Urheber dieser Modelle eine Mindestgröße von 50, besser 100 Datenpunkten der Zeitreihen.


Die schlechten Modellprognosen für das Fallbeispiel Belgien könnten darin begründet sein, dass die Zeitreihe lediglich 31 Datenpunkte umfasste. Der rechte Teil von Abbildung 21 gibt einen Hinweis darauf, dass der Prognosefehler mit zunehmender Länge der verfügbaren Zeitreihen abnimmt. Die Aussage ist allerdings mit Vorsicht zu formulieren, da der Datenpunkt Belgiens (oben links) einen hohen Einfluss auf die
Korrelationsgerade ausübt. Wird diese Beobachtung nicht berücksichtigt besteht nur eine schwach negative Korrelation von -0,2587.