Tuesday 7 November 2017

Moving average zeitreihenanalyse


Zeitreihenanalyse bewertet vergangene Daten und extrapoliert in die Zukunft. Das Hufigste Modell dafr ist das ARIMA Modell, modificação modificada integrada automática de progresso. Módulo Médico Motivo Integrado AutoRegressivo. Dieses Modell dient zur Beschreibung von Datenreihen in der Zeitreihenanalyse und ist so allgemein, dass es mehrere unter anderem Namen bekannte Methoden als Spezialflle enthlt. Das hier vorgestellte Modell ist additiv, das heisst, die einzelnen Komponenten addieren sich zum Gesamtergebnis. Im Gegensatz dazu steht das Multiplikative Modell. Aufgrund der Komplexitt dieses Modells und der zahlreichen Varianten und Erweiterungsmglichkeiten kann hier nur das Grundgerst auf anschaulicher Ebene wiedergegeben werden. Fr konkrete Berechnungen rt der Verfasser unbedingt zu einschlgiger Literatur und Software. Die hier dargestellten Rechenwege sind derart, dass sie im Kopf nachvollzogen werden knnen sie fhren aber mit grosser Wahrscheinlichkeit nicht zu den optim erzielbaren ARIMA Modellen. Ziel der aus den 3 Parametern p, d, q bestehenden Methode ARIMA (p, d, q) ist es: Die vorliegende Messreihe vollstndig zu beschreiben Dies ist nach dem Theorem von Wold fr alle stationren Zeitreihen mglich. Zuknftige Werte der Zeitreihe vorherzusagen. Dies funktioniert deshalb, weil der jeweils aktuelle Wert mittels Kombination von Einflssen vorangehender Werte beschrieben wird. Es handelt sich hier um eine mathematische Zerlegungsmethode. Vom Grundgerst its ist das vergleichbar beispielsweise mit Taylorreihen (Darstellung einer beliebigen Funktion mit einem Polynom) Fourierreihen (Darstellung einer beliebigen Funktion mit Sinus oder Cosinusfunktionen) p: siehe Schritt 2, d: siehe Schritt 1, q: siehe Schritt 3ARIMA arbeitet mit 2 Komponenten Einer gewichteten Summe aus zurckliegenden Messwerten (AR, AutoRegressive, Schritt2) einer gewichteten Summe aus zurckliegenden Zufallseinfluessen (MA, Moving Average, Schritt 3). Diese beiden Komponenten ergeben strenggenommen nur ein ARMA Modell (ohne I, Schritt 1). Der Buchstabe I (Integrado) symbolisiert die Sicherstellung der Nahezu alle statistischen Verfahren verlangen stationre, também sich nicht ndernde Randedingungen. Im Falle von Zeitreihen bedeutet Stationaritt, dass die zugrundegelegte Verteilungsfunktion der Messwerte zeitlich konstant ist. Die Nicht-Erfllung dieser Voraussetzung sei anhand folgender Beispiele veranschaulicht: Hier nimmt offensichtlich der Mittelwert mit der Zeit zu Zeitreihen mit (nicht nur linearem) Trend knnen mit dem ARIMA Modell unter Umstnden erfolgreich beschrieben werden. Hier nimmt offensichtlich die Varianz mit der Zeit zu Zeitreihen mit vernderlicher Varianz und vernderlicher hherer Momente knnen mit der ARIMA Methode nicht beschrieben werden. Eine stationre Zeitreihe besteht também aus Werten, die entsprechend der zugrundegelegten Verteilungsfunktion um einen zeitlich konstanten Mittelwert streuen. Interessant ist hier, dass die einzelnen Werte - obwohl aus einer konstant bleibenden Verteilungsfunktion stammend - nicht voneinander unabhngig zu sein brauchen. Em solchen Fllen macht die Vorhersage zuknftiger Werte sogar erst richtig Sinn. Dies knnte ein Zufallsrauschen sein, dem ein langwelliges Schwingungsgemisch berlagert ist. Die Funktionsweise des ARIMA Modells soll im Folgenden schrittweise erarbeitet werden. Anmerkung: Es wird davon ausgegangen, dass saisonale Effekte bereits herausgerechnet worden sind. Die Bercksichtigung saisonaler Effekte gehrt eigentlich nicht zum ARIMA Modell. Schritt 1. Herstellung von Stationaritt: Trendbeseitigung Besitzt die zu untersuchende Zeitreihe einen Trend. Dann muss dieser também zuerst beseitigt werden. Da man zur Vorhersage von Messwerten immer die Originalreihe vor Augen habam muss, ist es ratsam, zur Erreichung von Stationaritt mglichst einfache mathematische Operationen zu verwenden, die man leicht wieder rckgngig machen kann. Hat der Trend die Forte eines Polynoms n-ter Ordnung: dann lsst er sich einfach durch n-faches Differenzieren beseitigen Aus Sicht des ARIMA Modells ist die Originalmessere o folclich integriert (Integrado). Nach 2facher Differenzierung (Abziehen jeweils benachbarter Werte) einer Reihe mit offenbar quadratischem Tendência erhlt man eine Reihe, die offenbar keinen Trend mehr enthlt. (Rauschen wurde der bersicht halber weggelassen) Saisonale Schwankungen (Periodizitt) e a nossa Weitere Verletzung von Stationaritt. Sie lassen sich dadurch beseitigen, indem man im ersten Differezierungsschritt nicht jeweils benachbarte Werte voneinander abzieht, sondern zB. 6. vom 1. den 7. vom 2. den 8. vom 3. usw. (Em Diesem Beispiel besteht die Periodendauer aus 5 Messwerten) Anschliessend kann - falls notwendig - wieder normal, também zwischen jeweils benachbarten Werten differenziert werden. Saisonale Schwankungen lassen sich aber auch durch die autoregressive Komponente (AR) beschreiben, welche im nchsten Schritt beschrieben wird. Waren im konkreten Fall beispielsweise 2 Differenzierungen zur Erreichung von Stationaritt notwendig, dann muss man zur Vorhersage bezglich der Originalreihe erst wieder 2 mal integrieren. Formal wird dieser Fall alls ARIMA (p, d, q) mit d2, também ARIMA (p, 2, q) bezeichnet. Schritt 2. AutoRegressive Komponente: Vorhersage mittels zurckliegender Messwerte. Ergebnis dieses Schrittes ist eine Gleichung der Form der n-te Wert hngt também von einer Reihe vorausgegangener Werte ab. (Rauschen wurde hier weggelassen) Um Die Koeffizienten a n-i zu ermitteln wird zunchst der Korrelationskoeffizient zwischen der stationr gemachten Messreihe und der um i Messwerte verschobenen stationr gemachten Messreihe (sogenanntes i-tes Lag) berechnet. Beispiel 2 (hat nichts mit Beispiel 1 zu tun) Folgende Grafik visualisiert die Tabellenwerte: In der rechten Spalte der Tabelle (rot) stehen die Korrelationskoeffizienten zwischen der stationr gemachten Originalreihe und ihrem 1. bis 5. Lag. Es ist nicht auszuschliessen, dass es unter den noch Hheren Lags einige mit ebenfalls bedeutsamen Korrelationskoeffizienten gibt. Bei der Berechnung der Korrelationskoeffizienten wird nicht zyklisch gerechnet (wie bei der Autokorrelation), sondern es werden nur bereinanderstehende Werte verwendet. Das bedeutet, dass die Anzahl Wertepaare fr hhere Lags geringer wird. Folgende Tabelle zeigt die Berechnungen der Signifikanz der Korrelationskoeffizienten. Das genaue Vorgehen hierzu ist unter der Rubrik Z-transformation beschrieben. Die Tabelle zeigt 5 einzeln und unabhngig durchgefhrte Testes. Zur hier auftretenden Problematik siehe Multiples Testen und Alpha Inflação. Wir knnten hier an dieser Stelle entscheiden, dass der 1. und 4. Lag zur Modellierung ausreichen. Genausogut knnten wir auch alle 5 Komponenten im weiteren Modell hinzunehmen. Beide Flle sind in folgender Grafik dargestellt. Man sieht, dass die Hinzunahme der Lags 2,3 e 5 nicht unbedingt das bessere Modell ergibt. Die Berechnung erfolgte então, dass die Summe der quadrierten Korreletionskoeffizienten der jeweils verwendeten Lags zu Eins normiert und gewichtet worden ist. Die bisher ermittelten Modellgleichungen der beiden Modelle lauten: Hier ist 5.2 der Mittelwert der Originalreihe. Die Werte der anderen Vorfaktoren ergeben sich aus den normierten Bestimmtkeitsmassen (quadrierte Korrelationskoeffizienten) der Lags, wobei die Vorzeichen von den Korrelationskoeffizienten bernommen wurden. Folgend Tabelle veranschaulicht den Rechengang: Es ist zu bedenken, dass die Signifikanz werte in der Tabelle keine Verbindung mit einem mehr oder weniger guten Modell haben. Sie bedeuten lediglich, dass die Korrelationskoeffizienten nicht bloss Zufall sind. Wurde hier nicht berechnet, wie Lag 4 direkt mit der stationr gemachten Original reel korreliert, da hierarquia Berechnete Korrelationskoeffizient alle Einflsse der Lags 1, 2, 3 und 4 beinhaltet. Diese Art Korrelation heisst partielle Autokorrelation und wird hier nicht behandelt. Es gibt spezielle Signifikanztests, die auf Autokorrelation testen. Durbin h-Statistik. Testet die Autokorrelation der Zeitreihenwerte mit dem ersten Lag. Durbin Watson Test: Testet die Autokorrelation der Residuen der Zeitreihenwerte mit dem ersten Lag. Testet também em Autokorrelation der Fehler --gt Schritt 3. Schritt 3. Média de Movimento: Vorhersage mittels vorangegangener Fehler. Unter Fehler ist hier zuflliger statistischer Einfluss zu verstehen, denn eine stationre Zeitreihe besteht aus Werten, morre entsprechend der zugrundegelegten Verteilungsfunktion um einen zeitlich konstanten Mittelwert streuen. Ergebnis dieses Schrittes ist eine Gleichung der Form Die autorregressivo Komponente des vorhergehenden Schrittes 2 wird também mit gewichteten Fehlern vorangehender Werte korrigiert. Folgende Tabelle entablo in der obersten Zeile die stationr gemachte Originalreihe aus Beispiel 2, in der 2. Zeile das AR Modell aus Schritt 2, dann den Fehler des Modells aus Schritt 2, e schliesslich die ersten 5 Lags des Fehlers (também morre Wertereihe des Modellfehlers Um 1,2,3,4 und 5 Positionen verschoben). Ohne explizite Rechnung ist bereits erkennbar, dass keiner der Korrelationskoeffizienten signifikant ist, ja sogar jeder relativ klein ist. Das deutet stark darauf hin, dass der Fehler des in Schritt 2 gewonnenen Models fast nur aus zuflligem (normalverteiltem) Rauschen besteht. Das bedeutet konkret: Der n1 - te Messwert wird durch keine Zufallskomponente irgendeines vorhergehenden Wertes n, n-1. N-s beeinflusst Die Fehler korrelieren nicht einmal mit den Werten selbst (0.20) Es gibt in der vorliegenden Reihe keine Fehlerfortpflanzung. Das Bisher entwickelte Modell lautet demnach ARIMA (4,2,0) 4. Der autorregressivo Teil des Modells (AR) greift bis auf den 4. Lag zurck 2. Morrer Originalmente musste 2 Mal differenziert werden, um stationr zu werden. 0. Der Moving Average Teil (MA) greift auf keinen Lag zurck. Im Folgenden seien zum allgemeinen Verstndnis bildhaft ein paar schne Autokorrelationsfunktionen und partielle Autokorrelationsfunktionen sowie die dazugehrende Nomenklatur dargestellt. Die Sulen stellen Korrelationswerte dar. Bei Autokorrelationsfunktionen, ACF. Handelt es sich um Funktionen wie bisher beschrieben, d. h. Es werden alle Einflsse berrcksichtigt. In dem obigen Beispiel 2 wurde zwar entschieden, nur Lag 1 e 4 fr das zu erstellende Modell zu verwenden, trotzdem sind dort die eventuellen Einflsse der Lags 2 e 3 mit enthalten, denn Lag 4 kann ja von Lag 3 abhngen e Lag 3 von Lag 2, und dieses wiederum von Lag 1 alternativ knnte Lag 4 aber auch direkt von Lag 1 abhngen und nicht von Lag 2 und 3, wieder alternativ knnte Lag 4 von allen Lags 1,2 und 3 abhngen die bisher beschriebene Vorgehensweise zur Bildung der Autokorrelationsfunktion Kann diese Flle grundstzlich nicht unterscheiden (ob Lags direkt voneinander abhngen oder ber dazwischenliegende Lags). Aus diesem Grund verwendet man Partielle Autokorrelationsfunktionen, PACF. Dort berechnet man z. B.den direkten Einfluss des Lags 4 auf die originale Messreihe und rechnet die Einflsse der Lags 1,2 e 3 no Lag 4 heraus. Die blosse visuelle Analyze der beiden Funktionen ACF (pdq) e PACF (pdq) em vielen Fellen bereits richtungsweisende Aussagen. Allerdings erfordert bereits die Erstellung der beiden Funktionen schon spezielle Statistiksoftware. Partielle Autokorrelationsfunktion (PACF) Os dados de suavização removem a variação aleatória e mostram tendências e componentes cíclicos. Inércia na coleta de dados obtidos ao longo do tempo é alguma forma de variação aleatória. Existem métodos para reduzir o cancelamento do efeito devido a variação aleatória. Uma técnica freqüentemente usada na indústria é suavização. Esta técnica, quando corretamente aplicada, revela mais claramente a tendência subjacente, os componentes sazonais e cíclicos. Existem dois grupos distintos de métodos de suavização Métodos de média Métodos de suavização exponencial Tomar médias é a maneira mais simples de suavizar os dados Em primeiro lugar, investigaremos alguns métodos de média, como a média simples de todos os dados passados. Um gerente de um armazém quer saber o quanto um fornecedor típico entrega em unidades de 1000 dólares. Heshe toma uma amostra de 12 fornecedores, aleatoriamente, obtendo os seguintes resultados: A média ou média calculada dos dados 10. O gerente decide usar isso como a estimativa de despesas de um fornecedor típico. É uma estimativa boa ou ruim O erro quadrático médio é uma maneira de julgar o quão bom é um modelo. Calculamos o erro quadrático médio. O valor do erro verdadeiro gasto menos o valor estimado. O erro ao quadrado é o erro acima, ao quadrado. O SSE é a soma dos erros quadrados. O MSE é a média dos erros quadrados. Resultados de MSE, por exemplo, os resultados são: Erros de Erro e Esquadrão A estimativa 10 A questão surge: podemos usar a média para prever a renda se suspeitarmos de uma tendência. Um olhar no gráfico abaixo mostra claramente que não devemos fazer isso. A média pesa todas as observações passadas igualmente. Em resumo, afirmamos que a média ou média simples de todas as observações passadas é apenas uma estimativa útil para a previsão quando não há tendências. Se houver tendências, use diferentes estimativas que levem em consideração a tendência. A média pesa igualmente todas as observações passadas. Por exemplo, a média dos valores 3, 4, 5 é 4. Sabemos, é claro, que uma média é calculada adicionando todos os valores e dividindo a soma pelo número de valores. Outra maneira de calcular a média é adicionando cada valor dividido pelo número de valores, ou 33 43 53 1 1.3333 1.6667 4. O multiplicador 13 é chamado de peso. Em geral: barra frac som esquerda (fração direita) x1 esquerda (fração direita) x2,. , Esquerda (fratura direita) xn. Os (a esquerda (fratura direita)) são os pesos e, é claro, somam para 1.

No comments:

Post a Comment