Time Series Analysis Moving Average Ppt


Un tutorial completo sobre la serie temporal Modelado en R Introducción 8216Time8217 es el factor más importante que asegura el éxito en un negocio. Es difícil mantener el paso del tiempo. Pero, la tecnología ha desarrollado algunos métodos poderosos con los cuales podemos ver cosas 8217 antes de tiempo. No se preocupe, no estoy hablando de Time Machine. Sería realista aquí hablar de los métodos de predicción y predicción de amplificadores. Uno de estos métodos, que se ocupa de datos basados ​​en el tiempo, es Modelado en Serie de Tiempo. Como sugiere su nombre, implica trabajar en datos basados ​​en el tiempo (años, días, horas, minutos) para obtener ideas ocultas para tomar decisiones informadas. Los modelos de series temporales son modelos muy útiles cuando se tienen datos correlacionados en serie. La mayoría de las casas comerciales trabajan en datos de series de tiempo para analizar el número de ventas para el próximo año, el tráfico del sitio web, la posición de la competencia y mucho más. Sin embargo, es también una de las áreas, que muchos analistas no entienden. Por lo tanto, si no está seguro sobre el proceso completo de modelado de series de tiempo, esta guía le presentará a varios niveles de modelado de series de tiempo y sus técnicas relacionadas. Los siguientes temas se tratan en este tutorial como se muestra a continuación: Tabla de contenidos Conceptos básicos 8211 Modelado de series temporales Exploración de series de tiempo Datos en R Introducción a ARMA Modelos de series de tiempo Modelado y aplicación de modelos de series temporales ARIMA Tiempo de inicio 1. Conceptos básicos 8211 Tiempo Series Modeling Let8217s comienzan desde lo básico. Esto incluye series estacionarias, paseos aleatorios. Rho Coeficiente, Dickey Fuller Prueba de estacionariedad. Si estos términos ya le están asustando, no se preocupe 8211 se harán claros en un poco y apuesto a que comenzará a disfrutar el tema como lo explico. Serie estacionaria Hay tres criterios básicos para que una serie sea clasificada como serie estacionaria: 1. La media de la serie no debe ser una función del tiempo sino una constante. La imagen de abajo tiene el gráfico de la mano izquierda que satisface la condición, mientras que el gráfico en rojo tiene una media dependiente del tiempo. 2. La varianza de la serie no debe ser una función del tiempo. Esta propiedad es conocida como homoscedasticity. El siguiente gráfico representa lo que es y lo que no es una serie estacionaria. (Obsérvese la distribución variable de la distribución en el gráfico de la derecha) 3. La covarianza del i-ésimo término y el (i m) término no debe ser una función del tiempo. En el siguiente gráfico, notará que el spread se hace más cercano a medida que aumenta el tiempo. Por lo tanto, la covarianza no es constante con el tiempo para la serie 8217. ¿Por qué me importa 8216stationarity8217 de una serie de tiempo La razón por la que tomé esta sección primero fue que hasta que a menos que su serie de tiempo es estacionario, no se puede construir un modelo de series de tiempo. En los casos en que el criterio estacionario es violado, el primer requisito se convierte en estacionarizar la serie temporal y luego intentar modelos estocásticos para predecir esta serie temporal. Hay múltiples maneras de traer esta stationaridad. Algunos de ellos son Detrending, Differencing, etc Random Walk Este es el concepto más básico de la serie de tiempo. Es posible que conozcas bien el concepto. Pero, encontré a mucha gente en la industria que interpreta el paseo al azar como un proceso estacionario. En esta sección con la ayuda de algunas matemáticas, voy a hacer que este concepto sea claro para siempre. Tomemos un ejemplo. Ejemplo: Imagina a una chica moviéndose al azar en un tablero de ajedrez gigante. En este caso, la siguiente posición de la niña sólo depende de la última posición. Ahora imagine, usted está sentado en otra habitación y no son capaces de ver a la chica. Usted quiere predecir la posición de la niña con el tiempo. ¿Cuán preciso será usted? Por supuesto que se volverá cada vez más inexacto a medida que cambia la posición de la niña. En t0 sabes exactamente dónde está la chica. La próxima vez, ella sólo puede moverse a 8 cuadrados y por lo tanto su probabilidad de inmersiones a 1/8 en lugar de 1 y sigue bajando. Ahora vamos a intentar formular esta serie: donde Er (t) es el error en el punto temporal t. Esta es la aleatoriedad que la chica trae en cada momento. Ahora, si recurrimos de forma recursiva en todas las X, finalmente terminaremos con la siguiente ecuación: Ahora, probemos a validar nuestras suposiciones de series estacionarias sobre esta formulación de caminata aleatoria: 1. ¿Es la Constante Media Sabemos que la Expectativa de cualquier Error Será cero, ya que es aleatorio. Por lo tanto, obtenemos EX (t) EX (0) Constante. 2. ¿Es la variación constante? Por lo tanto, inferimos que la caminata aleatoria no es un proceso estacionario ya que tiene una varianza variante en el tiempo. Además, si comprobamos la covarianza, vemos que también depende del tiempo. Let8217s picante las cosas un poco, Ya sabemos que un paseo al azar es un proceso no estacionario. Vamos a introducir un nuevo coeficiente en la ecuación para ver si podemos hacer la formulación estacionaria. Coeficiente introducido. Rho Ahora, vamos a variar el valor de Rho para ver si podemos hacer la serie estacionaria. Aquí interpretaremos la dispersión visualmente y no haremos ninguna prueba para verificar la estacionariedad. Let8217s comienzan con una serie perfectamente estacionaria con Rho 0. Aquí está el diagrama para la serie de tiempo: Aumentar el valor de Rho a 0.5 nos da el siguiente gráfico: Usted puede notar que nuestros ciclos se han vuelto más amplios, pero esencialmente no parece ser un Grave violación de los supuestos estacionarios. Let8217s ahora tomar un caso más extremo de Rho 0.9 Todavía vemos que la X regresa de valores extremos a cero después de algunos intervalos. Esta serie tampoco está violando significativamente la no estacionariedad. Ahora, vamos a echar un vistazo a la caminata aleatoria con rho 1. Esto obviamente es una violación a las condiciones estacionarias. Lo que hace rho 1 un caso especial que sale mal en la prueba estacionaria Vamos a encontrar la razón matemática para esto. Los resultados obtenidos en la ecuación 8220X (t) Rho X (t-1) Er (t) 8221 Esta ecuación es muy perspicaz. La siguiente X (o en el punto de tiempo t) se está reduciendo a Rho último valor de X. Por ejemplo, si X (t 8211 1) 1, EX (t) 0,5 (para Rho 0,5). Ahora, si X se mueve a cualquier dirección desde cero, se tira de nuevo a cero en el paso siguiente. El único componente que puede conducir aún más es el término de error. El término de error es igualmente probable que vaya en cualquier dirección. ¿Qué sucede cuando el Rho se convierte en 1? Ninguna fuerza puede tirar de la X en el siguiente paso. Dickey Fuller Test of Stationarity Lo que acabas de aprender en la última sección es formalmente conocido como Dickey Fuller. Aquí está un pequeño ajuste que se hace para que nuestra ecuación lo convierta a una prueba de Dickey Fuller: Tenemos que probar si Rho 8211 1 es significativamente diferente de cero o no. Si la hipótesis nula es rechazada, obtendremos una serie temporal fija. Las pruebas estacionarias y la conversión de una serie en una serie estacionaria son los procesos más críticos en un modelo de series temporales. Es necesario memorizar cada detalle de este concepto para pasar al siguiente paso de modelado de series de tiempo. Let8217s ahora consideran un ejemplo para mostrar cómo es una serie de tiempo. 2. Exploración de datos de series temporales en R Aquí we8217ll aprenderemos a manejar datos de series temporales sobre R. Nuestro alcance se limitará a la exploración de datos en un tipo de serie de series de datos y no a modelos de series temporales de construcción. He utilizado un conjunto de datos incorporado de R llamado AirPassengers. El conjunto de datos se compone de los totales mensuales de los pasajeros de las líneas aéreas internacionales, 1949 a 1960. Loading the Data Set A continuación se muestra el código que le ayudará a cargar el conjunto de datos y derramar algunas métricas de nivel superior. Importantes Inferencias La tendencia de año a año muestra claramente que los pasajeros han ido creciendo sin falta. La varianza y el valor medio en julio y agosto es mucho mayor que el resto de los meses. Aunque el valor medio de cada mes es bastante diferente, su varianza es pequeña. Por lo tanto, tenemos fuerte efecto estacional con un ciclo de 12 meses o menos. La exploración de datos se hace más importante en un modelo de series de tiempo 8211 sin esta exploración, usted no sabrá si una serie es estacionaria o no. Como en este caso, ya conocemos muchos detalles sobre el tipo de modelo que estamos buscando. Let8217s ahora toman algunos modelos de series temporales y sus características. También tomaremos este problema adelante y haremos algunas predicciones. 3. Introducción al modelo de series temporales ARMA Los modelos ARMA se usan comúnmente en el modelado de series temporales. En el modelo ARMA, AR significa auto-regresión y MA significa promedio móvil. Si estas palabras suenan intimidantes para ti, no te preocupes por simplificar estos conceptos en los próximos minutos para ti Vamos a desarrollar ahora una habilidad para estos términos y entender las características asociadas con estos modelos. Pero antes de comenzar, debe recordar, AR o MA no son aplicables a las series no estacionarias. En caso de que obtenga una serie no estacionaria, primero necesita estampar la serie (tomando la diferencia / transformación) y luego elegir entre los modelos de series de tiempo disponibles. En primer lugar, explicaré cada uno de estos dos modelos (AR amp MA) individualmente. A continuación, examinaremos las características de estos modelos. Modelo de la serie de tiempo auto-regresiva Let8217s comprensión de los modelos de AR utilizando el caso a continuación: El PIB actual de un país decir x (t) es dependiente del último año 8217s PIB, es decir, x (t 8211 1). La hipótesis es que el costo total de producción de productos y servicios en un país en un año fiscal (conocido como PIB) depende de la creación de plantas / servicios de fabricación en el año anterior y de las nuevas industrias / plantas / servicios En el presente año. Pero el componente primario del PIB es el primero. Por lo tanto, podemos formalmente escribir la ecuación del PIB como: Esta ecuación se conoce como AR (1) formulación. El número uno (1) indica que la siguiente instancia depende únicamente de la instancia anterior. El alfa es un coeficiente que buscamos para minimizar la función de error. Obsérvese que x (t 1) está de hecho unido a x (t-2) de la misma manera. Por lo tanto, cualquier choque a x (t) se desvanecerá gradualmente en el futuro. Por ejemplo, let8217s decir x (t) es el número de botellas de jugo que se venden en una ciudad en un día en particular. Durante los inviernos, muy pocos vendedores compraron botellas de jugo. De repente, en un día en particular, la temperatura subió y la demanda de botellas de jugo se elevó a 1000. Sin embargo, después de unos días, el clima se volvió a enfriar. Pero, sabiendo que la gente se acostumbró a beber jugo durante los días calurosos, había 50 personas todavía bebiendo jugo durante los días fríos. En los días siguientes, la proporción bajó a 25 (50 de 50) y luego gradualmente a un número pequeño después de un número significativo de días. El siguiente gráfico explica la propiedad de inercia de la serie AR: Moving Average Time Series El modelo Let8217s toma otro caso para entender el modelo de serie de tiempo medio móvil. Un fabricante produce un cierto tipo de bolsa, que estaba fácilmente disponible en el mercado. Siendo un mercado competitivo, la venta de la bolsa se mantuvo cero durante muchos días. Por lo tanto, un día hizo algunos experimentos con el diseño y produjo un tipo diferente de bolsa. Este tipo de bolsa no estaba disponible en ninguna parte del mercado. Por lo tanto, fue capaz de vender todo el stock de 1000 bolsas (vamos a llamar esto como x (t)). La demanda se hizo tan alta que la bolsa se agotó. Como resultado, unos 100 clientes extraños no pudieron comprar esta bolsa. Vamos a llamar a esta brecha como el error en ese punto de tiempo. Con el tiempo, la bolsa había perdido su factor woo. Pero aún quedaban pocos clientes que salieron con las manos vacías el día anterior. A continuación se presenta una formulación sencilla para representar el escenario: Si tratamos de trazar este gráfico, se verá algo como esto: ¿Notó la diferencia entre el modelo MA y AR En el modelo MA, el ruido / shock rápidamente desaparece con el tiempo. El modelo AR tiene un efecto muy duradero del choque. Diferencia entre modelos AR y MA La diferencia primaria entre un modelo AR y MA se basa en la correlación entre objetos de series temporales en diferentes puntos temporales. La correlación entre x (t) y x (t-n) para n orden gt de MA es siempre cero. Esto fluye directamente del hecho de que la covarianza entre x (t) y x (t-n) es cero para los modelos MA (algo que nos referimos del ejemplo tomado en la sección anterior). Sin embargo, la correlación de x (t) y x (t-n) disminuye gradualmente con n cada vez mayor en el modelo de AR. Esta diferencia se explota independientemente de tener el modelo AR o modelo MA. El diagrama de correlación puede darnos el orden del modelo MA. Explotación de las parcelas ACF y PACF Una vez que tenemos la serie temporal estacionaria, debemos responder a dos preguntas principales: Q1. Es un proceso AR o MA Q2. ¿Qué orden de AR o MA proceso que tenemos que utilizar El truco para resolver estas preguntas está disponible en la sección anterior. Didn8217t notar La primera pregunta puede ser respondida usando la Tabla de Correlación Total (también conocida como Función de Correlación Auto 8211 / ACF). ACF es una gráfica de la correlación total entre diferentes funciones de retraso. Por ejemplo, en el problema del PIB, el PIB en el momento t es x (t). Estamos interesados ​​en la correlación de x (t) con x (t-1). X (t-2) y así sucesivamente. Ahora vamos a reflexionar sobre lo que hemos aprendido anteriormente. En una serie de promedio móvil de retraso n, no obtendremos ninguna correlación entre x (t) y x (t 8211 n -1). Por lo tanto, el gráfico de correlación total corta en nth lag. Por lo tanto, se hace sencillo encontrar el retraso para una serie de MA. Para una serie AR esta correlación disminuirá gradualmente sin ningún valor de corte. Entonces, ¿qué hacemos si se trata de una serie AR Aquí está el segundo truco. Si descubrimos la correlación parcial de cada lag, se cortará después del grado de la serie AR. Por ejemplo, si tenemos una serie de AR (1), si excluimos el efecto del 1er lag (x (t-1)), nuestro segundo retraso (x (t-2)) es independiente de x (t). Por lo tanto, la función de correlación parcial (PACF) bajará bruscamente después del primer retardo. Los siguientes son ejemplos que aclararán cualquier duda que tenga sobre este concepto: La línea azul anterior muestra valores significativamente diferentes de cero. Claramente, el gráfico anterior tiene un corte en la curva PACF después del segundo retraso, lo que significa que esto es principalmente un proceso AR (2). Claramente, el gráfico anterior tiene un corte en la curva ACF después del segundo retraso, lo que significa que esto es principalmente un proceso de MA (2). Hasta ahora, hemos cubierto sobre cómo identificar el tipo de serie estacionaria utilizando parcelas ACF amp PACF. Ahora, le presentaré un marco completo para construir un modelo de series de tiempo. Además, we8217ll también discutirán sobre las aplicaciones prácticas del modelado de series temporales. 4. Marco y aplicación del modelo de series temporales ARIMA Una revisión rápida, Hasta aquí hemos aprendido los fundamentos del modelado en series de tiempo, series de tiempo en modelos R y ARMA. Ahora es el momento de unir estas piezas y hacer una historia interesante. Descripción del Marco Este marco (que se muestra a continuación) especifica el enfoque paso a paso en 8216 Cómo realizar un Análisis de Series Temporales 8216: Como sabrás, los tres primeros pasos ya se han discutido anteriormente. Sin embargo, lo mismo se ha delineado brevemente a continuación: Paso 1: Visualizar las series temporales Es esencial analizar las tendencias antes de construir cualquier tipo de modelo de serie temporal. Los detalles que nos interesan pertenecen a cualquier tipo de tendencia, estacionalidad o comportamiento aleatorio en la serie. Hemos cubierto esta parte en la segunda parte de esta serie. Paso 2: estacionarizar la serie Una vez que conozcamos los patrones, tendencias, ciclos y estacionalidad. Podemos comprobar si la serie es estacionaria o no. Dickey 8211 Fuller es uno de los populares de prueba para comprobar lo mismo. Hemos cubierto esta prueba en la primera parte de esta serie de artículos. Esto doesn8217t termina aquí ¿Qué pasa si la serie se encuentra para ser no estacionaria Hay tres técnicas comúnmente utilizadas para hacer una serie de tiempo estacionario: 1. Detrending. Aquí, simplemente eliminamos el componente de tendencia de la serie de tiempo. Por ejemplo, la ecuación de mi serie de tiempo es: Simplemente quite la parte entre paréntesis y construya el modelo para el resto. 2. Diferencia. Esta es la técnica comúnmente utilizada para eliminar la no estacionariedad. Aquí tratamos de modelar las diferencias de los términos y no el término real. Por ejemplo, esta diferenciación se llama como parte de la integración en AR (I) MA. Ahora, tenemos tres parámetros 3. Estacionalidad. La estacionalidad se puede incorporar fácilmente en el modelo ARIMA directamente. Más sobre esto se ha discutido en la parte de aplicaciones a continuación. Paso 3: Encontrar parámetros óptimos Los parámetros p, d, q se pueden encontrar usando gráficos ACF y PACF. Una adición a este enfoque puede ser, si ambos ACF y PACF disminuye gradualmente, indica que necesitamos hacer la serie de tiempo estacionaria e introducir un valor a 8220d8221. Paso 4: Construir Modelo ARIMA Con los parámetros en mano, ahora podemos intentar construir el modelo ARIMA. El valor encontrado en la sección anterior podría ser una estimación aproximada y necesitamos explorar más (p, d, q) combinaciones. El que tiene el menor BIC y AIC debe ser nuestra elección. También podemos probar algunos modelos con un componente estacional. Por si acaso, observamos cualquier estacionalidad en las parcelas ACF / PACF. Paso 5: Hacer predicciones Una vez que tengamos el modelo final de ARIMA, ahora estamos listos para hacer predicciones sobre los puntos de tiempo futuros. También podemos visualizar las tendencias para validar si el modelo funciona bien. Aplicaciones del modelo de series de tiempo Ahora, usamos el mismo ejemplo que hemos utilizado anteriormente. Luego, usando series de tiempo, haremos predicciones futuras. Le recomendamos que revise el ejemplo antes de continuar. ¿Dónde empezamos? Sigue es la trama del número de pasajeros con años. Trate de hacer observaciones sobre esta trama antes de avanzar en el artículo. Aquí están mis observaciones: 1. Hay un componente de la tendencia que crece el pasajero año por año. 2. Parece que hay un componente estacional que tiene un ciclo menor de 12 meses. 3. La variación en los datos sigue aumentando con el tiempo. Sabemos que tenemos que abordar dos cuestiones antes de probar series estacionarias. Primero, necesitamos eliminar variaciones desiguales. Hacemos esto usando el registro de la serie. Dos, necesitamos abordar el componente de tendencia. Hacemos esto tomando la diferencia de la serie. Ahora, vamos a probar la serie resultante. Prueba aumentada de Dickey-Fuller Vemos que la serie es bastante estacionaria para hacer cualquier clase de modelado de la serie del tiempo. El siguiente paso es encontrar los parámetros correctos que se utilizarán en el modelo ARIMA. Ya sabemos que el componente 8216d8217 es 1, ya que necesitamos una diferencia para hacer que la serie esté inmóvil. Lo hacemos utilizando los gráficos de Correlación. A continuación se muestran las gráficas ACF de la serie: ¿Qué se ve en la tabla mostrada arriba? Claramente, la desintegración del gráfico ACF es muy lenta, lo que significa que la población no es estacionaria. Ya hemos discutido anteriormente que ahora tenemos la intención de retroceder en la diferencia de registros en lugar de registro directamente. Vean cómo la curva ACF y PACF salen después de regresar sobre la diferencia. Claramente, el corte ACF se corta después del primer retraso. Por lo tanto, entendemos que el valor de p debe ser 0 como el ACF es la curva de obtener un corte. Mientras que el valor de q debe ser 1 o 2. Después de algunas iteraciones, encontramos que (0,1,1) como (p, d, q) sale a ser la combinación con menos AIC y BIC. Let8217s caben un modelo de ARIMA y predicen los 10 años futuros. Además, intentaremos ajustar un componente estacional en la formulación ARIMA. Luego, vamos a visualizar la predicción junto con los datos de entrenamiento. Puede utilizar el siguiente código para hacer lo mismo: End Notes Con esto, llegamos a este final del tutorial sobre Modelado de series de tiempo. Espero que esto le ayudará a mejorar sus conocimientos para trabajar en datos basados ​​en el tiempo. Para obtener los máximos beneficios de este tutorial, I8217d sugiere que practique estos códigos R al lado y compruebe su progreso. ¿Encontraste el artículo útil? Comparte con nosotros si has hecho un análisis similar antes. Háganos saber sus pensamientos acerca de este artículo en el cuadro de abajo. Si te gusta lo que acabas de leer, quieres continuar con tu aprendizaje analítico, suscríbete a nuestros correos electrónicos. Síganos en twitter o como nuestra página de Facebook. Compartir esto: Hola Tavish. En primer lugar, felicidades por su trabajo por aquí. Ha sido muy útil. Gracias, una duda y espero que me pueda ayudar. Realizé una prueba de Dickey-Fuller en la serie AirPassengers y diff (log (AirPassengers)) Aquí los resultados: Augmented Dickey-Fuller Datos de la prueba: diff (log (AirPassengers)) Dickey-Fuller -9.6003, orden Lag 0, valor-p 0.01 hipótesis alternativa: estacionaria Densidad aumentada Dickey-Fuller Datos de la prueba: diff (log (AirPassengers)) Dickey-Fuller -9.6003, Lag order 0, p-value 0.01 hipótesis alternativa: En ambas pruebas obtuve un pequeño p-valor que me permite rechazar la hipótesis no estacionaria. ¿Tengo razón? Si es así, la primera serie ya está estacionaria. Esto significa que si hubiera realizado una prueba estacionaria en la serie original, habría pasado al siguiente paso. Gracias de antemano. Ahora con los resultados correctos. Dickey-Fuller -9.6003, Orden Lag 0, p-valor 0.01 hipótesis alternativa: estacionaria Dickey-Fuller aumentada Datos de la prueba: AirPassengers Dickey-Fuller -4.6392, P-value 0.01 hipótesis alternativa: estacionaria Sí, el adf. test (AirPassengers) indica que la serie es estacionaria. Esto es un poco engañoso. Motivo: Esta prueba primero hace una tendencia de tendencia en la serie, (es decir, elimina el componente de tendencia), luego comprueba la estacionariedad. Por lo tanto, señala la serie como estacionaria. Hay otra prueba en el paquete fUnitRoots. Por favor, pruebe este código: Inicie install. packages (8220fUnitRoots8221) Si ya ha instalado este paquete, puede omitir esta biblioteca de líneas (fUnitRoots) adfTest (AirPassengers) adfTest (log (AirPassengers)) adfTest Ayuda .. gracias Ram, tuve la misma pregunta que Hugo y su explicación me ayudó sólo quería señalar para el beneficio de cualquier otra persona mirando a esto que R es cap sensible, no se olvide de capitalizar el T en adfTest más su función no trabajará. Afortunadamente, la función auto. arima nos permite modelar series de tiempo bastante bien aunque es muy útil conocer los fundamentos. Aquí hay algún código que escribí en los mismos datos Hola, después de ejecutar este pred lt - predicen (APmodel, n. ahead1012) echar un vistazo a 039pred039 Es una lista de 2 (pred y se 8211 supongo que son predicciones y errores .) Yo sugeriría usar un nombre que no sea pred en la función de predicción para evitar la confusión. Utilicé el siguiente APforecast lt - predict (APmodel, n. ahead1012) Así que APforecast es una lista de pred y se y necesitamos trazar los valores pred. Es decir APforecastpred También hicimos el arima en el registro de AirPassengers, por lo que el pronóstico que tenemos es en realidad registro de la verdadera previsión. Por lo tanto, necesitamos encontrar el log inverso de lo que tenemos. es decir. 2.718 Si encuentras esa confusión, sugeriría leer en logaritmos naturales y su inverso el log quoty039 es trazar en una escala logarítmica 8211 esto no es necesario, intenta la función sin ella y Con y observar los resultados. El lty bit que no he descubierto todavía. Suéltalo y pruebe el ts. plot, funciona bien. Hey Amy, ts. plot () representará varias series de tiempo en la misma parcela. Las dos primeras entradas son las dos series de tiempo he8217s que trazan. Las dos últimas entradas son buenos parámetros visuales (we8217ll volver a eso). Claramente, esto traza la serie de tiempo AirPassengers en una línea oscura, continua. La segunda entrada es también una serie de tiempo, pero es un poco más confuso: 8221 2.718predpred8221. En primer lugar, usted tiene que saber lo que predpred es. La función predict () aquí es una función genérica que funcionará de manera diferente para diferentes clases conectadas a ella (lo dice si escribe predecir). La clase con la que trabajamos es una clase de Arima. Si escribe predict. Arima encontrará una buena descripción de la función. Predict. Arima () escupe algo con una parte 8220pred8221 (para predecir) y una 8220se8221 parte (para error estándar). Queremos la parte 8220pred8221, por lo tanto predpred. Así, predpred es una serie de tiempo. Ahora, 2.718predpred es también. Tienes que recordar que 2.718 es aproximadamente la constante e, y entonces esto tiene sentido. He8217s acaba de deshacer el registro que colocó en los datos cuando creó 8220fit8221. En cuanto a los dos últimos parámetros, el registro 8220y8221 establece el eje y para estar en una escala logarítmica. Y finalmente, lty c (1,3) establecerá el LineTYpe a 1 (para sólido) para la serie de tiempo original y 3 (para punteado) para la serie temporal prevista. Hey Tavish, realmente disfrutó el contenido, Sólo una pequeña duda: ¿Puede por favor ebaorate la covarianza en términos estacionarios. Entiendo el término de covarianza, pero aquí en la serie de tiempo, no viene a mi mente. ¿Puede por favor ayudarme a entender la tercera condición de la serie estacionaria, es decir, 8220La covarianza del i-ésimo término y el (im) término th no debe ser una función del tiempo.8221 Por favor, ayúdame a entender desde la perspectiva de los datos, por ejemplo, si tengo datos de ventas para Cada fecha. Cómo se puede explicar la convivencia en el ejemplo de la vida real con datos de ventas diarias. Parth Gera dice: Hola Tavish, muchas gracias. Este artículo fue de gran ayuda. Acabo de tener una edición pequeña. Después del último paso, si quiero extraer los valores previstos de la curva. ¿Cómo lo hacemos? Usted obtiene los valores predichos de la variable pred. Pred es una lista con dos elementos: pred y se. (Predicción y error estándar). Para ver las predicciones, utilice este comando: print (predpred) Parth Gera dice: Hola Ram, Gracias por su ayuda. Sí, print (predpred) nos daría un registro de los valores predichos. Print (2.718predpred) nos daría los valores reales previstos. Gracias Sí, si usas 8216log8217 al crear el modelo, usarás antilog o exponente para obtener los valores predichos. Si crea un modelo sin la función de registro, no utilizará exponente para obtener los valores predichos cómo extraer los datos de los valores previstos y reales de R hello, los datos que utilizó en su tutorial, AirPassengers, ya son una serie de tiempo objeto. Mi pregunta es: CÓMO puedo hacer / preparar mi propia serie de tiempo. Actualmente tengo un conjunto de datos históricos de cambio de divisas, siendo la primera columna la fecha y el resto 20 columnas están tituladas por país y sus valores son el tipo de cambio. Después de convertir mi columna de fecha en objeto de fecha, cuando utilizo los mismos comandos utilizados en su tutorial, los resultados son divertidos. Por ejemplo, start (dataDate) me dará un resultado de: 1 1 1 y la frecuencia (dataDate) volverá: 1 1 ¿puede explicar por favor cómo preparar nuestros datos en consecuencia para que podamos utilizar las funciones gracias Si escribe ts Entonces usted debe estar en su camino. Sólo necesita una serie de tiempo (única), una frecuencia y una fecha de inicio. Los ejemplos en la parte inferior de la documentación deben ser muy útiles. I8217m adivinando you8217d escribir algo como ts (yourtimeseriesdata, frecuencia 365, iniciar c (1980, 153)) por ejemplo, si sus datos comenzaron en el día 153 de 1980. Introducción a la serie de tiempo de análisis - PowerPoint PPT Presentación Transcripción y presentadores Notas Título: Introducción Análisis de series temporales 1 Análisis de series temporales 2 Análisis de regresiones versus series temporales En el análisis de regresión, estimamos modelos que intentan explicar el movimiento en una variable relacionándola con un conjunto de variables explicativas El análisis de series de tiempo intenta identificar las propiedades De una variable de series de tiempo y utilizar modelos para predecir la trayectoria futura de la variable en función de su comportamiento pasado Ejemplo Cómo los precios de las acciones se mueven a través del tiempo Fama (1965) afirmó que se identifican con el proceso de caminata aleatoria 3 Regression vs. El análisis de regresión con datos de series de tiempo también puede conducir al problema de la regresión espuria Ejemplo Supongamos que estimamos el siguiente modelo con datos de series de tiempo La regresión estimada puede resultar tener un alto R-sq aunque no hay relación causal subyacente Las dos variables Puede simplemente tener la misma tendencia subyacente (moverse juntos a través del tiempo) 4 Un modelo de series temporales simples El modelo de caminos aleatorios ¿Cómo podemos modelar el comportamiento de los datos financieros como los precios de las acciones, los tipos de cambio, los precios de las materias primas? Este modelo dice que el valor actual de la variable y depende del valor de las variables en el período anterior. Un término de error estocástico, que se supone tiene una media de cero y una varianza constante. Este modelo implica una previsión de un valor futuro de la variable y De acuerdo con el modelo Por lo tanto, el valor futuro esperado de la variable y se da que el valor esperado del término de error es cero. La predicción del valor futuro de la variable y es su valor actual Si la variable y sigue una caminata aleatoria, entonces podría moverse en cualquier dirección sin tendencia a volver a su valor presente Si reescribimos el modelo de caminata aleatoria de la siguiente manera nos referimos a una Proceso de Ruido Blanco Supongamos que la variable y es modelada como sigue donde t es una variable aleatoria con media cero, constante y correlación cero entre observaciones sucesivas Esta variable sigue lo que es 8 Estacionariedad en series de tiempo En el análisis de series de tiempo, intentamos predecir la trayectoria futura de una variable basada en la información sobre su comportamiento pasado, lo que significa que la variable exhibe Algunas regularidades Una valiosa manera de identificar tales regularidades es a través del concepto de estacionariedad Digo que una serie de tiempo variable Yt es estacionario si La variable tiene una constante en todos los puntos en el tiempo La variable tiene una varianza constante en todos los puntos en el tiempo La correlación (Y) y Yt-k depende de la longitud del retraso (k), pero no de ninguna otra variable 9 Estacionariedad en series de tiempo ¿Qué tipo de variable de serie temporal presenta este comportamiento? Variable que se mueve ocasionalmente lejos de su media Choque aleatorio), pero finalmente regresa a su media (exhibe reversión media) Un choque en la variable en el período actual se reflejará en el valor de la variable en períodos futuros, pero el impacto disminuye a medida que nos alejamos del período actual. La variable de retornos de acciones de Boeing exhibe las propiedades de estacionaridad 10 Boeings regresos mensuales de acciones (1984-2003) 11 Estacionariedad en series de tiempo Una variable que no cumple una o más de las propiedades de estacionariedad es una variable no estacionaria ¿Cuál es la implicación de No estacionaria para el comportamiento de la variable de serie temporal Un choque en la variable en el período actual nunca muere y provoca una desviación permanente en las variables trayecto de tiempo Calculando la media y la varianza de tal variable, vemos que la media es indefinida y la La variación es infinita Ejemplo El índice SP 500 (a diferencia de los retornos del índice SP que exhiben estacionariedad) 12 El índice SP 500 exhibe la no estatización 13 Los retornos de la estacionariedad de la prueba SP 500 14 El impacto de la no estatización en el análisis de regresión El mayor impacto de nonstationarity for regression analysis is spurious regression If the dependent and explanatory variables are nonstationary, we will obtain high R-sq and t-statistics, implying that our model is doing a good job explaining the data The true reason of the good model fit is that the variables have a common trend A simple correction of nonstationarity is to take the first differences of variables (Yt Yt-1), which creates a stationary variable 15 Testing for Nonstationarity A common way to detect nonstationarity is to perform a Dickey-Fuller test ( unit root test) The test estimates the following model and test the following one-sided hypothesis 16 Testing for Nonstationarity If the estimate of 1 is significantly less than zero, then we reject the null hypothesis that there is nonstationarity (meaning that variable Y is stationary ) Note The critical values of the t-statistics for the Dickey-Fuller test are considerably higher than those in the tables of the t distribution Example For n 120, the critical t-statistic from the tables is near 2.3, while the corresponding value from the Dickey-Fuller tables is 3.43 17 Characterizing Time Series VariablesThe Autocorrelation Function (ACF) The ACF is a very useful tool because it provides a description of the underlying process of a time series variable The ACF tells us how much correlation there is between neighboring points of a time series variable Yt The ACF of lag k is the correlation coefficient between Yt and Yt-k over all such pairs in the data set 18 Characterizing Time Series VariablesThe Autocorrelation Function (ACF) In practice, we use the sample ACF (based on our sample of observations from the time series variable) to estimate the ACF of the process that describes the variable The sample autocorrelations of a time series variable can be presented in a graph called the correlogram The examination of the correlogram provides very useful information that allows us to understand the structure of a time series 19 Characterizing Time Series VariablesThe Autocorrelation Function (ACF) Example Does the ACF of a stationary series exhibit a certain pattern that can be detected by studying the correlogram For a stationary series, the autocorrelations between two points in time , t and tk, become smaller as k increases In other words, the ACF falls off rather quickly as k increases For a nonstationary series, this is usually not the case, as the ACF remains large as k increases 20 Correlogram and ACF of SP Index Variable Note that as the number of lags (k) increases, the ACF declines, but at a very slow rate This is an indicator of a nonstationary variable Compare this result with the graph of the level of the SP Index shown previously 21 Correlogram and ACF of Returns on the SP Index An examination of the correlogram of the variable of returns on the SP index shows that this variable exhibits stationarity The ACF declines very rapidly, meaning that there is very low correlation between observations in periods t and tk as k increases 22 Characterizing Time Series VariablesThe Autocorrelation Function (ACF) To evaluate the quality of information from the correlogram, we assess the magnitudes of the sample autocorrelations by comparing them with some boundaries We can show that the sample autocorrelations are normally distributed with a standard deviation of 1/ (n)1/2 In this case, we would expect that only 5 of sample autocorrelations would lie outside a confidence interval of. 2 standard deviations 23 Characterizing Time Series VariablesThe Autocorrelation Function (ACF) Given that the correlogram shows values of autocorrelations, these values cannot lie outside the interval. 1 As the number of time series observations increases above 40-50, the limits of the confidence interval given by the standard deviations become smaller In practical terms, if the sample autocorrelations lie outside the confidence intervals given by the correlogram, then the sample autocorrelations are different from zero at the corresponding significance level 24 Correlograms and Confidence Intervals for Sample Autocorrelations 25 From Sample Data to Inference About a Time Series Generating Model Sample Data Sample Autocorrelations Population Autocorrelation Generating Model 26 Linear Time Series Models In time series analysis, the goal is to develop a model that provides a reasonably close approximation of the underlying process that generates the time series data This model can then be used to predict future values of the time series variable An influential framework for this analysis is the use the class of models known as Autoregressive Integrated Moving Average (ARIMA) models developed by Box and Jenkins (1970) 27 Autoregressive (AR) Models In an AR model, the dependent variable is a function of its past values A simple AR model is This is an example of an autoregressive model of order 1 or an AR(1) model In general, an autoregressive model of order p or AR(p) model will include p lags of the dependent variable as explanatory variables 28 Autoregressive (AR) Models Is it possible to conclude that a time series follows an AR(p) model by looking at the correlogram Example Suppose that a series follows the AR(1) model The ACF of the AR(1) model begins with the value of 1 and then declines exponentially The implication of this fact is that the current value of the time series variable depends on all past values, although the magnitude of this dependence declines with time PowerShow is a leading presentation/slideshow sharing website. Whether your application is business, how-to, education, medicine, school, church, sales, marketing, online training or just for fun, PowerShow is a great resource. And, best of all, most of its cool features are free and easy to use. You can use PowerShow to find and download example online PowerPoint ppt presentations on just about any topic you can imagine so you can learn how to improve your own slides and presentations for free. Or use it to find and download high-quality how-to PowerPoint ppt presentations with illustrated or animated slides that will teach you how to do something new, also for free. Or use it to upload your own PowerPoint slides so you can share them with your teachers, class, students, bosses, employees, customers, potential investors or the world. Or use it to create really cool photo slideshows - with 2D and 3D transitions, animation, and your choice of music - that you can share with your Facebook friends or Google circles. Thats all free as well For a small fee you can get the industrys best online privacy or publicly promote your presentations and slide shows with top rankings. But aside from that its free. Well even convert your presentations and slide shows into the universal Flash format with all their original multimedia glory, including animation, 2D and 3D transition effects, embedded music or other audio, or even video embedded in slides. All for free. Most of the presentations and slideshows on PowerShow are free to view, many are even free to download. (You can choose whether to allow people to download your original PowerPoint presentations and photo slideshows for a fee or free or not at all.) Check out PowerShow today - for FREE. There is truly something for everyone presentations for free. Or use it to find and download high-quality how-to PowerPoint ppt presentations with illustrated or animated slides that will teach you how to do something new, also for free. Or use it to upload your own PowerPoint slides so you can share them with your teachers, class, students, bosses, employees, customers, potential investors or the world. Or use it to create really cool photo slideshows - with 2D and 3D transitions, animation, and your choice of music - that you can share with your Facebook friends or Google circles. Thats all free as well For a small fee you can get the industrys best online privacy or publicly promote your presentations and slide shows with top rankings. But aside from that its free. Well even convert your presentations and slide shows into the universal Flash format with all their original multimedia glory, including animation, 2D and 3D transition effects, embedded music or other audio, or even video embedded in slides. All for free. Most of the presentations and slideshows on PowerShow are free to view, many are even free to download. (You can choose whether to allow people to download your original PowerPoint presentations and photo slideshows for a fee or free or not at all.) Check out PowerShow today - for FREE. There is truly something for everyoneTime Series Analysis: The Basics What is a time series What are stock and flow series What are seasonal effects What is seasonal adjustment and why do we need it Why cant we just compare data from the same period in each year When is Seasonal Adjustment Inappropriate What is seasonality How do we identify seasonality What is an irregular What is the trend What are the underlying models used to decompose the observed time series How do I know which decomposition model to use What is a seasonal and irregular (SI) chart A time series is a collection of observations of well-defined data items obtained through repeated measurements over time. For example, measuring the value of retail sales each month of the year would comprise a time series. This is because sales revenue is well defined, and consistently measured at equally spaced intervals. Data collected irregularly or only once are not time series. An observed time series can be decomposed into three components: the trend (long term direction), the seasonal (systematic, calendar related movements) and the irregular (unsystematic, short term fluctuations). WHAT ARE STOCK AND FLOW SERIES Time series can be classified into two different types: stock and flow. A stock series is a measure of certain attributes at a point in time and can be thought of as 8220stocktakes8221. For example, the Monthly Labour Force Survey is a stock measure because it takes stock of whether a person was employed in the reference week. Flow series are series which are a measure of activity over a given period. For example, surveys of Retail Trade activity. Manufacturing is also a flow measure because a certain amount is produced each day, and then these amounts are summed to give a total value for production for a given reporting period. The main difference between a stock and a flow series is that flow series can contain effects related to the calendar (trading day effects). Both types of series can still be seasonally adjusted using the same seasonal adjustment process. WHAT ARE SEASONAL EFFECTS A seasonal effect is a systematic and calendar related effect. Some examples include the sharp escalation in most Retail series which occurs around December in response to the Christmas period, or an increase in water consumption in summer due to warmer weather. Other seasonal effects include trading day effects (the number of working or trading days in a given month differs from year to year which will impact upon the level of activity in that month) and moving holidays (the timing of holidays such as Easter varies, so the effects of the holiday will be experienced in different periods each year). WHAT IS SEASONAL ADJUSTMENT AND WHY DO WE NEED IT Seasonal adjustment is the process of estimating and then removing from a time series influences that are systematic and calendar related. Observed data needs to be seasonally adjusted as seasonal effects can conceal both the true underlying movement in the series, as well as certain non-seasonal characteristics which may be of interest to analysts. WHY CANT WE JUST COMPARE ORIGINAL DATA FROM THE SAME PERIOD IN EACH YEAR A comparison of original data from the same period in each year does not completely remove all seasonal effects. Certain holidays such as Easter and Chinese New Year fall in different periods in each year, hence they will distort observations. Also, year to year values will be biased by any changes in seasonal patterns that occur over time. For example, consider a comparison between two consecutive March months i. e. compare the level of the original series observed in March for 2000 and 2001. This comparison ignores the moving holiday effect of Easter. Easter occurs in April for most years but if Easter falls in March, the level of activity can vary greatly for that month for some series. This distorts the original estimates. A comparison of these two months will not reflect the underlying pattern of the data. The comparison also ignores trading day effects. If the two consecutive months of March have different composition of trading days, it might reflect different levels of activity in original terms even though the underlying level of activity is unchanged. In a similar way, any changes to seasonal patterns might also be ignored. The original estimates also contains the influence of the irregular component. If the magnitude of the irregular component of a series is strong compared with the magnitude of the trend component, the underlying direction of the series can be distorted. However, the major disadvantage of comparing year to year original data, is lack of precision and time delays in the identification of turning points in a series. Turning points occur when the direction of underlying level of the series changes, for example when a consistently decreasing series begins to rise steadily. If we compare year apart data in the original series, we may miss turning points occurring during the year. For example, if March 2001 has a higher original estimate than March 2000, by comparing these year apart values, we might conclude that the level of activity has increased during the year. However, the series might have increased up to September 2000 and then started to decrease steadily. WHEN IS SEASONAL ADJUSTMENT INAPPROPRIATE When a time series is dominated by the trend or irregular components, it is nearly impossible to identify and remove what little seasonality is present. Hence seasonally adjusting a non-seasonal series is impractical and will often introduce an artificial seasonal element. The seasonal component consists of effects that are reasonably stable with respect to timing, direction and magnitude. It arises from systematic, calendar related influences such as: Natural Conditions weather fluctuations that are representative of the season (uncharacteristic weather patterns such as snow in summer would be considered irregular influences) Business and Administrative procedures start and end of the school term Social and Cultural behaviour Christmas It also includes calendar related systematic effects that are not stable in their annual timing or are caused by variations in the calendar from year to year, such as: Trading Day Effects the number of occurrences of each of the day of the week in a given month will differ from year to year - There were 4 weekends in March in 2000, but 5 weekends in March of 2002 Moving Holiday Effects holidays which occur each year, but whose exact timing shifts - Easter, Chinese New Year HOW DO WE IDENTIFY SEASONALITY Seasonality in a time series can be identified by regularly spaced peaks and troughs which have a consistent direction and approximately the same magnitude every year, relative to the trend. The following diagram depicts a strongly seasonal series. There is an obvious large seasonal increase in December retail sales in New South Wales due to Christmas shopping. In this example, the magnitude of the seasonal component increases over time, as does the trend. Figure 1: Monthly Retail Sales in New South Wales (NSW) Retail Department Stores The irregular component (sometimes also known as the residual) is what remains after the seasonal and trend components of a time series have been estimated and removed. It results from short term fluctuations in the series which are neither systematic nor predictable. In a highly irregular series, these fluctuations can dominate movements, which will mask the trend and seasonality. The following graph is of a highly irregular time series: Figure 2: Monthly Value of Building Approvals, Australian Capital Territory (ACT) The ABS trend is defined as the long term movement in a time series without calendar related and irregular effects, and is a reflection of the underlying level. It is the result of influences such as population growth, price inflation and general economic changes. The following graph depicts a series in which there is an obvious upward trend over time: Figure 3: Quarterly Gross Domestic Product WHAT ARE THE UNDERLYING MODELS USED TO DECOMPOSE THE OBSERVED TIME SERIES Decomposition models are typically additive or multiplicative, but can also take other forms such as pseudo-additive. In some time series, the amplitude of both the seasonal and irregular variations do not change as the level of the trend rises or falls. In such cases, an additive model is appropriate. In the additive model, the observed time series (O t ) is considered to be the sum of three independent components: the seasonal S t . the trend T t and the irregular I t . Each of the three components has the same units as the original series. The seasonally adjusted series is obtained by estimating and removing the seasonal effects from the original time series. The estimated seasonal component is denoted by The seasonally adjusted estimates can be expressed by: The following figure depicts a typically additive series. The underlying level of the series fluctuates but the magnitude of the seasonal spikes remains approximately stable. Figure 4: General Government and Other Current Transfers to Other Sectors In many time series, the amplitude of both the seasonal and irregular variations increase as the level of the trend rises. In this situation, a multiplicative model is usually appropriate. In the multiplicative model, the original time series is expressed as the product of trend, seasonal and irregular components. The seasonally adjusted data then becomes: Under this model, the trend has the same units as the original series, but the seasonal and irregular components are unitless factors, distributed around 1. Most of the series analysed by the ABS show characteristics of a multiplicative model. As the underlying level of the series changes, the magnitude of the seasonal fluctuations varies as well. Figure 5: Monthly NSW ANZ Job Advertisements The multiplicative model cannot be used when the original time series contains very small or zero values. This is because it is not possible to divide a number by zero. In these cases, a pseudo additive model combining the elements of both the additive and multiplicative models is used. This model assumes that seasonal and irregular variations are both dependent on the level of the trend but independent of each other. The original data can be expressed in the following form: The pseudo-additive model continues the convention of the multiplicative model to have both the seasonal factor S t and the irregular factor I t centred around one. Therefore we need to subtract one from S t and I t to ensure that the terms T t x (S t - 1) and T t x (I t - 1) are centred around zero. These terms can be interpreted as the additive seasonal and additive irregular components respectively and because they are centred around zero the original data O t will be centred around the trend values T t . The seasonally adjusted estimate is defined to be: where and are the trend and seasonal component estimates. In the pseudo-additve model, the trend has the same units as the original series, but the seasonal and irregular components are unitless factors, distributed around 1. An example of series that requires a pseudo-additive decomposition model is shown below. This model is used as cereal crops are only produced during certain months, with crop production being virtually zero for one quarter each year. Figure 6: Quarterly Gross Value for the Production of Cereal Crops Example: Shiskin Decomposition The Shiskin decomposition gives graphs of the original series, seasonally adjusted series, trend series, residual (irregular) factors and the between month (seasonal) and within month (trading day) factors that are combined to form the combined adjustment factors. The residual (irregular) factors are found by dividing the seasonally adjusted series by the trend series. Figure 7 shows a Shiskin decomposition for the Australian Retail series. Figure 7: Shiskin decomposition for Australian Total Retail Turnover, May 1990 to May 2000 HOW DO I KNOW WHICH DECOMPOSITION MODEL TO USE To choose an appropriate decomposition model, the time series analyst will examine a graph of the original series and try a range of models, selecting the one which yields the most stable seasonal component. If the magnitude of the seasonal component is relatively constant regardless of changes in the trend, an additive model is suitable. If it varies with changes in the trend, a multiplicative model is the most likely candidate. However if the series contains values close or equal to zero, and the magnitude of seasonal component appears to be dependent upon the trend level, then pseudo-additive model is most appropriate. WHAT IS A SEASONAL AND IRREGULAR (SI) CHART Once the trend component is estimated, it can be removed from the original data, leaving behind the combined seasonal and irregular components or SIs. A seasonal and irregular or SI chart graphically presents the SIs for particular months or quarters in the series span. The following graph is an SI chart for a monthly series, using a multiplicative decomposition model. Figure 8: Seasonal and Irregular ( SI ) Chart - Value of Building Approvals, ACT The points represent the SIs obtained from the time series, while the solid line shows the seasonal component. The seasonal component is calculated by smoothing the SIs, to remove irregular influences. SI charts are useful in determining whether short-term movements are caused by seasonal or irregular influences. In the graph above, the SIs can be seen to fluctuate erratically, which indicates the time series under analysis is dominated by its irregular component. SI charts are also used to identify seasonal breaks . moving holiday patterns and extreme values in a time series. This page first published 14 November 2005, last updated 25 July 2008

Comments