[PDF] Análisis de cointegración con una aplicación al mercado de deuda en Estados Unidos, Canadá y México

Abstract

Certain theoretical aspects of vector autoregression (VAR) as tools to model economic time series are revised, in particular their capacity to include both short term and long term information. The VAR model, in its error correction form, is derived and the permanent-transitory decomposition of factors proposed by Gonzalo and Granger (1995) studied. An introductory exposition of estimation theory for reduced rank models, necessary to estimate the error correction model, is given. Cointegration analysis using the VAR model is carried out for government bond interest rates (short, medium and long term) of the United States, Mexico and Canada, with the objective of finding the long-term common factors that drive the system. The error correction model of this system is estimated using Johansen's method. Using this estimation the permanent-transitory decomposition of the system is calculated. Hypothesis tests are carried out on permanent factors to determine which of the nine rates studied drive the system.

Full PDF

(cid:2)(cid:2)(cid:3)(cid:4)(cid:5)(cid:6)(cid:7)(cid:6)(cid:7)(cid:8)(cid:9)(cid:10)(cid:8)(cid:11)(cid:12)(cid:6)(cid:3)(cid:13)(cid:10)(cid:14)(cid:15)(cid:2)(cid:11)(cid:6)(cid:16)(cid:3)(cid:8)(cid:11)(cid:12)(cid:3)(cid:8)(cid:17)(cid:3)(cid:2)(cid:8)(cid:2)(cid:18)(cid:5)(cid:6)(cid:11)(cid:2)(cid:11)(cid:6)(cid:16)(cid:3)(cid:2)(cid:5)(cid:8)(cid:19)(cid:10)(cid:15)(cid:11)(cid:2)(cid:9)(cid:12)(cid:8)(cid:9)(cid:10)(cid:8)(cid:9)(cid:10)(cid:17)(cid:9)(cid:2)(cid:8)(cid:10)(cid:3)(cid:8)(cid:10)(cid:7)(cid:13)(cid:2)(cid:9)(cid:12)(cid:7)(cid:8)(cid:17)(cid:3)(cid:6)(cid:9)(cid:12)(cid:7)(cid:20)(cid:8)(cid:11)(cid:2)(cid:3)(cid:2)(cid:9)(cid:4)(cid:8)(cid:21)(cid:8)(cid:19)(cid:22)(cid:23)(cid:6)(cid:11)(cid:12) (cid:2)(cid:3)(cid:4)(cid:5)(cid:6)(cid:7) (cid:8)(cid:9)(cid:3)(cid:10)(cid:11)(cid:7)(cid:12)(cid:7)(cid:10)(cid:13)(cid:14)(cid:2)(cid:3)(cid:6)(cid:3)(cid:12)(cid:10)(cid:3)(cid:15)(cid:10)(cid:2)(cid:16)(cid:2)(cid:9)(cid:15)(cid:13)(cid:10)(cid:17)(cid:3)(cid:18)(cid:15)(cid:5)(cid:19)(cid:3)(cid:6)(cid:19)(cid:5)(cid:7)(cid:17)(cid:13)(cid:10)(cid:3)(cid:6)(cid:10)(cid:20)(cid:7)(cid:2)(cid:3)(cid:20)(cid:7)(cid:2)(cid:5)(cid:19)(cid:7)(cid:4)(cid:10)(cid:7)(cid:11)(cid:15)(cid:5)(cid:19)(cid:7)(cid:17)(cid:7)(cid:4)(cid:11) (cid:12) (cid:3) (cid:4) (cid:3) (cid:6) (cid:2) (cid:7) (cid:18) (cid:3)(cid:20)(cid:5)(cid:15)(cid:5)(cid:7)(cid:6)(cid:13)(cid:10)(cid:17)(cid:16)(cid:7)(cid:21)(cid:10)(cid:4)(cid:7)(cid:15)(cid:7)(cid:4)(cid:22)(cid:11)(cid:13)(cid:12)(cid:12)(cid:7)(cid:4) (cid:7)(cid:4)(cid:3)(cid:4)(cid:13)(cid:12)(cid:18)(cid:17)(cid:12)(cid:23)(cid:10)(cid:7)(cid:15)(cid:3)(cid:24)(cid:7)(cid:6)(cid:17)(cid:12)(cid:13)(cid:10)(cid:5)(cid:4)(cid:15)(cid:7)(cid:4)(cid:10)(cid:19)(cid:7)(cid:20)(cid:7)(cid:12)(cid:25)(cid:13) (cid:20)(cid:26)(cid:27)(cid:5)(cid:19)(cid:13)(cid:28)(cid:10)(cid:17)(cid:23)(cid:29)(cid:23)(cid:10)(cid:10)(cid:10)(cid:10)(cid:10)(cid:10)(cid:10)(cid:10)(cid:10)(cid:10)(cid:10)(cid:10)(cid:10)(cid:10)(cid:10)(cid:10)(cid:10)(cid:10)(cid:10)(cid:10)(cid:10)(cid:10)(cid:10)(cid:10)(cid:10)(cid:10)(cid:10)(cid:10)(cid:10)(cid:10)(cid:10)(cid:10)(cid:10)(cid:10)(cid:10)(cid:10)(cid:10)(cid:10)(cid:10)(cid:10)(cid:10)(cid:10)(cid:10)(cid:10)(cid:10)(cid:10)(cid:10)(cid:10)(cid:10)(cid:10)(cid:10)(cid:10)(cid:10)(cid:10)(cid:10)(cid:10)(cid:10)(cid:10)(cid:10)(cid:10)(cid:30)(cid:31)(cid:32)(cid:33) (cid:12)(cid:3)(cid:34)(cid:5)(cid:4)(cid:13)(cid:12)(cid:18)(cid:17)(cid:12)(cid:23)(cid:10)(cid:34)(cid:16)(cid:19)(cid:2)(cid:13)(cid:12)(cid:10)(cid:20)(cid:7)(cid:6)(cid:9)(cid:3)(cid:15)(cid:10)(cid:25)(cid:9)(cid:3)(cid:12)(cid:12)(cid:3)(cid:12)(cid:13)(cid:10)(cid:25)(cid:9)(cid:21)(cid:20)(cid:35)(cid:6) CONTENIDO INTRODUCCIÓN .......................................................................................................................... 2 O BJETIVO ........................................................................................................................................... 2 J USTIFICACIÓN PARA EL USO DEL M ODELO

VAR ....................................................................................... 3 MODELO DE CORRECCIÓN DE ERRORES ....................................................................................... 7 F ORMA REDUCIDA Y REPRESENTACIÓN

MCE ............................................................................................ 7 D ESCOMPOSICIÓN

P-T G ONZALO -G RANGER ............................................................................................ 9 E STIMACIÓN ..................................................................................................................................... 12

Regresión de Rango Reducido ............................................................................................... 12

Estimadores de Mínimos Cuadrados ..................................................................................... 13

Estimadores de Máxima Verosimilitud .................................................................................. 19

Otros Resultados .................................................................................................................... 26 ANÁLISIS EXPLORATORIO ...........................................................................................................28 ANÁLISIS DE COINTEGRACIÓN ....................................................................................................31 A NÁLISIS POR PAÍS ............................................................................................................................. 31

Estados Unidos ...................................................................................................................... 31

Canadá ................................................................................................................................... 32

México ................................................................................................................................... 35

Cointegración de factores por país ........................................................................................ 35 A NÁLISIS CONJUNTO .......................................................................................................................... 40 C ONCLUSIONES ................................................................................................................................. 45 BIBLIOGRAFÍA ............................................................................................................................46 ANEXO (CÓDIGO EN RATS) .........................................................................................................47

1 Introducción

Revisar y resumir ciertos aspectos relevantes de la teoría de Vectores Autorregresivos (VAR) como herramientas para modelar series de tiempo económicas, en específico su capacidad para incluir información tanto de corto plazo como de largo plazo. Se derivará el modelo VAR en su forma Modelo de Corrección de Errores y se estudiará la descomposición en componentes permanentes y transitorias propuesta por Gonzalo y Granger (1995). Se dará una exposición introductoria a la teoría de estimación de modelos de regresión de rango reducido, necesaria para estimar el modelo VAR en su forma MCE. Se realizará una aplicación de análisis de cointegración en la que se analizarán las tasas de interés de Estados Unidos, México y Canadá a distintos plazos, con el objetivo de encontrar los factores comunes de largo plazo que impulsan al sistema. Se usarán las técnicas VAR mencionadas, en particular se estimará, mediante el procedimiento de Johansen, el VAR correspondiente al sistema, en su forma MCE. A partir de esta estimación se calculará la descomposición del VAR en componentes permanentes y transitorios. Se realizarán pruebas de hipótesis sobre los componentes permanentes para identificar qué tasas, de las nueve estudiadas, son las que impulsan el sistema. Se han considerado tres tasas de interés en cada país, cada cual con sus propios plazos de vencimiento: corto, mediano y largo plazo. En el caso de Estados Unidos las tasas de corto, mediano y largo plazo corresponden al rendimiento de mercado de títulos de la tesorería con plazos a vencimiento constante de 3 meses, 3 años y 10 años respectivamente. En el caso de Canadá la tasa de corto plazo corresponde al rendimiento promedio de títulos de la tesorería con plazo de 3 meses. Las tasas de mediano y largo plazo se refieren a la tasa de bonos gubernamentales con plazo a vencimiento original de 3-5 años y de 10 años o más respectivamente. Para México la tasa de corto plazo corresponde al rendimiento promedio de títulos de la tesorería con plazo de 3 meses (CETES 91 días). La tasa de mediano y largo plazo se refiere a la tasa promedio de bonos gubernamentales con plazo a vencimiento original de 3 y 10 años respectivamente. En todos los casos se analizaron tasas nominales anualizadas. La periodicidad de las series de tiempo es mensual y el periodo analizado corre de enero de 2002 hasta diciembre de 2013, es decir, cada serie cuenta con 144 observaciones mensuales. La aplicación de análisis de cointegración a los mercados de deuda de Norteamérica está basado en el estudio de Gonzalo y Granger (1995). En aquel estudio, se aplicaron las técnicas mencionadas para analizar las tasas de corto, mediano y largo plazo de Estados Unidos y Canadá. En aquel entonces, se analizaron las mismas tasas de interés de Estados Unidos y Canadá pero para el periodo que corre de enero de 1969 a diciembre de 1988. En dicho estudio se concluyó que existía un solo factor permanente que explicaba el comportamiento de largo plazo de todo el sistema. Adicionalmente, a partir de una prueba de hipótesis sobre el factor permanente, se probó que ese factor se componía únicamente de las tasas de interés de Estados Unidos. Esto llevó a la conclusión que el comportamiento de largo plazo del sistema era determinado por lo que sucedía en Estados Unidos. En este trabajo interesa corroborar si el sistema sigue teniendo el mismo grado de cointegración y si las tasas de Estados Unidos siguen siendo el único factor que impulsa al sistema. Se ha ampliado el “sistema” analizado para incluir a México.

El modelo VAR resulta ser una herramienta atractiva para modelar series macroeconómicas dado que: (cid:120)

Es un modelo flexible : permite incorporar información de distinto tipo; estocástica o determinista; en escala ordinal, nominal o continua; y en general, permite describir diversos sistemas económicos. (cid:120)

Sus parámetros son fáciles de estimar : los estimadores máximo verosímiles se pueden calcular analíticamente. (cid:120)

Adecuación a series económicas : en muchos casos, estos modelos ajustan bien a series de tiempo económicas al modelar de forma adecuada la fuerte dependencia temporal que las caracteriza. (cid:120)

Incorpora información de corto y largo plazo: al incluir información sobre relaciones de corto y largo plazo, es posible modelar relaciones de equilibrio de largo plazo, tendencias comunes, interacciones entre las series y retroalimentación entre distintos procesos. Pocas variables macroeconómicas se pueden considerar fijas o no estocásticas. Siguiendo el análisis de Johansen y Juselius (2006), un acercamiento econométrico que reconociera esto implica una formulación probabilística de todo el proceso generador de datos. En contraste, los modelos basados en teoría económica, tradicionalmente se han desarrollado suponiendo que las variables explicativas son fijas o predeterminadas. Al aplicarse a datos empíricos, se agrega un error estocástico al modelo matemático para explicar la falta de ajuste del modelo. A continuación se mostrará que, bajo ciertos supuestos, el modelo VAR puede representar una formulación probabilística de todo el proceso generador de las distintas variables analizadas en un estudio econométrico. De la forma más general, podemos representar las variables macroeconómicas de interés como un vector de variables aleatorias que son parte de un proceso estocástico: 𝑍 = [𝑋 𝑋 ⋮𝑋 𝑇 ] 𝑋 𝑡 = [𝑥 𝑥 ⋮𝑥 𝑝𝑡 ] Donde 𝑝 representa el número de componentes o variables de interés, 𝑇 representa el número de realizaciones del proceso estocástico y 𝑡 ∈ {1,2, … , 𝑇} indica una realización en el momento 𝑡 del proceso estocástico. Suponemos que cada 𝑋 𝑡 es una normal multivariada, 𝑋 𝑡 ~𝑁(𝜇 𝑡 , Σ 𝑡 ) , de tal forma que estimando los primeros dos momentos correctamente, conocemos la función de densidad conjunta. 𝐸[𝑍] = 𝜇 = [𝜇 𝜇 ⋮𝜇 𝑇 ] 𝜖 ℝ 𝑇𝑝 Σ = 𝐸[(𝑍 − 𝜇)(𝑍 − 𝜇)′] = [Σ Σ ⋮Σ 𝑇1 Σ Σ ⋮Σ 𝑇2 ⋯⋯⋱⋯Σ 𝑇1 Σ 𝑇2 ⋮Σ 𝑇𝑇 ] 𝜖 ℝ 𝑇𝑝𝑥𝑇𝑝 en donde Σ 𝑡𝜏 = 𝐶𝑜𝑣(𝑋 𝑡 , 𝑋 𝜏 ) = 𝐶𝑜𝑣(𝑋 𝜏 , 𝑋 𝑡 ) = Σ 𝜏𝑡 . Re-indexamos la matriz de covarianzas en términos de los retrasos, de tal forma que Σ 𝑡ℎ = 𝐶𝑜𝑣(𝑋 𝑡 , 𝑋 𝑡−ℎ ) y Σ = [ Σ Σ ⋮Σ 𝑇,𝑇−1 Σ Σ ⋮Σ 𝑇,𝑇−2 ⋯⋯⋱⋯Σ

𝑇,𝑇−1 Σ 𝑇,𝑇−2 ⋮Σ 𝑇0 ] La situación habitual es que para cada vector aleatorio 𝑋 𝑡 únicamente se cuenta con una observación por lo que en total se cuenta con 𝑇 observaciones. En contraste se puede verificar que, con el supuesto de normalidad, tenemos un modelo con 𝑇𝑝 + 𝑇𝑝 [ 𝑇+12 ] parámetros. Para reducir el número de nuestro modelo de tal forma que sea posible realizar inferencia estadística sobre él, realizamos los dos siguientes supuestos: 1. 𝜇 𝑡 = 𝜇 ∀ 𝑡 ∈ {1, … , 𝑇} Σ 𝑡ℎ = Σ ℎ ∀ 𝑡 ∈ {1, … , 𝑇}, ℎ ∈ {… , −1,0,1, … } Estos supuestos garantizan que los parámetros del modelo son los mismos, independientemente del periodo en el que se observa el proceso estocástico. Así mismo, definen un proceso débilmente estacionario. Con esta simplificación, y dividiendo el vector en dos sub-vectores, tenemos lo siguiente:

𝑍 = [ 𝑋 𝑇 𝑋 𝑇−10 ] , 𝑋

𝑇−10 = [𝑋

𝑇−1 𝑋 𝑇−2 ⋮𝑋 ] , 𝐸[𝑋 𝑇 ] = 𝑚 , 𝐸[𝑋 𝑇−10 ] = 𝑚 , Σ = [ Σ Σ ⋮Σ 𝑇−1 Σ Σ ⋮Σ 𝑇−2 ⋯ ⋯⋱⋯ Σ

𝑇−1 Σ 𝑇−2 ⋮Σ ] = [Λ Λ Λ Λ ] , Λ = Σ , Λ = [ Σ Σ ⋮Σ 𝑇−1 ] = Λ , 𝑦 Λ = [ Σ Σ ⋮Σ 𝑇−2 Σ Σ ⋮Σ 𝑇−3 ⋯ ⋯⋮ ⋯ Σ

𝑇−2 Σ 𝑇−3 ⋮Σ ] Como 𝑍 es un vector aleatorio normal multivariado sabemos que 𝑋 𝑇 |𝑋 𝑇−10 también es una normal multivariada con vector de esperanza

E[𝑋 𝑇 |𝑋 𝑇−10 ] = 𝑚 y matriz de varianzas y covarianzas

Var[𝑋 𝑇 |𝑋 𝑇−10 ] = Λ . Derivemos la forma de 𝑚 . Considerar el vector 𝑧 = 𝑋 𝑇 +𝐴 𝑋 𝑇−10 con

𝐴 = −Λ Λ y ver que Cov[𝑧, 𝑋

𝑇−10 ] = 0 : Cov[𝑧, 𝑋

𝑇−10 ] = Cov[𝑋 𝑇 + 𝐴 𝑋 𝑇−10 , 𝑋

𝑇−10 ] = Cov[𝑋 𝑇 , 𝑋 𝑇−10 ] + 𝐴Var[𝑋

𝑇−10 ] = Λ −Λ Λ Λ = 0 Como 𝑧 y 𝑋 𝑇−10 son normales y no están correlacionadas, son independientes. Por lo tanto: 𝑚 = 𝐸[𝑋 𝑇 |𝑋 𝑇−10 ] = 𝐸[𝑧 − 𝐴 𝑋

𝑇−10 |𝑋 𝑇−10 ] = 𝐸[𝑧|𝑋

𝑇−10 ] − 𝐴𝐸[ 𝑋

𝑇−10 |𝑋 𝑇−10 ] = 𝐸[𝑧] − 𝐴𝑋

𝑇−10 = 𝐸[𝑋 𝑇 + 𝐴 𝑋 𝑇−10 ] − 𝐴𝑋

𝑇−10 = 𝐸[𝑋 𝑇 ] + 𝐴 𝐸[𝑋 𝑇−10 ] − 𝐴𝑋

𝑇−10 = 𝑚 + 𝐴(𝑚 − 𝑋 𝑇−10 ) = 𝑚 + Λ Λ (𝑋 𝑇−10 − 𝑚 ) De ahí que si definimos 𝜀 𝑇 = 𝑋 𝑇 − 𝑚 entonces: 𝑋 𝑇 = 𝑚 + 𝜀 𝑇 = 𝑚 + Λ Λ (𝑋 𝑇−10 − 𝑚 ) + 𝜀 𝑇 = (𝑚 − Λ Λ 𝑚 ) + (Λ Λ )𝑋 𝑇−10 + 𝜀 𝑇 Donde, (cid:120) 𝑚 − Λ Λ 𝑚 ∈ ℝ 𝑝 (cid:120) Λ Λ ∈ ℝ 𝑝𝑥(𝑝(𝑇−1)) Redefiniendo 𝜇 = 𝑚 − Λ Λ 𝑚 , [Π , Π , … , Π 𝑇−1 ] = Λ Λ con Π 𝑖 ∈ ℝ 𝑝𝑥𝑝 y Σ = Λ ∈ℝ 𝑝𝑥𝑝 obtenemos la representación VAR de los datos: 𝑋 𝑇 = 𝜇 + Π 𝑋 𝑇−1 + Π 𝑋 𝑇−2 + ⋯ + Π 𝑘 𝑋 𝑇−𝑘 + 𝜀 𝑇 , 𝜀 𝑇 ~𝑁 𝑝 (0, Σ) , iid En conclusión, si se cumple que el vector aleatorio sigue una distribución normal y que la esperanza y covarianza de sus componentes no varía con respecto al tiempo (es un proceso estacionario) entonces, el VAR resulta ser una formulación probabilística adecuada para modelar el proceso que genera los datos. En este caso, y como se muestra en el desarrollo anterior, el VAR resulta ser una reformulación de la covarianza de los datos. En la siguiente sección se mostrará que el modelo VAR permite incluir información de corto y largo plazo. En contraste, al aplicar ciertas técnicas univariadas, se pierde la información de largo plazo. Esto debido a que estas técnicas requieren de series estacionarias, pero al quitarle sus tendencias, determinísticas o estocásticas, a los datos se pierde la información de largo plazo.

2 Modelo de Corrección de Errores

Suponer que 𝑋 𝑡 es un vector con 𝑝 series de tiempo autorregresivas de orden 𝑘 que están integradas de orden 1: (𝑋 𝑡 ) 𝑖 ~𝐼(1) ∀ 𝑖 𝜖 {1,2, … , 𝑝} A continuación se muestra la representación VAR, del vector 𝑋 𝑡 : 𝑋 𝑡 = Π + Π 𝑋 𝑡−1 + Π 𝑋 𝑡−2 + ⋯ + Π 𝑘 𝑋 𝑡−𝑘 + 𝜀 𝑡 Donde, (cid:120) 𝑋 𝑡 , Π , 𝜀 𝑡 ∈ ℝ 𝑝 (cid:120) Π 𝑖 ∈ ℝ 𝑝𝑥𝑝 (cid:120) 𝜀 𝑡 es una serie estacionaria Sumando y restando Π 𝑖 𝑋 𝑡−1 , para toda 𝑖 ∈ {2,3, … , 𝑘} , se obtiene la siguiente expresión: 𝑋 𝑡 = Π + (Π + Π + ⋯ + Π 𝑘 )𝑋 𝑡−1 + Π (𝑋 𝑡−2 − 𝑋 𝑡−1 ) + ⋯ + Π 𝑘 (𝑋 𝑡−𝑘 − 𝑋 𝑡−1 ) + 𝜀 𝑡 Como 𝑋 𝑡−1 − 𝑋 𝑡−𝑗 = 𝑋 𝑡−1 − (𝑋 𝑡−2 − 𝑋 𝑡−2 ) − (𝑋 𝑡−3 − 𝑋 𝑡−3 ) − ⋯ − (𝑋 𝑡−𝑗+1 − 𝑋 𝑡−𝑗+1 ) − 𝑋 𝑡−𝑗 = ∇𝑋 𝑡−1 + ∇𝑋 𝑡−2 + ⋯ + ∇𝑋 𝑡−𝑗+1 = ∑ ∇𝑋 𝑡−𝑖𝑗−1𝑖=1 Tenemos que: 𝑋 𝑡 = Π + (Π + Π + ⋯ + Π 𝑘 )𝑋 𝑡−1 − Π ∇𝑋 𝑡−1 − Π (∇𝑋 𝑡−1 + ∇𝑋 𝑡−2 ) − ⋯− Π 𝑘 (∇𝑋 𝑡−1 + ∇𝑋 𝑡−2 + ⋯ ∇𝑋 𝑡−𝑘+1 ) + 𝜀 𝑡 Reagrupando términos tenemos que: 𝑋 𝑡 = Π + (Π + Π + ⋯ + Π 𝑘 )𝑋 𝑡−1 − (Π + Π + ⋯ + Π 𝑘 )∇𝑋 𝑡−1 − (Π + ⋯ + Π 𝑘 )∇𝑋 𝑡−2 − ⋯ − (Π + ⋯ + Π 𝑘 )∇𝑋 𝑡−𝑘+1 + 𝜀 𝑡 Restando 𝑋 𝑡−1 de ambos lados y usando las siguientes identidades, Γ = Π Γ = −(Ι − (Π + Π + ⋯ + Π 𝑘 )) = − (𝐼 − ∑ Π 𝑖𝑘𝑖=1 ) Γ 𝑖 = −(Π 𝑖+1 + Π 𝑖+2 + ⋯ + Π 𝑘 ) = − ∑ Π 𝑗𝑘𝑗=𝑖+1 Obtenemos la representación de 𝑋 𝑡 como Modelo de Corrección de Errores (MCE): ∇𝑋 𝑡 = Γ + Γ𝑋 𝑡−1 − Γ ∇𝑋 𝑡−1 − Γ ∇𝑋 𝑡−2 − ⋯ − Γ 𝑘 ∇𝑋 𝑡−𝑘+1 + 𝜀 𝑡 Como ∇𝑋 𝑡 y ε 𝑡 son series estacionarias esto significa que Γ𝑋 𝑡 debe de ser estacionaria para mantener la consistencia de la representación MCE. Si rango(Γ) = 𝑝 , esto significa que cualquier combinación lineal de 𝑋 𝑡 es estacionaria lo que es contradictorio por lo que: rango(Γ) = 𝑟 𝑟 ∈ {0,1, … , 𝑝 − 1} Definición 1 (Espacio de Cointegración) : Si Γ ∗𝑖 es la columna 𝑖 de Γ , el Espacio de Cointegración se define como:

𝒞 ≔ 𝑠𝑝𝑎𝑛{Γ ∗1 , Γ ∗2 , … , Γ ∗𝑝 } ⊂ ℝ 𝑝 Si, por ejemplo, tomamos como base de 𝒞 las primeras 𝑟 columnas linealmente independientes de Γ para construir una matriz α ∈ ℝ 𝑝𝑥𝑟 queda claro que existe una factorización Γ = αβ′ tal que: 1. α, β ∈ ℝ 𝑝𝑥𝑟 α, β de rango completo por columna 3. β′X 𝑡 ~𝐼(0) Esta factorización no es única. Considerar una matriz Q invertible. En este caso la factorización Γ = ab ′ = (𝛼𝑄)(𝛽(𝑄′) −1 ) ′ = 𝛼𝑄𝑄 −1 𝛽 ′ = 𝛼𝛽′ también cumple las condiciones 1 y 2. Será necesario imponer ciertas condiciones de normalización para poder identificar a 𝛼 y 𝛽 de forma única. La dimensión del espacio de cointegración es 𝑟 . Si la dimensión del espacio de cointegración es 𝑟 > 0 se dice que el vector 𝑋 𝑡 está cointegrado. Definición 2. Espacio de Tendencias Comunes: El Espacio de Tendencias Comunes se define como:

𝒯 ≔ ℝ 𝑝 ∖ 𝒞 La dimensión del espacio de tendencias comunes es 𝑘 = 𝑝 − 𝑟 ∈ {1,2, … , 𝑝} . Siguiendo el tratamiento de Gonzalo y Granger (1995) si el espacio de cointegración no es nulo ( 𝑟 > 0) entonces el vector 𝑋 𝑡 es integrado de orden 1 y se puede expresar como la suma de un componente vectorial integrado de orden 1 y un componente vectorial integrado de orden 0. Como la dimensión del espacio de tendencias comunes es 𝑘 , 𝑋 𝑡 se puede explicar a partir de combinaciones lineales de 𝑘 < 𝑝 factores. Notar que aquí, 𝑓 𝑡 no necesariamente es función lineal de 𝑋 𝑡 . 𝑋 𝑡 = 𝐴 𝑓 𝑡 + 𝑋 𝑡 ̃ Donde 1. 𝐴 𝜖ℝ 𝑝𝑥𝑘 𝑓 𝑡 , 𝑋 𝑡 ̃𝜖ℝ 𝑝𝑥1 𝑓 𝑡 ~𝐼(1) 𝑋 𝑡 ̃ es estacionaria Definición 3. (Descomposición Permanente-Transitorio de Gonzalo-Granger).

Sea 𝑋 𝑡 una serie de tiempo estacionaria en sus diferencias, es decir integrada de orden 1. Entonces una descomposición Permanente-Transitorio (P-T) para 𝑋 𝑡 es un par de series de tiempo, 𝑃 𝑡 y 𝑇 𝑡 , tal que: 1. 𝑃 𝑡 es estacionaria en sus diferencias y 𝑇 𝑡 es estacionaria 2. 𝑉𝑎𝑟(∇𝑃 𝑡 ) y 𝑉𝑎𝑟(𝑇 𝑡 ) > 0 𝑋 𝑡 = 𝑃 𝑡 + 𝑇 𝑡 Si 𝐻(𝐿) [∇P 𝑡 𝑇 𝑡 ] = [𝑢 𝑃𝑡 𝑢 𝑇𝑡 ] es la representación autorregresiva del vector (∇𝑃 𝑡 , 𝑇 𝑡 ) , con 𝑢 𝑃𝑡 y 𝑢 𝑇𝑡 , no correlacionados (VAR en su forma estructural) entonces a. lim ℎ→∞ 𝜕𝐸 𝑡 [𝑋 𝑡+ℎ ]𝑢 𝑃𝑡 ≠ 0 b. lim ℎ→∞ 𝜕𝐸 𝑡 [𝑋 𝑡+ℎ ]𝑢 𝑇𝑡 = 0 Esta última condición indica que para que la descomposición 𝑋 𝑡 = 𝑃 𝑡 + 𝑇 𝑡 sea P-T en el sentido de Gonzalo-Granger, la esperanza del proceso 𝑋 𝑡 debe ser sensible, a la larga, ante choques en el componente permanente 𝑃 𝑡 e insensible, a la larga, ante choques en el componente transitorio 𝑇 𝑡 . Para identificar el componente permanente 𝑃 𝑡 = 𝐴 𝑓 𝑡 y el componente transitorio 𝑇 𝑡 = 𝑋 𝑡 , Gonzalo y Granger proponen realizar dos supuestos: 1. 𝑓 𝑡 = 𝐵𝑋 𝑡 , con 𝐵 ∈ ℝ 𝑘𝑥𝑝 , es decir que los factores permanentes sean función lineal de las series de tiempo observadas, y 2.

Que la descomposición 𝑋 𝑡 = 𝐴 𝑓 𝑡 + 𝑋 𝑡 ̃ es una descomposición P-T en el sentido de la definición anterior. Sustituyendo la ecuación del primer supuesto en la descomposición tenemos: 𝑋 𝑡 = 𝐴 𝐵𝑋 𝑡 + 𝑋 𝑡 ̃ ⇒ 𝑋 𝑡 ̃ = (𝐼 𝑝 − 𝐴 𝐵)𝑋 𝑡 = 𝐶𝑋 𝑡 Como 𝑟𝑎𝑛𝑔𝑜(𝐶) ≤ 𝑟 y 𝑟𝑎𝑛𝑔𝑜(𝛽) = 𝑟 podemos descomponer la matriz 𝐶 de la siguiente forma: 𝐶 = 𝐼 − 𝐴 𝐵 = 𝐴 𝛽′ donde 𝐴 ∈ ℝ 𝑝𝑥𝑟 . Es decir que podemos reexpresar la descomposición de la siguiente forma: 𝑋 𝑡 = 𝐴 𝑓 𝑡 + 𝐴 𝛽′𝑋 𝑡 = 𝐴 𝑓 𝑡 + 𝐴 𝑧 𝑡 Para deducir la forma de 𝑓 𝑡 regresamos al VAR en su forma MCE : ∇𝑋 𝑡 = Γ + αβ′𝑋 𝑡−1 − Γ ∇𝑋 𝑡−1 − Γ ∇𝑋 𝑡−2 − ⋯ − Γ 𝑘 ∇𝑋 𝑡−𝑘+1 + 𝜀 𝑡 Buscamos encontrar combinaciones lineales 𝑓 𝑡 = 𝐵𝑋 𝑡 tal que el componente transitorio 𝑋 𝑡 ̃ =𝐴 𝛽′𝑋 𝑡 no tenga impacto de largo plazo sobre 𝑋 𝑡 . Si multiplicamos el MCE por 𝛼 ⊥ ∈ ℝ 𝑝𝑥𝑘 , tal que 𝛼 ⊥′ 𝛼 = 0 , se obtiene: 𝛼 ⊥′ ∇𝑋 𝑡 = 𝛼 ⊥′ Γ + 𝛼 ⊥′ αβ ′ 𝑋 𝑡−1 − 𝛼 ⊥′ Γ 𝑖 ∇𝑋 𝑡−1 − ⋯ − 𝛼 ⊥′ Γ 𝑘 ∇𝑋 𝑡−𝑘+1 + 𝛼 ⊥′ 𝜀 𝑡 = 𝛼 ⊥′ Γ − 𝛼 ⊥′ Γ 𝑖 ∇𝑋 𝑡−1 − ⋯ − 𝛼 ⊥′ Γ 𝑘 ∇𝑋 𝑡−𝑘+1 + 𝛼 ⊥′ 𝜀 𝑡 De tal forma que 𝑋 𝑡 ̃ no tiene impacto de largo plazo sobre 𝑋 𝑡 . En otras palabras tenemos que: 𝑓 𝑡 = 𝛼 ⊥′ 𝑋 𝑡 Reformulando una vez más la descomposición P-T que buscamos, se tiene que: 𝑋 𝑡 = 𝐴 𝛼 ⊥′ 𝑋 𝑡 + 𝐴 𝛽′𝑋 𝑡 Ahora considerar 𝑥 ∈ ℝ 𝑝 . Podemos expresar a 𝑥 de las siguientes formas: 𝑥 = 𝛼𝑎 + 𝛼 ⊥ 𝑏 = 𝛽𝑐 + 𝛽 ⊥ 𝑑 Donde 𝑎, 𝑐 𝜖 ℝ 𝑟 y 𝑏, 𝑑 𝜖 ℝ 𝑘 . Pero por la descomposición P-T se requiere que : 𝐼 𝑝 = 𝐴 𝛼 ⊥′ + 𝐴 𝛽′ De ahí que: 𝑥 = 𝛼𝑎 + 𝛼 ⊥ 𝑏 = (𝐴 𝛼 ⊥′ + 𝐴 𝛽 ′ )(𝛼𝑎 + 𝛼 ⊥ 𝑏) = (𝐴 𝛽 ′ 𝛼)𝑎 + (𝐴 𝛼 ⊥′ 𝛼 + 𝐴 𝛽 ′ 𝛼 ⊥ )𝑏 ⇒ 𝐴 𝛽 ′ = 𝐼 ⇒ 𝐴 (𝛽 ′ 𝛼) = 𝛼 y 𝑥 = 𝛽𝑐 + 𝛽 ⊥ 𝑑 = (𝐴 𝛼 ⊥′ + 𝐴 𝛽 ′ )(𝛽𝑐 + 𝛽 ⊥ 𝑑) = (𝐴 𝛼 ⊥′ 𝛽 + 𝐴 𝛽 ′ 𝛽)𝑐 + (𝐴 𝛼 ⊥′ 𝛽 ⊥ )𝑑 ⇒ 𝐴 𝛼 ⊥′ = 𝐼 ⇒ 𝐴 (𝛼 ⊥′ 𝛽 ⊥ ) = 𝛽 ⊥ Como 𝛽 ′ 𝛼 𝜖 ℝ 𝑟𝑥𝑟 , 𝛼 ⊥′ 𝛽 ⊥ 𝜖 ℝ 𝑘𝑥𝑘 , 𝑟𝑎𝑛𝑔𝑜(𝛽 ′ 𝛼 ) = 𝑟 y 𝑟𝑎𝑛𝑔𝑜(𝛼 ⊥′ 𝛽 ⊥ ) = 𝑘 tenemos que: 𝐴 = 𝛽 ⊥ (𝛼 ⊥′ 𝛽 ⊥ ) −1 𝐴 = 𝛼(𝛽 ′ 𝛼) −1 En esta sección, a modo de introducción a la teoría de estimación involucrada, se desarrollarán algunos resultados que llevan a los estimadores máximo verosímiles para 𝛼 , 𝛽 , 𝛼 ⊥ y 𝛽 ⊥ . Adicionalmente, se presentará, sin demostración una prueba de hipótesis para indagar sobre las variables de las que depende 𝛼 ⊥ , el coeficiente que define el espacio de tendencias comunes. El desarrollo que lleva a los estimadores máximo verosímiles para 𝛼 y 𝛽 es una adaptación, para su aplicación a la estimación del MCE, de la exposición de Reinsel y Velu (1998). El modelo VAR en su forma MCE se puede reexpresar de la siguiente forma:

Y = ∇𝑋 𝑡 = Γ + αβ′𝑋 𝑡−1 − Γ ∇𝑋 𝑡−1 − Γ ∇𝑋 𝑡−2 − ⋯ − Γ 𝑘 ∇𝑋 𝑡−𝑘+1 + 𝜀 𝑡 = 𝐴𝐵𝑋 + 𝐷𝑊 + 𝜀 donde, (cid:120) Y = ∇𝑋 𝑡 , 𝜀 = 𝜀 𝑡 (cid:120) α = A ∈ ℝ 𝑝𝑥𝑟 y β ′ = B ∈ ℝ 𝑟𝑥𝑝 , (cid:120) 𝐷 = [Γ , Γ , … . , Γ 𝑘 ] ∈ ℝ 𝑝𝑘𝑥𝑝 , y (cid:120) 𝑊 = [∇𝑋 𝑡−1′ , ∇𝑋 𝑡−2′ , … . , ∇𝑋 𝑡−𝑘+1′ ]′ En lo subsiguiente se considera que Y , 𝑋 y W se han corregido de forma que tienen esperanza igual a cero. En este caso, nos interesa estimar A y B por lo que podemos concentrar el modelo con respecto al coeficiente D mediante dos modelos de regresión auxiliares: Y = FW + ε 𝑦 𝑋 = 𝐺𝑊 + 𝜀 En donde 𝑊 está dado, de forma que 𝑌 = 𝐴𝐵𝑋 + 𝐷𝑊 + 𝜀 ⇒ FW + ε = 𝐴𝐵(𝐺𝑊 + 𝜀 ) + 𝐷𝑊 + 𝜀 ⇒ ε = (𝐴𝐵𝐺 + 𝐷 − 𝐹)𝑊 + 𝐴𝐵𝜀 + 𝜀 Pero como

𝐶𝑜𝑣(ε , 𝑊) = 0 se tiene la siguiente relación: ε = 𝐴𝐵𝜀 + 𝜀 de donde se puede estimar A y B a partir de una regresión multivariada de rango reducido: R = 𝐴𝐵𝑅 + 𝜀 donde: (cid:120) R = 𝑌 − 𝐹̂𝑊 = ε ̂ (cid:120) R = 𝑋 − 𝐺̂𝑊 = ε ̂ (cid:120) 𝐴 ∈ ℝ 𝑝𝑥𝑟 , 𝐵 ∈ ℝ 𝑟𝑥𝑝

En las siguientes secciones se desarrollan los estimadores de mínimos cuadrados y de máxima verosimilitud para

𝐴 ∈ ℝ 𝑚𝑥𝑟 , 𝐵 ∈ ℝ 𝑟𝑥𝑛 aún cuando, en nuestro caso, sabemos que 𝑚 = 𝑛 =𝑝 . Considerar el modelo:

𝑌 = 𝐴𝐵𝑋 + 𝜀 𝜀~𝑁(0, Σ 𝜀𝜀 ) 𝑖𝑖𝑑 Los estimadores de rango reducido para A y B tal que 𝐶 = AB con 𝑟𝑎𝑛𝑘(C) = 𝑟 ≤min (m, n) , se obtendrán como la aproximación de una matriz de rango completo, a partir de una matriz de rango reducido. Para llegar al correspondiente resultado necesitaremos el teorema de Eckart-Young, pero antes necesitamos el siguiente lema.

Lema 2.3.2.1 : Sea

A ∈ ℝ 𝑚𝑥𝑚 simétrica con eigenvalores 𝜆 ≥ 𝜆 ≥ ⋯ ≥ 𝜆 𝑚 y eigenvectores (normalizados) 𝑃 , 𝑃 , … , 𝑃 𝑚 . Entonces el supremo de: ∑ 𝑋 𝑖′ 𝐴𝑋 𝑖 = 𝑡𝑟(𝑋 ′ 𝐴𝑋) 𝑟𝑖=1 sobre los conjuntos {𝑋 , 𝑋 , … , 𝑋 𝑟 } con 𝑋 𝑖 ∈ ℝ 𝑚 tal que 𝑋 𝑖′ 𝑋 𝑖 = 1 y 𝑋 𝑖′ 𝑋 𝑗 = 0 con 𝑖 ≠ 𝑗 , es igual a ∑ 𝜆 𝑖𝑟𝑖=1 y se obtiene haciendo 𝑋 𝑖 = 𝑃 𝑖 para 𝑖 ∈ {1,2, … , 𝑟} . Demostración . Como 𝐴 simétrica existe 𝑃 ∈ ℝ 𝑚𝑥𝑚 ortogonal tal que :

𝐴 = 𝑃𝐷𝑃 ′ 𝑦 𝐷 = 𝑃′𝐴𝑃 En donde

𝑃 = [𝑃 , 𝑃 , … , 𝑃 𝑚 ] son los eigenvectores normalizados de 𝐴 . Como 𝑃 es ortogonal, es de rango completo por lo que cualquier conjunto ortogonal {𝑋 , 𝑋 , … , 𝑋 𝑟 } se puede expresar utilizando que para toda 𝑋 𝑖 ∈ ℝ 𝑚 existe 𝑐 𝑖 ∈ ℝ 𝑚 tal que 𝑋 𝑖 = 𝑃𝑐 𝑖 . Con esto obtenemos las siguientes relaciones: 𝑋 𝑖′ 𝑋 𝑖 = 𝑐 𝑖′ 𝑃 ′ 𝑃𝑐 𝑖 = 𝑐 𝑖′ 𝑐 𝑖 = 1 𝑋 𝑖′ 𝑋 𝑗 = 𝑐 𝑖′ 𝑃 ′ 𝑃𝑐 𝑗 = 𝑐 𝑖′ 𝑐 𝑗 = 0 Además, la cantidad a maximizar se puede expresar de la siguiente forma: ∑ 𝑋 𝑖′ 𝐴𝑋 𝑖 = 𝑟𝑖=𝑟 ∑ 𝑐 𝑖′ 𝑃′(𝑃𝐷𝑃′)𝑃𝑐 𝑖 = 𝑟𝑖=𝑟 ∑ 𝑐 𝑖′ 𝐷𝑐 𝑖 = ∑ ∑ 𝜆 𝑗 𝑐 𝑖𝑗2𝑚𝑗=1𝑟𝑖=1𝑟𝑖=𝑟 = ∑ 𝜆 𝑗 (∑ 𝑐 𝑖𝑗2𝑟𝑖=1 ) 𝑚𝑗=1 = ∑ 𝜆 𝑗 𝑎 𝑗𝑚𝑗=1 Observar que: (cid:120) 𝑎 𝑗 = ∑ 𝑐 𝑖𝑗2𝑟𝑖=1 (cid:120) 𝑐 𝑖′ 𝑐 𝑖 = ∑ 𝑐 𝑖𝑗2𝑚𝑖=1 = 1 ≥ ∑ 𝑐 𝑖𝑗2𝑟𝑖=1 (cid:120) ∑ ∑ 𝑐 𝑖𝑗2𝑚𝑗=1 = 𝑟𝑖=1 ∑ 𝑐 𝑖′ 𝑐 𝑖𝑟𝑖=1 = 𝑟 Entonces, ∑ 𝑋 𝑖′ 𝐴𝑋 𝑖 = 𝑟𝑖=𝑟 ∑ 𝜆 𝑗 𝑎 𝑗𝑚𝑗=1 es una combinación lineal de los eigenvalores de 𝐴 en la que los coeficientes 𝑎 𝑗 suman 𝑟 pero ninguno es mayor a 1. Como 𝜆 ≥ 𝜆 ≥ ⋯ ≥ 𝜆 𝑚 esta expresión se maximiza cuando el coeficiente 𝑎 𝑗 = 1 para 𝑗 ∈ {1,2, … , 𝑟} y 𝑎 𝑗 = 0 para 𝑗 ∈{𝑟 + 1, 𝑟 + 2, … , 𝑚} . Como además, 𝑐 𝑖′ 𝑐 𝑖 = 1 y 𝑐 𝑖′ 𝑐 𝑗 = 0 esto se logra haciendo 𝑐 𝑖𝑖 = 1 y 𝑐 𝑖𝑗 =0 . Con está elección tenemos que: 1. 𝑋 𝑖 = 𝑃𝑐 𝑖 = 𝑃 𝑖 ∑ 𝑋 𝑖′ 𝐴𝑋 𝑖 = 𝑟𝑖=𝑟 ∑ 𝜆 𝑗 (∑ 𝑐 𝑖𝑗2𝑟𝑖=1 ) = 𝑚𝑗=1 ∑ 𝜆 𝑗𝑟𝑗=1 Q.E.D. A continuación, se enuncia el teorema Eckart-Young que nos indicará cómo mejor aproximar una matriz de rango completo con una de rango reducido.

Teorema 2.3.2.1 (Eckart-Young) : Sea

𝑆 ∈ ℝ 𝑚𝑥𝑛 una matriz fija tal que 𝑟𝑎𝑛𝑘(𝑆) = 𝑚 . Entonces: 𝑎𝑟𝑔 min

𝑃∈𝑅𝑅 𝑡𝑟((𝑆 − 𝑃)(𝑆 − 𝑃)′) = 𝑁′𝑁𝑆′

En donde

𝑅𝑅 = {𝑄 ∈ ℝ 𝑚𝑥𝑟 : 𝑟𝑎𝑛𝑘(𝑄) = 𝑟 ≤ 𝑚} y 𝑁 ∈ ℝ 𝑟𝑥𝑚 es tal que las columnas de 𝑁 ′ son los 𝑟 eigenvectores (normalizados) de 𝑆′𝑆 que corresponden a sus 𝑟 eigenvalores más grandes. Demostración . Sea

𝑃 = 𝑀𝑁 y suponer, sin perdida de generalidad, que 𝑁′ es ortonormal ( 𝑁𝑁 ′ = 𝐼 𝑟 ) de tal forma que la columna 𝑖 de 𝑃′ se puede expresar como una combinación lineal de las columnas de 𝑁′ en la que los coeficientes provienen de la 𝑖 -esima columna de 𝑀′ . Ahora considerar el criterio a minimizar: 𝑓(𝑃) = 𝑡𝑟((𝑆 − 𝑃)(𝑆 − 𝑃) ′ ) = 𝑡𝑟((𝑆 − 𝑃)′(𝑆 − 𝑃)) = 𝑡𝑟((𝑆 ′ − 𝑃′)(𝑆 ′ − 𝑃 ′ ) ′ )= 𝑡𝑟((𝑆 ′ − 𝑁 ′ 𝑀 ′ )(𝑆 − 𝑀𝑁)) = 𝑡𝑟(𝑆 ′ 𝑆 − 𝑆 ′ 𝑀𝑁 − 𝑁 ′ 𝑀 ′ 𝑆 + 𝑁 ′ 𝑀 ′ 𝑀𝑁)= 𝑡𝑟(𝑆 ′ 𝑆) − 2𝑡𝑟(𝑆 ′ 𝑀𝑁) + 𝑡𝑟(𝑁 ′ 𝑀 ′ 𝑀𝑁) = 𝑡𝑟(𝑆 ′ 𝑆) − 𝑡𝑟(𝑀𝑁𝑆 ′ ) + 𝑡𝑟(𝑀𝑀 ′ ) Para 𝑁 fija podemos minimizar 𝑓(𝑃) , que es continua como función de 𝑀 , derivando con respecto a 𝑀 e igualando a cero: 𝛿𝑓(𝑃)𝛿𝑀 = −2𝑆𝑁′ + 2𝑀 𝛿𝑓(𝑃)𝛿𝑀 = 0 ⇒ 𝑀 = 𝑆𝑁′, 𝑃 = 𝑀𝑁 = 𝑆𝑁′𝑁 Sustituyendo en 𝑓(𝑃) tenemos que: 𝑓(𝑃) = 𝑡𝑟((𝑆 ′ − 𝑃 ′ )(𝑆 ′ − 𝑃 ′ ) ′ ) = 𝑡𝑟((𝑆 ′ − 𝑁 ′ 𝑀 ′ )(𝑆 ′ − 𝑁 ′ 𝑀 ′ ) ′ )= 𝑡𝑟((𝑆 ′ − 𝑁 ′ 𝑁𝑆′)(𝑆 ′ − 𝑁 ′ 𝑁𝑆 ′ )′)= 𝑡𝑟(𝑆 ′ 𝑆) − 2𝑡𝑟(𝑆 ′ 𝑆𝑁 ′ 𝑁) + 𝑡𝑟(𝑁 ′ 𝑁𝑆 ′ 𝑆𝑁 ′ 𝑁)= 𝑡𝑟(𝑆 ′ 𝑆) − 2𝑡𝑟(𝑆 ′ 𝑆𝑁 ′ 𝑁) + 𝑡𝑟(𝑆 ′ 𝑆𝑁 ′ 𝑁) = 𝑡𝑟(𝑆 ′ 𝑆) − 𝑡𝑟(𝑆 ′ 𝑆𝑁 ′ 𝑁)= 𝑡𝑟(𝑆 ′ 𝑆) − 𝑡𝑟(𝑁𝑆 ′ 𝑆𝑁 ′ ) Entonces para minimizar 𝑓(𝑃) con respecto 𝑁 utilizamos el Lema anterior. De acuerdo a este lema el supremo de 𝑡𝑟((𝑁 ′ )′(𝑆 ′ 𝑆)𝑁 ′ ) , se alcanza cuando 𝑁 ′ contiene los eigenvectores (normalizados) de 𝑆 ′ 𝑆 en cual caso el valor mínimo será ∑ 𝜆 𝑖2𝑟𝑖=1 , donde 𝜆 𝑖2 es el 𝑖 -esimo eigenvalor más grande de 𝑆 ′ 𝑆 . Q.E.D.

Ahora, para obtener el valor del criterio a minimizar en el teorema utilizamos la descomposición en valores singulares de

𝑆 = 𝑉𝐷𝑈′ : 𝑆 = 𝑉𝐷𝑈 ′ 𝑆 ′ 𝑆 = 𝑈𝐷𝑉 ′ 𝑉𝐷𝑈 ′ = 𝑈′𝐷 𝑈 En donde, (cid:120)

𝑉 ∈ ℝ 𝑚𝑥𝑚 es una matriz ortogonal que contiene vectores singulares derechos de 𝑆 y eigenvectores de 𝑆𝑆′ . (cid:120) 𝑈 ∈ ℝ 𝑛𝑥𝑚 es una matriz ortogonal que contiene vectores singulares izquierdos de 𝑆 y eigenvectores de 𝑆′𝑆 . (cid:120) 𝐷 ∈ ℝ 𝑚𝑥𝑚 es una matriz diagonal con valores singulares de 𝑆 y raíz cuadrada de los eigenvalores de 𝑆𝑆 ’ y 𝑆′𝑆 . Observar que 𝑁 ′ = [𝑈 ∗1 , 𝑈 ∗2 , … , 𝑈 ∗𝑟 ] = 𝑈 (𝑟) ∈ ℝ 𝑛𝑥𝑟 . Entonces el criterio a minimizar queda: 𝑡𝑟((𝑆 ′ − 𝑃 ′ )(𝑆 ′ − 𝑃 ′ ) ′ ) = 𝑡𝑟((𝑈𝐷𝑉 ′ − 𝑁 ′ 𝑀′)(𝑈𝐷𝑉 ′ − 𝑁 ′ 𝑀′) ′ )= 𝑡𝑟(𝑈(𝐷 − 𝑈′𝑁 ′ 𝑀′𝑉)(𝐷 − 𝑈′𝑁 ′ 𝑀′𝑉) ′ 𝑈′)= 𝑡𝑟((𝐷 − 𝑈′𝑁 ′ 𝑀′𝑉)(𝐷 − 𝑈′𝑁 ′ 𝑀′𝑉) ′ ) Ahora por el teorema 2.3.2.1, 𝑃 que minimiza el criterio es tal que 𝑃 ′ = 𝑁′𝑀′ = 𝑁′𝑁𝑆′ y 𝑀′ se puede reformular de la siguiente forma: 𝑀 ′ = 𝑁𝑆 ′ = 𝑈 (𝑟)′ 𝑆 ′ = 𝑈 (𝑟)′ 𝑈𝐷𝑉 ′ = [𝐼 𝑟 ′ = [𝜆 𝑉 ∗1 𝜆 𝑉 ∗2 … 𝜆 𝑟 𝑉 ∗𝑟 ] = 𝐷 (𝑟) 𝑉 (𝑟)′ En donde, (cid:120) 𝑉 (𝑟) = [𝑉 ∗1 , 𝑉 ∗2 , … , 𝑉 ∗𝑟 ] (cid:120) 𝐷 (𝑟) = 𝑑𝑖𝑎𝑔(𝜆 , 𝜆 , … , 𝜆 𝑟 ) Regresando al criterio a minimizar tenemos que: 𝑡𝑟((𝑆 ′ − 𝑃 ′ )(𝑆 ′ − 𝑃 ′ ) ′ ) = 𝑡𝑟((𝐷 − 𝑈′𝑁 ′ 𝑀′𝑉)(𝐷 − 𝑈′𝑁 ′ 𝑀′𝑉) ′ )= 𝑡𝑟(𝐷𝐷 ′ ) − 2𝑡𝑟(𝐷𝑉 ′ 𝑀𝑁𝑈) + 𝑡𝑟(𝑈 ′ 𝑁 ′ 𝑀 ′ 𝑉𝑉 ′ 𝑀𝑁𝑈)

Pero observar que 𝑈 ′ 𝑁 ′ 𝑀 ′ 𝑉 = 𝑈 ′ 𝑈 (𝑟)′ 𝐷 (𝑟) 𝑉 (𝑟)′ 𝑉 = [𝐼 𝑟 (𝑟) [ 𝐼 𝑟

0] = [𝐷 (𝑟)

00 0]

Así que, 𝑡𝑟((𝑆 ′ − 𝑃 ′ )(𝑆 ′ − 𝑃 ′ ) ′ ) = 𝑡𝑟(𝐷 ) − 𝑡𝑟(𝐷 (𝑟)2 ) = ∑ 𝜆 𝑖2𝑚𝑖=𝑟+1 Sabiendo como aproximar una matriz de rango completo con una de rango reducido estamos en condiciones de enunciar el teorema que indica como obtener los estimadores de mínimos cuadrados para A y B . Teorema 2.3.2.2 : Suponer que el vector (𝑚 + 𝑛) -dimensional (𝑌 ′ , 𝑋′) tiene media

0̿ ∈ ℝ 𝑚+𝑛 y matriz de covarianza Σ 𝑦𝑥 = Σ 𝑥𝑦 = 𝐶𝑜𝑣(𝑌, 𝑋) y que Σ 𝑥𝑥 = 𝑉𝑎𝑟(𝑋) es no singular. Entonces, para cualquier matriz simétrica positiva definida Γ , las matrices A ∈ ℝ 𝑚𝑥𝑟 y B 𝑟𝑥𝑛 , con r ≤min (m, n) , que minimizan: 𝑡𝑟{𝐸[Γ (𝑌 − 𝐴𝐵𝑋)(𝑌 − 𝐴𝐵𝑋)′Γ ]} son 𝐴 = Σ 𝑦𝑥 Σ 𝑥𝑥−1/2 𝑈 (𝑟) 𝐵 = 𝑈 (𝑟)′ Σ 𝑥𝑥−1/2 donde 𝑈 (𝑟) = [𝑈 ∗1 , 𝑈 ∗2 , … , 𝑈 ∗𝑟 ] y 𝑈 ∗𝑖 es el eigenvector (normalizado) que corresponde al 𝑖 -esimo eigenvalor más grande, 𝜆 𝑖2 , de la matriz Σ 𝑥𝑥−1/2 Σ 𝑥𝑦 ΓΣ 𝑦𝑥 Σ 𝑥𝑥−1/2 . Demostración . Buscamos expresar la cantidad 𝑡𝑟{𝐸[Γ (𝑌 − 𝐴𝐵𝑋)(𝑌 − 𝐴𝐵𝑋)′Γ ]} de tal forma que podamos usar el teorema 2.3.2.1. que es para expresiones de la forma 𝑡𝑟((𝑆 −𝑃)(𝑆 − 𝑃) ′ ). 𝐸[Γ (𝑌 − 𝐴𝐵𝑋)(𝑌 − 𝐴𝐵𝑋)′Γ ]= Γ (𝐸[𝑌𝑌′] − 𝐴𝐵𝐸[𝑋𝑌 ′ ] − 𝐸[𝑌𝑋 ′ ]𝐵 ′ 𝐴 ′ + 𝐴𝐵𝐸[𝑋𝑋 ′ ]𝐵′𝐴′)Γ = Γ (Σ 𝑦𝑦 − 𝐴𝐵Σ 𝑥𝑦 − Σ 𝑦𝑥 𝐵 ′ 𝐴 ′ + 𝐴𝐵Σ 𝑥𝑥 𝐵′𝐴′)Γ = Γ ((Σ 𝑦𝑥 Σ 𝑥𝑥−1/2 − 𝐴𝐵Σ 𝑥𝑥1/2 )(Σ 𝑦𝑥 Σ 𝑥𝑥−1/2 − 𝐴𝐵Σ 𝑥𝑥1/2 ) ′ − Σ 𝑦𝑥 Σ 𝑥𝑥−1 Σ 𝑥𝑦 + Σ 𝑦𝑦 ) Γ Por lo tanto 𝑡𝑟{𝐸[Γ (𝑌 − 𝐴𝐵𝑋)(𝑌 − 𝐴𝐵𝑋)′Γ ]}= 𝑡𝑟 {Γ (Σ 𝑦𝑥 Σ 𝑥𝑥−1/2 − 𝐴𝐵Σ 𝑥𝑥1/2 )(Σ 𝑦𝑥 Σ 𝑥𝑥−1/2 − 𝐴𝐵Σ 𝑥𝑥1/2 ) ′ Γ }+ 𝑡𝑟{Γ (Σ 𝑦𝑦 − Σ 𝑦𝑥 Σ 𝑥𝑥−1 Σ 𝑥𝑦 )Γ } Para minimizar esta expresión con respecto a A y B hay que minimizar 𝑡𝑟((𝑆 − 𝑃)(𝑆 − 𝑃) ′ ) = 𝑡𝑟 {Γ (Σ 𝑦𝑥 Σ 𝑥𝑥−1/2 − 𝐴𝐵Σ 𝑥𝑥1/2 )(Σ 𝑦𝑥 Σ 𝑥𝑥−1/2 − 𝐴𝐵Σ 𝑥𝑥1/2 ) ′ Γ } con S = Γ Σ 𝑦𝑥 Σ 𝑥𝑥−1/2 y P = Γ

𝐴𝐵Σ 𝑥𝑥1/2 . Entonces por el teorema 2.3.2.1.

𝑃 = 𝑀𝑁 = 𝑆𝑁 ′ 𝑁 = Γ Σ 𝑦𝑥 Σ 𝑥𝑥−1/2 𝑈 (𝑟) 𝑈 (𝑟)′ = Γ 𝐴𝐵Σ 𝑥𝑥1/2 ⇒ 𝐴𝐵= (Σ 𝑦𝑥 Σ 𝑥𝑥−1/2 𝑈 (𝑟) )(𝑈 (𝑟)′ Σ 𝑥𝑥−1/2 ) con A = Σ 𝑦𝑥 Σ 𝑥𝑥−1/2 𝑈 (𝑟) y 𝐵 = 𝑈 (𝑟)′ Σ 𝑥𝑥−1/2 . Q.E.D.

En cuanto al criterio a minimizar habíamos visto que 𝑡𝑟((𝑆 − 𝑃)(𝑆 − 𝑃) ′ ) = ∑ 𝜆 𝑖2𝑚𝑖=𝑟+1 =∑ 𝜆 𝑖2 − ∑ 𝜆 𝑖2𝑟𝑖=1𝑚𝑖=1 . Falta considerar el segundo sumando: 𝑡𝑟{Γ (Σ 𝑦𝑦 − Σ 𝑦𝑥 Σ 𝑥𝑥−1 Σ 𝑥𝑦 )Γ } = 𝑡𝑟{Γ Σ 𝑦𝑦 Γ } − 𝑡𝑟{Γ Σ 𝑦𝑥 Σ 𝑥𝑥−1 Σ 𝑥𝑦 Γ }= 𝑡𝑟{ΓΣ 𝑦𝑦 } − 𝑡𝑟{𝑆𝑆′} = 𝑡𝑟{ΓΣ 𝑦𝑦 } − ∑ 𝜆 𝑖2𝑚𝑖=1 Por lo tanto si

A = Σ 𝑦𝑥 Σ 𝑥𝑥−1/2 𝑈 (𝑟) y 𝐵 = 𝑈 (𝑟)′ Σ 𝑥𝑥−1/2 entonces 𝑡𝑟{𝐸[Γ (𝑌 − 𝐴𝐵𝑋)(𝑌 −𝐴𝐵𝑋)′Γ ]} = 𝑡𝑟{ΓΣ 𝑦𝑦 } − ∑ 𝜆 𝑖2𝑟𝑖=1 . El teorema 2.3.2.2 muestra que considerando a 𝑋 como una variable aleatoria las matrices A y B que minimizan la esperanza de la suma de errores cuadrados reescalados (por la matriz Γ ) son A = Σ 𝑦𝑥 Σ 𝑥𝑥−1/2 𝑈 (𝑟) y 𝐵 = 𝑈 (𝑟)′ Σ 𝑥𝑥−1/2 . En la siguiente sección se mostrará que con la elección Γ = Σ 𝜀𝜀−1 o Γ = Σ 𝑦𝑦−1 , y sustituyendo las matrices de covarianza, Σ 𝑦𝑥 , Σ 𝑥𝑥 y Σ 𝑦𝑦 por sus estimadores muestrales, obtenemos los estimadores de máxima verosimilitud. Para demostrar que los estimadores máximo verosímiles son de cierta forma necesitaremos un teorema de separación incluido en Rao (1979). Se incluye el teorema sin demostración.

Teorema 2.3.3.1 (Teorema de Separación).

Sea

S, P ∈ ℝ 𝑚𝑥𝑛 con 𝑟𝑎𝑛𝑘(𝑆) = 𝑚 y 𝑟𝑎𝑛𝑘(𝑃) =𝑟 ≤ 𝑚 . Entonces: ∗ 𝜆 𝑖 (𝑆 − 𝑃) ≥ 𝜆 𝑟+𝑖 (𝑆) ∀𝑖 ∈ {1,2, … , 𝑚} donde: (cid:120) 𝜆 𝑖 (𝑆) denota el 𝑖 -esimo valor singular más grande de 𝑆 = 𝑉𝐷𝑈′ (cid:120) 𝜆 𝑟+𝑖 (𝑆) se define como para 𝑟 + 𝑖 > 𝑚 . La igualdad se obtiene si y solo si 𝑃 = 𝑉 (𝑟) 𝐷 (𝑟) 𝑈 (𝑟)′ Obtengamos la log-verosimilitud del modelo:

𝑌 = 𝐶𝑋 + 𝜀 = 𝐴𝐵𝑋 + 𝜀 𝜀~𝑁(0, Σ 𝜀𝜀 ) 𝑖𝑖𝑑 donde (cid:120) 𝑋 ∈ ℝ 𝑛𝑥𝑇 , 𝑌 ∈ ℝ 𝑚𝑥𝑇 las matrices de realizaciones observadas. (cid:120) 𝜀 ∈ ℝ 𝑚𝑥𝑇 una matriz de realizaciones no observables (cid:120)

𝐶 ∈ ℝ 𝑚𝑥𝑛 , 𝐴 ∈ ℝ 𝑚𝑥𝑟 y 𝐵 ∈ ℝ 𝑟𝑥𝑛 , (cid:120) Σ 𝜀𝜀 ∈ ℝ 𝑚𝑥𝑚 En este caso tenemos que la función de densidad de una 𝜀 ∗𝑖 = 𝑌 ∗𝑖 − 𝐶𝑋 ∗𝑖 es: 𝑓 𝜀 (𝜀 ∗𝑖 ) = (2𝜋) −𝑚/2 |Σ 𝜀𝜀 | −1/2 𝑒𝑥𝑝 {− 12 𝜀 ∗𝑖′ Σ 𝜀𝜀−1 𝜀 ∗𝑖 } Por lo que la función de verosimilitud es:

ℒ(𝐶, Σ 𝜀𝜀 ; 𝜀) = (2𝜋) −𝑚𝑇/2 |Σ 𝜀𝜀 | −𝑇/2 𝑒𝑥𝑝 {− 12 ∑ 𝜀 ∗𝑖′ Σ 𝜀𝜀−1 𝜀 ∗𝑖𝑇𝑖=1 }= (2𝜋) −𝑚𝑇/2 |Σ 𝜀𝜀 | −𝑇/2 𝑒𝑥𝑝 {− 12 𝑡𝑟(𝜀′Σ 𝜀𝜀−1 𝜀)}= (2𝜋) −𝑚𝑇/2 |Σ 𝜀𝜀 | −𝑇/2 𝑒𝑥𝑝 {− 12 𝑡𝑟(Σ 𝜀𝜀−1 𝜀𝜀′)} Tomando logaritmo natural y omitiendo términos que no dependan de 𝐶 o Σ 𝜀𝜀 tenemos que: 𝑙𝑛ℒ(𝐶, Σ 𝜀𝜀 ; 𝜀) ∝ (𝑇2) [ln(|Σ 𝜀𝜀−1 |) − 𝑡𝑟(Σ 𝜀𝜀−1 𝑊)] donde

W = 𝜀𝜀 ′ = (𝑌 − 𝐶𝑋)(𝑌 − 𝐶𝑋) ′ = (𝑌 − 𝐴𝐵𝑋)(𝑌 − 𝐴𝐵𝑋) ′ . Derivamos para maximizar con respecto a Σ 𝜀𝜀−1 : 𝛿𝑙𝑛ℒ𝛿Σ 𝜀𝜀−1 = (𝑇2) [Σ 𝜀𝜀 − 𝑊] por lo tanto Σ̂ 𝜀𝜀 = 𝑊 . Concentramos la log-verosimilitud con respecto a Σ 𝜀𝜀−1 sustituyendo Σ̂ 𝜀𝜀 = 𝑊 : 𝑙𝑛ℒ(𝐶; 𝜀) ∝ (𝑇2) [ln(|W −1 |) − 𝑡𝑟(W −1 𝑊)] = − (𝑇2) [ln(|W|) + 𝑚]

Maximizar esta expresión es equivalente a maximizar 𝛼|𝑊| con 𝛼 > 0 . En particular podemos escoger 𝛼 = |Σ̃ 𝜀𝜀−1 | = |(1/𝑇)(𝑌 − 𝐶̃𝑋)(𝑌 − 𝐶̃𝑋)′ |, con

𝐶̃ = 𝑌𝑋′(𝑋𝑋′) −1 , donde Σ̃ 𝜀𝜀−1 y 𝐶̃ son los estimadores de mínimos cuadrados correspondientes al modelo de rango completo. Al escoger 𝛼 = |Σ̃ 𝜀𝜀−1 | se facilitará la maximización de 𝑙𝑛ℒ(𝐶; 𝜀) . Entonces, hay que minimizar 𝛼|𝑊| = |Σ̃ 𝜀𝜀−1 ||𝑊| = |Σ̃ 𝜀𝜀−1 𝑊| . Podemos expresar W en términos de Σ̃ 𝜀𝜀 y Σ̂ 𝑥𝑥 = 𝑋𝑋′ : 𝑊 = 1𝑇 𝜀𝜀 ′ = 1𝑇 (𝑌 − 𝐴𝐵𝑋)(𝑌 − 𝐴𝐵𝑋) ′ = 1𝑇 (𝑌 − 𝐶̃𝑋 + 𝐶̃𝑋 + 𝐴𝐵𝑋)(𝑌 − 𝐶̃𝑋 + 𝐶̃𝑋 + 𝐴𝐵𝑋) ′ = 1𝑇 ((𝑌 − 𝐶̃𝑋) + (𝐶̃ − 𝐴𝐵)𝑋) ((𝑌 − 𝐶̃𝑋) + 𝑋 ′(𝐶̃−𝐴𝐵) ) ′ = 1𝑇 ((𝑌 − 𝐶̃𝑋)(𝑌 − 𝐶̃𝑋) ′ + (𝐶̃ − 𝐴𝐵)𝑋(𝑌 − 𝐶̃𝑋) ′ + (𝑌 − 𝐶̃𝑋)𝑋′(𝐶̃ − 𝐴𝐵)′+ (𝐶̃ − 𝐴𝐵)𝑋𝑋′(𝐶̃ − 𝐴𝐵)′) Pero (𝐶̃ − 𝐴𝐵)𝑋(𝑌 − 𝐶̃𝑋) ′ = (𝑌𝑋 ′ (𝑋𝑋 ′ ) −1 − 𝐴𝐵)𝑋(𝑌 − 𝑌𝑋 ′ (𝑋𝑋 ′ ) −1 𝑋) ′ =(𝑌𝑋 ′ (𝑋 ′ ) −1 𝑋 −1 𝑋 − 𝐴𝐵𝑋)(𝑌 − 𝑌𝑋 ′ (𝑋 ′ ) −1 𝑋 −1 𝑋) ′ = (𝑌 − 𝐴𝐵𝑋)(𝑌 − 𝑌) ′ = 0 Así que

𝑊 = 1𝑇 ((𝑌 − 𝐶̃𝑋)(𝑌 − 𝐶̃𝑋) ′ + (𝐶̃ − 𝐴𝐵)𝑋𝑋′(𝐶̃ − 𝐴𝐵)′) = Σ̃ 𝜀𝜀 + (𝐶̃ − 𝐴𝐵)Σ̂ 𝑥𝑥 (𝐶̃ − 𝐴𝐵)′ Con esto el criterio a minimizar para obtener el estimador máximo verosímil de 𝐴 y 𝐵 es: |Σ̃ 𝜀𝜀−1 𝑊| = |Σ̃ 𝜀𝜀−1 (Σ̃ 𝜀𝜀 + (𝐶̃ − 𝐴𝐵)Σ̂ 𝑥𝑥 (𝐶̃ − 𝐴𝐵)′)| = |𝐼 𝑚 + Σ̃ 𝜀𝜀−1 (𝐶̃ − 𝐴𝐵)Σ̂ 𝑥𝑥 (𝐶̃ − 𝐴𝐵)′| El determinante de una matriz es igual al producto de sus eigenvalores. Además si

𝑄 ≠ 𝐼 y 𝜆 es eigenvalor de 𝑄 entonces es eigenvalor de 𝐼 + 𝑄 por lo que: |Σ̃ 𝜀𝜀−1

𝑊| = |𝐼 𝑚 + Σ̃ 𝜀𝜀−1 (𝐶̃ − 𝐴𝐵)Σ̂ 𝑥𝑥 (𝐶̃ − 𝐴𝐵) ′ | = ∏(1 + 𝜆 𝑖2 ) 𝑚𝑖=1 donde 𝜆 𝑖2 es el 𝑖 -esimo eigenvalor más grande de Σ̃ 𝜀𝜀−1 (𝐶̃ − 𝐴𝐵)Σ̂ 𝑥𝑥 (𝐶̃ − 𝐴𝐵) ′ . Los eigenvalores de R −1 𝑄 también son eigenvalores de R −1/2 𝑄R −1/2 siempre y cuando R sea simétrica positiva definida así que 𝜆 𝑖2 es el 𝑖 -esimo eigenvalor más grande de Σ̃ 𝜀𝜀−1/2 (𝐶̃ − 𝐴𝐵)Σ̂ 𝑥𝑥 (𝐶̃ − 𝐴𝐵) ′ Σ̃ 𝜀𝜀−1/2 . Por lo tanto minimizar |Σ̃ 𝜀𝜀−1 𝑊| corresponde a minimizar ∏ (1 + 𝑚𝑖=1 𝜆 𝑖2 ) donde 𝜆 𝑖2 son los eigenvalores de : Σ̃ 𝜀𝜀−1/2 (𝐶̃ − 𝐴𝐵)Σ̂ 𝑥𝑥 (𝐶̃ − 𝐴𝐵) ′ Σ̃ 𝜀𝜀−1/2 = (𝑆 − 𝑃)(𝑆 − 𝑃)′ con 𝑆 = Σ̃ 𝜀𝜀−1/2

𝐶̃Σ̂ 𝑥𝑥1/2

𝑃 = Σ̃ 𝜀𝜀−1/2

𝐴𝐵Σ̂ 𝑥𝑥1/2

Observar que 𝑆 está fija y 𝑃 hay que determinarla de tal forma que los eigenvalores, 𝜆 𝑖2 , de =(𝑆 − 𝑃)(𝑆 − 𝑃)′ se minimicen simultáneamente, lo que equivale a que se minimicen los valores singulares, 𝜆 𝑖 , de 𝑆 − 𝑃 . Ahora por el teorema 2.3.3.1 todos los valores singulares de

𝑆 − 𝑃 se minimizan simultáneamente si y solo sí

𝑃 = 𝑉 (𝑟) 𝐷 (𝑟) 𝑈 (𝑟)′ sonde 𝑆 = 𝑉𝐷𝑈′ es la descomposición en valores singulares de 𝑆 . Recordando que 𝑃 = 𝑀𝑁 con

𝑁 = 𝑈 (𝑟)′ y 𝑀 =𝑉 (𝑟) 𝐷 (𝑟) = 𝑆𝑈 (𝑟) tenemos que: 𝑃 = 𝑆𝑈 (𝑟) 𝑈 (𝑟)′ = ( Σ̃ 𝜀𝜀−1/2 𝐶̃Σ̂ 𝑥𝑥1/2 )𝑈 (𝑟) 𝑈 (𝑟)′ = Σ̃ 𝜀𝜀−1/2 𝐴𝐵Σ̂ 𝑥𝑥1/2 ⇒ 𝐴𝐵 = (𝐶̃Σ̂ 𝑥𝑥1/2 𝑈 (𝑟) )(𝑈 (𝑟)′ Σ̂ 𝑥𝑥−1/2 ) con A = 𝐶̃Σ̂ 𝑥𝑥1/2 𝑈 (𝑟) = 𝑌𝑋′(𝑋𝑋′) −1 Σ̂ 𝑥𝑥1/2 𝑈 (𝑟) = Σ̂ 𝑦𝑥 Σ̂ 𝑥𝑥−1/2 𝑈 (𝑟) y B = 𝑈 (𝑟)′ Σ̂ 𝑥𝑥−1/2 . La única diferencia con los estimadores del teorema 2.3.2.2 es que en ese caso se definió S =Γ Σ 𝑦𝑥 Σ 𝑥𝑥−1/2 y en este caso tenemos que 𝑆 = Σ̃ 𝜀𝜀−1/2

𝐶̃Σ̂ 𝑥𝑥1/2 = Σ̃ 𝜀𝜀−1/2 Σ̂ 𝑦𝑥 Σ̂ 𝑥𝑥−1/2 . Es decir que si se selecciona Γ = Σ̃ 𝜀𝜀−1/2 y se estiman las matrices de covarianza con las covarianzas muestrales se obtienen estimadores máximo verosímiles. Resulta que con la selección

Γ =Σ̂ 𝑦𝑦−1 = 𝑌𝑌′ también se obtienen estimadores máximo verosímiles A ∗ y B ∗ ya que, aunque A ∗ ≠ 𝐴 y B ∗ ≠ 𝐵 resulta que A ∗ B ∗ = 𝐴𝐵 . Para ver esto llamemos a 𝑈 a la matriz de 𝑟 eigenvectores de S S donde 𝑆 = Σ̃ 𝜀𝜀−1/2 Σ̂ 𝑦𝑥 Σ̂ 𝑥𝑥−1/2 y 𝑈 la matriz de 𝑟 eigenvectores de S S donde 𝑆 = Σ̂ 𝑦𝑦−1/2 Σ̂ 𝑦𝑥 Σ̂ 𝑥𝑥−1/2 . Entonces, tenemos que 𝐴𝐵 = Σ̂ 𝑦𝑥 Σ̂ 𝑥𝑥−1/2 𝑈 𝑈 Σ̂ 𝑥𝑥−1/2 𝑦 A ∗ B ∗ = Σ̂ 𝑦𝑥 Σ̂ 𝑥𝑥−1/2 𝑈 𝑈 Σ̂ 𝑥𝑥−1/2 Es claro que para que A ∗ B ∗ = 𝐴𝐵 , debe ser cierto que 𝑈 𝑈 = 𝑈 𝑈 . Para ver que esto es cierto basta ver que S S y S S tienen el mismo espacio nulo, lo que significa que sus eigenvectores ocupan el mismo subespacio de ℝ 𝑛 . Como además, las columnas de 𝑈 y 𝑈 son ortonormales se puede realizar la siguiente descomposición de la base canónica: 𝑈 𝑈 = 𝑈 𝑈 = 𝐼 𝑛 − 𝑅𝑅′ donde las columnas de 𝑅 son 𝑛 − 𝑟 vectores ortonormales que conforman una base para el espacio nulo de S S y S S . En resumen, para estimar las matrices 𝐴 y 𝐵 hay que resolver el problema de eigenvalores: 𝑆 = Σ̂ 𝑦𝑦−1/2 Σ̂ 𝑦𝑥 Σ̂ 𝑥𝑥−1/2 (S S )𝑥 = (Σ̂ 𝑥𝑥−1/2 Σ̂ 𝑥𝑦 Σ̂ 𝑦𝑦−1 Σ̂ 𝑦𝑥 Σ̂ 𝑥𝑥−1/2 )𝑥 = 𝜆 𝑥 Como Σ̂ 𝑥𝑥 es simétrica positiva definida existe y ∈ ℝ 𝑚 tal que x = Σ̂ 𝑥𝑥1/2 𝑦 . Sustituyendo en la ecuación anterior y multiplicando por la izquierda por Σ̂ 𝑥𝑥1/2 llegamos al siguiente problema de eigenvalores generalizado: Σ̂ 𝑥𝑥1/2 (Σ̂ 𝑥𝑥−1/2 Σ̂ 𝑥𝑦 Σ̂ 𝑦𝑦−1 Σ̂ 𝑦𝑥 Σ̂ 𝑥𝑥−1/2 )(Σ̂ 𝑥𝑥1/2 𝑦) = 𝜆 Σ̂ 𝑥𝑥1/2 (Σ̂ 𝑥𝑥1/2 𝑦) ⇒ (Σ̂ 𝑥𝑦 Σ̂ 𝑦𝑦−1 Σ̂ 𝑦𝑥 )𝑦= 𝜆 Σ̂ 𝑥𝑥 𝑦 La solución para 𝐴 y 𝐵 en términos de los eigenvalores del problema generalizado es más sencilla: A = Σ̂ 𝑦𝑥 Σ̂ 𝑥𝑥−1/2 𝑈 (𝑟) = Σ̂ 𝑦𝑥 𝑊 (𝑟) 𝑦 B′ = Σ̂ 𝑥𝑥−1/2 𝑈 (𝑟) = 𝑊 (𝑟) Con 𝑊 (𝑟) = Σ̂ 𝑥𝑥−1/2 𝑈 (𝑟) = [Σ̂ 𝑥𝑥−1/2 𝑈 ∗1 , Σ̂ 𝑥𝑥−1/2 𝑈 ∗2 , … , Σ̂ 𝑥𝑥−1/2 𝑈 ∗𝑟 ] = [𝑊 ∗1 , 𝑊 ∗2 , … , 𝑊 ∗𝑟 ] donde 𝑊 ∗𝑖 es el eigenvector del problema generalizado que corresponde al 𝑖 -ésimo eigenvalor más grande. En términos del problema del análisis de cointegración y la estimación de α y β en el MCE: ∇𝑋 𝑡 = Γ + αβ′𝑋 𝑡−1 − Γ ∇𝑋 𝑡−1 − Γ ∇𝑋 𝑡−2 − ⋯ − Γ 𝑘 ∇𝑋 𝑡−𝑘+1 + 𝜀 𝑡 Hay que seguir los siguientes pasos: 1.

Calcular 𝜀̂ = R del modelo ∇𝑋 𝑡 = a + a ∇𝑋 𝑡−1 a ∇𝑋 𝑡−2 + ⋯ + a 𝑘 ∇𝑋 𝑡−𝑘+1 + 𝜀 Calcular 𝜀̂ = R del modelo 𝑋 𝑡−1 = b + b ∇𝑋 𝑡−1 b ∇𝑋 𝑡−2 + ⋯ + b 𝑘 ∇𝑋 𝑡−𝑘+1 + 𝜀 Calcular S = 𝐶𝑜𝑣̂ (R , R ) = R R , S = 𝐶𝑜𝑣̂ (R , R ) = R R y S =𝐶𝑜𝑣̂ (R , R ) = R R Resolver el problema de eigenvectores-eigenvalores: (S 𝑆 S )𝑦 = 𝜆 S 𝑦 Calcular α̂ y β̂ : α̂ = S 𝑊 (𝑟) 𝑦 β̂ = 𝑊 (𝑟) con 𝑊 (𝑟) = [𝑊 ∗1 , 𝑊 ∗2 , … , 𝑊 ∗𝑟 ] donde 𝑊 ∗𝑖 es el eigenvector del problema generalizado que corresponde al 𝑖 -ésimo eigenvalor más grande. Para encontrar los estimadores de α ⊥ y β ⊥ considerar el problema de eigenvectores-eigenvalores anterior (primal) y el problema dual asociado: (S 𝑆 S )𝑥 = 𝜆 S 𝑥 (S 𝑆 S )𝑦 = 𝛿 S 𝑦 Partiendo del la primera ecuación, multiplicando por la derecha por S 𝑆 obtenemos: S 𝑆 (S 𝑆 S )𝑥 = 𝜆 S 𝑥 Sustituyendo 𝑤 = S 𝑥 se obtiene: (S 𝑆 S )𝑆 𝑤 = 𝜆 w Ahora como S es simétrica positiva definida, existe y ∈ ℝ 𝑝 tal que w = S 𝑦 con lo que llegamos al problema de eigenvectores-eigenvalores dual: (S 𝑆 S )𝑦 = 𝜆 S 𝑦 Notar que 𝜆 = 𝛿 y que 𝑤 = S 𝑥 = S 𝑦 por lo que la relación entre los eigenvectores de los dos problemas es: 𝑦 = 𝑆 S 𝑥 Donde x es eigenvector del problema primal y y del dual. De forma análoga se obtiene que: 𝑥 = 𝑆 S 𝑦 Sea que

𝑊 = [𝑊 ∗1 , 𝑊 ∗2 , … , 𝑊 ∗𝑝 ] , 𝑊 (𝑟) = [𝑊 ∗1 , 𝑊 ∗2 , … , 𝑊 ∗𝑟 ] y 𝑊 (𝑘) = [𝑊 ∗𝑟+1 , 𝑊 ∗𝑟+2 , … , 𝑊 ∗𝑝 ] donde 𝑘 = 𝑝 − 𝑟 y 𝑊 ∗𝑖 es el eigenvector del problema primal asociado al 𝑖 -ésimo eigenvalor más grande. Análogamente, sea que 𝑍 = [𝑍 ∗1 , 𝑍 ∗2 , … , 𝑍 ∗𝑝 ] , 𝑍 (𝑟) = [𝑍 ∗1 , 𝑍 ∗2 , … , 𝑍 ∗𝑟 ] y 𝑍 (𝑘) =[𝑍 ∗𝑟+1 , 𝑍 ∗𝑟+2 , … , 𝑍 ∗𝑝 ] donde 𝑍 ∗𝑖 es el eigenvector del problema dual asociado al 𝑖 -ésimo eigenvalor más grande. Entonces tenemos las siguientes relaciones: 𝑍 = 𝑆 S 𝑊 𝑦 𝑊 = 𝑆 S 𝑍 Recordar que buscamos α̂ ⊥ y β̂ ⊥ tal que: α̂ ⊥′ α̂ = α̂ ⊥′ S 𝑊 (𝑟) = 0 β̂ ⊥′ β̂ = β̂ ⊥′ 𝑊 (𝑟) Ahora los eigenvectores de un problema generalizado de la forma

L𝑥 = 𝜆 M𝑥 donde 𝑀 es positiva definida, son conjugados con respecto a 𝑀 : es decir que si 𝑥 𝑖 y 𝑥 𝑗 son dos eigenvectors distintos se cumple que 𝑥 𝑖′ 𝑀𝑥 𝑗 = 0 . Esto significa que: 𝑊 (𝑘)′ 𝑆 𝑊 (𝑟) = 0 ∈ ℝ 𝑘𝑥𝑟 Usando la ecuación

𝑊 = 𝑆 S 𝑍 , tenemos que : 𝑊 (𝑘)′ 𝑆 𝑊 (𝑟) = (𝑍 (𝑘)′ 𝑆 𝑆 )𝑆 𝑊 (𝑟) = 𝑍 (𝑘)′ 𝑆 𝑊 (𝑟) = 0 De aquí se puede ver que: α̂ ⊥ = 𝑍 (𝑘) 𝑦 β̂ ⊥ = 𝑆 𝑍 (𝑘) Para obtener intervalos de confianza y pruebas de hipótesis para α̂ , β̂ , α̂ ⊥ y β̂ ⊥ es necesario derivar la distribución asintótica de estos estimadores. Para una derivación de la distribución de los estimadores máximo verosímiles se refiere al lector a la exposición de Reinsel y Velu (1998). En esta sección se enuncia, sin demostración, un resultado complementario que se usará más adelante, en la aplicación de análisis de cointegración al mercado de deuda de Norteamérica. El siguiente teorema y su demostración se pueden encontrar en Gonzalo y Granger (1995).

Teorema 2.3.4.1 . Sea

𝐺 ∈ ℝ 𝑝𝑥𝑚 y 𝜃 ∈ ℝ 𝑚𝑥𝑘 con 𝑘 = 𝑝 − 𝑟 y 𝑘 ≤ 𝑚 < 𝑝 . Bajo la hipótesis ℋ0: 𝛼 ⊥ = 𝐺𝜃 se puede encontrar el estimador de máxima verosimilitud para 𝛼 ⊥ de la siguiente forma: 1. Resolver el siguiente problema eigenvalores-eigenvectores generalizado: (𝐺′S 𝑆 S 𝐺)𝑦 = 𝜆 (G′S 𝐺)𝑦 obteniendo los eigenvalores 𝜆 ℋ0.12 > 𝜆

ℋ0.22 > ⋯ > 𝜆

ℋ0.𝑚2 y la matriz de eigenvectores normalizados

𝑀 = [𝑀 ∗1 , 𝑀 ∗2 , … , 𝑀 ∗𝑚 ] . 2. Seleccionar 𝜃̂ = [𝑀 ∗((𝑚+1)−(𝑝−𝑟)) , … , 𝑀 ∗𝑚 ] 𝑦 α̂ ⊥ = 𝐺𝜃̂ La función de verosimilitud maximizada queda: ℒ 𝑚𝑎𝑥 (ℋ0) ∝ |𝑆 | ( ∏ (1 − 𝜆 ℋ0.(𝑖+𝑚−𝑝)2 ) 𝑝𝑖=𝑟+1 ) −1 Por lo que el estadístico de la prueba de razón de verosimilitudes para la hipótesis ℋ0 versus la hipótesis ℋ1: 𝛼 ⊥ = 𝐺 ∗ 𝜃 ∗ ≠ 𝐺𝜃 con 𝐺 ∗ ∈ ℝ 𝑝𝑥𝑝 y 𝜃 ∗ ∈ ℝ 𝑝𝑥𝑘 es: −2𝑙𝑛(ℋ0/ℋ1) = −𝑇 ∑ 𝑙𝑛{(1 − 𝜆 ℋ0.(𝑖+𝑚−𝑝)2 )/(1 − 𝜆 𝑖2 )} 𝑝𝑖=𝑟+1 ~𝜒 (𝑝−𝑟)(𝑝−𝑚)2 Está prueba se utilizará para determinar sí α ⊥ no depende (asumiendo que cualquier dependencia es lineal) de alguno de los componentes en X 𝑡 . En este trabajo 𝐺 ∗ = 𝐼 𝑝 , 𝜃 ∗ =𝜃 = α̂ ⊥ y G se conforma de m vectores canónicos distintos, de tal forma que, aquellos vectores canónicos excluidos corresponden a los componentes que se piensa no determinan el valor de α ⊥ .

3 Análisis Exploratorio

A continuación se muestran las tasas de interés de los tres países. Se puede apreciar que existe cierta evidencia gráfica que las 3 tasas de cada país están cointegradas. A continuación se grafican las tasas de interés agrupándolas por su plazo a vencimiento.

Jan2002 Jul2004 Jan2007 Jul2009 Jan2012

Estados Unidos % Jan2002 Jul2004 Jan2007 Jul2009 Jan2012

Canadá % Jan2002 Jul2004 Jan2007 Jul2009 Jan2012 Mé xico % Corto PlazoMediano PlazoLargo Plazo Observando las series de tiempo agrupadas por plazo se nota cierta evidencia gráfica de cointegración especialmente entre las tasas de Estados Unidos y Canadá. Para poder determinar el orden de integración de las series se realiza un análisis de desviaciones estándar de las series y sus diferencias conforme al enfoque de Box y Jenkins. También se realizan pruebas de hipótesis Dickey-Fuller para corroborar la existencia de una raíz unitaria en el polinomio de rezagos autorregresivo. Para referirnos a los componentes usaremos las siguiente notación: (cid:120)

Las variables 𝐸 , 𝐶 y 𝑀 se refieren a Estados Unidos, Canadá y México (cid:120) Los subíndices 𝐶𝑃 , 𝑀𝑃 y 𝐿𝑃 se refieren al corto, mediano y largo plazo (cid:120) ∇ 𝑠𝑑 (𝑥 𝑡 ) , indica que se toman d diferencias, cada una con rezago de s periodos. Jan2002 Jul2004 Jan2007 Jul2009 Jan2012

Corto Plazo

Jan2002 Jul2004 Jan2007 Jul2009 Jan2012

Mediano Plazo

Jan2002 Jul2004 Jan2007 Jul2009 Jan2012

Largo Plazo

Estados Unidos

CanadáMé xico Serie original Primera transformación (optima) Segunda transformación (óptima*) 𝑥 𝑡 𝝈(𝑥 𝑡 ) 𝒔 𝒅 𝝈 (𝛁 𝒔𝟏𝒅𝟏 (𝑥 𝑡 )) 𝒔 𝒅 𝝈 (𝛁 𝒔𝟐𝒅𝟐 (𝛁 𝒔𝟏𝒅𝟏 (𝑥 𝑡 ))) 𝐸 𝐶𝑃 𝐸 𝑀𝑃 𝐸 𝐿𝑃 𝐶 𝑐𝑝 𝐶 𝑀𝑝 𝐶 𝐿𝑝 𝑀 𝐶𝑃 𝑀 𝑀𝑃 𝑀 𝐿𝑃 𝒔 y 𝒅 , en el sentido que minimizan la desviación estándar de la serie Siguiendo la metodología propuesta por Guerrero (2003) determinamos el orden de integración de la serie observando la desviación estándar de la serie transformada, como función del número de diferencias, y del rezago de éstas. Para cada serie, la desviación estándar se minimiza tomando una diferencia con rezago de un periodo. Esto parece indicar que las series son integradas de orden uno. Confirmamos aplicando pruebas Dickey-Fuller.

AIC de AR de orden k Número de rezagos óptimo Estadístico Dickey-Fuller Aumentado K=0 K=1 K=2 K=3 𝐸 𝐶𝑃 𝐸 𝑀𝑃 𝐸 𝐿𝑃 𝐶 𝑐𝑝 𝐶 𝑀𝑝 𝐶 𝐿𝑝 𝑀 𝐶𝑃 𝑀 𝑀𝑃 𝑀 𝐿𝑃 La tabla muestra el estadístico de prueba Dickey-Fuller Aumentado para cada serie, tomando en cuenta el número de términos autorregresivos óptimo, según el Criterio de Información de Akaike (AIC). Únicamente se tomaron en cuenta rezagos hasta de orden tres tomando en cuenta que se trata de series de tiempo financieras con periodicidad mensual. Los valores críticos para 144 observaciones son -3.46 (1%), -2.88 (5%) y -2.57%, por lo que en ningún caso se rechaza la hipótesis nula de que existe una raíz unitaria.

4 Análisis de Cointegración

Se realiza el análisis de cointegración sobre grupos de tasas de interés distintos: 1.

Se obtienen los componentes permanentes de cada país y luego se realiza un análisis de cointegración de todos los componentes permanentes. 2.

Se realiza el análisis de cointegración sobre el vector completo de dimensión 9.

A continuación se muestran los valores del AIC para modelos VAR para las 3 series estimados con distinto número de rezagos.

Número de Rezagos 1 2 3

AIC -1566.6 -1599.5 -1596.9

Usaremos un VAR de orden 2, sugerido por el AIC, para el análisis de cointegración. A continuación se muestran los resultados de la prueba de cointegración de las tasas de corto, mediano y largo plazo de Estados Unidos.

H0 r Traza Traza-95% r = 0 0 25.7178 29.8 r <= 1 1 8.6487 15.41 r <= 2 2 0.8098 3.84

Se acepta la primer hipótesis nula que indica que el orden de cointegración es cero. Este primer resultado ya contrasta con los de Gonzalo y Granger para el periodo de 1969-1988 en los que el espacio de cointegración es de dos. Dado que no hay relaciones de cointegración entre las tasas de Estados Unidos no existe una descomposición P-T de su VAR. A continuación se muestran los valores del AIC para modelos VAR para las 3 series estimados con distinto número de rezagos.

Número de Rezagos 1 2 3

AIC -1563.3 -1566.5 -1578.5

Usaremos un VAR de orden 3, sugerido por el AIC, para el análisis de cointegración. A continuación se muestran los resultados de la prueba de cointegración de las tasas de corto, mediano y largo plazo de Canadá.

H0 r Traza Traza-95% r = 0 0 34.2 29.8 r <= 1 1 4.4 15.41 r <= 2 2 0.6 3.84

En este caso se rechaza la hipótesis nula de que el espacio de cointegración es de orden cero y se acepta que es menor o igual a uno por lo que se concluye que la dimensión del espacio de cointegración es uno. Para el periodo estudiado por Gonzalo y Granger la dimensión del espacio de cointegración es dos. Parece que tanto en el caso de Estados Unidos como de Canadá el grado de complejidad del sistema, medido por el número de factores de largo plazo, ha incrementado. A continuación se presenta la descomposición P-T propuesta por Gonzalo y Granger. 𝛼 𝛽 𝐴 𝑧 𝑧 𝑧 𝐶 𝑐𝑝 𝐶 𝑀𝑝 -0.772 -0.455 -0.748 𝐶 𝐿𝑝 -0.303 0.286 -1.527 𝛼 ⊥ 𝛽 ⊥ 𝐴 𝑓 𝑓 𝑓 𝑓 𝑓 𝑓 𝐶 𝑐𝑝 𝐶 𝑀𝑝 𝐶 𝐿𝑝 -0.814 -0.019 0.289 0.818 -1.527 0.827 A continuación se realizan pruebas de hipótesis para corroborar de qué variables del sistema dependen los dos factores permanentes encontrados. Como el espacio de tendencias comunes es de dimensión dos y hay tres variables en el sistema, los factores dependen de dos o tres de las tasas. Cada renglón de la tabla corresponde a la hipótesis nula de que los factores no dependen de la tasa de interés indicada. Por ejemplo, el primer renglón corresponde a la siguiente hipótesis nula: 𝛼 ⊥ = 𝐺𝜃 con 𝐺 = (0 01 00 1)

𝐺 ∈ ℝ 𝑝𝑥𝑚

Prueba 𝐻 : 𝛼 ⊥ = 𝐺𝜃 Número de tasas que no influyen en factores Número de tasas que componen 3 factores ( 𝑚 ) Tasas excluidas Grados de libertad Estadístico de prueba valor crítico valor-p 1 2 𝐶 𝐿𝑝

2 2.20E+01 5.991 0.000 1 2 𝐶 𝑀𝑝

2 9.98E+00 5.991 0.007 1 2 𝐶 𝑐𝑝

2 9.69E+00 5.991 0.008

Se rechazan las hipótesis que los factores de largo plazo del sistema de Canadá no dependen de las tasas de corto, mediano y largo plazo. A continuación se muestran los dos factores permanentes, el componente transitorio y la descomposición de cada tasa en su componente transitorio y permanente. Cabe resaltar que lo que se grafica en la última figura son los componentes transitorios ( 𝐴 𝑧 𝑡 ) y permanentes ( 𝐴 𝑓 𝑡 ) de las tres tasas que se obtienen a partir de combinaciones lineales de Jan2002 Jul2004 Jan2007 Jul2009 Jan2012 - - - Componentes Permanentes ft % Jan2002 Jul2004 Jan2007 Jul2009 Jan2012 - . . . . . . . Componentes Transitorios zt % f1 f2 z1Jan2002 Jul2004 Jan2007 Jul2009 Jan2012 Corto Plazo

Jan2002 Jul2004 Jan2007 Jul2009 Jan2012 - Mediano Plazo

Jan2002 Jul2004 Jan2007 Jul2009 Jan2012

Largo Plazo serie A1*ft A2*zt los factores transitorios ( 𝑧 𝑡 ) y permanentes ( 𝑓 𝑡 ) que definen el espacio de cointegración y el espacio de tendencias comunes respectivamente: 𝑋 𝑡 = 𝐴 𝑓 𝑡 + 𝐴 𝛽′𝑋 𝑡 = 𝐴 𝑓 𝑡 + 𝐴 𝑧 𝑡 A continuación se muestran los valores del AIC para modelos VAR para las 3 series estimados con distinto número de rezagos.

Número de Rezagos 1 2 3

AIC -840.0 -845.4 -848.0

H0 r Traza Traza-95% r = 0 0 29.0 29.8 r <= 1 1 8.6 15.41 r <= 2 2 1.5 3.84

Se acepta la primer hipótesis nula que indica que el orden de cointegración es cero. Dado que no hay relaciones de cointegración entre las tasas de México no existe una descomposición P-T de su VAR.

Del análisis por país determinamos que los sistemas de tasas de Estados Unidos, Canadá y México dependen, en el largo plazo, de tres, dos y tres factores respectivamente. Realizamos un análisis de cointegración sobre estos ocho factores para corroborar si el espacio de tendencias comunes de los tres países se puede reducir. A continuación se muestran los valores del AIC para modelos VAR para las 8 series estimados con distinto número de rezagos.

Número de Rezagos 1 2 3

AIC -3991.9 -4046.9 -4018.4

Usaremos un VAR de orden 2, como sugiere el AIC, para el análisis de cointegración.

H0 r Traza Traza-95% r = 0 0 186.1 159.3 r <= 1 1 131.1 125.4 r <= 2 2 81.1 95.5 r <= 3 3 50.0 69.6 r <= 4 4 23.3 47.7 r <= 5 5 11.3 29.8 r <= 6 6 3.9 15.4 r <= 7 7 0.5 3.8

Los espacios de cointegración y de tendencias comunes son de dimensión dos y seis respectivamente. Es decir que en el largo plazo, el sistema de nueve tasas de Estados Unidos, Canadá y México depende de 6 factores. A continuación se presenta la descomposición P-T del VAR de Estados Unidos, Canadá y México. 𝛼 𝛽 𝐴 𝑧 𝑧 𝑧 𝑧 𝑧 𝑧 𝑓 𝐸1 𝑓 𝐸2 𝑓 𝐸3 𝑓 𝐶1 𝑓 𝐶2 𝑓 𝑀1 -0.429 0.018 0.080 -0.006 2.175 0.552 𝑓 𝑀2 𝑓 𝑀3 -0.082 0.952 0.109 -0.238 0.115 -3.841 𝛼 ⊥ 𝑓 𝑓 𝑓 𝑓 𝑓 𝑓 𝑓 𝐸1 -0.301 -0.151 -0.291 -0.324 0.190 0.151 𝑓 𝐸2 𝑓 𝐸3 -0.396 0.173 0.118 -0.418 0.180 -0.636 𝑓 𝐶1 𝑓 𝐶2 -0.350 0.509 -0.263 0.621 -0.733 0.089 𝑓 𝑀1 -0.090 0.157 0.090 -0.046 0.157 0.033 𝑓 𝑀2 𝑓 𝑀3 -0.038 -0.052 -0.139 -0.041 0.065 0.000 𝛽 ⊥ 𝑓 𝑓 𝑓 𝑓 𝑓 𝑓 𝑓 𝐸1 𝑓 𝐸2 𝑓 𝐸3 𝑓 𝐶1 -0.150 0.408 -0.139 0.046 -0.016 -0.116 𝑓 𝐶2 -0.005 -0.124 0.966 0.001 0.030 -0.057 𝑓 𝑀1 𝑓 𝑀2 -0.235 -0.135 0.002 0.073 0.743 0.219 𝑓 𝑀3 𝐴 𝑓 𝑓 𝑓 𝑓 𝑓 𝑓 𝑓 𝐸1 -0.473 0.287 -1.465 -0.699 0.602 1.373 𝑓 𝐸2 𝑓 𝐸3 -0.671 0.302 0.690 -1.513 -0.341 1.078 𝑓 𝐶1 𝑓 𝐶2 -0.515 0.478 -0.279 0.181 -0.420 0.326 𝑓 𝑀1 -2.141 0.802 1.663 2.893 3.125 -0.031 𝑓 𝑀2 -2.060 -1.918 1.051 2.175 1.436 0.569 𝑓 𝑀3 -2.298 -2.379 0.956 0.803 0.457 0.407 Como el espacio de tendencias comunes es de dimensión seis y hay ocho variables en el sistema, los factores dependen de seis, siete u ocho de las variables. Dicho de otra forma en cada prueba de hipótesis se puede escoger, una o dos tasas a excluir para ver si al no rechazar la hipótesis nula corroboramos que el sistema no depende de alguna o algunas tasas. Se probaron todas las 28 posibilidades (combinaciones de 2 en 8). Únicamente se presentan resultados para las tres pruebas con valor-p más grande. Es decir, aquellas más lejanas de ser rechazadas. 𝐺 ∈ ℝ 𝑝𝑥𝑚

Prueba 𝐻 : 𝛼 ⊥ = 𝐺𝜃 Número de tasas que no influyen en factores Número de tasas que componen 6 factores ( 𝑚 ) Tasas excluidas Grados de libertad Estadístico de prueba valor crítico valor-p 1 7 𝑓 𝑀2

6 2.88E+01 12.59159 0.000 1 7 𝑓 𝐸1

6 2.29E+01 12.59159 0.001 1 7 𝑓 𝑀3

6 2.05E+01 12.59159 0.002

A partir de las pruebas de hipótesis se concluye que el sistema depende de los ocho factores encontrados por medio del análisis por país. Como los dos factores de Canadá dependen de las tres tasas de interés del sistema de Canadá se concluye que, aún cuando existe cointegración de orden tres, las nueves tasas de interés impulsan al sistema. A continuación se muestran los dos factores permanentes, el componente transitorio y la descomposición de cada tasa en su componente transitorio y permanente.

Jan2002 Jul2004 Jan2007 Jul2009 Jan2012 - - - Componentes Permanentes ft % Jan2002 Jul2004 Jan2007 Jul2009 Jan2012 - . - . . . . Componentes Transitorios zt % f1f2 f3f4 f5f6 z1 Jan2002 Jul2005 Jan2009 Jul2012

Factor 1 E s t a do s U n i do s Jan2002 Jul2005 Jan2009 Jul2012 - Factor 2

Jan2002 Jul2005 Jan2009 Jul2012 - Factor 3

Jan2002 Jul2005 Jan2009 Jul2012 - . - . - . . C a n a d á Jan2002 Jul2005 Jan2009 Jul2012 . . . serie A1*ft A2*ztJan2002 Jul2005 Jan2009 Jul2012 M é x i c o Jan2002 Jul2005 Jan2009 Jul2012

Jan2002 Jul2005 Jan2009 Jul2012 Ahora realizamos el análisis de cointegración sobre el sistema de tasas de Estados Unidos, Canadá y México de forma conjunta. A continuación se muestran los valores del AIC para modelos VAR para las 9 series estimados con distinto número de rezagos.

Número de Rezagos 1 2 3

AIC -4257.5 -4327.5 -4285.9

Usaremos un VAR de orden 2, sugerido por el AIC, para el análisis de cointegración.

H0 r Traza Traza-95% r = 0 0 261.2481 197.22 r <= 1 1 183.9663 159.32 r <= 2 2 129.2111 125.42 r <= 3 3 83.5109 95.51 r <= 4 4 52.4413 69.61 r <= 5 5 25.5274 47.71 r <= 6 6 10.9728 29.8 r <= 7 7 3.6175 15.41 r <= 8 8 0.2811 3.84

Los espacios de cointegración y de tendencias comunes del sistema conjunto tienen dimensión tres y seis respectivamente. En términos de la dimensión de los espacios de cointegración y de tendencias comunes llegamos al mismo resultado realizando el método por país o de forma conjunta. A continuación se presenta la descomposición P-T del VAR del sistema en componentes permanentes y transitorios. 𝛼 𝑧 𝑧 𝑧 𝐸 𝐶𝑃 -0.001 0.380 -0.296 𝐸 𝑀𝑃 -0.064 0.558 -0.022 𝐸 𝐿𝑃 -0.285 0.401 0.105 𝐶 𝑐𝑝 -0.666 -0.375 0.058 𝐶 𝑀𝑝 -0.002 0.419 0.137 𝐶 𝐿𝑝 -0.045 0.085 0.172 𝑀 𝐶𝑃 𝑀 𝑀𝑃 -0.210 0.230 0.017 𝑀 𝐿𝑃 𝛽 𝑧 𝑧 𝑧 𝐸 𝐶𝑃 𝐸 𝑀𝑃 -0.114 0.110 -0.170 𝐸 𝐿𝑃 -0.049 -0.274 -0.196 𝐶 𝑐𝑝 -0.177 -0.086 -0.229 𝐶 𝑀𝑝 𝐶 𝐿𝑝 -0.373 0.098 0.336 𝑀 𝐶𝑃 𝑀 𝑀𝑃 -0.071 -0.272 -0.016 𝑀 𝐿𝑃 𝐴 𝑧 𝑧 𝑧 𝐸 𝐶𝑃 𝐸 𝑀𝑃 𝐸 𝐿𝑃 𝐶 𝑐𝑝 -1.435 -0.417 -1.155 𝐶 𝑀𝑝 𝐶 𝐿𝑝 𝑀 𝐶𝑃 -0.762 1.725 1.502 𝑀 𝑀𝑃 𝑀 𝐿𝑃 𝛼 ⊥ 𝑓 𝑓 𝑓 𝑓 𝑓 𝑓 𝐸 𝐶𝑃 𝐸 𝑀𝑃 -0.590 0.017 0.124 -0.347 -0.025 0.720 𝐸 𝐿𝑃 𝐶 𝑐𝑝 𝐶 𝑀𝑝 𝐶 𝐿𝑝 𝑀 𝐶𝑃 𝑀 𝑀𝑃 -0.032 -0.168 -0.010 -0.224 -0.071 -0.045 𝑀 𝐿𝑃 𝛽 ⊥ 𝑓 𝑓 𝑓 𝑓 𝑓 𝑓 𝐸 𝐶𝑃 𝐸 𝑀𝑃 -0.120 0.032 0.193 -0.106 0.555 -0.631 𝐸 𝐿𝑃 -0.274 -0.097 0.709 0.137 -0.211 -0.053 𝐶 𝑐𝑝 𝐶 𝑀𝑝 𝐶 𝐿𝑝 𝑀 𝐶𝑃 𝑀 𝑀𝑃 𝑀 𝐿𝑃 -0.079 -0.126 0.310 -0.025 0.215 0.697 𝐴 𝑓 𝑓 𝑓 𝑓 𝑓 𝑓 𝐸 𝐶𝑃 𝐸 𝑀𝑃 -0.451 -0.264 0.238 0.954 0.674 2.015 𝐸 𝐿𝑃 𝐶 𝑐𝑝 𝐶 𝑀𝑝 𝐶 𝐿𝑝 𝑀 𝐶𝑃 𝑀 𝑀𝑃 𝑀 𝐿𝑃 Realizando el análisis por país llegamos a la conclusión que las nueve tasas de interés impulsan al sistema. Veamos si llegamos a conclusiones similares con el análisis conjunto. En este caso la dimensión del espacio de tendencias comunes es seis y el número total de variables es nueve. Esto significa que los factores se pueden componer de seis, siete, ocho o nueve variables. Dicho de otra forma en cada prueba de hipótesis se puede escoger, una, dos o tres tasas a excluir para ver si al no rechazar la hipótesis nula corroboramos que el sistema no depende de alguna o algunas tasas. Se probaron todas las 84 posibilidades (combinaciones de 3 en 9). Únicamente se presentan resultados para las tres pruebas con valor p más grande. Es decir, aquellas más lejanas de ser rechazadas. 𝐺 ∈ ℝ 𝑝𝑥𝑚

6 2.10E+01 12.592 0.002 2 7 𝐶 𝑐𝑝 , 𝑀 𝐿𝑃

12 2.99E+01 21.026 0.003 1 8 𝐸 𝐶𝑃

6 1.40E+01 12.592 0.030 1 8 𝐶 𝑐𝑝

6 8.26E+00 12.592 0.220

De acuerdo a estas pruebas de hipótesis la única tasa que no impulsa al sistema en el largo plazo es la de corto plazo de Canadá. A continuación se muestran los dos factores permanentes, el componente transitorio y la descomposición de cada tasa en su componente transitorio y permanente.

Jan2002 Jul2004 Jan2007 Jul2009 Jan2012 - Componentes Permanentes ft % Jan2002 Jul2004 Jan2007 Jul2009 Jan2012 - . - . - . - . . . . Componentes Transitorios zt % f1f2 f3f4 f5f6 z1 z2 z3 Jan2002 Jul2005 Jan2009 Jul2012

Corto Plazo E s t a do s U n i do s Jan2002 Jul2005 Jan2009 Jul2012

Mediano Plazo

Jan2002 Jul2005 Jan2009 Jul2012 - Largo Plazo

Jan2002 Jul2005 Jan2009 Jul2012 C a n a d á Jan2002 Jul2005 Jan2009 Jul2012 - Jan2002 Jul2005 Jan2009 Jul2012

Jan2002 Jul2005 Jan2009 Jul2012 M é x i c o Jan2002 Jul2005 Jan2009 Jul2012

Jan2002 Jul2005 Jan2009 Jul2012 serie A1*ft A2*zt Para el periodo de 1969-1988 Gonzalo y Granger observaron que todo el sistema de tasas de Estados Unidos y Canadá dependía de un solo factor. Además comprobaron que este factor se compone únicamente por las tasas de Estados Unidos. Para el periodo de 2002-2013 se observó un orden de cointegración mucho menor. Para el sistema de Estados Unidos no se observó relación de cointegración alguna y para Canadá el orden de cointegración es de uno, cuando en el periodo de 1969-1988 se observan órdenes de cointegración de dos en ambos sistemas. Además se encontró que los seis factores permanentes que impulsan el sistema se componen de las nueve tasas excepto, posiblemente, la de corto plazo de Canadá. Una posible explicación es que en realidad el espacio de tendencias comunes no ha incrementado pero los factores permanentes son más complejos y ya no son una función lineal de las tasas de interés. En este caso , la descomposición P-T de Gonzalo y Granger no sería adecuada para identificar los componentes permanente y transitorio. El hecho de que el periodo analizado incluye la crisis financiera de 2007-2008 le da credibilidad a esta hipótesis puesto que las relaciones de los mercados en épocas de crisis se vuelven más complejas. Por otro lado, puede ser que si existan seis factores permanentes. Esto se podría explicar a partir sistemas financieros en Canadá y México que han crecido en tamaño y sofisticación y que ya no dependen de la misma manera de lo que sucede en Estados Unidos.

5 Bibliografía

CHOI, S. y WOHAR, M. E. (1995). The expectations theory of interest rates: cointegration and factor decomposition.

International Journal of Forecasting . 11(2) 253 – Journal of Econometrics . 60(1) 203-233. GONZALO, J. y GRANGER C. (1995). Estimation of common long-memory components in cointegrated Systems.

Journal of Business & Economic Statistics . 13(1) 27 –

35. GUERRERO, V. (2003). Análisis estadístico de series de tiempo económicas, México: Editorial Thomson. JOHANSEN, S. (1988). Statistical analysis of cointegrating vectors.

Journal of Economic Dynamics and Control . 12(2) 231-254. JOHANSEN, S. (1991). Estimation and hypothesis testing of cointegration vectors in gaussian vector autoregressive models.

Econometrica . 59(6) 1551 – Oxford Bulletin of Economics and Statistics . 52(2) 169-210. JOHANSEN, S. y JUSELIUS, K. (2006). The cointegrated VAR model: methodology and applications, New York: Oxford University Press. RAO, C.R. (1979). Separation theorems for singular values of matrices and their applications in multivariate analysis.

Journal of Multivariate Analysis.

Biometrika . 73(1) 105-118. TSAY, R.S. (2010). Analysis of financial Time Series, New Jersey: John Wiley & Sons.

6 Anexo (Código en RATS)

A continuación se anexa el código en RATS con el que se realizó el análisis de cointegración. ****************************************************************************** * Análisis de Cointegración de las tasas de interés de Estados Unidos, * México y Canadá. Análogo al estudio realizdo por Gonzalo et al. (1995) * peropara el periodo de enero de 2002 a diciembre de 2013. ****************************************************************************** * Se cargan datos y se declara el periodo (mensual) de estudio. open data usaCanMex.rat calendar(m) 2002:1 data(format=rats) 2002:1 2013:12 ****************************************************************************** * Análisis exploratorio ****************************************************************************** * Se grafican las tasas de inters de corto, mediano y largo plazo, * respectivamente,de Estados Unidos, Canadá y México, respectivamente. graph(footer="Gráfica 1 Tasas de interés Estados Unidos",key=upleft) 3 * Pruebas Dickey-Fuller Aumentadas ****************************************************************************** * Se carga paquete con rutina para realizar prueba Dickey-Fuller Aumentada source dfunit.src * Para cada una de las 9 series se realiza la prueba Dickey-Fuller Aumentada * para corroborar la existencia de raices unitarias en el vector. report(action=define) report(atcol=2) "ADF(0)" "ADF(1)" "ADF(2)" "ADF(3)" "ADF(4)" dofor s = USAX3m USAX3y USAX10y CANX3m CANX3y CANX10y MEXX3m MEXX3y MEXX10y report(row=new,atcol=1) %L(s) do lags=0,4 @dfunit(lags=lags,noprint) s 2002:5-lags report(row=current,atcol=lags+2) %cdstat end do lags end dofor s report(action=format,picture="*. SMPL (2002:01+FIXLAG) 2013:12 LINREG(NOPRINT,DEFINE=EQ1) USAX3M / DISPLAY 'NOBS = ' %NOBS END DO ***************************** *Modelo VAR CANADÁ ***************************** * Se checaran modelos con 1,2,3 rezagos COMPUTE FIXLAG = 3 *Se definen modelos VAR con distinto numero de rezagos COMPUTE p=3 ;* Número de variables DO I = 1,3,1 SMPL (2002:01+FIXLAG) 2013:12 LINREG(NOPRINT,DEFINE=EQ1) CANX3m / * Se calcula el AIC y SBC para el modelo con k=I rezagos COMPUTE k = I EVAL AIC = (%NOBS)*LNDETCOV + 2.0*((p**2)*k+p) EVAL SBC = (%NOBS)*LNDETCOV + ((p**2)*k+p)*LOG(%NOBS) *EVAL AIC = (%NOBS-P)*LNDETCOV + 2.0*((p**2)*k+p) *EVAL SBC = (%NOBS-P)*LNDETCOV + ((p**2)*k+p)*LOG(%NOBS-P) * Se imprime el AIC y SBC para el modelo con k=I rezagos DISPLAY 'LAG=' k DISPLAY 'AIC-VALUE=' AIC DISPLAY 'SBC-VALUE=' SBC DISPLAY 'NOBS = ' %NOBS END DO ***************************** *Modelo VAR MÉXICO ***************************** * Se checaran modelos con 1,2,3 rezagos COMPUTE FIXLAG = 3 *Se definen modelos VAR con distinto numero de rezagos COMPUTE p=3 ;* Número de variables DO I = 1,3,1 SMPL (2002:01+FIXLAG) 2013:12 LINREG(NOPRINT,DEFINE=EQ1) MEXX3m / * Se estima la matriz de varianzas y covarianzas para el vector de errores * correspondiente del modelo con I rezagos SUR(NOPRINT,OUTSIGMA=UCOV,ITER=0) 3 2002:01+FIXLAG 2013:12 DO I = 1,3,1 SMPL (2002:01+FIXLAG) 2013:12 LINREG(NOPRINT,DEFINE=EQ1) USAX3M / ************************************************************************************ * Se realiza el procedimiento de Johansen para determinar el rango de la matriz pi * en el modelo de corrección de errores y para determina alfa y beta tal que * pi = alfa*t(beta) ************************************************************************************ SMPL (2002:01) 2013:12 *Se realiza procedimient de johansen para sistema "Estados Unidos" @johmle(lags=2,vectors=eusa,dual=dusa,eigenval=vusa, loadings=lusa) ********************************************************************************** * Se imprimen los distintos elementos necesarios para estimar alfa, * beta, alfa-ortogonal y beta-ortogonal ********************************************************************************** disp "Numero Observaciones" disp %nobs * Para el sistema "Estados Unidos" disp "United States" disp "Eigenvalues" disp "Eigenvalues" * se calcula alfa, alfa-ortogonal, beta y beta-ortogonal ********************************************************* compute alfaPerp=%xsubmat(djoint,1,p,r+1,p) compute alfa=%perp(alfaPerp) compute beta=%xsubmat(ejoint,1,p,1,r) compute betaPerp=%perp(beta) disp "alfa" disp ********************************************************************************** compute pweight=%xrow(a1*tr(alfaPerp),1) set pcomp = %dot(pweight,%eqnxvector(xeqn,t)) compute tweight=%xrow(a2*tr(beta),1) set tcomp = %dot(tweight,%eqnxvector(xeqn,t)) graph(footer="Estados Unidos: Descomposición tasa corto plazo",key=upleft) 3 60