1\chapter{Stima robusta della matrice di covarianza} 2\label{chap-robust-vcv} 3 4\section{Introduzione} 5\label{vcv-intro} 6 7Si consideri (ancora una volta) il modello di regressione lineare 8% 9\begin{equation} 10\label{eq:ols-again} 11y = X\beta + u 12\end{equation} 13% 14dove $y$ e $u$ sono vettori di dimensione $T$, $X$ � una matrice 15$T \times k$ di regressori, e $\beta$ � un vettore di parametri di 16dimensione $k$. Come � noto, lo stimatore di $\beta$ dato dai minimi 17quadrati ordinari (OLS) � 18% 19\begin{equation} 20\label{eq:ols-betahat} 21\hat{\beta} = (X'X)^{-1} X'y 22\end{equation} 23% 24Se la condizione $E(u|X) = 0$ � soddisfatta, questo stimatore � non distorto; 25sotto condizioni meno restrittive, lo stimatore � distorto ma consistente. � 26semplice mostrare che quando lo stimatore OLS non � distorto (ossia quando 27$E(\hat{\beta}-\beta) = 0$), la sua varianza � 28% 29\begin{equation} 30\label{eq:ols-varb} 31\mbox{Var}(\hat{\beta}) = 32 E\left((\hat{\beta}-\beta)(\hat{\beta}-\beta)'\right) 33 = (X'X)^{-1} X' \Omega X (X'X)^{-1} 34\end{equation} 35% 36dove $\Omega = E(uu')$ � la matrice di covarianza dei termini di errore. 37 38Sotto l'ipotesi che i termini di errore siano indipendenti e identicamente 39distribuiti (iid), si pu� scrivere $\Omega = \sigma^2 I$, dove $\sigma^2$ 40� la varianza (comune) degli errori (e le covarianze sono zero). In questo caso, 41la (\ref{eq:ols-varb}) si riduce alla ``classica'' formula, 42% 43\begin{equation} 44\label{eq:ols-classical-varb} 45\mbox{Var}(\hat{\beta}) = \sigma^2(X'X)^{-1} 46\end{equation} 47 48Se la condizione iid non � soddisfatta, ne derivano due conseguenze. Per prima 49cosa � possibile costruire uno stimatore pi� efficiente di quello OLS, ad 50esempio un qualche tipo di stimatore FGLS (Feasible Generalized Least Squares). 51Inoltre, la semplice formula ``classica'' per la varianza dello stimatore dei 52minimi quadrati non � pi� corretta, e quindi gli errori standard da essa 53derivati (ossia le radici quadrate degli elementi sulla diagonale della matrice 54definita dalla \ref{eq:ols-classical-varb}) non sono strumenti corretti per 55l'inferenza statistica. 56 57Nella storia recente dell'econometria ci sono due approcci principali al 58problema rappresentato dagli errori non iid. L'approccio ``tradizionale'' 59consiste nell'usare uno stimatore FGLS. Ad esempio, se l'ipotesi iid viene 60violata a causa di una dipendenza di tipo temporale tra i termini di errore, e 61se si ha ragione di pensare che questo si possa modellare con un processo di 62autocorrelazione del prim'ordine, si potrebbe utilizzare un metodo di stima 63AR(1), come quello di Cochrane--Orcutt, o di Hildreth--Lu, o di Prais--Winsten. 64Se il problema sta nel fatto che la varianza dell'errore non � costante tra le 65osservazioni, si potrebbe stimare la varianza come funzione delle variabili 66indipendenti e usare quindi i minimi quadrati ponderati, prendendo come pesi i 67reciproci delle varianze stimate. 68 69Mentre questi metodi sono tuttora utilizzati, un approccio alternativo sta 70guadagnando favore: usare lo stimatore OLS ma calcolare gli errori standard (o 71pi� in generale le matrici di covarianza) in modo che siano robusti rispetto 72alle deviazioni dall'ipotesi iid. Questo approccio � spesso associato all'uso di 73grandi dataset, abbastanza grandi da suggerire la validit� della propriet� di 74consistenza (asintotica) dello stimatore OLS, ed � stato reso possibile anche 75dalla disponibilit� di sempre maggiori potenze di calcolo: il calcolo degli 76errori standard robusti e l'uso di grandi dataset erano compiti scoraggianti 77fino a qualche tempo fa, ma ora non pongono alcun problema. Un punto a favore di 78questo approccio consiste nel fatto che, mentre la stima FGLS offre un 79vantaggio in termini di efficienza, spesso richiede di fare delle ipotesi 80statistiche aggiuntive, che potrebbero non essere giustificate, che potrebbe 81essere difficile testare, e che potrebbero mettere in discussione la consistenza 82dello stimatore; ad esempio, l'ipotesi di ``fattore comune'' che � 83implicata dalle tradizionali ``correzioni'' per i termini di errore 84autocorrelati. 85 86\textit{Introduction to Econometrics} di James Stock e Mark Watson illustra 87questo approccio in modo comprensibile agli studenti universitari: molti dei 88dataset usati sono composti da migliaia o decine di migliaia di osservazioni, la 89stima FGLS � poco considerata, mentre si pone l'enfasi sull'uso di errori 90standard robusti (in effetti la discussione degli errori standard classici nel 91caso di omoschedasticit� � confinata in un'appendice). 92 93Pu� essere utile passare in rassegna le opzioni fornite da \app{gretl} per la 94stima robusta della matrice di covarianza. Il primo punto da notare � che 95\app{gretl} produce errori standard ``classici'' come risultato predefinito 96(in tutti i casi tranne quello della stima GMM). In modalit� a riga di comando 97(o negli script) � possibile ottenere gli errori standard robusti aggiungendo 98l'opzione \verb|--robust| ai comandi di stima. Se si usa l'interfaccia grafica, 99le finestre di dialogo per la specificazione dei modelli contengono una casella 100``Errori standard robusti'', insieme a un pulsante ``Configura'' che viene 101attivato se si seleziona la casella. Premendo il pulsante si ottiene una 102finestra (raggiungibile anche attraverso il men� principale: Strumenti 103$\rightarrow$ Preferenze $\rightarrow$ Generali $\rightarrow$ HCCME), da cui � 104possibile scegliere tra diverse varianti di stima robusta, e anche rendere 105predefinita la stima robusta. 106 107Le specifiche opzioni disponibili dipendono dalla natura dei dati in esame 108(cross-section, serie storiche o panel) e anche, in qualche misura, dalla scelta 109dello stimatore (anche se finora si � parlato di errori standard robusti in 110relazione allo stimatore OLS, questi possono essere usati anche con altri 111stimatori). Le successive sezioni di questo capitolo presentano argomenti 112caratteristici di ognuno dei tre tipi di dati appena ricordati. Dettagli 113ulteriori riguardanti la stima della matrice di covarianza nel contesto GMM 114si trovano nel capitolo~\ref{chap:gmm}. 115 116Per concludere questa introduzione, ricordiamo ancora quello che gli ``errori 117standard robusti'' possono e non possono garantire: possono fornire un'inferenza 118statistica asintoticamente valida in modelli che sono correttamente specificati, 119ma in cui gli errori non sono iid. Il termine ``asintotico'' significa che 120questo approccio pu� essere poco utile su piccoli campioni. Il termine 121``correttamente specificati'' significa che non si ha una bacchetta 122magica: se il termine di errore � correlato con i regressori, le stime dei 123parametri sono distorte e inconsistenti, gli errori standard robusti non possono 124risolvere questo problema. 125 126\section{Dati cross-section e HCCME} 127\label{vcv-hccme} 128 129Con dati cross-section, la causa pi� comune di violazione dell'ipotesi iid � 130data dall'eteroschedasticit� (varianza non costante)\footnote{In alcuni contesti 131speciali, il problema pu� essere invece l'autocorrelazione spaziale. Gretl 132 non ha funzioni per gestire questo caso, che quindi verr� trascurato in questa 133 trattazione.}. Il alcuni casi � possibile fare delle ipotesi plausibili sulla 134forma specifica dell'eteroschedasticit� e quindi applicare una correzione ad 135hoc, ma di solito non si sa con che tipo di eteroschedasticit� si ha a che fare. 136Vogliamo quindi trovare uno stimatore della matrice di covarianza delle stime 137dei parametri che mantenga la sua validit�, almeno dal punto di vista 138asintotico, anche in caso di eteroschedasticit�. Che questo sia possibile non � 139ovvio a priori, ma White (1980) ha mostrato che 140% 141\begin{equation} 142\label{eq:ols-varb-h} 143\widehat{\mbox{Var}}_{\rm h}(\hat{\beta}) = 144 (X'X)^{-1} X' \hat{\Omega} X (X'X)^{-1} 145\end{equation} 146% 147fa al caso nostro (come al solito in statistica dobbiamo dire ``sotto alcune 148condizioni'', ma in questo caso le condizioni non sono molto restrittive). 149$\hat{\Omega}$ � una matrice diagonale i cui elementi diversi da zero possono 150essere stimati usando i quadrati dei residui OLS. White ha chiamato la 151(\ref{eq:ols-varb-h}) uno stimatore HCCME (heteroskedasticity-consistent covariance 152matrix estimator). 153 154Davidson e MacKinnon (2004, capitolo 5) offrono una discussione utile di 155alcune varianti dello stimatore HCCME di White. Chiamano HC$_0$ la variante 156originale della (\ref{eq:ols-varb-h}), in cui gli elementi diagonali di 157$\hat{\Omega}$ sono stimati direttamente con i quadrati dei residui OLS, 158$\hat{u}^2_t$ (gli errori standard associati sono chiamati spesso ``errori 159standard di White''). Le varie estensioni dell'approccio di White hanno in 160comune un punto: l'idea che i quadrati dei residui OLS siano probabilmente 161``troppo piccoli'' in media. Questa idea � piuttosto intuitiva: le stime OLS dei 162parametri, $\hat{\beta}$, per costruzione soddisfano il criterio che la somma 163dei quadrati dei residui 164% 165\[ 166\sum \hat{u}^2_t = \sum \left( y_t - X_t \hat{\beta} \right)^2 167\] 168% 169� minimizzata, dati $X$ e $y$. Si supponga che $\hat{\beta} \neq 170\beta$. � quasi certo che sia cos�: anche se OLS non � distorto, sarebbe un 171miracolo se i $\hat{\beta}$ calcolati da un campione finito fossero esattamente 172uguali a $\beta$. Ma in questo caso la somma dei quadrati dei veri errori (non 173osservati), $\sum u^2_t = \sum 174(y_t - X_t \beta)^2$ � certamente maggiore di $\sum \hat{u}^2_t$. 175Le varianti di HC$_0$ partono da questo punto nel modo seguente: 176% 177\begin{itemize} 178\item HC$_1$: applica una correzione per gradi di libert�, moltiplicando la 179 matrice HC$_0$ per $T/(T-k)$. 180\item HC$_2$: invece di usare $\hat{u}^2_t$ per gli elementi diagonali di 181 $\hat{\Omega}$, usa $\hat{u}^2_t/(1-h_t)$, dove $h_t = 182 X_t(X'X)^{-1}X'_t$, il $t^{\rm esimo}$ elemento diagonale della matrice di 183 proiezione, $P$, che ha la propriet� che $P\cdot y = \hat{y}$. La rilevanza di 184 $h_t$ sta nel fatto che se la varianza di tutti gli $u_t$ � 185 $\sigma^2$, il valore atteso di $\hat{u}^2_t$ � $\sigma^2(1-h_t)$, o in altre 186 parole, il rapporto $\hat{u}^2_t/(1-h_t)$ ha un valore atteso di 187 $\sigma^2$. Come mostrano Davidson e MacKinnon, $0\leq h_t <1$ per ogni 188 $t$, quindi questa correzione non pu� ridurre gli elementi diagonali di 189 $\hat{\Omega}$ e in generale li corregge verso l'alto. 190\item HC$_3$: Usa $\hat{u}^2_t/(1-h_t)^2$. Il fattore aggiuntivo 191 $(1-h_t)$ nel denominatore, relativo a HC$_2$, pu� essere giustificato col 192 fatto che le osservazioni con ampia varianza tendono a esercitare una grossa 193 influenza sulle stime OLS, cos� che i corrispondenti residui tendono ad essere 194 sottostimati. Si veda Davidson e MacKinnon per ulteriori dettagli. 195\end{itemize} 196 197I rispettivi meriti di queste varianti sono stati analizzati sia dal punto di 198vista teorico che attraverso simulazioni, ma sfortunatamente non c'� un consenso 199preciso su quale di esse sia ``la migliore''. Davidson e MacKinnon sostengono 200che l'originale HC$_0$ probabilmente si comporta peggio delle altre varianti, 201tuttavia gli ``errori standard di White'' sono citati pi� spesso delle altre 202varianti pi� sofisticate e quindi per motivi di comparabilit�, HC$_0$ � 203lo stimatore HCCME usato da \app{gretl} in modo predefinito. 204 205Se si preferisce usare HC$_1$, HC$_2$ o HC$_3$, � possibile farlo in due modi. 206In modalit� script, basta eseguire ad esempio 207% 208\begin{code} 209set hc_version 2 210\end{code} 211% 212Con l'interfaccia grafica, basta andare nella finestra di configurazione di 213HCCME come mostrato sopra e impostare come predefinita una delle varianti. 214 215 216\section{Serie storiche e matrici di covarianza HAC} 217\label{vcv-hac} 218 219L'eteroschedasticit� pu� essere un problema anche con le serie storiche, ma 220raramente � l'unico, o il principale, problema. 221 222Un tipo di eteroschedasticit� � comune nelle serie storiche macroeconomiche, ma 223� abbastanza semplice da trattare: nel caso di serie con una forte tendenza, 224come il prodotto interno lordo, il consumo o l'investimento aggregato, e simili, 225alti valori della variabile sono probabilmente associati ad alta variabilit� in 226termini assoluti. Il rimedio ovvio, usato da molti studi macroeconomici, 227consiste nell'usare i logaritmi di queste serie, al posto dei livelli. A patto 228che la variabilit� \textit{proporzionale} di queste serie rimanga abbastanza 229costante nel tempo, la trasformazione logaritmica � efficace. 230 231Altre forme di eteroschedasticit� possono sopravvivere alla trasformazione 232logaritmica e richiedono un trattamento distinto dal calcolo degli errori 233standard robusti. Ad esempio l'\textit{e\-te\-ro\-sche\-da\-sti\-ci\-t� autoregressiva 234condizionale} riscontrabile ad esempio nelle serie dei prezzi di borsa, dove 235grandi disturbi sul mercato possono causare periodi di aumento della volatilit�; 236fenomeni come questo giustificano l'uso di specifiche strategie di stima, come 237nei modelli GARCH (si veda il capitolo~\ref{chap:timeser}). 238 239Nonostante tutto questo, � possibile che un certo grado di eteroschedasticit� 240sia presente nelle serie storiche: il punto chiave � che nella maggior parte dei 241casi, questa � probabilmente combinata con un certo grado di correlazione 242seriale (autocorrelazione), e quindi richiede un trattamento speciale. 243Nell'approccio di White, $\hat{\Omega}$, la matrice di covarianza stimata degli 244$u_t$, rimane diagonale: le varianze, 245$E(u^2_t)$, possono differire per $t$, ma le covarianze, $E(u_t u_s)$, sono 246sempre zero. L'autocorrelazione nelle serie storiche implica che almeno alcuni 247degli elementi fuori dalla diagonale di $\hat{\Omega}$ possono essere diversi da 248zero. Questo introduce una complicazione evidente e un ulteriore termine da 249tenere presente: le stime della matrice di covarianza che sono asintoticamente 250valide anche in presenza di eteroschedasticit� e autocorrelazione nel processo 251di errore vengono definite HAC (heteroskedasticity and autocorrelation 252consistent). 253 254Il tema della stima HAC � trattato in termini pi� tecnici nel capitolo~\ref{chap:gmm}, 255qui cerchiamo di fornire un'intuizione basilare. Iniziamo da un commento 256generale: l'autocorrelazione dei residui non � tanto una propriet� dei dati, 257quanto il sintomo di un modello inadeguato. I dati possono avere propriet� 258persistenti nel tempo, ma se imponiamo un modello che non tiene conto 259adeguatamente di questo aspetto, finiamo con avere disturbi autocorrelati. Al 260contrario, spesso � possibile mitigare o addirittura eliminare il problema 261dell'autocorrelazione includendo opportune variabili ritardate in un modello di 262serie storiche, o in altre parole specificando meglio la dinamica del modello. 263La stima HAC \textit{non} dovrebbe essere considerata il primo strumento per 264affrontare l'autocorrelazione del termine di errore. 265 266Detto questo, la ``ovvia'' estensione dello stimatore HCCME di White al caso di 267errori autocorrelati sembra questa: stimare gli elementi fuori dalla diagonale 268di $\hat{\Omega}$ (ossia le autocovarianze, $E(u_t u_s)$) usando, ancora una 269volta, gli opportuni residui OLS: $\hat{\omega}_{ts} = \hat{u}_t \hat{u}_s$. 270Questo approccio sembra giusto, ma richiede una correzione importante: 271cerchiamo uno stimatore \textit{consistente}, che converga verso il vero 272$\Omega$ quando l'ampiezza del campione tende a infinito. Campioni pi� ampi 273permettono di stimare pi� elementi di $\omega_{ts}$ (ossia, per $t$ e $s$ 274pi� separati nel tempo), ma \textit{non} forniscono pi� informazione a proposito 275delle coppie $\omega_{ts}$ pi� distanti nel tempo, visto che la massima separazione nel 276tempo cresce anch'essa al crescere della dimensione del campione. Per assicurare 277la consistenza, dobbiamo confinare la nostra attenzione ai processi che 278esibiscono una dipendenza limitata nel tempo, o in altre parole interrompere il 279calcolo dei valori $\hat{\omega}_{ts}$ a un certo valore massimo di 280$p = t-s$ (dove $p$ � trattato come una funzione crescente dell'ampiezza 281campionaria, $T$, anche se non � detto che cresca proporzionalmente a $T$). 282 283La variante pi� semplice di questa idea consiste nel troncare il calcolo a un 284certo ordine di ritardo finito $p$, che cresce ad esempio come $T^{1/4}$. Il 285problema � che la matrice $\hat{\Omega}$ risultante potrebbe non essere 286definita positiva, ossia potremmo ritrovarci con delle varianze stimate 287negative. Una soluzione a questo problema � offerta dallo stimatore di 288Newey--West (Newey e West, 1987), che assegna pesi declinanti alle 289autocovarianze campionarie, man mano che la separazione temporale aumenta. 290 291Per capire questo punto pu� essere utile guardare pi� da vicino la 292matrice di covarianza definita nella (\ref{eq:ols-varb-h}), ossia, 293% 294\[ 295(X'X)^{-1} (X' \hat{\Omega} X) (X'X)^{-1} 296\] 297% 298Questo � noto come lo stimatore ``sandwich''. La fetta di pane � 299$(X'X)^{-1}$, ossia una matrice $k \times k$, che � anche l'ingrediente 300principale per il calcolo della classica matrice di covarianza. 301Il contenuto del sandwich � 302% 303\[ 304\begin{array}{ccccc} 305\hat{\Sigma} & = & X' & \hat{\Omega} & X \\ 306{\scriptstyle (k \times k)} & & 307{\scriptstyle (k \times T)} & {\scriptstyle (T \times T)} & 308 {\scriptstyle (T \times k)} 309\end{array} 310\] 311% 312Poich� $\Omega = E(uu')$, la matrice che si sta stimando pu� essere scritta 313anche come 314\[ 315\Sigma = E(X'u\,u'X) 316\] 317% 318che esprime $\Sigma$ come la covarianza di lungo periodo del vettore casuale 319$X'u$ di dimensione $k$. 320 321Dal punto di vista computazionale, non � necessario salvare la matrice 322$T \times T$ $\hat{\Omega}$, che pu� essere molto grande. Piuttosto, si pu� 323calcolare il contenuto del sandwich per somma, come 324% 325\[ 326\hat{\Sigma} = \hat{\Gamma}(0) + \sum_{j=1}^p w_j 327 \left(\hat{\Gamma}(j) + \hat{\Gamma}'(j) \right) 328\] 329% 330dove la matrice $k \times k$ di autocovarianza campionaria $\hat{\Gamma}(j)$, 331per $j \geq 0$, � data da 332\[ 333\hat{\Gamma}(j) = \frac{1}{T} \sum_{t=j+1}^T 334 \hat{u}_t \hat{u}_{t-j}\, X'_t\, X_{t-j} 335\] 336e $w_j$ � il peso dato dall'autocovarianza al ritardo $j > 0$. 337 338Rimangono due questioni. Come determiniamo esattamente la massima lunghezza del 339ritardo (o ``larghezza di banda'') $p$ dello stimatore HAC? E come determiniamo 340esattamente i pesi $w_j$? Torneremo presto sul (difficile) problema della 341larghezza di banda, ma per quanto riguarda i pesi, \app{gretl} offre tre varianti. 342Quella predefinita � il kernel di Bartlett, come � usato da 343Newey e West. Questo stabilisce che 344\[ 345w_j = \left\{ \begin{array}{cc} 346 1 - \frac{j}{p+1} & j \leq p \\ 347 0 & j > p 348 \end{array} 349 \right. 350\] 351in modo che i pesi declinino linearmente mentre $j$ aumenta. Le altre due 352opzioni sono il kernel di Parzen e il kernel QS (Quadratic Spectral). 353Per il kernel di Parzen, 354\[ 355w_j = \left\{ \begin{array}{cc} 356 1 - 6a_j^2 + 6a_j^3 & 0 \leq a_j \leq 0.5 \\ 357 2(1 - a_j)^3 & 0.5 < a_j \leq 1 \\ 358 0 & a_j > 1 359 \end{array} 360 \right. 361\] 362dove $a_j = j/(p+1)$, mentre per il kernel QS 363\[ 364w_j = \frac{25}{12\pi^2 d_j^2} 365 \left(\frac{\sin{m_j}}{m_j} - \cos{m_j} \right) 366\] 367dove $d_j = j/p$ e $m_j = 6\pi d_i/5$. 368 369La figura~\ref{fig:kernels} mostra i pesi generati da questi kernel per 370$p=4$ e $j$ che va da 1 a 9. 371 372\begin{figure}[htbp] 373\caption{Tre kernel per HAC} 374\label{fig:kernels} 375\centering 376\includegraphics{figures/kernels} 377\end{figure} 378 379In \app{gretl} � possibile scegliere il kernel usando il comando \texttt{set} 380col parametro \verb|hac_kernel|: 381% 382\begin{code} 383set hac_kernel parzen 384set hac_kernel qs 385set hac_kernel bartlett 386\end{code} 387 388\subsection{Scelta della larghezza di banda HAC} 389\label{sec:hac-bw} 390 391La teoria asintotica sviluppata da Newey, West ed altri ci dice in termini 392generali come la larghezza di banda HAC, $p$, deve crescere in relazione 393all'ampiezza campionaria, $T$, ossia dice che $p$ dovrebbe crescere 394proporzionalmente a qualche potenza frazionaria di $T$. Purtroppo questo non � 395di molto aiuto quando nella pratica si ha a che fare con un dataset di ampiezza 396fissa. Sono state suggerite varie regole pratiche, due delle quali sono 397implementate da \app{gretl}. L'impostazione predefinita � $p = 0.75 T^{1/3}$, 398come raccomandato da Stock e Watson (2003). Un'alternativa � $p = 3994(T/100)^{2/9}$, come raccomandato in Wooldridge (2002b). In entrambi i casi si 400prende la parte intera del risultato. Queste varianti sono chiamate 401rispettivamente \texttt{nw1} e \texttt{nw2} nel contesto del comando \texttt{set} col parametro 402\verb|hac_lag|. Ossia, � possibile impostare la versione data da 403Wooldridge con il comando 404% 405\begin{code} 406set hac_lag nw2 407\end{code} 408% 409Come mostrato nella Tabella~\ref{tab:haclag} la scelta tra \texttt{nw1} e 410\texttt{nw2} non causa rilevanti differenze. 411 412\begin{table}[htbp] 413 \centering 414 \begin{tabular}{ccc} 415 $T$ & $p$ (\texttt{nw1}) & $p$ (\texttt{nw2}) \\[4pt] 41650& 2& 3 \\ 417100& 3& 4 \\ 418150& 3& 4 \\ 419200& 4& 4 \\ 420300& 5& 5 \\ 421400& 5& 5 \\ 422 \end{tabular} 423\caption{Larghezza di banda HAC: confronto tra due regole pratiche} 424\label{tab:haclag} 425\end{table} 426 427� anche possibile specificare un valore numerico fisso per $p$, come in 428% 429\begin{code} 430set hac_lag 6 431\end{code} 432% 433Inoltre � possibile impostare un valore diverso per il kernel QS (visto che 434questo non deve essere necessariamente un valore intero). Ad esempio: 435% 436\begin{code} 437set qs_bandwidth 3.5 438\end{code} 439 440 441\subsection{Prewhitening e scelta della larghezza di banda basata sui dati} 442\label{sec:hac-prewhiten} 443 444Un approccio alternativo per trattare l'autocorrelazione dei residui consiste 445nell'attaccare il problema da due fronti. L'intuizione alla base di questa 446tecnica, nota come \emph{VAR prewhitening} (Andrews e Monahan, 1992) pu� essere 447illustrata con un semplice esempio. Sia $x_t$ una serie di variabili casuali con 448autocorrelazione del prim'ordine 449% 450\[ 451 x_t = \rho x_{t-1} + u_t 452\] 453% 454Si pu� dimostrare che la varianza di lungo periodo di $x_t$ � 455% 456\[ 457 V_{LR}(x_t) = \frac{V_{LR}(u_t)}{(1-\rho)^2} 458\] 459% 460Nella maggior parte dei casi, $u_t$ � meno autocorrelato di $x_t$, 461quindi dovrebbe richiedere una minore larghezza di banda. La stima di 462$V_{LR}(x_t)$ pu� quindi procedere in tre passi: (1) stimare $\rho$; (2) 463ottenere una stima HAC di $\hat{u}_t = x_t - \hat{\rho} x_{t-1}$; (3) 464dividere il risultato per $(1-\rho)^2$. 465 466Applicare questo approccio al nostro problema implica stimare un'autoregressione 467vettoriale (VAR) di ordine finito sulle variabili vettoriali 468$\xi_t = X_t \hat{u}_t$. In generale, il VAR pu� essere di ordine qualsiasi, ma 469nella maggior parte dei casi � sufficiente l'ordine 1; lo scopo non � quello di 470produrre un modello preciso per $\xi_t$, ma solo quello di catturare la maggior parte 471dell'autocorrelazione. Quindi viene stimato il VAR seguente 472% 473\[ 474 \xi_t = A \xi_{t-1} + \varepsilon_t 475\] 476% 477Una stima della matrice $X'\Omega X$ pu� essere ottenuta con 478\[ 479 (I- \hat{A})^{-1} \hat{\Sigma}_{\varepsilon} (I- \hat{A}')^{-1} 480\] 481dove $\hat{\Sigma}_{\varepsilon}$ � uno stimatore HAC, applicato ai residui del 482VAR. 483 484In \app{gretl} � possibile usare il prewhitening con 485% 486\begin{code} 487set hac_prewhiten on 488\end{code} 489% 490Al momento non � possibile calcolare un VAR iniziale con un ordine diverso da 1. 491 492Un ulteriore miglioramento di questo approccio consiste nello scegliere la 493larghezza di banda in base ai dati. Intuitivamente, ha senso che la larghezza di 494banda non tenga conto soltanto dell'ampiezza campionaria, ma anche delle 495propriet� temporali dei dati (e anche del kernel scelto). Un metodo non 496parametrico di scelta � stato proposto da Newey e West (1994) ed � spiegato 497bene e in modo sintetico da Hall (2005). Questa opzione pu� essere abilitata in 498gretl con il comando 499% 500\begin{code} 501set hac_lag nw3 502\end{code} 503% 504ed � abilitata in modo predefinito quando si seleziona il prewhitening, ma � 505possibile modificarla utilizzando un valore numerico specifico per 506\verb|hac_lag|. 507 508Anche il metodo basato sui dati proposto da Newey--West non identifica univocamente 509la larghezza di banda per una data ampiezza del campione. Il primo passo 510consiste nel calcolare una serie di covarianze dei residui, e la lunghezza di 511questa serie � una funzione dell'ampiezza campionaria, ma solo per un certo 512multiplo scalare; ad esempio, � data da $O(T^{2/9})$ per il kernel di Bartlett. 513\app{Gretl} usa un multiplo implicito pari a 1. 514 515 516\section{Problemi speciali con dati panel} 517\label{sec:vcv-panel} 518 519Visto che i dati panel hanno sia caratteristiche di serie storiche sia 520caratteristiche di dati cross-section, ci si pu� aspettare che in generale 521la stima robusta della matrice di covarianza debba richiedere di gestire sia 522l'eteroschedasticit� che l'autocorrelazione (l'approccio HAC). Inoltre ci sono 523altre caratteristiche dei dati panel che richiedono attenzione particolare: 524\begin{itemize} 525\item La varianza del termine di errore pu� differire tra le unit� 526 cross-section. 527\item La covarianza degli errori tra le unit� pu� essere diversa da zero in ogni 528 periodo temporale. 529\item Se non si rimuove la variazione ``between'', gli errori possono esibire 530 autocorrelazione, non nel senso classico delle serie storiche, ma nel senso 531 che l'errore medio per l'unit� $i$ pu� essere diverso da quello per l'unit� $j$ 532 (questo � particolarmente rilevante quando il metodo di stima � pooled OLS). 533\end{itemize} 534 535\app{Gretl} al momento offre due stimatori robusti per la matrice di covarianza 536da usare con dati panel, disponibili per modelli stimati con effetti fissi, 537pooled OLS, e minimi quadrati a due stadi. Lo stimatore robusto predefinito � 538quello suggerito da Arellano (2003), che � HAC a patto che il panel sia del tipo 539``$n$ grande, $T$ piccolo'' (ossia si osservano molte unit� per pochi periodi). 540Lo stimatore di Arellano � 541\[ 542\hat{\Sigma}_{\rm A} = 543\left(X^{\prime}X\right)^{-1} 544\left( \sum_{i=1}^n X_i^{\prime} \hat{u}_i 545 \hat{u}_i^{\prime} X_i \right) 546\left(X^{\prime}X\right)^{-1} 547\] 548dove $X$ � la matrice dei regressori (con le medie di gruppo sottratte, nel caso 549degli effetti fissi), $\hat{u}_i$ denota il vettore dei residui per l'unit� $i$, 550e $n$ � il numero delle unit� cross-section. Cameron e Trivedi (2005) difendono 551l'uso di questo stimatore, notando che il classico HCCME di White pu� produrre 552errori standard artificialmente bassi in un contesto panel, perch� non tiene 553conto dell'autocorrelazione. 554 555Nei casi in cui l'autocorrelazione non � un problema, lo stimatore proposto da 556Beck e Katz (1995) e discusso da Greene (2003, capitolo 13) pu� essere appropriato. 557Questo stimatore, che tiene conto della correlazione contemporanea tra le unit� 558e l'eteroschedasticit� per unit�, � 559\[ 560\hat{\Sigma}_{\rm BK} = 561\left(X^{\prime}X\right)^{-1} 562\left( \sum_{i=1}^n \sum_{j=1}^n \hat{\sigma}_{ij} X^{\prime}_iX_j \right) 563\left(X^{\prime}X\right)^{-1} 564\] 565Le covarianze $\hat{\sigma}_{ij}$ sono stimate con 566\[ 567\hat{\sigma}_{ij} = \frac{\hat{u}^{\prime}_i \hat{u}_j}{T} 568\] 569dove $T$ � la lunghezza della serie storica per ogni unit�. Beck e 570Katz chiamano gli errori standard associati ``Panel-Corrected Standard 571Errors'' (PCSE). Per usare questo stimatore in \app{gretl} basta eseguire 572il comando 573% 574\begin{code} 575set pcse on 576\end{code} 577% 578Per reimpostare come predefinito lo stimatore di Arellano occorre eseguire 579% 580\begin{code} 581set pcse off 582\end{code} 583% 584Si noti che a prescindere dall'impostazione di \texttt{pcse}, lo stimatore 585robusto non � usato a meno che non si aggiunga l'opzione \verb|--robust| ai 586comandi di stima, o non si selezioni la casella ``Robusto'' nell'interfaccia 587grafica. 588 589%%% Local Variables: 590%%% mode: latex 591%%% TeX-master: "gretl-guide" 592%%% End: 593