1\chapter{Stima robusta della matrice di covarianza}
2\label{chap-robust-vcv}
3
4\section{Introduzione}
5\label{vcv-intro}
6
7Si consideri (ancora una volta) il modello di regressione lineare
8%
9\begin{equation}
10\label{eq:ols-again}
11y = X\beta + u
12\end{equation}
13%
14dove $y$ e $u$ sono vettori di dimensione $T$, $X$ � una matrice
15$T \times k$ di regressori, e $\beta$ � un vettore di parametri di
16dimensione $k$. Come � noto, lo stimatore di $\beta$ dato dai minimi
17quadrati ordinari (OLS) �
18%
19\begin{equation}
20\label{eq:ols-betahat}
21\hat{\beta} = (X'X)^{-1} X'y
22\end{equation}
23%
24Se la condizione $E(u|X) = 0$ � soddisfatta, questo stimatore � non distorto;
25sotto condizioni meno restrittive, lo stimatore � distorto ma consistente. �
26semplice mostrare che quando lo stimatore OLS non � distorto (ossia quando
27$E(\hat{\beta}-\beta) = 0$), la sua varianza �
28%
29\begin{equation}
30\label{eq:ols-varb}
31\mbox{Var}(\hat{\beta}) =
32  E\left((\hat{\beta}-\beta)(\hat{\beta}-\beta)'\right)
33  = (X'X)^{-1} X' \Omega X (X'X)^{-1}
34\end{equation}
35%
36dove $\Omega = E(uu')$ � la matrice di covarianza dei termini di errore.
37
38Sotto l'ipotesi che i termini di errore siano indipendenti e identicamente
39distribuiti (iid), si pu� scrivere $\Omega = \sigma^2 I$, dove $\sigma^2$
40� la varianza (comune) degli errori (e le covarianze sono zero). In questo caso,
41la (\ref{eq:ols-varb}) si riduce alla ``classica'' formula,
42%
43\begin{equation}
44\label{eq:ols-classical-varb}
45\mbox{Var}(\hat{\beta}) = \sigma^2(X'X)^{-1}
46\end{equation}
47
48Se la condizione iid non � soddisfatta, ne derivano due conseguenze. Per prima
49cosa � possibile costruire uno stimatore pi� efficiente di quello OLS, ad
50esempio un qualche tipo di stimatore FGLS (Feasible Generalized Least Squares).
51Inoltre, la semplice formula ``classica'' per la varianza dello stimatore dei
52minimi quadrati non � pi� corretta, e quindi gli errori standard da essa
53derivati (ossia le radici quadrate degli elementi sulla diagonale della matrice
54definita dalla \ref{eq:ols-classical-varb}) non sono strumenti corretti per
55l'inferenza statistica.
56
57Nella storia recente dell'econometria ci sono due approcci principali al
58problema rappresentato dagli errori non iid. L'approccio ``tradizionale''
59consiste nell'usare uno stimatore FGLS. Ad esempio, se l'ipotesi iid viene
60violata a causa di una dipendenza di tipo temporale tra i termini di errore, e
61se si ha ragione di pensare che questo si possa modellare con un processo di
62autocorrelazione del prim'ordine, si potrebbe utilizzare un metodo di stima
63AR(1), come quello di Cochrane--Orcutt, o di Hildreth--Lu, o di Prais--Winsten.
64Se il problema sta nel fatto che la varianza dell'errore non � costante tra le
65osservazioni, si potrebbe stimare la varianza come funzione delle variabili
66indipendenti e usare quindi i minimi quadrati ponderati, prendendo come pesi i
67reciproci delle varianze stimate.
68
69Mentre questi metodi sono tuttora utilizzati, un approccio alternativo sta
70guadagnando favore: usare lo stimatore OLS ma calcolare gli errori standard (o
71pi� in generale le matrici di covarianza) in modo che siano robusti rispetto
72alle deviazioni dall'ipotesi iid. Questo approccio � spesso associato all'uso di
73grandi dataset, abbastanza grandi da suggerire la validit� della propriet� di
74consistenza (asintotica) dello stimatore OLS, ed � stato reso possibile anche
75dalla disponibilit� di sempre maggiori potenze di calcolo: il calcolo degli
76errori standard robusti e l'uso di grandi dataset erano compiti scoraggianti
77fino a qualche tempo fa, ma ora non pongono alcun problema. Un punto a favore di
78questo approccio  consiste nel fatto che, mentre la stima FGLS offre un
79vantaggio in termini di efficienza, spesso richiede di fare delle ipotesi
80statistiche aggiuntive, che potrebbero non essere giustificate, che potrebbe
81essere difficile testare, e che potrebbero mettere in discussione la consistenza
82dello stimatore; ad esempio, l'ipotesi di ``fattore comune'' che �
83implicata dalle tradizionali ``correzioni'' per i termini di errore
84autocorrelati.
85
86\textit{Introduction to Econometrics} di James Stock e Mark Watson illustra
87questo approccio in modo comprensibile agli studenti universitari: molti dei
88dataset usati sono composti da migliaia o decine di migliaia di osservazioni, la
89stima FGLS � poco considerata, mentre si pone l'enfasi sull'uso di errori
90standard robusti (in effetti la discussione degli errori standard classici nel
91caso di omoschedasticit� � confinata in un'appendice).
92
93Pu� essere utile passare in rassegna le opzioni fornite da \app{gretl} per la
94stima robusta della matrice di covarianza. Il primo punto da notare � che
95\app{gretl} produce errori standard ``classici'' come risultato predefinito
96(in tutti i casi tranne quello della stima GMM). In modalit� a riga di comando
97(o negli script) � possibile ottenere gli errori standard robusti aggiungendo
98l'opzione \verb|--robust| ai comandi di stima. Se si usa l'interfaccia grafica,
99le finestre di dialogo per la specificazione dei modelli contengono una casella
100``Errori standard robusti'', insieme a un pulsante ``Configura'' che viene
101attivato se si seleziona la casella. Premendo il pulsante si ottiene una
102finestra (raggiungibile anche attraverso il men� principale: Strumenti
103$\rightarrow$ Preferenze $\rightarrow$ Generali $\rightarrow$ HCCME), da cui �
104possibile scegliere tra diverse varianti di stima robusta, e anche rendere
105predefinita la stima robusta.
106
107Le specifiche opzioni disponibili dipendono dalla natura dei dati in esame
108(cross-section, serie storiche o panel) e anche, in qualche misura, dalla scelta
109dello stimatore (anche se finora si � parlato di errori standard robusti in
110relazione allo stimatore OLS, questi possono essere usati anche con altri
111stimatori). Le successive sezioni di questo capitolo presentano argomenti
112caratteristici di ognuno dei tre tipi di dati appena ricordati. Dettagli
113ulteriori riguardanti la stima della matrice di covarianza nel contesto GMM
114si trovano nel capitolo~\ref{chap:gmm}.
115
116Per concludere questa introduzione, ricordiamo ancora quello che gli ``errori
117standard robusti'' possono e non possono garantire: possono fornire un'inferenza
118statistica asintoticamente valida in modelli che sono correttamente specificati,
119ma in cui gli errori non sono iid. Il termine ``asintotico'' significa che
120questo approccio pu� essere poco utile su piccoli campioni. Il termine
121``correttamente specificati'' significa che non si ha una bacchetta
122magica: se il termine di errore � correlato con i regressori, le stime dei
123parametri sono distorte e inconsistenti, gli errori standard robusti non possono
124risolvere questo problema.
125
126\section{Dati cross-section e HCCME}
127\label{vcv-hccme}
128
129Con dati cross-section, la causa pi� comune di violazione dell'ipotesi iid �
130data dall'eteroschedasticit� (varianza non costante)\footnote{In alcuni contesti
131speciali, il problema pu� essere invece l'autocorrelazione spaziale. Gretl
132  non ha funzioni per gestire questo caso, che quindi verr� trascurato in questa
133  trattazione.}. Il alcuni casi � possibile fare delle ipotesi plausibili sulla
134forma specifica dell'eteroschedasticit� e quindi applicare una correzione ad
135hoc, ma di solito non si sa con che tipo di eteroschedasticit� si ha a che fare.
136Vogliamo quindi trovare uno stimatore della matrice di covarianza delle stime
137dei parametri che mantenga la sua validit�, almeno dal punto di vista
138asintotico, anche in caso di eteroschedasticit�. Che questo sia possibile non �
139ovvio a priori, ma White (1980) ha mostrato che
140%
141\begin{equation}
142\label{eq:ols-varb-h}
143\widehat{\mbox{Var}}_{\rm h}(\hat{\beta}) =
144       (X'X)^{-1} X' \hat{\Omega} X (X'X)^{-1}
145\end{equation}
146%
147fa al caso nostro (come al solito in statistica dobbiamo dire ``sotto alcune
148condizioni'', ma in questo caso le condizioni non sono molto restrittive).
149$\hat{\Omega}$ � una matrice diagonale i cui elementi diversi da zero possono
150essere stimati usando i quadrati dei residui OLS. White ha chiamato la
151(\ref{eq:ols-varb-h}) uno stimatore HCCME (heteroskedasticity-consistent covariance
152matrix estimator).
153
154Davidson e MacKinnon (2004, capitolo 5) offrono una discussione utile di
155alcune varianti dello stimatore HCCME di White. Chiamano HC$_0$ la variante
156originale della (\ref{eq:ols-varb-h}), in cui gli elementi diagonali di
157$\hat{\Omega}$ sono stimati direttamente con i quadrati dei residui OLS,
158$\hat{u}^2_t$ (gli errori standard associati sono chiamati spesso ``errori
159standard di White''). Le varie estensioni dell'approccio di White hanno in
160comune un punto: l'idea che i quadrati dei residui OLS siano probabilmente
161``troppo piccoli'' in media. Questa idea � piuttosto intuitiva: le stime OLS dei
162parametri, $\hat{\beta}$, per costruzione soddisfano il criterio che la somma
163dei quadrati dei residui
164%
165\[
166\sum \hat{u}^2_t = \sum \left( y_t - X_t \hat{\beta} \right)^2
167\]
168%
169� minimizzata, dati $X$ e $y$.  Si supponga che $\hat{\beta} \neq
170\beta$.  � quasi certo che sia cos�: anche se OLS non � distorto, sarebbe un
171miracolo se i $\hat{\beta}$ calcolati da un campione finito fossero esattamente
172uguali a $\beta$. Ma in questo caso la somma dei quadrati dei veri errori (non
173osservati), $\sum u^2_t = \sum
174(y_t - X_t \beta)^2$ � certamente maggiore di $\sum \hat{u}^2_t$.
175Le varianti di HC$_0$ partono da questo punto nel modo seguente:
176%
177\begin{itemize}
178\item HC$_1$: applica una correzione per gradi di libert�, moltiplicando la
179  matrice HC$_0$ per $T/(T-k)$.
180\item HC$_2$: invece di usare $\hat{u}^2_t$ per gli elementi diagonali di
181  $\hat{\Omega}$, usa $\hat{u}^2_t/(1-h_t)$, dove $h_t =
182  X_t(X'X)^{-1}X'_t$, il $t^{\rm esimo}$ elemento diagonale della matrice di
183  proiezione, $P$, che ha la propriet� che $P\cdot y = \hat{y}$. La rilevanza di
184  $h_t$ sta nel fatto che se la varianza di tutti gli $u_t$ �
185  $\sigma^2$, il valore atteso di $\hat{u}^2_t$ � $\sigma^2(1-h_t)$, o in altre
186  parole, il rapporto $\hat{u}^2_t/(1-h_t)$ ha un valore atteso di
187  $\sigma^2$. Come mostrano Davidson e MacKinnon, $0\leq h_t <1$ per ogni
188  $t$, quindi questa correzione non pu� ridurre gli elementi diagonali di
189  $\hat{\Omega}$ e in generale li corregge verso l'alto.
190\item HC$_3$: Usa $\hat{u}^2_t/(1-h_t)^2$.  Il fattore aggiuntivo
191  $(1-h_t)$ nel denominatore, relativo a HC$_2$, pu� essere giustificato col
192  fatto che le osservazioni con ampia varianza tendono a esercitare una grossa
193  influenza sulle stime OLS, cos� che i corrispondenti residui tendono ad essere
194  sottostimati. Si veda Davidson e MacKinnon per ulteriori dettagli.
195\end{itemize}
196
197I rispettivi meriti di queste varianti sono stati analizzati sia dal punto di
198vista teorico che attraverso simulazioni, ma sfortunatamente non c'� un consenso
199preciso su quale di esse sia ``la migliore''. Davidson e MacKinnon sostengono
200che l'originale HC$_0$ probabilmente si comporta peggio delle altre varianti,
201tuttavia gli ``errori standard di White'' sono citati pi� spesso delle altre
202varianti pi� sofisticate e quindi per motivi di comparabilit�, HC$_0$ �
203lo stimatore HCCME usato da \app{gretl} in modo predefinito.
204
205Se si preferisce usare HC$_1$, HC$_2$ o HC$_3$, � possibile farlo in due modi.
206In modalit� script, basta eseguire ad esempio
207%
208\begin{code}
209set hc_version 2
210\end{code}
211%
212Con l'interfaccia grafica, basta andare nella finestra di configurazione di
213HCCME come mostrato sopra e impostare come predefinita una delle varianti.
214
215
216\section{Serie storiche e matrici di covarianza HAC}
217\label{vcv-hac}
218
219L'eteroschedasticit� pu� essere un problema anche con le serie storiche, ma
220raramente � l'unico, o il principale, problema.
221
222Un tipo di eteroschedasticit� � comune nelle serie storiche macroeconomiche, ma
223� abbastanza semplice da trattare: nel caso di serie con una forte tendenza,
224come il prodotto interno lordo, il consumo o l'investimento aggregato, e simili,
225alti valori della variabile sono probabilmente associati ad alta variabilit� in
226termini assoluti. Il rimedio ovvio, usato da molti studi macroeconomici,
227consiste nell'usare i logaritmi di queste serie, al posto dei livelli. A patto
228che la variabilit� \textit{proporzionale} di queste serie rimanga abbastanza
229costante nel tempo, la trasformazione logaritmica � efficace.
230
231Altre forme di eteroschedasticit� possono sopravvivere alla trasformazione
232logaritmica e richiedono un trattamento distinto dal calcolo degli errori
233standard robusti. Ad esempio l'\textit{e\-te\-ro\-sche\-da\-sti\-ci\-t� autoregressiva
234condizionale} riscontrabile ad esempio nelle serie dei prezzi di borsa, dove
235grandi disturbi sul mercato possono causare periodi di aumento della volatilit�;
236fenomeni come questo giustificano l'uso di specifiche strategie di stima, come
237nei modelli GARCH (si veda il capitolo~\ref{chap:timeser}).
238
239Nonostante tutto questo, � possibile che un certo grado di eteroschedasticit�
240sia presente nelle serie storiche: il punto chiave � che nella maggior parte dei
241casi, questa � probabilmente combinata con un certo grado di correlazione
242seriale (autocorrelazione), e quindi richiede un trattamento speciale.
243Nell'approccio di White, $\hat{\Omega}$, la matrice di covarianza stimata degli
244$u_t$, rimane diagonale: le varianze,
245$E(u^2_t)$, possono differire per $t$, ma le covarianze, $E(u_t u_s)$, sono
246sempre zero. L'autocorrelazione nelle serie storiche implica che almeno alcuni
247degli elementi fuori dalla diagonale di $\hat{\Omega}$ possono essere diversi da
248zero. Questo introduce una complicazione evidente e un ulteriore termine da
249tenere presente: le stime della matrice di covarianza che sono asintoticamente
250valide anche in presenza di eteroschedasticit� e autocorrelazione nel processo
251di errore vengono definite HAC (heteroskedasticity and autocorrelation
252consistent).
253
254Il tema della stima HAC � trattato in termini pi� tecnici nel capitolo~\ref{chap:gmm},
255qui cerchiamo di fornire un'intuizione basilare. Iniziamo da un commento
256generale: l'autocorrelazione dei residui non � tanto una propriet� dei dati,
257quanto il sintomo di un modello inadeguato. I dati possono avere propriet�
258persistenti nel tempo, ma se imponiamo un modello che non tiene conto
259adeguatamente di questo aspetto, finiamo con avere disturbi autocorrelati. Al
260contrario, spesso � possibile mitigare o addirittura eliminare il problema
261dell'autocorrelazione includendo opportune variabili ritardate in un modello di
262serie storiche, o in altre parole specificando meglio la dinamica del modello.
263La stima HAC \textit{non} dovrebbe essere considerata il primo strumento per
264affrontare l'autocorrelazione del termine di errore.
265
266Detto questo, la ``ovvia'' estensione dello stimatore HCCME di White al caso di
267errori autocorrelati sembra questa: stimare gli elementi fuori dalla diagonale
268di $\hat{\Omega}$ (ossia le autocovarianze, $E(u_t u_s)$) usando, ancora una
269volta, gli opportuni residui OLS: $\hat{\omega}_{ts} = \hat{u}_t \hat{u}_s$.
270Questo approccio sembra giusto, ma richiede una correzione importante:
271cerchiamo uno stimatore \textit{consistente}, che converga verso il vero
272$\Omega$ quando l'ampiezza del campione tende a infinito. Campioni pi� ampi
273permettono di stimare pi� elementi di $\omega_{ts}$ (ossia, per $t$ e $s$
274pi� separati nel tempo), ma \textit{non} forniscono pi� informazione a proposito
275delle coppie $\omega_{ts}$ pi� distanti nel tempo, visto che la massima separazione nel
276tempo cresce anch'essa al crescere della dimensione del campione. Per assicurare
277la consistenza, dobbiamo confinare la nostra attenzione ai processi che
278esibiscono una dipendenza limitata nel tempo, o in altre parole interrompere il
279calcolo dei valori $\hat{\omega}_{ts}$ a un certo valore massimo di
280$p = t-s$ (dove $p$ � trattato come una funzione crescente dell'ampiezza
281campionaria, $T$, anche se non � detto che cresca proporzionalmente a $T$).
282
283La variante pi� semplice di questa idea consiste nel troncare il calcolo a un
284certo ordine di ritardo finito $p$, che cresce ad esempio come $T^{1/4}$. Il
285problema � che la matrice $\hat{\Omega}$ risultante potrebbe  non essere
286definita positiva, ossia potremmo ritrovarci con delle varianze stimate
287negative. Una soluzione a questo problema � offerta dallo stimatore di
288Newey--West (Newey e West, 1987), che assegna pesi declinanti alle
289autocovarianze campionarie, man mano che la separazione temporale aumenta.
290
291Per capire questo punto pu� essere utile guardare pi� da vicino la
292matrice di covarianza definita nella (\ref{eq:ols-varb-h}), ossia,
293%
294\[
295(X'X)^{-1} (X' \hat{\Omega} X) (X'X)^{-1}
296\]
297%
298Questo � noto come lo stimatore ``sandwich''. La fetta di pane �
299$(X'X)^{-1}$, ossia una matrice $k \times k$, che � anche l'ingrediente
300principale per il calcolo della classica  matrice di covarianza.
301Il contenuto del sandwich �
302%
303\[
304\begin{array}{ccccc}
305\hat{\Sigma} & = & X' & \hat{\Omega} & X \\
306{\scriptstyle (k \times k)} & &
307{\scriptstyle (k \times T)} & {\scriptstyle (T \times T)} &
308  {\scriptstyle (T \times k)}
309\end{array}
310\]
311%
312Poich� $\Omega = E(uu')$, la matrice che si sta stimando pu� essere scritta
313anche come
314\[
315\Sigma = E(X'u\,u'X)
316\]
317%
318che esprime $\Sigma$ come la covarianza di lungo periodo del vettore casuale
319$X'u$ di dimensione $k$.
320
321Dal punto di vista computazionale, non � necessario salvare la matrice
322$T \times T$ $\hat{\Omega}$, che pu� essere molto grande. Piuttosto, si pu�
323calcolare il contenuto del sandwich per somma, come
324%
325\[
326\hat{\Sigma} = \hat{\Gamma}(0) + \sum_{j=1}^p w_j
327  \left(\hat{\Gamma}(j) + \hat{\Gamma}'(j) \right)
328\]
329%
330dove la matrice $k \times k$ di autocovarianza campionaria $\hat{\Gamma}(j)$,
331per $j \geq 0$, � data da
332\[
333\hat{\Gamma}(j) = \frac{1}{T} \sum_{t=j+1}^T
334  \hat{u}_t \hat{u}_{t-j}\, X'_t\, X_{t-j}
335\]
336e $w_j$ � il peso dato dall'autocovarianza al ritardo $j > 0$.
337
338Rimangono due questioni. Come determiniamo esattamente la massima lunghezza del
339ritardo (o ``larghezza di banda'') $p$ dello stimatore HAC? E come determiniamo
340esattamente i pesi $w_j$? Torneremo presto sul (difficile) problema della
341larghezza di banda, ma per quanto riguarda i pesi, \app{gretl} offre tre varianti.
342Quella predefinita � il kernel di Bartlett, come � usato da
343Newey e West. Questo stabilisce che
344\[
345w_j = \left\{ \begin{array}{cc}
346     1 - \frac{j}{p+1} & j \leq p \\
347     0 & j > p
348     \end{array}
349    \right.
350\]
351in  modo che i pesi declinino linearmente mentre $j$ aumenta. Le altre due
352opzioni sono il kernel di Parzen e il kernel QS (Quadratic Spectral).
353Per il kernel di Parzen,
354\[
355w_j = \left\{ \begin{array}{cc}
356    1 - 6a_j^2 + 6a_j^3 & 0 \leq a_j \leq 0.5 \\
357    2(1 - a_j)^3 & 0.5 < a_j \leq 1 \\
358    0 & a_j > 1
359    \end{array}
360    \right.
361\]
362dove $a_j = j/(p+1)$, mentre per il kernel QS
363\[
364w_j = \frac{25}{12\pi^2 d_j^2}
365   \left(\frac{\sin{m_j}}{m_j} - \cos{m_j} \right)
366\]
367dove $d_j = j/p$ e $m_j = 6\pi d_i/5$.
368
369La figura~\ref{fig:kernels} mostra i pesi generati da questi kernel per
370$p=4$ e $j$ che va da 1 a 9.
371
372\begin{figure}[htbp]
373\caption{Tre kernel per HAC}
374\label{fig:kernels}
375\centering
376\includegraphics{figures/kernels}
377\end{figure}
378
379In \app{gretl} � possibile scegliere il kernel usando il comando \texttt{set}
380col parametro \verb|hac_kernel|:
381%
382\begin{code}
383set hac_kernel parzen
384set hac_kernel qs
385set hac_kernel bartlett
386\end{code}
387
388\subsection{Scelta della larghezza di banda HAC}
389\label{sec:hac-bw}
390
391La teoria asintotica sviluppata da Newey, West ed altri ci dice in termini
392generali come la larghezza di banda HAC, $p$, deve crescere in relazione
393all'ampiezza campionaria, $T$, ossia dice che $p$ dovrebbe crescere
394proporzionalmente a qualche potenza frazionaria di $T$. Purtroppo questo non �
395di molto aiuto quando nella pratica si ha a che fare con un dataset di ampiezza
396fissa. Sono state suggerite varie regole pratiche, due delle quali sono
397implementate da \app{gretl}. L'impostazione predefinita � $p = 0.75 T^{1/3}$,
398come raccomandato da Stock e Watson (2003). Un'alternativa � $p =
3994(T/100)^{2/9}$, come raccomandato in Wooldridge (2002b). In entrambi i casi si
400prende la parte intera del risultato. Queste varianti sono chiamate
401rispettivamente \texttt{nw1} e \texttt{nw2} nel contesto del comando \texttt{set} col parametro
402\verb|hac_lag|. Ossia, � possibile impostare la versione data da
403Wooldridge con il comando
404%
405\begin{code}
406set hac_lag nw2
407\end{code}
408%
409Come mostrato nella Tabella~\ref{tab:haclag} la scelta tra \texttt{nw1} e
410\texttt{nw2} non causa rilevanti differenze.
411
412\begin{table}[htbp]
413  \centering
414  \begin{tabular}{ccc}
415    $T$ & $p$ (\texttt{nw1}) & $p$ (\texttt{nw2}) \\[4pt]
41650& 	2& 	3 \\
417100& 	3& 	4 \\
418150& 	3& 	4 \\
419200& 	4& 	4 \\
420300& 	5& 	5 \\
421400& 	5& 	5 \\
422  \end{tabular}
423\caption{Larghezza di banda HAC: confronto tra due regole pratiche}
424\label{tab:haclag}
425\end{table}
426
427� anche possibile specificare un valore numerico fisso per $p$, come in
428%
429\begin{code}
430set hac_lag 6
431\end{code}
432%
433Inoltre � possibile impostare un valore diverso per il kernel QS (visto che
434questo non deve essere necessariamente un valore intero).  Ad esempio:
435%
436\begin{code}
437set qs_bandwidth 3.5
438\end{code}
439
440
441\subsection{Prewhitening e scelta della larghezza di banda basata sui dati}
442\label{sec:hac-prewhiten}
443
444Un approccio alternativo per trattare l'autocorrelazione dei residui consiste
445nell'attaccare il problema da due fronti. L'intuizione alla base di questa
446tecnica, nota come \emph{VAR prewhitening} (Andrews e Monahan, 1992) pu� essere
447illustrata con un semplice esempio. Sia $x_t$ una serie di variabili casuali con
448autocorrelazione del prim'ordine
449%
450\[
451  x_t = \rho x_{t-1} + u_t
452\]
453%
454Si pu� dimostrare che la varianza di lungo periodo di $x_t$ �
455%
456\[
457  V_{LR}(x_t) = \frac{V_{LR}(u_t)}{(1-\rho)^2}
458\]
459%
460Nella maggior parte dei casi, $u_t$ � meno autocorrelato di $x_t$,
461quindi dovrebbe richiedere una minore larghezza di banda. La stima di
462$V_{LR}(x_t)$ pu� quindi procedere in tre passi: (1) stimare $\rho$; (2)
463ottenere una stima HAC di $\hat{u}_t = x_t - \hat{\rho} x_{t-1}$; (3)
464dividere il risultato per $(1-\rho)^2$.
465
466Applicare questo approccio al nostro problema implica stimare un'autoregressione
467vettoriale (VAR) di ordine finito sulle variabili vettoriali
468$\xi_t = X_t \hat{u}_t$. In generale, il VAR pu� essere di ordine qualsiasi, ma
469nella maggior parte dei casi � sufficiente l'ordine 1; lo scopo non � quello di
470produrre un modello preciso per $\xi_t$, ma solo quello di catturare la maggior parte
471dell'autocorrelazione.  Quindi viene stimato il VAR seguente
472%
473\[
474  \xi_t = A \xi_{t-1} + \varepsilon_t
475\]
476%
477Una stima della matrice $X'\Omega X$ pu� essere ottenuta con
478\[
479  (I- \hat{A})^{-1} \hat{\Sigma}_{\varepsilon} (I- \hat{A}')^{-1}
480\]
481dove $\hat{\Sigma}_{\varepsilon}$ � uno stimatore HAC, applicato ai residui del
482VAR.
483
484In \app{gretl} � possibile usare il prewhitening con
485%
486\begin{code}
487set hac_prewhiten on
488\end{code}
489%
490Al momento non � possibile calcolare un VAR iniziale con un ordine diverso da 1.
491
492Un ulteriore miglioramento di questo approccio consiste nello scegliere la
493larghezza di banda in base ai dati. Intuitivamente, ha senso che la larghezza di
494banda non tenga conto soltanto dell'ampiezza campionaria, ma anche delle
495propriet� temporali dei dati (e anche del kernel scelto). Un metodo non
496parametrico di scelta � stato proposto da Newey e West (1994) ed � spiegato
497bene e in modo sintetico da Hall (2005). Questa opzione pu� essere abilitata in
498gretl con il comando
499%
500\begin{code}
501set hac_lag nw3
502\end{code}
503%
504ed � abilitata in modo predefinito quando si seleziona il prewhitening, ma �
505possibile modificarla utilizzando un valore numerico specifico per
506\verb|hac_lag|.
507
508Anche il metodo basato sui dati proposto da Newey--West non identifica univocamente
509la larghezza di banda per una data ampiezza del campione. Il primo passo
510consiste nel calcolare una serie di covarianze dei residui, e la lunghezza di
511questa serie � una funzione dell'ampiezza campionaria, ma solo per un certo
512multiplo scalare; ad esempio, � data da $O(T^{2/9})$ per il kernel di Bartlett.
513\app{Gretl} usa un multiplo implicito pari a 1.
514
515
516\section{Problemi speciali con dati panel}
517\label{sec:vcv-panel}
518
519Visto che i dati panel hanno sia caratteristiche di serie storiche sia
520caratteristiche di dati cross-section, ci si pu� aspettare che in generale
521la stima robusta della matrice di covarianza debba richiedere di gestire sia
522l'eteroschedasticit� che l'autocorrelazione (l'approccio HAC). Inoltre ci sono
523altre caratteristiche dei dati panel che richiedono attenzione particolare:
524\begin{itemize}
525\item La varianza del termine di errore pu� differire tra le unit�
526  cross-section.
527\item La covarianza degli errori tra le unit� pu� essere diversa da zero in ogni
528  periodo temporale.
529\item Se non si rimuove la variazione ``between'', gli errori possono esibire
530  autocorrelazione, non nel senso classico delle serie storiche, ma nel senso
531  che l'errore medio per l'unit� $i$ pu� essere diverso da quello per l'unit� $j$
532  (questo � particolarmente rilevante quando il metodo di stima � pooled OLS).
533\end{itemize}
534
535\app{Gretl} al momento offre due stimatori robusti per la matrice di covarianza
536da usare con dati panel, disponibili per modelli stimati con effetti fissi,
537pooled OLS, e minimi quadrati a due stadi. Lo stimatore robusto predefinito �
538quello suggerito da Arellano (2003), che � HAC a patto che il panel sia del tipo
539``$n$ grande, $T$ piccolo'' (ossia si osservano molte unit� per pochi periodi).
540Lo stimatore di Arellano �
541\[
542\hat{\Sigma}_{\rm A} =
543\left(X^{\prime}X\right)^{-1}
544\left( \sum_{i=1}^n X_i^{\prime} \hat{u}_i
545    \hat{u}_i^{\prime} X_i \right)
546\left(X^{\prime}X\right)^{-1}
547\]
548dove $X$ � la matrice dei regressori (con le medie di gruppo sottratte, nel caso
549degli effetti fissi), $\hat{u}_i$ denota il vettore dei residui per l'unit� $i$,
550e $n$ � il numero delle unit� cross-section. Cameron e Trivedi (2005) difendono
551l'uso di questo stimatore, notando che il classico HCCME di White pu� produrre
552errori standard artificialmente bassi in un contesto panel, perch� non tiene
553conto dell'autocorrelazione.
554
555Nei casi in cui l'autocorrelazione non � un problema, lo stimatore proposto da
556Beck e Katz (1995) e discusso da Greene (2003, capitolo 13) pu� essere appropriato.
557Questo stimatore, che tiene conto della correlazione contemporanea tra le unit�
558e l'eteroschedasticit� per unit�, �
559\[
560\hat{\Sigma}_{\rm BK} =
561\left(X^{\prime}X\right)^{-1}
562\left( \sum_{i=1}^n \sum_{j=1}^n \hat{\sigma}_{ij} X^{\prime}_iX_j \right)
563\left(X^{\prime}X\right)^{-1}
564\]
565Le covarianze $\hat{\sigma}_{ij}$ sono stimate con
566\[
567\hat{\sigma}_{ij} = \frac{\hat{u}^{\prime}_i \hat{u}_j}{T}
568\]
569dove $T$ � la lunghezza della serie storica per ogni unit�. Beck e
570Katz chiamano gli errori standard associati ``Panel-Corrected Standard
571Errors'' (PCSE). Per usare questo stimatore in \app{gretl} basta eseguire
572il comando
573%
574\begin{code}
575set pcse on
576\end{code}
577%
578Per reimpostare come predefinito lo stimatore di Arellano occorre eseguire
579%
580\begin{code}
581set pcse off
582\end{code}
583%
584Si noti che a prescindere dall'impostazione di \texttt{pcse}, lo stimatore
585robusto non � usato a meno che non si aggiunga l'opzione \verb|--robust| ai
586comandi di stima, o non si selezioni la casella ``Robusto'' nell'interfaccia
587grafica.
588
589%%% Local Variables:
590%%% mode: latex
591%%% TeX-master: "gretl-guide"
592%%% End:
593