doc/tex_it/robust_vcv.tex

\chapter{Stima robusta della matrice di covarianza}
\label{chap-robust-vcv}

\section{Introduzione}
\label{vcv-intro}

Si consideri (ancora una volta) il modello di regressione lineare
%
\begin{equation}
\label{eq:ols-again}
y = X\beta + u
\end{equation}
%
dove $y$ e $u$ sono vettori di dimensione $T$, $X$ � una matrice
$T \times k$ di regressori, e $\beta$ � un vettore di parametri di
dimensione $k$. Come � noto, lo stimatore di $\beta$ dato dai minimi
quadrati ordinari (OLS) �
%
\begin{equation}
\label{eq:ols-betahat}
\hat{\beta} = (X'X)^{-1} X'y
\end{equation}
%
Se la condizione $E(u|X) = 0$ � soddisfatta, questo stimatore � non distorto;
sotto condizioni meno restrittive, lo stimatore � distorto ma consistente. �
semplice mostrare che quando lo stimatore OLS non � distorto (ossia quando
$E(\hat{\beta}-\beta) = 0$), la sua varianza �
%
\begin{equation}
\label{eq:ols-varb}
\mbox{Var}(\hat{\beta}) =
  E\left((\hat{\beta}-\beta)(\hat{\beta}-\beta)'\right)
  = (X'X)^{-1} X' \Omega X (X'X)^{-1}
\end{equation}
%
dove $\Omega = E(uu')$ � la matrice di covarianza dei termini di errore.

Sotto l'ipotesi che i termini di errore siano indipendenti e identicamente
distribuiti (iid), si pu� scrivere $\Omega = \sigma^2 I$, dove $\sigma^2$
� la varianza (comune) degli errori (e le covarianze sono zero). In questo caso,
la (\ref{eq:ols-varb}) si riduce alla ``classica'' formula,
%
\begin{equation}
\label{eq:ols-classical-varb}
\mbox{Var}(\hat{\beta}) = \sigma^2(X'X)^{-1}
\end{equation}

Se la condizione iid non � soddisfatta, ne derivano due conseguenze. Per prima
cosa � possibile costruire uno stimatore pi� efficiente di quello OLS, ad
esempio un qualche tipo di stimatore FGLS (Feasible Generalized Least Squares).
Inoltre, la semplice formula ``classica'' per la varianza dello stimatore dei
minimi quadrati non � pi� corretta, e quindi gli errori standard da essa
derivati (ossia le radici quadrate degli elementi sulla diagonale della matrice
definita dalla \ref{eq:ols-classical-varb}) non sono strumenti corretti per
l'inferenza statistica.

Nella storia recente dell'econometria ci sono due approcci principali al
problema rappresentato dagli errori non iid. L'approccio ``tradizionale''
consiste nell'usare uno stimatore FGLS. Ad esempio, se l'ipotesi iid viene
violata a causa di una dipendenza di tipo temporale tra i termini di errore, e
se si ha ragione di pensare che questo si possa modellare con un processo di
autocorrelazione del prim'ordine, si potrebbe utilizzare un metodo di stima
AR(1), come quello di Cochrane--Orcutt, o di Hildreth--Lu, o di Prais--Winsten.
Se il problema sta nel fatto che la varianza dell'errore non � costante tra le
osservazioni, si potrebbe stimare la varianza come funzione delle variabili
indipendenti e usare quindi i minimi quadrati ponderati, prendendo come pesi i
reciproci delle varianze stimate.

Mentre questi metodi sono tuttora utilizzati, un approccio alternativo sta
guadagnando favore: usare lo stimatore OLS ma calcolare gli errori standard (o
pi� in generale le matrici di covarianza) in modo che siano robusti rispetto
alle deviazioni dall'ipotesi iid. Questo approccio � spesso associato all'uso di
grandi dataset, abbastanza grandi da suggerire la validit� della propriet� di
consistenza (asintotica) dello stimatore OLS, ed � stato reso possibile anche
dalla disponibilit� di sempre maggiori potenze di calcolo: il calcolo degli
errori standard robusti e l'uso di grandi dataset erano compiti scoraggianti
fino a qualche tempo fa, ma ora non pongono alcun problema. Un punto a favore di
questo approccio  consiste nel fatto che, mentre la stima FGLS offre un
vantaggio in termini di efficienza, spesso richiede di fare delle ipotesi
statistiche aggiuntive, che potrebbero non essere giustificate, che potrebbe
essere difficile testare, e che potrebbero mettere in discussione la consistenza
dello stimatore; ad esempio, l'ipotesi di ``fattore comune'' che �
implicata dalle tradizionali ``correzioni'' per i termini di errore
autocorrelati.

\textit{Introduction to Econometrics} di James Stock e Mark Watson illustra
questo approccio in modo comprensibile agli studenti universitari: molti dei
dataset usati sono composti da migliaia o decine di migliaia di osservazioni, la
stima FGLS � poco considerata, mentre si pone l'enfasi sull'uso di errori
standard robusti (in effetti la discussione degli errori standard classici nel
caso di omoschedasticit� � confinata in un'appendice).

Pu� essere utile passare in rassegna le opzioni fornite da \app{gretl} per la
stima robusta della matrice di covarianza. Il primo punto da notare � che
\app{gretl} produce errori standard ``classici'' come risultato predefinito
(in tutti i casi tranne quello della stima GMM). In modalit� a riga di comando
(o negli script) � possibile ottenere gli errori standard robusti aggiungendo
l'opzione \verb|--robust| ai comandi di stima. Se si usa l'interfaccia grafica,
le finestre di dialogo per la specificazione dei modelli contengono una casella
``Errori standard robusti'', insieme a un pulsante ``Configura'' che viene
attivato se si seleziona la casella. Premendo il pulsante si ottiene una
finestra (raggiungibile anche attraverso il men� principale: Strumenti
$\rightarrow$ Preferenze $\rightarrow$ Generali $\rightarrow$ HCCME), da cui �
possibile scegliere tra diverse varianti di stima robusta, e anche rendere
predefinita la stima robusta.

Le specifiche opzioni disponibili dipendono dalla natura dei dati in esame
(cross-section, serie storiche o panel) e anche, in qualche misura, dalla scelta
dello stimatore (anche se finora si � parlato di errori standard robusti in
relazione allo stimatore OLS, questi possono essere usati anche con altri
stimatori). Le successive sezioni di questo capitolo presentano argomenti
caratteristici di ognuno dei tre tipi di dati appena ricordati. Dettagli
ulteriori riguardanti la stima della matrice di covarianza nel contesto GMM
si trovano nel capitolo~\ref{chap:gmm}.

Per concludere questa introduzione, ricordiamo ancora quello che gli ``errori
standard robusti'' possono e non possono garantire: possono fornire un'inferenza
statistica asintoticamente valida in modelli che sono correttamente specificati,
ma in cui gli errori non sono iid. Il termine ``asintotico'' significa che
questo approccio pu� essere poco utile su piccoli campioni. Il termine
``correttamente specificati'' significa che non si ha una bacchetta
magica: se il termine di errore � correlato con i regressori, le stime dei
parametri sono distorte e inconsistenti, gli errori standard robusti non possono
risolvere questo problema.

\section{Dati cross-section e HCCME}
\label{vcv-hccme}

Con dati cross-section, la causa pi� comune di violazione dell'ipotesi iid �
data dall'eteroschedasticit� (varianza non costante)\footnote{In alcuni contesti
speciali, il problema pu� essere invece l'autocorrelazione spaziale. Gretl
  non ha funzioni per gestire questo caso, che quindi verr� trascurato in questa
  trattazione.}. Il alcuni casi � possibile fare delle ipotesi plausibili sulla
forma specifica dell'eteroschedasticit� e quindi applicare una correzione ad
hoc, ma di solito non si sa con che tipo di eteroschedasticit� si ha a che fare.
Vogliamo quindi trovare uno stimatore della matrice di covarianza delle stime
dei parametri che mantenga la sua validit�, almeno dal punto di vista
asintotico, anche in caso di eteroschedasticit�. Che questo sia possibile non �
ovvio a priori, ma White (1980) ha mostrato che
%
\begin{equation}
\label{eq:ols-varb-h}
\widehat{\mbox{Var}}_{\rm h}(\hat{\beta}) =
       (X'X)^{-1} X' \hat{\Omega} X (X'X)^{-1}
\end{equation}
%
fa al caso nostro (come al solito in statistica dobbiamo dire ``sotto alcune
condizioni'', ma in questo caso le condizioni non sono molto restrittive).
$\hat{\Omega}$ � una matrice diagonale i cui elementi diversi da zero possono
essere stimati usando i quadrati dei residui OLS. White ha chiamato la
(\ref{eq:ols-varb-h}) uno stimatore HCCME (heteroskedasticity-consistent covariance
matrix estimator).

Davidson e MacKinnon (2004, capitolo 5) offrono una discussione utile di
alcune varianti dello stimatore HCCME di White. Chiamano HC$_0$ la variante
originale della (\ref{eq:ols-varb-h}), in cui gli elementi diagonali di
$\hat{\Omega}$ sono stimati direttamente con i quadrati dei residui OLS,
$\hat{u}^2_t$ (gli errori standard associati sono chiamati spesso ``errori
standard di White''). Le varie estensioni dell'approccio di White hanno in
comune un punto: l'idea che i quadrati dei residui OLS siano probabilmente
``troppo piccoli'' in media. Questa idea � piuttosto intuitiva: le stime OLS dei
parametri, $\hat{\beta}$, per costruzione soddisfano il criterio che la somma
dei quadrati dei residui
%
\[
\sum \hat{u}^2_t = \sum \left( y_t - X_t \hat{\beta} \right)^2
\]
%
� minimizzata, dati $X$ e $y$.  Si supponga che $\hat{\beta} \neq
\beta$.  � quasi certo che sia cos�: anche se OLS non � distorto, sarebbe un
miracolo se i $\hat{\beta}$ calcolati da un campione finito fossero esattamente
uguali a $\beta$. Ma in questo caso la somma dei quadrati dei veri errori (non
osservati), $\sum u^2_t = \sum
(y_t - X_t \beta)^2$ � certamente maggiore di $\sum \hat{u}^2_t$.
Le varianti di HC$_0$ partono da questo punto nel modo seguente:
%
\begin{itemize}
\item HC$_1$: applica una correzione per gradi di libert�, moltiplicando la
  matrice HC$_0$ per $T/(T-k)$.
\item HC$_2$: invece di usare $\hat{u}^2_t$ per gli elementi diagonali di
  $\hat{\Omega}$, usa $\hat{u}^2_t/(1-h_t)$, dove $h_t =
  X_t(X'X)^{-1}X'_t$, il $t^{\rm esimo}$ elemento diagonale della matrice di
  proiezione, $P$, che ha la propriet� che $P\cdot y = \hat{y}$. La rilevanza di
  $h_t$ sta nel fatto che se la varianza di tutti gli $u_t$ �
  $\sigma^2$, il valore atteso di $\hat{u}^2_t$ � $\sigma^2(1-h_t)$, o in altre
  parole, il rapporto $\hat{u}^2_t/(1-h_t)$ ha un valore atteso di
  $\sigma^2$. Come mostrano Davidson e MacKinnon, $0\leq h_t <1$ per ogni
  $t$, quindi questa correzione non pu� ridurre gli elementi diagonali di
  $\hat{\Omega}$ e in generale li corregge verso l'alto.
\item HC$_3$: Usa $\hat{u}^2_t/(1-h_t)^2$.  Il fattore aggiuntivo
  $(1-h_t)$ nel denominatore, relativo a HC$_2$, pu� essere giustificato col
  fatto che le osservazioni con ampia varianza tendono a esercitare una grossa
  influenza sulle stime OLS, cos� che i corrispondenti residui tendono ad essere
  sottostimati. Si veda Davidson e MacKinnon per ulteriori dettagli.
\end{itemize}

I rispettivi meriti di queste varianti sono stati analizzati sia dal punto di
vista teorico che attraverso simulazioni, ma sfortunatamente non c'� un consenso
preciso su quale di esse sia ``la migliore''. Davidson e MacKinnon sostengono
che l'originale HC$_0$ probabilmente si comporta peggio delle altre varianti,
tuttavia gli ``errori standard di White'' sono citati pi� spesso delle altre
varianti pi� sofisticate e quindi per motivi di comparabilit�, HC$_0$ �
lo stimatore HCCME usato da \app{gretl} in modo predefinito.

Se si preferisce usare HC$_1$, HC$_2$ o HC$_3$, � possibile farlo in due modi.
In modalit� script, basta eseguire ad esempio
%
\begin{code}
set hc_version 2
\end{code}
%
Con l'interfaccia grafica, basta andare nella finestra di configurazione di
HCCME come mostrato sopra e impostare come predefinita una delle varianti.


\section{Serie storiche e matrici di covarianza HAC}
\label{vcv-hac}

L'eteroschedasticit� pu� essere un problema anche con le serie storiche, ma
raramente � l'unico, o il principale, problema.

Un tipo di eteroschedasticit� � comune nelle serie storiche macroeconomiche, ma
� abbastanza semplice da trattare: nel caso di serie con una forte tendenza,
come il prodotto interno lordo, il consumo o l'investimento aggregato, e simili,
alti valori della variabile sono probabilmente associati ad alta variabilit� in
termini assoluti. Il rimedio ovvio, usato da molti studi macroeconomici,
consiste nell'usare i logaritmi di queste serie, al posto dei livelli. A patto
che la variabilit� \textit{proporzionale} di queste serie rimanga abbastanza
costante nel tempo, la trasformazione logaritmica � efficace.

Altre forme di eteroschedasticit� possono sopravvivere alla trasformazione
logaritmica e richiedono un trattamento distinto dal calcolo degli errori
standard robusti. Ad esempio l'\textit{e\-te\-ro\-sche\-da\-sti\-ci\-t� autoregressiva
condizionale} riscontrabile ad esempio nelle serie dei prezzi di borsa, dove
grandi disturbi sul mercato possono causare periodi di aumento della volatilit�;
fenomeni come questo giustificano l'uso di specifiche strategie di stima, come
nei modelli GARCH (si veda il capitolo~\ref{chap:timeser}).

Nonostante tutto questo, � possibile che un certo grado di eteroschedasticit�
sia presente nelle serie storiche: il punto chiave � che nella maggior parte dei
casi, questa � probabilmente combinata con un certo grado di correlazione
seriale (autocorrelazione), e quindi richiede un trattamento speciale.
Nell'approccio di White, $\hat{\Omega}$, la matrice di covarianza stimata degli
$u_t$, rimane diagonale: le varianze,
$E(u^2_t)$, possono differire per $t$, ma le covarianze, $E(u_t u_s)$, sono
sempre zero. L'autocorrelazione nelle serie storiche implica che almeno alcuni
degli elementi fuori dalla diagonale di $\hat{\Omega}$ possono essere diversi da
zero. Questo introduce una complicazione evidente e un ulteriore termine da
tenere presente: le stime della matrice di covarianza che sono asintoticamente
valide anche in presenza di eteroschedasticit� e autocorrelazione nel processo
di errore vengono definite HAC (heteroskedasticity and autocorrelation
consistent).

Il tema della stima HAC � trattato in termini pi� tecnici nel capitolo~\ref{chap:gmm},
qui cerchiamo di fornire un'intuizione basilare. Iniziamo da un commento
generale: l'autocorrelazione dei residui non � tanto una propriet� dei dati,
quanto il sintomo di un modello inadeguato. I dati possono avere propriet�
persistenti nel tempo, ma se imponiamo un modello che non tiene conto
adeguatamente di questo aspetto, finiamo con avere disturbi autocorrelati. Al
contrario, spesso � possibile mitigare o addirittura eliminare il problema
dell'autocorrelazione includendo opportune variabili ritardate in un modello di
serie storiche, o in altre parole specificando meglio la dinamica del modello.
La stima HAC \textit{non} dovrebbe essere considerata il primo strumento per
affrontare l'autocorrelazione del termine di errore.

Detto questo, la ``ovvia'' estensione dello stimatore HCCME di White al caso di
errori autocorrelati sembra questa: stimare gli elementi fuori dalla diagonale
di $\hat{\Omega}$ (ossia le autocovarianze, $E(u_t u_s)$) usando, ancora una
volta, gli opportuni residui OLS: $\hat{\omega}_{ts} = \hat{u}_t \hat{u}_s$.
Questo approccio sembra giusto, ma richiede una correzione importante:
cerchiamo uno stimatore \textit{consistente}, che converga verso il vero
$\Omega$ quando l'ampiezza del campione tende a infinito. Campioni pi� ampi
permettono di stimare pi� elementi di $\omega_{ts}$ (ossia, per $t$ e $s$
pi� separati nel tempo), ma \textit{non} forniscono pi� informazione a proposito
delle coppie $\omega_{ts}$ pi� distanti nel tempo, visto che la massima separazione nel
tempo cresce anch'essa al crescere della dimensione del campione. Per assicurare
la consistenza, dobbiamo confinare la nostra attenzione ai processi che
esibiscono una dipendenza limitata nel tempo, o in altre parole interrompere il
calcolo dei valori $\hat{\omega}_{ts}$ a un certo valore massimo di
$p = t-s$ (dove $p$ � trattato come una funzione crescente dell'ampiezza
campionaria, $T$, anche se non � detto che cresca proporzionalmente a $T$).

La variante pi� semplice di questa idea consiste nel troncare il calcolo a un
certo ordine di ritardo finito $p$, che cresce ad esempio come $T^{1/4}$. Il
problema � che la matrice $\hat{\Omega}$ risultante potrebbe  non essere
definita positiva, ossia potremmo ritrovarci con delle varianze stimate
negative. Una soluzione a questo problema � offerta dallo stimatore di
Newey--West (Newey e West, 1987), che assegna pesi declinanti alle
autocovarianze campionarie, man mano che la separazione temporale aumenta.

Per capire questo punto pu� essere utile guardare pi� da vicino la
matrice di covarianza definita nella (\ref{eq:ols-varb-h}), ossia,
%
\[
(X'X)^{-1} (X' \hat{\Omega} X) (X'X)^{-1}
\]
%
Questo � noto come lo stimatore ``sandwich''. La fetta di pane �
$(X'X)^{-1}$, ossia una matrice $k \times k$, che � anche l'ingrediente
principale per il calcolo della classica  matrice di covarianza.
Il contenuto del sandwich �
%
\[
\begin{array}{ccccc}
\hat{\Sigma} & = & X' & \hat{\Omega} & X \\
{\scriptstyle (k \times k)} & &
{\scriptstyle (k \times T)} & {\scriptstyle (T \times T)} &
  {\scriptstyle (T \times k)}
\end{array}
\]
%
Poich� $\Omega = E(uu')$, la matrice che si sta stimando pu� essere scritta
anche come
\[
\Sigma = E(X'u\,u'X)
\]
%
che esprime $\Sigma$ come la covarianza di lungo periodo del vettore casuale
$X'u$ di dimensione $k$.

Dal punto di vista computazionale, non � necessario salvare la matrice
$T \times T$ $\hat{\Omega}$, che pu� essere molto grande. Piuttosto, si pu�
calcolare il contenuto del sandwich per somma, come
%
\[
\hat{\Sigma} = \hat{\Gamma}(0) + \sum_{j=1}^p w_j
  \left(\hat{\Gamma}(j) + \hat{\Gamma}'(j) \right)
\]
%
dove la matrice $k \times k$ di autocovarianza campionaria $\hat{\Gamma}(j)$,
per $j \geq 0$, � data da
\[
\hat{\Gamma}(j) = \frac{1}{T} \sum_{t=j+1}^T
  \hat{u}_t \hat{u}_{t-j}\, X'_t\, X_{t-j}
\]
e $w_j$ � il peso dato dall'autocovarianza al ritardo $j > 0$.

Rimangono due questioni. Come determiniamo esattamente la massima lunghezza del
ritardo (o ``larghezza di banda'') $p$ dello stimatore HAC? E come determiniamo
esattamente i pesi $w_j$? Torneremo presto sul (difficile) problema della
larghezza di banda, ma per quanto riguarda i pesi, \app{gretl} offre tre varianti.
Quella predefinita � il kernel di Bartlett, come � usato da
Newey e West. Questo stabilisce che
\[
w_j = \left\{ \begin{array}{cc}
     1 - \frac{j}{p+1} & j \leq p \\
     0 & j > p
     \end{array}
    \right.
\]
in  modo che i pesi declinino linearmente mentre $j$ aumenta. Le altre due
opzioni sono il kernel di Parzen e il kernel QS (Quadratic Spectral).
Per il kernel di Parzen,
\[
w_j = \left\{ \begin{array}{cc}
    1 - 6a_j^2 + 6a_j^3 & 0 \leq a_j \leq 0.5 \\
    2(1 - a_j)^3 & 0.5 < a_j \leq 1 \\
    0 & a_j > 1
    \end{array}
    \right.
\]
dove $a_j = j/(p+1)$, mentre per il kernel QS
\[
w_j = \frac{25}{12\pi^2 d_j^2}
   \left(\frac{\sin{m_j}}{m_j} - \cos{m_j} \right)
\]
dove $d_j = j/p$ e $m_j = 6\pi d_i/5$.

La figura~\ref{fig:kernels} mostra i pesi generati da questi kernel per
$p=4$ e $j$ che va da 1 a 9.

\begin{figure}[htbp]
\caption{Tre kernel per HAC}
\label{fig:kernels}
\centering
\includegraphics{figures/kernels}
\end{figure}

In \app{gretl} � possibile scegliere il kernel usando il comando \texttt{set}
col parametro \verb|hac_kernel|:
%
\begin{code}
set hac_kernel parzen
set hac_kernel qs
set hac_kernel bartlett
\end{code}

\subsection{Scelta della larghezza di banda HAC}
\label{sec:hac-bw}

La teoria asintotica sviluppata da Newey, West ed altri ci dice in termini
generali come la larghezza di banda HAC, $p$, deve crescere in relazione
all'ampiezza campionaria, $T$, ossia dice che $p$ dovrebbe crescere
proporzionalmente a qualche potenza frazionaria di $T$. Purtroppo questo non �
di molto aiuto quando nella pratica si ha a che fare con un dataset di ampiezza
fissa. Sono state suggerite varie regole pratiche, due delle quali sono
implementate da \app{gretl}. L'impostazione predefinita � $p = 0.75 T^{1/3}$,
come raccomandato da Stock e Watson (2003). Un'alternativa � $p =
4(T/100)^{2/9}$, come raccomandato in Wooldridge (2002b). In entrambi i casi si
prende la parte intera del risultato. Queste varianti sono chiamate
rispettivamente \texttt{nw1} e \texttt{nw2} nel contesto del comando \texttt{set} col parametro
\verb|hac_lag|. Ossia, � possibile impostare la versione data da
Wooldridge con il comando
%
\begin{code}
set hac_lag nw2
\end{code}
%
Come mostrato nella Tabella~\ref{tab:haclag} la scelta tra \texttt{nw1} e
\texttt{nw2} non causa rilevanti differenze.

\begin{table}[htbp]
  \centering
  \begin{tabular}{ccc}
    $T$ & $p$ (\texttt{nw1}) & $p$ (\texttt{nw2}) \\[4pt]
50& 	2& 	3 \\
100& 	3& 	4 \\
150& 	3& 	4 \\
200& 	4& 	4 \\
300& 	5& 	5 \\
400& 	5& 	5 \\
  \end{tabular}
\caption{Larghezza di banda HAC: confronto tra due regole pratiche}
\label{tab:haclag}
\end{table}

� anche possibile specificare un valore numerico fisso per $p$, come in
%
\begin{code}
set hac_lag 6
\end{code}
%
Inoltre � possibile impostare un valore diverso per il kernel QS (visto che
questo non deve essere necessariamente un valore intero).  Ad esempio:
%
\begin{code}
set qs_bandwidth 3.5
\end{code}


\subsection{Prewhitening e scelta della larghezza di banda basata sui dati}
\label{sec:hac-prewhiten}

Un approccio alternativo per trattare l'autocorrelazione dei residui consiste
nell'attaccare il problema da due fronti. L'intuizione alla base di questa
tecnica, nota come \emph{VAR prewhitening} (Andrews e Monahan, 1992) pu� essere
illustrata con un semplice esempio. Sia $x_t$ una serie di variabili casuali con
autocorrelazione del prim'ordine
%
\[
  x_t = \rho x_{t-1} + u_t
\]
%
Si pu� dimostrare che la varianza di lungo periodo di $x_t$ �
%
\[
  V_{LR}(x_t) = \frac{V_{LR}(u_t)}{(1-\rho)^2}
\]
%
Nella maggior parte dei casi, $u_t$ � meno autocorrelato di $x_t$,
quindi dovrebbe richiedere una minore larghezza di banda. La stima di
$V_{LR}(x_t)$ pu� quindi procedere in tre passi: (1) stimare $\rho$; (2)
ottenere una stima HAC di $\hat{u}_t = x_t - \hat{\rho} x_{t-1}$; (3)
dividere il risultato per $(1-\rho)^2$.

Applicare questo approccio al nostro problema implica stimare un'autoregressione
vettoriale (VAR) di ordine finito sulle variabili vettoriali
$\xi_t = X_t \hat{u}_t$. In generale, il VAR pu� essere di ordine qualsiasi, ma
nella maggior parte dei casi � sufficiente l'ordine 1; lo scopo non � quello di
produrre un modello preciso per $\xi_t$, ma solo quello di catturare la maggior parte
dell'autocorrelazione.  Quindi viene stimato il VAR seguente
%
\[
  \xi_t = A \xi_{t-1} + \varepsilon_t
\]
%
Una stima della matrice $X'\Omega X$ pu� essere ottenuta con
\[
  (I- \hat{A})^{-1} \hat{\Sigma}_{\varepsilon} (I- \hat{A}')^{-1}
\]
dove $\hat{\Sigma}_{\varepsilon}$ � uno stimatore HAC, applicato ai residui del
VAR.

In \app{gretl} � possibile usare il prewhitening con
%
\begin{code}
set hac_prewhiten on
\end{code}
%
Al momento non � possibile calcolare un VAR iniziale con un ordine diverso da 1.

Un ulteriore miglioramento di questo approccio consiste nello scegliere la
larghezza di banda in base ai dati. Intuitivamente, ha senso che la larghezza di
banda non tenga conto soltanto dell'ampiezza campionaria, ma anche delle
propriet� temporali dei dati (e anche del kernel scelto). Un metodo non
parametrico di scelta � stato proposto da Newey e West (1994) ed � spiegato
bene e in modo sintetico da Hall (2005). Questa opzione pu� essere abilitata in
gretl con il comando
%
\begin{code}
set hac_lag nw3
\end{code}
%
ed � abilitata in modo predefinito quando si seleziona il prewhitening, ma �
possibile modificarla utilizzando un valore numerico specifico per
\verb|hac_lag|.

Anche il metodo basato sui dati proposto da Newey--West non identifica univocamente
la larghezza di banda per una data ampiezza del campione. Il primo passo
consiste nel calcolare una serie di covarianze dei residui, e la lunghezza di
questa serie � una funzione dell'ampiezza campionaria, ma solo per un certo
multiplo scalare; ad esempio, � data da $O(T^{2/9})$ per il kernel di Bartlett.
\app{Gretl} usa un multiplo implicito pari a 1.


\section{Problemi speciali con dati panel}
\label{sec:vcv-panel}

Visto che i dati panel hanno sia caratteristiche di serie storiche sia
caratteristiche di dati cross-section, ci si pu� aspettare che in generale
la stima robusta della matrice di covarianza debba richiedere di gestire sia
l'eteroschedasticit� che l'autocorrelazione (l'approccio HAC). Inoltre ci sono
altre caratteristiche dei dati panel che richiedono attenzione particolare:
\begin{itemize}
\item La varianza del termine di errore pu� differire tra le unit�
  cross-section.
\item La covarianza degli errori tra le unit� pu� essere diversa da zero in ogni
  periodo temporale.
\item Se non si rimuove la variazione ``between'', gli errori possono esibire
  autocorrelazione, non nel senso classico delle serie storiche, ma nel senso
  che l'errore medio per l'unit� $i$ pu� essere diverso da quello per l'unit� $j$
  (questo � particolarmente rilevante quando il metodo di stima � pooled OLS).
\end{itemize}

\app{Gretl} al momento offre due stimatori robusti per la matrice di covarianza
da usare con dati panel, disponibili per modelli stimati con effetti fissi,
pooled OLS, e minimi quadrati a due stadi. Lo stimatore robusto predefinito �
quello suggerito da Arellano (2003), che � HAC a patto che il panel sia del tipo
``$n$ grande, $T$ piccolo'' (ossia si osservano molte unit� per pochi periodi).
Lo stimatore di Arellano �
\[
\hat{\Sigma}_{\rm A} =
\left(X^{\prime}X\right)^{-1}
\left( \sum_{i=1}^n X_i^{\prime} \hat{u}_i
    \hat{u}_i^{\prime} X_i \right)
\left(X^{\prime}X\right)^{-1}
\]
dove $X$ � la matrice dei regressori (con le medie di gruppo sottratte, nel caso
degli effetti fissi), $\hat{u}_i$ denota il vettore dei residui per l'unit� $i$,
e $n$ � il numero delle unit� cross-section. Cameron e Trivedi (2005) difendono
l'uso di questo stimatore, notando che il classico HCCME di White pu� produrre
errori standard artificialmente bassi in un contesto panel, perch� non tiene
conto dell'autocorrelazione.

Nei casi in cui l'autocorrelazione non � un problema, lo stimatore proposto da
Beck e Katz (1995) e discusso da Greene (2003, capitolo 13) pu� essere appropriato.
Questo stimatore, che tiene conto della correlazione contemporanea tra le unit�
e l'eteroschedasticit� per unit�, �
\[
\hat{\Sigma}_{\rm BK} =
\left(X^{\prime}X\right)^{-1}
\left( \sum_{i=1}^n \sum_{j=1}^n \hat{\sigma}_{ij} X^{\prime}_iX_j \right)
\left(X^{\prime}X\right)^{-1}
\]
Le covarianze $\hat{\sigma}_{ij}$ sono stimate con
\[
\hat{\sigma}_{ij} = \frac{\hat{u}^{\prime}_i \hat{u}_j}{T}
\]
dove $T$ � la lunghezza della serie storica per ogni unit�. Beck e
Katz chiamano gli errori standard associati ``Panel-Corrected Standard
Errors'' (PCSE). Per usare questo stimatore in \app{gretl} basta eseguire
il comando
%
\begin{code}
set pcse on
\end{code}
%
Per reimpostare come predefinito lo stimatore di Arellano occorre eseguire
%
\begin{code}
set pcse off
\end{code}
%
Si noti che a prescindere dall'impostazione di \texttt{pcse}, lo stimatore
robusto non � usato a meno che non si aggiunga l'opzione \verb|--robust| ai
comandi di stima, o non si selezioni la casella ``Robusto'' nell'interfaccia
grafica.

%%% Local Variables:
%%% mode: latex
%%% TeX-master: "gretl-guide"
%%% End: