Analisi Garch Sondaggi Europee 2009

Dopo aver presentato la CLASSIFICA DI PRECISIONE dei 10 Istituti di Sondaggi che hanno monitorato le passate Elezioni Europee, segnaliamo un’analisi Garch su tutti i partiti candidati durante questa tornata elettorale.

http://www.termometropolitico.it/index.php/Sondaggi/analisi-garch-sondaggi-europee-2009.html

GARCH, ovvero Generalized AutoRegressive Conditional Heteroskedasticity, è una tecnica ampiamente utilizzata in statistica per simulare (e possibilimente estrapolare valori futuri) una serie di dati reali tramite numeri casuali estratti da alcune distribuzioni (Distribuzione Normale o Gaussiana generalmente), opportunamente pesati secondo parametri numerici, considerando un certo numero di regressioni passate (q-legs o p-legs, da cui GARCH(p,q)).

Ciò che questo modello tenta di analizzare è la varianza combinata dei termini di errore come funzione delle varianza precedenti. La varianza indica sostanzialmente il grado di dispersione (vicinanza o lontananza) di un dato estratto dalla serie reale dal valore medio calcolato. Tale modello è particolarmente indicato per quelle serie di dati reali che mostrano aggragazioni di varianze, ovvero dei cumuli di dati con una data dispersione (alta o bassa) rispetto al valore medio. E’ perciò altamente richiesto che vi siano molti dati da analizzare, per garantire la presenza di questi cumuli di varianza (volatility clusters). Nel caso dei Sondaggi per le Elezioni Europee abbiamo circa 40 dati: non sono molti, ma possono essere usati per fornire un’indicazione di massima.

Formalmente, si tenta di stimare i parametri della seguente relazione di varianza

tramite appositi algoritmi (noi usiamo quello fornito dal toolbox Garch di Matlab @).

Generalized: GARCH è la generalizzazione del modello ARCH, se si include la varianza (indicata dal termine σ²_i) dell’errore (indicato dal termine casuale ε_i, prodotto tra il dato reale ed un numero casuale)

AutoRegressive: il valore presente è la combinazione lineare di passati eventi, tramite opportuni pesi (indicati dai termini α_i e β_i)

Conditional: la probabilità di osservare una certa varianze presente è condizionata ai valori delle varianze degli errori passati e gli errori quadrati.

Heteroskedasticity: ovvero con valori di varianza generalmente diversi (per garantire la massima corrispondenza con i dati reali)

Come abbiamo precedentemente mostrato, la dinamica dei sondaggi appare suddivisibile in tre categorie: sovrastima PDL, errore diffuso piccoli partiti, errore contenuto per gli altri partiti. Il seguente grafico di dispersione tra i valori dei sondaggi ed i risultati finali (espressi in percentuale di errore) evidenzia chiaramente questi tre intervalli di varianza (dispersione dal valore medio reale, non quello calcolato con la media sui sondaggi).

Dispersione Sondaggi EUR09

Nota al Grafico "Dispersione Sondaggi EUR09": gli spazi vuoti in alcuni dei partiti più piccoli è dovuta all’assenza di campionamento da parte di taluni Istituti di Sondaggi. Ogni intervallo di partito deve contenere quindi 35 rilevazioni (inclusi gli spazi vuoti).

Ci chiediamo ora se sia possibile studiare la dinamica di varianza per ogni partito tramite un’analisi GARCH(1,1), ovvero considerando una regressione per la varianza ed una per gli errori casuali. Valori più alti di p-legs e q-legs sono ininfluenti o poco indicativi per così pochi dati.

Avendo indicato con la linea orizzontale rossa il valore medio su tutti i sondaggi e con la linea verde orizzontale il valore finale reale, iniziamo col mostrare i grafici di tutti i partiti. Nel primo sottografico viene raffigurato la dinamica dei valori ε_i=z_i X_icon i=1...N (N =numero di partiti presenti), z_inumeri casuali estratti da una distribuzione Normale N(0,1), con valor medio 0 e varianza 1. Nel secondo sottografico la dinamica della varianza, secondo la probabilità condizionata legata a 1 dato precedente. Se la varianza fosse costante per tutti i 10 Istituti di Sondaggi, dovremmo osservare una linea orizzontale. Più il secondo sottografico si discosta da tale linea orizzontale, più siamo di fronte a cumuli di varianze, o più generalmente a varianze non costanti. Il terzo sottografico rappresenta la dinamica reale riscontrata secondo i valori dei Sondaggi. Ci si aspetta, se il modello funziona, che il primo ed il terzo sottografico siano il più possibile simili. Il quarto sottografico indica la distribuzione di probabilità delle differenze relative tra i valori di un partito rispetto a quello precedente. Ciò indica chiaramente quanto i sondaggi si discostino l’uno dall’altra in funzione del momento di commissionamento e campionamento. Infine, l’ultimo sottografico mostra la distribuzione di probabilità dei valori di partito su tutti i sondaggi: si può apprezzare da questo grafico quanto il dato partito sia stato sotto-sovra-stimato, quante volte sia stato campionato in questo errore, e quanto preciso sia stato il campionamento (numero di eventi lontani dal valore reale/valore medio).

PDL