Mentire con le statistiche
Queste osservazioni, come indicato
da una nota nel libro,
completano alcuni accenni contenuti nel testo originale
e anche nei commenti alledizione italiana
di How to Lie
with Statistics di Darrell Huff.
La curva logica o campana di Gauss
Giancarlo Livraghi maggio 2007
Disponibile anche in
pdf
(migliore come testo stampabile)
Nel capitolo 2 e nel capitolo 9 del libro di Darrell Huff si parla di quella curva logica, o distribuzione normale, o campana di Gauss, che può comparire in vari punti interessanti di unanalisi statistica. Prende il nome da Carl Friedrich Gauss, studioso tedesco del diciannovesimo secolo che è considerato uno dei più grandi matematici di tutti i tempi.
Fra i suoi molti studi cè la definizione della distribuzione gaussiana degli errori (o variabile casuale normale) che si traduce graficamente in una curva a campana.
Non è questa la sede per entrare nelle complessità matematiche dellargomento o definire le formule algebriche da cui deriva una curva di questo genere. Ma anche una semplice occhiata alla sua struttura può permetterci di capire come si collocano valori o fattori diversi in rapporto alla loro probabilità.
Non si tratta solo del calcolo di probabilità dellerrore, cosa che interessa ai matematici e agli statistici di professione. Ciò che interessa a tutti, cioè a ogni persona che cerchi di capire il significato di una statistica, è che la curva normale a campana, come la chiama Darrell Huff, ci aiuta a sapere come valori di ogni genere (in particolare in biologia, antropologia, sociologia) tendono a distribuirsi in modo non omogeneo.
Fra le varie equazioni che determinano curve di questo genere, una sola produce quella che è definibile, in senso stretto, campana di Gauss. Ma è diffusa labitudine di chiamare gaussiane anche altre curve logiche con un andamento a campana, benché derivate da equazioni diverse.
Per fare un esempio semplice, la statura delle persone è distribuita in modo che molti sono vicini alla media, pochi ai livelli più alti e più bassi. In uninfinità di situazioni, anche più complesse e meno ovvie, è utile sapere che questo genere di distribuzione esiste e il concetto è facilmente memorizzabile attraverso la (corretta) rappresentazione visiva della campana.
Fra le più interessanti analisi di Darrell Huff (in particolare nel capitolo 5) cè la descrizione dei molti modi in cui un grafico può essere deformato (intenzionalmente o per errore) dando una percezione sbagliata del significato dei dati. Quelle anomalie sono meno facili nel caso di una curva tracciata nella sua semplicità, senza enfasi od orpelli. Ma qualsiasi cosa può essere manipolata per esempio falsando la dimensione delle coordinate e così dando alla curva uninclinazione più o meno accentuata).
Naturalmente, anche quando la curva è tracciata in modo corretto, il suo andamento cambia secondo il caso che stiamo osservando. Può essere più montagnoso o più pianeggiante, come vediamo in questa immagine.
Cioè in pratica è utile sapere che la curva cè, ma i dati (e perciò il tracciato del grafico) possono essere molto diversi secondo la situazione che si sta esaminando e i criteri con cui viene analizzata.
Inoltre, mentre la campana di Gauss (nel senso stretto della definizione) è necessariamente simmetrica, altre curve utili in diversi tipi di analisi possono non esserlo. I calcoli possono dare luogo a una situazione in cui i due lati della campana hanno un andamento diverso. Come in questo esempio.
In questaltro esempio (è il tracciato di unanalisi statistica su dati reali) vediamo una curva ancora più spostata rispetto al profilo ideale simmetrico, ma la struttura è analoga a quella della campana.
Limmagine simmetrica (che abbiamo visto allinizio) è quella che più facilmente ricordiamo per capire il significato dellacurva a campana anche se, in pratica, non è sempre così. Per chi non si occupa di studiare scientificamente il calcolo delle probabilità, basta sapere che, nelle specifiche applicazioni, il concetto è lo stesso, ma la curva può avere unaltra forma.
Cè una curva analoga che si può applicare in vari modi, ma è spesso unefficace rappresentazione dello sviluppo di un fenomeno nel tempo. Si tratta di un quadrante di coordinate cartesiane dove nelle ascisse (asse orizzontale) si indica il tempo e nelle ordinate (asse verticale) la quantità.
Dalla sua forma è evidente il motivo per cui, oltre che curva logica o normale o curva a S, può essere chiamata semicampana di Gauss o più genericamente gaussiana (anche se, da un punto di vista algebrico, quella definizione può non essere esatta).
Talvolta questo genere di curva è chiamato sinusoidale perché la campana somiglia a una porzione di una sinusoide logaritmica o anche di una curva donda.
Sempre senza entrare nelle complessità scientifiche della matematica e della fisica, non è una coincidenza che diverse curve naturali abbiano andamenti analoghi.
Molti dati in biologia, sociologia, economia, eccetera, come nelle attività o situazioni di una singola persona o impresa, tendono a collocarsi secondo una curva di questo genere. Cioè lo sviluppo di qualcosa è inizialmente lento, poi ha una progressiva accelerazione, poi di nuovo rallenta quando si avvicina a un punto di saturazione.
(Sembra che alcuni abbiano capito male. Quando parlano di ciclo di vita di un comportamento, di una tendenza, di un prodotto, eccetera, talvolta sembrano avere in mente la campana nella sua interezza cioè ragionano come se i criteri di distribuzione probabilistica fossero analogamente applicabili allevoluzione nel tempo e perciò tutto ciò che sale fosse automaticamente condannato a scendere nello stesso modo e in un uguale periodo di tempo. È ovviamente possibile che a una fase di crescita ne segua una di declino, ma in molti casi non è così e comunque landamento in discesa è raramente descrivibile o proiettabile in base alle curve normali di cui stiamo parlando).
Se è spesso prevedibile che un andamento di questo genere ci sia, è difficile proiettare in modo attendibile il ciclo di evoluzione. Le quantità e le velocità possono essere molto diverse, come è simbolicamente rappresentato in questa immagine.
Un esempio fra tanti possibili... questo grafico (approssimativo e molto semplificato) mostra la diffusione della radio e della televisione in Italia dal 1926 al 2003. Vediamo due curve con la stessa struttura, ma con diverse evoluzioni nel tempo.
Per dati e analisi su queste tendenze vedi
Storia dei sistemi di informazione e comunicazione in Italia
e per analoghi studi su un periodo più recente
Evoluzione complessa fra cambiamenti e continuità
Anche in molte altre situazioni si rileva come gli andamenti reali possano riflettere una curva di questo genere, ma con variazioni dovute a una varietà di circostanze e con evoluzioni spesso diverse da ciò che precedentemente sembrava prevedibile.
In generale il concetto è sostanzialmente valido. È spesso concretamente verificato nei fatti. Lidea è semplice e chiara. Le applicazioni a singoli casi, invece, sono meno ovvie e possono essere molto più complesse.
I motivi per cui, dopo una fase iniziale di stasi o di crescita lenta, cè unaccelerazione, possono essere vari. Ma spesso si tratta del modo in cui si sviluppano le relazioni. Qualcosa (unidea, uninformazione, un comportamento, un prodotto) è conosciuto da poche persone. Quando si arriva al punto in cui molti conoscono qualcuno che sa o ha quella cosa, si supera la soglia iniziale e si innesca unaccelerazione. La crescita sarà veloce fino al raggiungimento della soglia di saturazione, quando tutte le persone che possono essere interessate sanno o hanno la cosa di cui stiamo valutando la diffusione. Da lì in avanti lo sviluppo è molto più lento e può essere tendente a zero.
(Lo stesso processo si verifica per ogni sorta di fenomeni, compresi quelli preoccupanti, come la diffusione non solo di malattie contagiose, ma anche di comportamenti socialmente dannosi. Quando manca unadeguata prevenzione tendono a crescere fino al loro limite di saturazione, che può essere pericolosamente alto).
Il tracciato successivo della curva è difficilmente proiettabile. Raggiunto il livello di saturazione, che cosa potrà succedere dopo? Non cè una curva normale applicabile in tutti i casi, perché le evoluzioni possono essere molto diverse.
In alcuni casi la situazione si stabilizza: arrivata a una certa dimensione che è il limite strutturale, la quantità rimane statica o ha una leggera crescita dovuta a fattori generali (per esempio laumento della popolazione).
In altri casi ci può essere un crollo precipitoso: perché tramonta qualche labile moda o perché qualcosaltro arriva a sostituire ciò che stiamo misurando. La curva risultante può avere un aspetto come questo.
Questo esempio è del tutto immaginario,
ma somiglia ad alcuni percorsi che si rilevano in situazioni reali.
Oppure ci può essere una fase lenta di esaurimento in cui la spinta propulsiva è venuta a mancare, ma fattori di inerzia rallentano il declino. In situazioni di quel genere ci si può trovare davanti a una curva assimmetrica come questa.
Anche questo esempio è immaginario,
ma ci sono casi reali in cui la curva ha questo aspetto.
Ci sono anche situazioni in cui, raggiunta la saturazione secondo certi parametri, si aprono nuovi orizzonti per cui una certa cosa trova usi diversi, o un certo comportamento si diffonde ad altre persone in modo diversamente percepito, eccetera e così nasce una nuova fase di sviluppo che può avere un nuovo andamento analogo (ma probabilmente non identico) a quello della curva iniziale. Cioè si verifica una situazione come questa.
Anche questa curva è immaginaria,
ma ci sono casi reali di evoluzioni strutturalmente analoghe.
Insomma... nessun criterio di analisi può essere applicato meccanicamente in modo generico. La diffusione e levoluzione vanno sempre studiate nella specificità di ogni singolo fenomeno. Ma conoscere e ricordare le curve naturali può aiutarci a capire e interpretare ogni sorta di dati, situazioni, avvenimenti e comportamenti.