Statistiche significative

Rufus 28/03/201924/05/2022 0 Comments

Vorrei segnalare un paio di letture importanti, a partire da un interessante scambio di informazioni svoltosi nella lista interna di posta dell’Università di Cagliari.

Vi avviso, parliamo di statistica e so benissimo che per molti l’argomento è ostico al solo sentirlo nominare. Però è anche materia di cui siamo impastati quotidianamente e la segnalazione riguarda esattamente il modo con il quale si comunicano la cattiva scienza e le cattive politiche sociali.

Dunque, su Nature, non proprio l’organo di stampa dei terrapiattisti, viene pubblicato un articolo a firma di tre esperti (tutti statistici, ma operanti in campi disciplinari diversi) i quali propongono di abbandonare o perlomeno modificare pesantemente il metodo di lavoro sperimentale che comporta l’uso del valore p e soprattutto mettono in crisi il concetto di significatività statistica.

Seguono altre ottocento firme di appoggio da parte di scienziati di diversi paesi…

Ok, so benissimo che alla menzione del p ho perso una parte dei lettori, quindi spieghiamo.

Il valore p è un indice di significatività statistica. Si usa negli esperimenti a campione; per capire se l’esperimento conferma o no una certa ipotesi si stabilisce una soglia di un indicatore (in questo caso un valore del p): se l’esperimento verifica che le condizioni per cui quell’ipotesi si avvera in maniera casuale stanno sotto quella soglia, molto improbabile, allora statisticamente il risultato è ritenuto significativo. Più il p è basso più il risultato è forte, perché dice che le condizioni che validerebbero l’ipotesi contraria sono assolutamente estreme.

Facciamo un esempio, così ci capiamo meglio. Mi spiace ma l’unico che mi viene in mente è vergognosamente sessista.

Supponiamo di pensare che io sono brutto e ripugnante. Se mi mettono in una stanza con altri novantanove tizi e poi fanno entrare Camille Kostek e lei per prima cosa mi bacia voluttuosamente…

Per miglior chiarezza espositiva, useremo le modelle di *Sports Illustrated*, una nota rivista di… sport

vabbe’, vuol dire che è chiaramente un esempio del tutto di fantasia, ma comunque
tendenzialmente, l’evento non conferma l’ipotesi.

Se dopo Camille entra anche Jasmine Wilkins e mi bacia anche lei, la catena degli eventi conferma sempre meno l’ipotesi, e la soglia del p riguardo all’ipotesi contraria si abbassa.

Volevo costruire l’articolo in modo da mettere decine di foto di tizie sulla spiaggia in posizioni improbabili come i piedi della Jasmine qui, ma poi ho deciso d smettere. Questa è l’ultima.

Se entrano cento supermodelle e tutte mi baciano si potrà affermare che le condizioni sotto cui si può accettare l’ipotesi ripugnanza sono estremamente improbabili: a seconda dei vari campi scientifici si usano soglie del p inferiori a valori molto bassi, tipo meno di 0,05, che nel caso in questione vorrebbe dire, più o meno, che entrano cento supermodelle e tutte baciano me ignorando gli altri, e poi arriva anche Jennifer Lawrence con una limousine e mi propone di scappare via, nella notte.

E poi mi sveglio tutto sudato.

In realtà l’osservazione da fare è che la significatività statistica non è ancora, o non necessariamente, significatività scientifica. È soltanto un modo di verificare un’ipotesi, ma poi il senso va stabilito. Magari io sono davvero brutto e ripugnante, ma mi sono messo d’accordo con loro da prima. Oppure ho in mano un cartello con scritto baci in cambio di milioni di dollari. O magari tutti quelli nella sala erano più brutti di me. O io sono capace di ipnosi istantanea. O le ragazze appartengono a una setta che prevede una volta all’anno di baciare Roberto Sedda per avere ricchezza e felicità. E in realtà, l’ipotesi era corretta? Chi l’ha detto che le donne non baciano gli uomini brutti? Dopotutto le stesse supermodelle dichiarano che negli uomini non guardano se sono belli, ricchi o famosi, ma l’importante è che le facciano ridere. Giusto?

In realtà nell’uso del p ci sono anche dei problemi più a monte. Se io sono davvero brutto e ripugnante, e cento modelle mi ignorano ma poi arriva davvero Jennifer Lawrence con la limousine, probabilmente statisticamente il p non è significativo, ma il fatto è strano, no? Perché non dovrebbe essere indagato o pubblicato?

Oppure: supponiamo che prima dell’inizio dell’esperimento io scommetta con il mio amico che il mio fascino è infallibile e che la prima modella che entra mi bacia. Entra la prima e non lo fa. Entra la seconda e nulla. Però la terza mi bacia. Se io gli dico: «Vedi che fascino?», allora non vale, perché la condizione riguardava la prima. Però se io sono furbo – e il mio amico molto distratto – aspetto a determinare la condizione finché non vedo cosa succede, e poi dico: «Te l’avevo detto o no? Fascino infallibile». In termini statistici avrei dovuto fissare a priori una certa soglia di probabilità, ma visto l’esperimento mi accontento di un’altra maggiore, tanto non l’avevo detto a nessuno, e poi vado a fare il bullo al bar.

Ok, armati con queste spiegazioni, seppure deliranti, possiamo lasciare il campo ai veri esperti e capire, da uno dei primi passaggi dell’articolo, perché la discussione in realtà non riguarda i miei voli di fantasia ma il modo con cui si fa ricerca scientifica in moltissimi campi, con ricadute immediate sulla vita dei cittadini. L’esempio, infatti, ha a che fare con due esperimenti sullo stesso farmaco, e i possibili effetti indesiderati di questo:

Come possono i risultati statistici portare gli scienziati a negare differenze che coloro che non hanno fatto studi di statistica possono vedere con evidenza? Per diverse generazioni i ricercatori sono stati avvertiti che un risultato statisticamente non significativo non prova l’ipotesi nulla (l’ipotesi che non c’è differenza fra gruppi o nessun effetto di un trattamento rispetto a un risultato misurabile). E nemmeno la mancanza di risultati statisticamente significativi prova qualche altra ipotesi. Simili incomprensioni hanno notoriamente stravolto la letteratura con affermazioni esagerate e, meno notoriamente, hanno portato a dichiarazioni di discordanza fra studi laddove non ne esistevano.

[…]

Vogliamo essere chiari riguardo ciò che dobbiamo smettere di fare: non dovremmo mai dichiarare che non c’è differenza o nessuna associazione solo perché un valore p è maggiore di una soglia come 0,05 o, equivalentemente, perché un intervallo di confidenza include lo zero. E neppure dovremmo concludere che due studi sono in conflitto perché uno ha avuto un risultato statisticamente significativo e l’altro no. Questi errori conducono a sprechi nello sforzo di ricerca e conducono a decisioni di politica pubblica male informata.

Per esempio, consideriamo una serie di analisi degli effetti non richiesti di farmaci anti-infiammatori. Poiché i loro risultati erano statisticamente non significativi, un gruppo di ricercatori concluse che l’esposizione al farmaco era non associata all’insorgenza di fibrillazione atriale (il disturbo più comune del ritmo del cuore) e che i risultati erano in contrasto con quelli di uno studio precedente con risultati statisticamente significativi.

Ora, consideriamo i dati reali. I ricercatori che descrivevano i loro risultati come statisticamente non significativi rilevarono un fattore di rischio di 1,2 (cioè, un rischio maggiore del 20% in pazienti sottoposti al farmaco rispetto a quelli non sottoposti). Essi riscontarono anche un intervallo di confidenza del 95% che comprendeva qualunque cosa fra una lievissima diminuzione del rischio del 3% fino a un considerevole aumento del rischio del 48% (p=0.091; calcolo nostro). I ricercatori dello studio precedente, statisticamente significativo, riscontrarono esattamente lo stesso livello di rischio di 1,2. Quello studio era semplicemente più preciso, con un intervallo che andava dal 9% al 33% di maggior rischio (p=0,0003; calcolo nostro).

E ridicolo concludere che dei risultati statisticamente non significativi mostrano nessuna associazione, quando l’intervallo stimato include seri aumenti del rischio; è egualmente assurdo affermare che questi risultati sono in contrasto con i risultati precedenti che mostrano un effetto osservato identico. Tuttavia queste pratiche comuni mostrano come l’affidamento a soglie di significatività statistica possono sviarci (vedi sotto Attenti alle false conclusioni, “Beware false conclusions”).

Attenti alle false conclusioni. Non necessariamente due studi sono in contraddizione: in questo caso il p è diverso ma il punto di stima è lo stesso. Il rischio è che effetti reali vengano ignorati.

È un articolo che dice cose non nuovissime (la guerra sul p, o meglio su cosa voglia dire testare ipotesi statistiche, va avanti almeno dagli anni ’20 del secolo scorso) e che si riallaccia a discussioni recenti che di cui qualche volta ho raccontato anche qui, come quella sulla manipolazione del p o quella sulla crisi di replicabilità nelle scienze sociali. Nonostante questo, considerato il modo con cui si fa scienza in moltissimi campi, è un intervento piuttosto radicale, e il fatto che esca su Nature è abbastanza significativo. La radicalità dell’idea (mettere in pensione il concetto di significatività statistica) non è tanto legata alla pratica, dove gli autori si esprimono con moderazione:

Non stiamo chiedendo di mettere al bando i valori p. E nemmeno stiamo dicendo che non possano essere usati un certi campi specializzati di applicazione (come determinare se un processo produttivo soddisfa certi livelli di controllo di qualità). E non ci stiamo neppure augurando una situazione nella quale vale tutto, nella quale prove deboli improvvisamente divengono credibili. Piuttosto, e in linea con molti altri lungo i decenni, stiamo chiedendo che si smetta di usare i valori del p nel modo dicotomico convenzionale – per decidere se un risultato conferma o confuta un’ipotesi scientifica.

Quello che rende radicale la richiesta è un’affermazione che si trova quasi en passant

Dobbiamo imparare a abbracciare l’incertezza.

Immagino che per chi ha idee filosofiche sulla scienza come un corpus di fatti immutabili iscritti nel diamante della realtà, come per un certo immunologo che imperversa sulla rete e migliaia di suoi epigoni minori, questa sia una cosa piuttosto indigesta. Muoversi fuori dalla certezza del si/no, dentro il territorio del a determinate condizioni, o a mio prudente giudizio, significa perdite significative di status, rinunciare al feticcio della scienza infallibile e delle verità scientifiche sempre certe e immutabili, significa, anche, minare una visone efficientista e meccanicistica della scienza che permetta di spogliarsi della responsabilità delle scelte perché tanto c’è disponibile l’alibi della verità scientifica sulla quale, essendo immutabile, non possiamo fare nulla.

E infatti il primo autore che firma l’articolo su Nature un anno fa ha pubblicato su Medium, quindi per un pubblico più vasto dei colleghi studiosi, un articolo dal titolo La statistica inferenziale non è inferenziale, dove troviamo il passaggio rivelatore

La statistica non può essere inferenziale. Siamo noi che dobbiamo compiere l’inferenza. Come disse Boring (1919) un secolo fa: «Le conclusioni devono alla fine di tutto essere lasciate all’intuizione scientifica del ricercatore e del suo pubblico.

Toh. E del suo pubblico. E quindi, guarda un po’, torna l’idea che la scienza, al fondo, è democratica. E questo sì che oggi è piuttosto radicale.

E quindi queste letture, diciamo, hanno una certa importanza: perché forniscono strumenti per capire (e confutare) decisioni su questioni che ci riguardano direttamente tutti i giorni: su come gestire l’ambiente che viviamo, l’economia in cui siamo inseriti, i servizi sociali o sanitari che riceviamo.

Nella lista interna dell’Università è stata segnalata anche una presa di posizione piuttosto netta dell’American Statistical Association, non proprio il comitato scientifico dell’Università della Terza Età di Montepratobello Minore, la quale proprio pochi giorni fa ha dedicato un intero numero del suo giornale online, The American Statistician, a un mondo oltre il p<0,05 (Statistical Inference in the 21st Century: A World Beyond p < 0.05, tra le altre cose il giornale è rilasciato in accesso aperto con licenza Creative Commons).

Lo so che qui l’idea della lettura di quarantatré articoli diversi, tutti di eminenti statistici, per quanto possano riguardare tematiche con cui ci confrontiamo quotidianamente, può far tremare le vene ai polsi e che nemmeno la ripetuta esibizione di Camille può essere sufficiente a farvi intraprendere lo sforzo. Un compromesso potrebbe essere limitarvi alla lettura dell’editoriale, che è bello corposo, interessantissimo e dice già (quasi) tutto.

Facebook Comments