6 x 9 = 42

“Ho sempre detto che c’era qualcosa di fondamentalmente sbagliato nell’universo…” (Arthur Dent)

Posts Tagged ‘probabilità’

Il problema non banale dell’incertezza

Posted by scardax su gennaio 24, 2013

Di tutti i concetti scientifici che hanno rivoluzionato il nostro modo di pensare, una posizione sul podio va sicuramente data alla nozione di probabilità, che ci permette di affrontare  l’incertezza con precisi modelli e regole matematiche. In un mondo di infiniti dati e di infinita potenza di calcolo, ci siamo abituati a veder calcolare qualsiasi genere di probabilità: che vinciate al lotto; che i ghiacciai si sciolgano nel prossimo anno; che un candidato vinca le elezioni; che il mondo sarebbe finito nel 2012 (questa era facile: 0).

Nonostante la nostra intuizione su cosa sia la probabilità, però, la sua definizione formale rimane incredibilmente elusiva. Chiediamoci: cosa vuol dire che una moneta ha probabilità 50% di cadere da un lato? Per quanto sembri incredibile, ci sono almeno due modi di intendere la probabilità: frequentista (oggettivo) e Bayesiano (soggettivo). Al di là del problema epistemologico di quale sia, in realtà, la definizione corretta tra le due, la questione diventa incredibilmente seria quando consideriamo l’applicazione della probabilità a problemi pratici di inferenza da campioni di misurazioni multipli. In effetti, le due visioni hanno dato origine a due classi di metodi statistici estremamente diversi che, nel corso del XX Secolo, non hanno mancato di scontrarsi a più riprese.

Cominciamo dal più conosciuto, l’approccio frequentista, che è quello che ancora oggi si insegna prevalentemente nelle scuole secondarie o nei corsi Universitari di base. Secondo questo approccio, una probabilità è la frequenza relativa con cui si avvera un evento se ripetiamo tale esperimento infinite volte. E’ qualcosa di oggettivo, insito nell’esperimento stesso, e che in generale possiamo definire con molta precisione. Se lanciamo una moneta mille volte, ci aspettiamo circa 500 volte di ottenere testa e circa 500 croce. L’approccio frequentista è stato predominante per buona parte del XX Secolo, grazie ad una buona chiarezza espositiva, eleganza, e soprattutto alla semplicità dei suoi metodi di inferenza.

Nonostante questo, in molti casi esso sembra troppo restrittivo rispetto al nostro senso comune: cosa vorrebbe dire in questa ottica, ad esempio, che la probabilità che un politico venga eletto è il 10%? Sicuramente non si tratta di un esperimento ripetibile. In effetti, questa probabilità non è una vera probabilità nel senso frequentista, secondo il quale un esperimento “one-shot” come una elezione ha, tutt’al più, probabilità 1 oppure 0. E’ una probabilità soggettiva, e come tale rientra nel secondo approccio, quello Bayesiano (dal matematico Inglese Thomas Bayes), secondo cui le probabilità non sono altro che una misura soggettiva della nostra incertezza riguardo un evento. Ottenere testa lanciando una moneta ha probabilità 50% perché, soggettivamente, siamo massimamente indecisi sul risultato, mentre nel caso di prima del politico siamo fortemente propensi verso un dato risultato. L’approccio Bayesiano era prevalente all’inizio del XX Secolo (seppur non sotto questo nome), e lo è tornato sul finire, quando la capacità di calcolo necessaria ai suoi conti è diventata disponibile.

Come detto in precedenza, questa problematica potrebbe sembrare puramente formale, ma ha effetti disastrosi quando andiamo ad applicare la probabilità ad un problema statistico (nota: qui è dove il post diventa leggermente più tecnico. Non rinunciate!).

Consideriamo ad esempio il seguente problema: stimare l’altezza media della popolazione italiana a partire dalla misurazione dell’altezza di qualche centinaio di cittadini (supponendo che siano sostanzialmente rappresentativi della popolazione complessiva). L’approccio naif è quello di prendere semplicemente la media delle nostre misurazioni. Purtroppo, avendo noi a disposizione solo un campione della popolazione, il nostro risultato sarà soggetto ad una certa incertezza, ed il problema è proprio quantificare questa incertezza. Domande tipiche sono: quanto può variare il nostro errore? quante altre persone dovrei avere a disposizione per ridurlo? e così via. Pensate all’importanza di tali domande quando ci basiamo su un sondaggio per prendere decisioni importanti oppure quando dobbiamo decidere se (ad esempio) fumare aumenta effettivamente il rischio di malattie mortali, tutti gli altri fattori mantenuti fissi.

Nell’approccio puramente frequentista, l’altezza media reale della popolazione è un dato fisso, costante nel mondo reale, e sul quale non è quindi possibile definire una qualche probabilità. Le nostre misurazioni, invece, sono soggette ad incertezza, e quindi, in un certo senso, casuali. La media delle nostre misurazione ci fornisce una stima del parametro che cerchiamo la quale, quindi, è soggetta ad una distribuzione di probabilità. Cosa vuol dire questo? Supponendo di ripetere diverse volte le nostre misurazioni, otterremmo diverse stime, com’è chiaro se pensate che cambierebbero le persone su cui le calcoliamo. La frequenza con cui ciascuna stima si presenterebbe nel nostro esperimento è proprio la sua probabilità. Ipotizzando una forma di questa distribuzione, possiamo quindi rispondere a diverse domande, ad esempio possiamo calcolare un intervallo che, nel 95% dei casi, conterrà sempre la vera media che stiamo cercando.

Nel paragrafo precedente ho evidenziato “si presenterebbe”. Le critiche all’approccio frequentista (utilizzato, ad esempio, per testare o rigettare ipotesi di correlazioni fra variabili negli studi scientifici) sono molto sottili. Esso si basa sull’astrazione di ripetere idealmente un esperimento che abbiamo effettuato una sola volta, e di inferire conclusioni considerando anche dati che non abbiamo mai osservato (quelli “eventuali” negli altri esperimenti). Questo va contro quello che si chiama principio di massima verosimiglianza, secondo cui i dati in nostro possesso sono gli unici che dovremmo usare, principio che è al cuore dell’approccio Bayesiano.

Se le nostre misurazioni sono quindi l’unica cosa certa su cui possiamo contare, l’incertezza si sposta sulla quantità che vogliamo misurare, ovvero l’altezza media degli Italiani. Se la probabilità è misura di incertezza (e non una misura oggettiva sul mondo), possiamo quantificarla fornendo una distribuzione di probabilità al parametro che cerchiamo, che descriva le nostre credenze sulla probabilità soggettiva di ciascun valore possibile. Il teorema fondamentale dell’approccio Bayesiano (chiamato, appunto, teorema di Bayes) ci permette quindi di miscelare queste nostre credenze con i dati che abbiamo misurato per fonderle in un’unica visione, e darci quindi una nuova forma della distribuzione di probabilità del parametro cercato. Da questa possiamo poi, ad esempio, verificare quale valore è più probabile, quale intervallo lo è al 95%, ecc.

Il vantaggio di tutto questo è che il teorema di Bayes ci dà una maniera unificata e lineare di ragionare sull’incertezza, assente nell’approccio frequentista. La principale critica è data, appunto, dalla soggettività: due persone diverse, con gli stessi dati ma con diverse assunzioni sul parametro alla base, otterrebbero risultati diversi e questo, a prima vista, sembra inaccettabile per una procedura scientifica rigorosa. La risposta Bayesiana è che le nostre assunzioni sono parte integrante dei dati, e che senza una o più assunzioni è impossibile generalizzare. Inoltre, rendere esplicite le assunzioni rende anche più semplice, ad esempio, contestarle. Un secondo problema, forse più grave, è che ora lavorare con la probabilità risultante è molto più difficile, specie nei casi nei quali non possiamo ricavarne una formula chiusa. Problema che non è ben chiaro se la pura potenza di calcolo ha davvero risolto.

Oggi le due classi di metodi coesistono (quasi) pacificamente a seconda di quale siano le esigenze dei ricercatori. Eppure, nella misura in cui l’investigazione scientifica è la generalizzazione a partire dall’osservazione, la probabilità è il cuore pulsante della Scienza e, quindi, rispettosa forse più di ogni altra cosa di studio e comprensione.

P.S.: dite che mi sono allungato troppo? Non vi sento da quaggiù.

Posted in Matematica | Contrassegnato da tag: , , , , , | Leave a Comment »

Inseguendo i Sogni (parte 2)

Posted by scardax su ottobre 11, 2009

Poco più di un anno fa, avevamo calcolato le probabilità di fare uno sperato 6+1 al Superenalotto. Visto che negli ultimi giorni spopola un nuovo gioco, l’ormai celebre Win for Life, cerchiamo di ripetere i calcoli per vedere se anche in questo caso le probabilità sono cosi’ assurdamente contro di noi nel caso pensassimo di cominciare a giocare.

Come per il Superenalotto, concentriamoci sul premio più ambito, ovvero la rendita vitalizia (o, meglio, ventennale) di 4000 al mese. Il gioco é abbastanza semplice: con una giocata di un euro, dobbiamo scegliere dieci numeri su venti da una schedina, e la macchina delle scommesse ci assegnerà automaticamente un undicesimo numero, il “Numerone”, indipendente dai primi dieci. Ogni giorno, vengono estratti dieci numeri ed un Numerone, e se tutti gli undici numeri coincidono con la vostra schedina la rendita vitalizia é vostra (altrimenti, si vincono premi minori indovinando dai sette ai dieci numeri).

Le probabilità di vincere il superpremio é quindi legata a due fattori indipendenti: i dieci numeri, ed il numerone.

P_{superpremio} = P_{dieci numeri} * P_{numerone}

La probabilità di azzeccare il numerone é esattamente 1/20, mentre quella dei dieci numeri é la probabilità di azzeccare una combinazione di dieci numeri fra venti, indipendentemente dall’ordine (la formula per questo caso l’avevamo ricavata nell’altro post):

P_{dieci numeri} = \displaystyle \frac{1}{C_{20,10}} = 1 / \frac{20!}{10!(20 - 10)!} = 5.41 * 10^{-6}

Complessivamente:

P_{superpremio} = 5.41 * 10^{-6} / 20 = 2.7 *10^{-7}

Confrontandola con quella del superenalotto, otteniamo che vincere al Win for Life é più semplice di un fattore ottantaquattro (circa), mentre in generale il ricavato (senza considerare che i soldi ottenuti fra diversi anni sarebbero da scontare) é in proporzione maggiore (quattromila euro per vent’anni sono meno di un milione di euro in totale).

Vi é una seconda possibilità nel Win for Life, che é giocare 2 €, che ci permette di vincere la rendita quasi-vitalizia anche non azzeccando nessun numero fra i venti, ma azzeccando il numerone, il cosiddetto 0+1. Poiché ci sono solo venti numeri in tutto, questo equivale ad azzeccare i dieci numeri che non si sono giocati fra i venti complessivi, e quindi i conti sono esattamente uguali al primo caso: giocando due euro, quindi, raddoppiamo la nostre probabilità di vincita, esattamente come nel Superenalotto (quindi nessun particolare vantaggio).

Vi sono sette estrazioni per il Win for Life, contro le due del Superenalotto, fattore che non partecipa al calcolo delle probabilità, ma indubbiamente aumenta l’apparenza di facilità di vittoria (“cinque vincitori questa settimana! tre la scorsa settimana!”).

Vale la pena giocare? A voi la risposta! 🙂

Posted in Varie | Contrassegnato da tag: , , , , , , | 3 Comments »

Affari del Caso

Posted by scardax su settembre 18, 2008

Lo studio delle probabilità é una di quelle materie scientifiche abbastanza recenti, un po’ come l’evoluzionismo, che tutti credono di aver capito e nessuno sa. Nulla espone meglio questo concetto di un bellissimo “paradosso” (che poi paradosso non é), generalmente denominato come quello “delle tre porte“. Per esporlo in maniera conforme ai nostri standard televisivi:

Supponete di partecipare ad un gioco televisivo in cui dovete scegliere fra tre pacchi (e se vi ricorda qualcosa, ho paura che guardiate troppo la televisione). Dentro uno di questi é contenuto il premio della serata (credo che una velina sia adatta al nostro esempio), mentre negli altri due vi attende una sonora sconfitta (una velona?). Scegliete inizialmente uno dei pacchi, quindi il conduttore decide di aiutarvi aprendone uno dei tre da cui esce una delle velone, e vi chiede se volete cambiare la vostra scelta con l’altro pacco rimasto in gioco.

Adesso abbiamo tre possibilità:

1) Vi viene in mente che, in fondo, scegliendo ora avreste il 50% delle probabilità di indovinare il pacco vincente, quindi scegliere se tenerlo o no é totalmente indifferente. E lo tenete.

2) Cercando di acciuffare una mosca che passa di là fate credere al conduttore di voler cambiare pacco.

3) Siete svenuti dopo lo choc dell’antisirena uscita dal pacco, e vi risvegliate con sopra una corpulenta dottoressa russa di nome Ivanovka che fa strani esperimenti col vostro.

Bene: nel primo caso, avete 2 possibilità su 3 di… perdere! Poiché questo é decisamente controintuitivo, in quanto siamo convinti che il passato non influenzi, almeno in casi come questo, il presente, é doveroso un tentativo di spiegare questo “strano” risultato. Prima di tutto, se non siete convinti, potete considerare tutti le possibili alternative: o inizialmente avevate scelto uno dei due pacchi perdenti (diciamo A o B), oppure il pacco vincente (diciamo C). Nel primo caso, dopo l’apertura da parte del conduttore rimarranno sulla scena un solo pacco perdente (il vostro) ed uno vincente (l’altro), e quindi cambiando vi garantirete la vittoria; mentre nel secondo caso, speculare al primo, cambiando perderete miseramente. Pero’, all’inizio avevate mediamente 2/3 di probabilità di scegliere un pacco perdente, quindi successivamente avrete esattamente i 2/3 di probabilità di vincere cambiando!

Potete anche pensare che i due pacchi perdenti “collassino” in un solo con il 66% circa di probabilità di essere quello che tenete in mano. Questo é un ottimo spunto per riflettere su una materia utilissima, ma anche piena di piccole insidie all’inizio accuratamente celate allo sguardo e all’intuito.

NB: la statistica é, per definizione, una materia i cui risultati sono di una qualche utilità solo se applicati a numerose ripetizioni di un esperimento. Quindi, é inutile venirvi a lamentare di aver perso seguendo il mio consiglio. Mi spiace.

Posted in Casualità | Contrassegnato da tag: , , , | 9 Comments »