Il sole sorge, la mattina. Una moneta cade di testa. Si gioca alla roulette ed esce un numero rosso. Un atomo di idrogeno acquista sufficienti elettroni, protoni e neutroni da diventare oro. Tutte queste, sono “cose che accadono”, o che, per lo meno, possono accadere. Ma non ci vuole un genio per capire, dall’esperienza quotidiana, che il primo evento è certo, avviene cioè con sicurezza, sempre; il secondo accadrà più o meno la metà delle volte che una moneta viene lanciata, così come più o meno metà delle giocate alla roulette risulteranno in un numero rosso; il quarto è un evento così raro che prima della scoperta della meccanica quantistica non era stato nemmeno preso in considerazione.
Lo scopo del calcolo delle probabilità è fornire delle premesse teoriche per schematizzare, in modo scientifico e matematico, le nozioni intuitive che riguardano gli eventi, la loro possibilità di verificarsi e di quantificare quanto sia probabile che un determinato evento avvenga o non avvenga. Quello che vogliamo fare, quindi, è definire che cos’è l’esito di un esperimento o di un’osservazione, come possiamo considerare e definire gli eventi in generale, e in che modo si può misurare la probabilità che avvengano determinati eventi.
Scegliamo innanzitutto un fenomeno da studiare (il sorgere del sole, il lancio di una moneta, eccetera), e andiamo a considerare tutti i possibili esiti di tale fenomeno. Nel caso del sole, gli esiti possibili potrebbero essere “il sole sorge” e “il sole non sorge”. Nel caso della moneta, “la moneta cade su testa”, “la moneta cade su croce”, ma anche “la moneta cade di taglio” o “un gabbiano passa e si mangia la moneta”. Per la roulette, gli eventi potrebbero essere rappresentati da tutti i possibili numeri su di essa, da $0$ a $36$. Tutti questi sono detti, in calcolo delle probabilità, eventi elementari, e vengono raggruppati in un insieme detto Spazio dei Campioni o Spazio Campionario. Generalmente (e così faremo qui) esso viene indicato con la lettera $\Omega$, che si legge omega (è l’ultima lettera dell’alfabeto greco), mentre ci si riferisce ad un generico evento elementare con la lettera $\omega$ (che è sempre la lettera omega, minuscola).
Spesso però uno spazio dei campioni non è quello che vogliamo indagare: ad esempio, nel caso della roulette, potremmo essere interessati a sapere se (o prevedere quanto sia probabile che) esca un numero rosso o nero, non al fatto che esca il $2$ o il $33$. Quel che vogliamo fare è quindi raggruppare un po’ di eventi elementari assieme, o, con un linguaggio matematico, considerare dei sottoinsiemi di $\Omega$; generalmente, sottoinsiemi di $\Omega$ sono indicati con delle lettere latine maiuscole, come $A, B, C, \dots \subseteq \Omega$. Questi sottoinsiemi prendono il nome di eventi (non più elementari).
Ma con quali criteri scegliamo questi sottoinsiemi? Come decidiamo che cos’è un evento e cosa no? Il calcolo delle probabilità ci dice che le domande alle quali dobbiamo saper rispondere perché la nostra indagine abbia un senso sono almeno queste:
- Dobbiamo sapere che è successo qualcosa; dato che $\Omega$ è l’insieme di tutti gli esiti possibili, vogliamo saper dire qualcosa su $\Omega$ in totale: d’altra parte, insiemisticamente, anche $\Omega$ è un sottoinsieme di $\Omega$! Sarebbe sciocco non considerarlo come evento.
- Se sappiamo o vogliamo dire qualcosa sulla possibilità di un evento $A$ di verificarsi, vogliamo saper dire qualcosa sul suo complementare (che insiemisticamente è $\Omega \setminus A$), ossia sulla possibilità che non si verifichi. Come a dire, se “$A$” è un evento, anche “non $A$” deve essere un evento.
- Se abbiamo a disposizione due eventi, $A$ e $B$, dobbiamo poter dire che cosa succede quando si verificano entrambi, ossia il sottoinsieme $A \cap B$. In pratica, se “$A$” e “$B$” sono eventi, anche “si verificano $A$ e $B$” è un evento.
- Se abbiamo a disposizione due, tre, o un po’ di eventi, $A$, $B$, $C$, eccetera, dobbiamo poter descrivere l’occorrenza di almeno uno di questi eventi, rappresentata dall’insieme $A \cup B \cup C \cup \dots$. Per esempio, se $A$ e $B$ sono eventi, anche “si verifica $A$ o $B$” è ancora un evento.
Se andiamo a considerare, come eventi, tutti i sottoinsiemi possibili di $\Omega$, siamo sicuri che i requisiti precedenti sono verificati. Ma a volte non è necessario andare ad elencarli proprio tutti: magari siamo interessati solo ad alcuni di essi; altre volte, elencarli tutti è eccessivamente complicato. Le ipotesi di minima che pone il calcolo delle probabilità in questo caso è un oggetto matematico che va sotto il nome di $\sigma$-algebra di eventi. Con un linguaggio un po’ complicato, definiamo $\sigma$-algebra degli eventi una qualsiasi collezione di eventi $\mathcal{F}$ che soddisfi ai seguenti requisiti:
- $\Omega \in \mathcal{F}$ ($\Omega$ è un evento)
- $A \in \mathcal{F} \Rightarrow \Omega \setminus A \in \mathcal{F}$ (il complementare di $A$ è un evento)
- $A_i \in \mathcal{F}\ \ \forall i \in \mathbb{N} \Rightarrow \bigcup_{i = 1}^{\infty} A_i \in \mathcal{F}$ (l’unione numerabile degli $A_i$ è un evento)
Si noti che dalle proprietà precedenti si può dedurre anche che l’intersezione numerabile di eventi è ancora un evento, ossia che $A_i \in \mathcal{F} \forall i \in \mathbb{N} \Rightarrow \bigcap_{i = 1}^{\infty} A_i \in \mathcal{F}$. Questo si ottiene usando le leggi di deMorgan e la definizione di differenza insiemistica.
Un’osservazione importate è che l’insieme $\mathcal{P} ( \Omega)$ delle parti di $\Omega$, cioè l’insieme di tutti i suoi sottoinsiemi, soddisfa alle proprietà 1., 2. e 3. ed è quindi una papabile $\sigma$-algebra degli eventi: quindi si può sempre prendere $\mathcal{P} ( \Omega )$ come spazio degli eventi.
In riferimento alla roulette, proviamo a vedere come possiamo focalizzare la nostra attenzione solo sull’evento “colore di un numero”, non sul numero stesso. Nella roulette classica ci sono 18 numeri rossi, 18 numeri neri e un numero, lo $0$, che non ha colore. Allora gli eventi che considereremo saranno:##KATEX##\begin{aligned}& \text{R} = \{ 1,3,5, 7,9,12, 14, 16, 18, 19 , 21, 23, 25, 27, 30, 32, 34, 36\} \\ & \text{N} = \{2, 4, 6, 8, 10,11,13,15,17,20,22,24,26,28,29,31,33,35\} \\ & \text{Z} = \{ 0 \} \end{aligned}##KATEX##Vediamo se questi sono sufficienti a fare un’algebra di eventi. Innanzitutto, dobbiamo considerare $\Omega$; poi abbiamo $\text{R}$, $\text{N}$ e $\text{Z}$, appena definiti. Dobbiamo considerare i loro complementari, $\Omega \setminus \text{R}$, $\Omega \setminus \text{N}$ e $\Omega \setminus \text{Z}$. L’intersezione di due tra $\text{R}$, $\text{N}$ o $\text{Z}$ è nulla, l’insieme vuoto $\emptyset$: dobbiamo considerare anche lui. L’unione tra $\text{N}$ ed $\text{R}$ fa tutto $\Omega$ meno $\text{Z}$, cioè il complementare di $\text{Z}$, che abbiamo già considerato: lo stesso succede se consideriamo le altre due unioni possibili. In definitiva, l’algebra degli eventi che abbiamo generato a partire da $\text{N}$, $\text{R}$ e $\text{Z}$, è$$ \mathcal{F} = \left\{ \emptyset, \text{N}, \text{R}, \text{Z}, \Omega \setminus \text{N}, \Omega \setminus \text{R}, \Omega \setminus \text{Z}, \Omega \right\}$$
Ora che abbiamo a disposizione gli eventi, ci manca solo di capire come misurare quanto sia possibile che un evento accada. Il calcolo delle probabilità non dà una risposta universale, ma ci fornisce una struttura logica alla quale devono obbedire le probabilità dei singoli eventi perchè si possa effettivamente parlare di probabilità. In particolare, vogliamo definire una misura di probaiblità $P$, una legge matematica che a ciascun evento $A \in \mathcal{F}$ associa la probabilità che tale evento si verifichi, misurata con un numero tra $0$ e $1$ . Matematicamente, abbiamo da definire una funzione$$ P: \mathcal{F} \longrightarrow \mathbb{R}$$Questa funzione $P$ deve soddisfare alle seguenti caratteristiche:
- Se $A \in \mathcal{F}$, $P(A) \geq 0$ (assioma di non negatività)
- $P(\Omega) = 1$ (assioma di normalizzazione)
- Se $A_i \in \mathcal{F}$, con $i \in \mathbb{N}$, e $A_i \cap A_j = \emptyset $ se $A_i \neq A_j$, deve valere $P\left( \bigcup_{i = 1}^{\infty} A_i \right) = \displaystyle{\sum_{i = 1}^\infty} P\left( A_i \right)$ (assioma di additività)
Se queste sembrano formule troppo complicate, cerchiamo di affrontarle una per una e di renderci conto che, in realtà, sono richieste molto ragionevoli.
La prima proprietà, detto assioma di non negatività, semplicemente ci permette di interpretare la misura di probabilità di un evento come quello che intuitivamente chiamiamo misura di qualcosa: un numero positivo. Non ci aspetteremmo mai che qualcosa pesi $-7 \text{ kg}$, o che misuri $-13 \text{ cm}$ di lunghezza; allo stesso modo, non ci aspettiamo che un certo evento abbia una probabilità dello $-0.46$ di accadere.
La proprietà di normalizzazione ci dice che la probabilità che succeda qualcosa è $1$: ricordiamo infatti che $\Omega$ è l’insieme di tutti i risultati possibili delle operazioni che stiamo indagando, e se qualcosa effettivamente accade, questo è un elemento di $\Omega$. Questo ci permette di “tarare” la nostra valutazione di quanto un evento sia probabile o meno. Si noti che questo numero, $1$, potrebbe essere sostituito da qualunque altro numero reale positivo: $0.4$, $e$, $\pi$, $7$, è solo una questione di “unità di misura”. La scelta specifica di “$1$” deriva dai legami del calcolo delle probabilità con la statistica, e con la nostra nozione intuitiva di probabilità, intesa come rapporto tra il numero di casi favorevoli e numero di casi possibili.
L’assioma di additività è una “semplice” questione insiemistica. Come si fa a contare la probabilità che il risultato che voglio indagare faccia parte del verificarsi di un evento oppure di un altro evento? Cioè, come faccio a misurare la probabilità del verificarsi dell’unione di due eventi? Se i due eventi in questione sono disgiunti, basterà sommare la probabilità che accada un evento alla probabilità che accada l’altro evento. Questo rimane vero anche se prendo un po’ di eventi, purchè essi rimangano disgiunti: si avrà sempre la somma delle singole probabilità. Se fosse presente l’intersezione di due eventi, alcuni risultati potrebbero essere “conteggiati” più volte: sono necessari teoremi un po’ più avanzati per calcolare una simile probabilità (in particolare, il Teorema di Bayes). Si noti che questi sono assiomi; la nozione di eventi compatibili o indipendenti è una conseguenza di questa scelta.
Se abbiamo a disposizione uno spazio dei campioni $\Omega$, un’algebra degli eventi $\mathcal{F}$ e una misura di probabilità $P$, la terna $(\Omega, \mathcal{F}, P)$ viene detta Spazio di Probabilità. Si noti che, data una coppia spazio dei campioni - algebra degli eventi, più di una misura di probabilità sono possibili su di loro, dando così luogo a diversi spazi di probabilità.
La nozione classica di probabilità prevede la seguente interpretazione: $\Omega$ viene preso come l’insieme contenente tutti gli esiti possibili; come algebra degli eventi viene scelto l’insieme delle parti di $\Omega$, $\mathcal{P} (\Omega)$; come misura di probabilità viene scelta quella che a ciascun evento assegna la frazione che al numeratore porta “il numero di casi favorevoli al verificarsi dell’evento”, mentre al denominatore si trova “il numero di casi possibili”:$$ P = \frac{\text{casi favorevoli}}{\text{casi possibili}}$$Questa definizione è molto intuitiva, e, ci teniamo a sottolineare, è corretta e funzionale, ove applicabile: di fondamentale importanza è quindi il calcolo combinatorio, in questo frangente, che permette di calcolare proprio questo rapporto, anche in situazioni molto complicate. il problema si inizia a presentare quando il “numero” dei “casi” inizia a diventare infinito, o non si capisce bene che cosa sia un “caso”. In ogni caso, si noti che la probabilità di evento corrisponde, in qualche modo, alla “misura di $A$”, diviso per la “misura dello spazio totale $\Omega$”. Quest’idea di calcolo di probabilità era in voga sino a quando, intorno al 1930, il matematico russo Andrej Nikolaevic Kolmogorov, rivoluzionò completamente la disciplina, dandovi l’impostazione che abbiamo qui seguito. I tre assiomi della misura di probabilità infatti sono noti sotto assiomi di Kolmogorov, proprio in suo onore.
Con gli assiomi che abbiamo incluso, è possibile dimostrare numerose proprietà di una misura di probabilità. In particolare, abbiamo le seguenti.
- Se un evento è contenuto in un altro evento, cioè se $A \subset B$, allora $P(A) \leq P(B)$.
- È possibile calcolare la probabilità del complementare di un evento, e vale $P(\Omega \setminus A) = 1 - P(A)$.
- Dati due eventi $A$ e $B$, vale la formula $P(A \cup B) = P(A) + P(B) - P(A \cap B)$.