Il teorema o formula di Bayes è un importante risultato nel calcolo delle probabilità. Sebbene il suo nome sia dovuto al ministro presbiteriano Thomas Bayes (1701 - 1761), che lo dimostrò in un suo scritto pubblicato postumo nel 1763, il problema cui tale formula si riferisce era ben noto anche prima: tratta infatti della probabilità condizionata.
Il teorema di Bayes lega la misura di probabilità condizionata di un evento, detta “a posteriori”, alla misura di probabilità dello stesso evento, detta “a priori”.
Definizione (Probabilità di un evento condizionata da un altro evento)
Siano $A$ e $B$ due eventi, e sia $B$ un evento possibile, ossia tale per cui la probabilità che si verifichi non sia nulla: $P(B) \neq 0$. Se $A \cap B$ indica l’intersezione dei due eventi, cioè l’evento “si sono verificati sia $A$ sia $B$”, definiamo la misura di probabilità condizionata $P(A \lvert B)$, che si legge “probabilità di $A$ condizionata da $B$”, come$$ \boxed{ \displaystyle{ P(A \lvert B) = \frac{P(A \cap B)}{P(B)} }}$$
Notiamo che è di fondamentale importanza che $P(B) \neq 0$, altrimenti staremmo dividendo per $0$, il che non è ammissibile. Questa definizione può anche essere riscritta in una forma più utile per gli esercizi:$$P(A \lvert B) \cdot P(B) = P(A \cap B) $$La formula precedente è anche più comoda, perchè funziona anche nell’ipotesi in cui $P(B) = 0$.
La probabilità $P(A \lvert B)$ viene detta “a posteriori” poichè permette di calcolare la probabilità di $A$, sapendo che si è verificato (o si verificherà con certezza assoluta) $B$. La probabilità $P(A)$ si dice invece “a priori” poichè non è condizionata da alcun altro evento o da alcuna conoscenza che potremmo avere sul suo verificarsi. Proviamo a seguire un esempio per prendere dimestichezza con questo strumento matematico.
Esempio
Siamo davanti a due urne, esternamente identiche, contenenti l’una tre palline bianche e tre nere, l’altra tre palline nere e sei bianche. Qual è la probabilità di estrarre una pallina nera? Qual è la probabilità che, avendo estratto una pallina nera, sia stata estratta dalla prima urna?
Soluzione
Definiamo i seguenti eventi:
- $U_1$: la pallina estratta è stata estratta dalla prima urna (quella con tre palline bianche e tre nere)
- $U_2$: la pallina estratta è stata estratta dalla seconda urna
- $N$: la pallina estratta è nera
- $B$: la pallina estratta è bianca
Innanzitutto, dato che le urne sono identiche e non abbiamo modo di supporre ulteriori ipotesi, poniamo che la probaiblità di scegliere l’urna uno piuttosto che l’urna due sia uguale: imponiamo dunque che $P(U_1) = P(U_2) = 50 \% = \frac{1}{2}$.
Ora supponiamo di estrarre una pallina dall’urna numero 1: il numero di palline bianche contenute in essa è pari al numero di palline nere, quindi, seguendo la definizione elementare di probabilità, “numero di casi favorevoli / numero di casi possibili”, la probabilità di estrarre una pallina nera o una pallina bianca dalla prima urna sono del $50\%$ ciascuna. Queste probabilità sono probabilità condizionate, poichè, sapendo che la pallina è stata estratta dall’urna 1, siamo riusciti a calcolarne la probabilità che fosse nera o bianca. Allora scriviamo:$$ P(B \lvert U_1) = P(N \lvert U_1) = \frac{1}{2}$$Similmente, possiamo calcolare la probabilità che una pallina estratta dall’urna numero 2 sia bianca o nera:$$ P(B \lvert U_2) = \frac{6}{9} = \frac{2}{3} \qquad P(N \lvert U_2) = \frac{3}{9} = \frac{1}{3}$$Mediante la definizione di probaiblità condizionata, e un po’ di insiemistica, siamo ora in grado di rispondere alla domanda: qual è la probabilità, a priori, di estrarre una pallina nera?
Notiamo il seguente fatto: l’evento “$N$”, cioè “estrarre una pallina nera”, è equivalente a “$\left(N \cap U_1\right) \cup \left( N \cup U_2 \right)$”, cioè “estrarre una pallina nera e averna estratta dall’urna 1 oppure estrarre una pallina nera e averla estratta dall’urna 2”: è di fondamentale importanza che i due eventi $U_1$ ed $U_2$ siano incompatibili, cioè che $P(U_1 \cap U_2) = 0$: è impossibile estrarre una pallina sia dall’urna uno che dall’urna due. Per il teorema delle probailità totali, quindi, le probabilità saranno$$ P(N) = P\left( (N \cap U_1) \cup (N \cap U_2) \right) = P(N \cap U_1) + P(N \cap U_2) $$Invocando la definizione di probailità condizionata, possiamo riscrivere la formula precedente come$$ P(N) = P(N \lvert U_1) \cdot P(U_1) + P(N \lvert U_2) \cdot P(U_2) $$Sostituendo i valori da noi trovati otteniamo infine la probabilità $$ P(N) = \frac{1}{2}\frac{1}{2} + \frac{1}{3}\frac{1}{2} = \frac{5}{12} \approx 41.67 \%$$Ora la seconda domanda: abbiamo estratto una pallina nera, e vogliamo sapere se, o quanto è probabile che, essa viene dall’urna numero uno. Vogliamo insomma calcolare la probabilità $P (U_1 \lvert N)$. Sappiamo condizionare, a posteriori, rispetto all’urna, ma non rispetto al colore della pallina. Come facciamo? La risposta sta nel teorema di Bayes.
Teorema (di Bayes)
Siano $A$ e $B$ due eventi, e sia $B$ possibile, cioè richiediamo che $P(B) \neq 0$. La probabilità a posteriori di $A$ condizionato a $B$ può essere calcolata nel modo seguente:$$ P(A \lvert B) = \frac{P(B \lvert A) \cdot P(A) }{P(B)} $$
Dimostrazione
La dimostrazione del teorema è abbastanza semplice, una volta che abbiamo dimestichezza con la probabilità condizionata. Dalla definizione di porbabilità condizionata, possiamo anche dire che$$ P(A \lvert B) = \frac{P(A \cap B)}{P(B)}$$Ma l’intersezione insiemistica è un’operazione commutativa: è infatti $A \cap B = B \cap A$. Di conseguenza, possiamo scrivere anche$$P(A \cap B) = P(B \cap A)$$Sfruttando sempre la definizione di probabilità condizionata, abbiamo che$$ P(B \cap A) = P(B \lvert A) \cdot P(A)$$Sostituiamo questa uguaglianza nella prima equazione per ottenere la formula di Bayes:$$ P(A \lvert B) = \frac{P(B \lvert A) \cdot P(A)}{P(B)} $$
Grazie a questa formula possiamo risolvere la seconda domanda dell’esercizio proposto in precedenza: ci si chiedeva di calcolare $P (U_1 \lvert N)$. Noi conosciamo $P(N \lvert U_1)=\frac{1}{2}$, $P(U_1) = \frac{1}{2}$ e $P(N) = \frac{5}{12}$: abbiamo tutti gli ingredienti per applicare il teorema di Bayes! Impostiamo il calcolo:$$ P (U_1 \lvert N) = \frac{ P(N \lvert U_1) P(U_1) }{P(N)} = \frac{1}{2}\frac{1}{2}\frac{12}{5} = \frac{3}{5}$$
Qualora $P(A) \neq 0$, la formula di Bayes può essere usata anche per calcolare $P(B \lvert A)$: sfruttando l’uguaglianza del teorema, infatti, $P(B \lvert A)= P(A \lvert B) \frac{P(B)}{P(A)}$. Questa uguaglianza, che in apparenza non sembra tanto utile, risulta invece fondamentale quando le ipotesi da cui partiamo non sono solo due, ma molte di più. Nell’esempio trattato, infatti, le ipotesi erano solo due, “urna uno” o “urna due”, “pallina bianca” o “pallina nera”. Vediamo come procedere.
Il teorema di Bayes può essere generalizzato quando siamo in presenza di una partizione dell’evento certo. Questa formula un po’ mistica significa, semplicemente, che dobbiamo avere un po’ di eventi $B_1, \dots, B_N$, che siano tutti disgiunti tra loro (cioè che tutte le coppie siano disgiunte, $B_i \cap B_j = \emptyset$ se $i \neq j$), e che gli eventi $B_i$, nella loro interezza, siano gli unici possibili: ossia, se accade qualcosa, è sicuramente accaduto uno (e uno soltanto, visto che sono disgiunti) dei $B_i$. Matematicamente richiediamo che la loro unione sia tutto l’insieme degli eventi possibili, $\Omega$: $\bigcup_{i=1}^{N} B_i = \Omega$. Questa situazione può essere raffigurata, insiemisticamente, dall’illustrazione seguente:
In questa illustrazione, l’evento certo $\Omega$, rappresentato dall’ellissi verde, viene suddiviso in quattordici sottoinsiemi, $B_1, \dots, B_{14}$, separati tra loro dai segmenti rossi.
Dal punto di vista delle probabilità, con queste ipotesi avremo che $$P(B_1) + P(B_2) + \dots + P(B_N) = \sum_{i = 1}^{N} P(B_i) = P\left(\bigcup_{i_1}^N B_i \right) = P(\Omega) = 1$$
Ora prendiamo un qualsiasi evento $A \subset \Omega$. Dal punto di vista insiemistico, gli eventi $B_i$ lo “tagliano” in varie “fette” $A \cap B_i$, che saranno disgiunte l’una dall’altra:
Qui l’evento $A$ è rappresentato come l’ellissi blu, “tagliato” dalla partizione precedente e diviso dai segmenti arancioni.
Dal punto di vista probabilistico avremo quindi: $$P(A) = P(A \cap \Omega) = P \left(A \cap \left(\bigcup_{i=1}^N B_i\right) \right) = P\left(\bigcup_{i=1}^N (A \cap B_i) \right) = \sum_{i=1}^N P(A \cap B_i)$$Evidenziando il primo e l’ultimo membro di questa catena di uguaglianze, otteniamo$$ P(A) = \sum_{i=1}^N P(A \cap B_i)$$Sfruttando ancora una volta la definizione di probabilità condizionata, possiamo scrivere$$P(A \cap B_i ) = P(B_i \lvert A) P(A) \quad \rightarrow \quad P(A) = \sum_{i=1}^N P(B_i \lvert A) P(A) $$Il teorema di Bayes può essere generalizzato anche a questo caso: seguendo il medesimo ragionamento usato per dimostrare la formula di Bayes, possiamo scrivere che$$ \boxed{ \displaystyle{ P( A \lvert B_i) = \frac{ P(B_i \lvert A) P(A)}{ P(B_i) } }} $$
Ora, come fatto in precedenza, invertiamo il ragionamento: fissato un $k$ ben preciso, calcoliamo $ P( B_k \lvert A)$. Abbiamo che $$ \boxed{ \displaystyle{ P( B_k \lvert A) = P(B_k) \ \frac{ P (A \lvert B_k)}{P(A)} = P(B_k) \ \frac{ P (A \lvert B_k)}{\sum_{i=1}^N P(A \lvert B_i) P(B_i)} }} $$
Anche se le formule sembrano complicate, presentiamo subito un esempio che servirà a chiarire il loro significato e come possano essere impiegate.
Esempio
Una ditta produce un componente per computer in tre diversi stabilimenti, che chiameremo $S_1$, $S_2$ e $S_3$. I componenti prodotti possono o meno essere difettosi. Sappiamo che la ditta produce il $30 \%$ del totale dei componenti nello stabilimento $S_1$, il $25 \%$ nello stabilimento $S_2$, e il restante $45 \%$ nello stabilimento $S_3$. Delle indagini statistiche, condotte dall’azienda, confermano che il $2 \%$ dei componenti prodotto nel primo stabilimento è difettoso, nel secondo stabilimento il difetto si presenta con un’incidenza del $1.8 \%$, mentre il terzo stabilimento produce solo l’$1.33 \%$ di componenti difettosi.
Un cliente ordina un componente, e riceve un componente difettoso. Calcolare la probabilità che il componente ricevuto provenga dal secondo stabilimento.
Soluzione
Con una piccola licenza, definiamo l’evento $S_j$ come “il componente proviene dallo stabilimento $S_j$”; definiamo inoltre $D$ come l’evento “il componente è difettoso”. I dati a nostra disposizione sono i seguenti:##KATEX##\begin{aligned} & P(S_1) = \frac{3}{10} & & P(S_2) = \frac{1}{4} & & P(S_3) =\frac{9}{20} \\ & P( D \lvert S_1) = 2\% & & P(D \lvert S_2) = 1.8 \% & & P(D \lvert S_3) = 1.33 \% \end{aligned}##KATEX##Il cliente vuole sapere la probabilità che, sapendo che il componente è difettoso, esso provenga dallo stabilimento $S_2$: vogliamo quindi calcolare la probabilità che si verifichi $S_2$, sapendo che siverificherà $D$, ossia $P (S_2 \lvert D)$. Usiamo la formula di Bayes, estesa alla sua versione definitiva, per calcolare questa probabilità a posteriori: notiamo infatti che non ci sono altri stabilimenti, quindi se il cliente riceve il componente esso deve porvenire da almeno uno stabilimento, e che lo stesso componente non può essere prodotto in due stabilimenti contemporaneamente; in altre parole, $S_1$, $S_2$ e $S_3$ costituiscono una partizione dell’evento certo. Ora calcoliamo la probabilità desiderata:$$ P (S_2 \lvert D) = P(S_2) \frac{P(D \lvert S_2)}{P(D)} = P(S_2) \frac{ P (D \lvert S_2)}{\sum_{i=1}^3 P(D \lvert S_i) P(S_i)} $$Calcoliamo dapprima $P (D)$: ##KATEX##\begin{aligned} P(D) & = \sum_{i=1}^3 P(D \lvert S_i) P(S_i) = \\ & = P(D \lvert S_1) \cdot P(S_1) + P(D \lvert S_2) \cdot P(S_2) + P(D \lvert S_3) \cdot P(S_3) = \\ & = 2\% \cdot \frac{3}{10} + 1.8 \% \cdot \frac{1}{4} + 1.33 \% \cdot \frac{9}{20} \approx 1.6485 \% \end{aligned}##KATEX##Ora sostituiamo per trovare $P (S_2 \lvert D)$: $$ P (S_2 \lvert D)= P(S_2) \frac{P(D \lvert S_2)}{P(D)} = \frac{1}{4} \frac{1.8 \%}{1.6485 \%} \approx 0.2730 = 27.3 \%$$Il componente difettoso quindi proviene al $27.3 \%$ dallo stabilimento numero due.