---
title: Inférence bayésienne paramétrique pour résoudre le problème du "birth sex ratio"
---
Inférence bayésienne paramétrique pour résoudre le problème du "birth sex ratio"
===
> [name=Jacques-Olivier Lachaud][time=Novembre 2023][color=#907bf7]
Revenir à [Inférence Bayésienne](https://codimd.math.cnrs.fr/s/O4P6M9BUH).
:::info
Laplace constate, dans les statistiques de 1785, 251 527 naissances masculines et 241 945 naissances féminines. Il cherche à déterminer si cette différence est ou non significative d'une probabilité $q$ plus grande d'avoir un garçon.
:::
On note $g$ un événement "naissance d'un garçon" et $f$ un événement "naissance d'une fille". Sans a priori, la densité de probabilité $p(q)$ est uniforme, donc $p(q)=1$.
On calcule les vraisemblances:
- $p(g|q)=q$ car $q$ détermine la probabilité d'avoir un garçon
- $p(f|q)=1-q$ car $q$ détermine la probabilité d'avoir un garçon
Ensuite, on suppose que les naissances sont des événements indépendants et identiquement distribués (iid), hypothèse assez raisonnable ici. On utilise la relation (3), avec $\theta=q$, et les événements $\mathbf{E}=(\underbrace{g, \ldots, g}_{a}, \underbrace{f, \ldots, f}_{b})$, avec $a$ naissances de garçons et $b$ naissances de filles.
\begin{align}
\forall q \in[0,1], p(q | \mathbf{E}) &= \frac{p(\mathbf{E} | q)}{\int p(\mathbf{E} | q)p(q) dq}p(q) \\
&=\frac{p(g|q)^a \,p(f|q)^b}{\int_0^1 p(g|q)^a \,p(f|q)^b \, dq} \qquad \text{(car $p(\mathbf{E}|q)=\Pi_{j=1}^k p(e_j|q))$}\\
&=\frac{q^a (1-q)^b}{\int_0^1 q^a (1-q)^b dq} \qquad \text{(d'après les vraisemblances ci-dessus)}
\end{align}
On cherche à déterminer s'il y a un biais de naissance, donc on veut évaluer la **probabilité a posteriori** $P\left(q \le \frac{1}{2} \mid \mathbf{E}\right)$ sachant les naissances $\mathbf{E}$. On déduit:
\begin{align}
P\left(q \le \frac{1}{2} \mid \mathbf{E}\right) = \int_0^{\frac{1}{2}} p(q|\mathbf{E})\,dq = \frac{\int_0^{\frac{1}{2}} q^a (1-q)^b dq}{\int_0^1 q^a (1-q)^b dq}.
\end{align}
On trouve numériquement $P\left(q \le \frac{1}{2} \mid \mathbf{E}\right) \approx 1.1456 \times 10^{-42}$. Il y a donc un biais biologique certain chez les humains pour plus de naissances de garçons que de filles.
:::warning
Cette fonction n'est pas simple à calculer numériquement, pour des $a$ et $b$ grands. Pour le dénominateur, on voit assez facilement que
\begin{align}
\int_0^1 q^a (1-q)^b dq = B(a+1,b+1)=\frac{a!b!}{(a+b+1)!},
\end{align}
où $B(a,b)$ est la [fonction Beta](https://en.wikipedia.org/wiki/Beta_function). Pour le numérateur, il s'agit de la fonction beta incomplète $B(x;a,b)$, appliquée en $\frac{1}{2}$. Le rapport des deux est la fonction beta incomplète régularisée en ce même point. Il est clair que ces fonctions nécessitent soit l'utilisation de très (très) grands entiers, soit des bonnes approximations.
On peut utiliser `scipy` pour faire ce calcul (cette fonction utilise des approximations convergentes par fractions continues).
```python
import scipy
# regularized incomplete beta function B(a,b;x)
scipy.special.betainc(251527,241945,0.5)
```
:::
:::info
On se demande comment Laplace a pu estimer cette quantité en 1786, sans ordinateur !
:::