Estadística descriptiva con Python

Cita con formato IEEE:
E. Bahit, "Estadística descriptiva con Python", in Python Aplicado, 4th ed., EBRC Publisher, 2022, pp. 182-189.

Cita con formato APA 7:
Bahit, E. (2022). Estadística descriptiva con Python. In Python Aplicado (4th ed., pp. 182-189). EBRC Publisher.

Cita en línea:
(Bahit, 2022)

Estadística poblacional y muestral

La estadística poblacional y muestral suele ser parte de la bioestadística. En ella, población se refiere al Universo de los elementos que van a ser investigados, es decir, aquellos elementos que serán objeto de una investigación científica. Mientras que una muestra se refiere sólo a la parte de esos sujetos, que se tomará en cuenta para la investigación.

AVISO IMPORTANTE
Para creación de scripts retrocompatibles con versiones anteriores a Python 3.4, toda operación de cómputo relativa a medidas descriptivas de tendencia central y de dispersión, podrá hacerse como se explica en lo sucesivo. A partir de la versión 3.4 de Python, se encuentra disponible también, el módulo statistic, descrito en la página 206 del capítulo Matemáticas nativas.

Medidas descriptivas de tendencia central

En una muestra, la media es la medida descriptiva de tendencia central, de dicha muestra. Matemáticamente, se corresponde con el promedio de una variable determinada, y se obtiene mediante el cociente de la suma de las variables y el total de la muestra:

media = sum(muestra) / float(len(muestra))

Una variable es cualquier magnitud que vaya a ser medida, generalmente de forma cuantitativa.

Por ejemplo:

Población, podría ser el total de los miembros de un club de ajedrez de 1500 socios.
La muestra, podrían ser una porción significativa de esos miembros (500).
La variable a cuantificar, podría ser las edades de los sujetos de la muestra.
La media sería el promedio de edad de la muestra.

Medidas descriptivas de dispersión

Dado que una muestra es sólo una parte de la población, en cualquier estadística cuantificable, habrá ciertos desvíos y variaciones, a los que se denomina medidas descriptivas de dispersión. Estas medidas, pueden ser la varianza y el desvío estándar, las cuales determinarán el grado de variabilidad y dispersión de los datos, respectivamente.

Cálculos de dispersión

La varianza y el desvío estándar se miden tanto sobre la población, como sobre la muestra.

Para calcular la varianza se requiere calcular previamente la media. Y para calcular el desvío estándar se requiere calcular previamente la varianza, ya que el desvío estándar es la raíz cuadrada de la varianza.

La varianza se calcula en base a la suma de los cuadrados de la diferencia entre cada elemento de la muestra y la media.

Cuando se trata de la varianza poblacional, se divide por n:

s^2 = {{\sum_{i=0}^{n}(x_i - \bar{x})^2} \over n}

y cuando se trata de muestral, se divide por {n-1}.

s^2 = {{\sum_{i=0}^{n}(x_i - \bar{x})^2} \over {n-1}}

En ecuaciones tan complejas, la forma de reducir la ecuación a código fuente, sigue siendo siempre la misma que se utiliza para resolver la ecuación manualmente: comenzar resolviendo desde dentro hacia afuera, es decir que en este caso, primero se resuelven las restas:

diferencias = [xi - media for xi in muestras]

Luego los cuadrados:

potencias = [x ** 2 for x in diferencias]

Luego se suma:

sumatoria = sum(potencias)

Y finalmente se divide:

varianza_muestral = sumatoria / (n - 1)
varianza_poblacional = sumatoria / n

Una vez obtenida la varianza, para calcular la desviación estándar, se realiza la raíz cuadrada de la varianza: \sigma= \sqrt{s^2}.

Tener en cuenta que para obtener una raíz cuadrada, habrá que importar la función sqrt del módulo math:

from math import sqrt
        
desvio_muestral = sqrt(varianza_muestral)
desvio_poblacional = sqrt(varianza_poblacional)

Conclusión

La estadística poblacional y muestral es una de las bases de la inferencia en bioestadística. Permite, por un lado, extraer consecuencias sobre la población en base a lo que se observa, y por el otro, establecer una ponderación de riesgos.