Afirmaciones, contrastes y conclusiones

En este capítulo

Verificar las afirmaciones de otras personas

Utilizar contrastes de hipótesis para ponderar las pruebas y tomar decisiones

Comprender que tus conclusiones pueden ser erróneas

La gente continuamente hace afirmaciones relacionadas con estadísticas, y los medios de comunicación no son una excepción:

El 25% de las mujeres estadounidenses tienen varices (uf, hay cosas que casi es mejor no saber, ¿verdad?).

El consumo de tabaco en Estados Unidos continúa bajando. El porcentaje de fumadores disminuye aproximadamente el 2% cada año desde hace diez.

Un bebé de seis meses duerme una media de catorce a quince horas diarias (sí, ya, y yo me lo creo).

Las tartas de masa preparada de la marca X están listas en sólo cinco minutos.

Estamos en la era de la información (y del dinero), y es importantísimo poder respaldar lo que uno dice. Si una empresa afirma que sus productos son mejores que los productos de la marca líder, más vale que pueda probarlo o podría caerle una buena demanda. Para que la Food and Drug Administration (FDA) apruebe un medicamento, debe tener pruebas claras de que funciona y no produce efectos secundarios potencialmente mortales. Los fabricantes deben cerciorarse de que sus productos se fabrican con arreglo a las especificaciones si quieren evitar que sean retiradas, quejas de los clientes y pérdidas del volumen de ventas.

Aunque muchas afirmaciones están respaldadas por investigaciones científicas serias (que manejan estadísticas fiables), hay otras que no. En este capítulo aprenderás a utilizar la estadística para averiguar si una afirmación es válida y conocerás el proceso que los investigadores deberían seguir para validar sus afirmaciones.

Un contraste de hipótesis es un procedimiento estadístico diseñado para verificar una afirmación. Antes de entrar en detalles, quiero darte una visión general de un contraste de hipótesis mostrándote los pasos que lo componen. Estos pasos se comentan en los siguientes apartados.

1. Formular la hipótesis nula y la hipótesis alternativa.

2. Recopilar datos válidos utilizando un estudio bien diseñado (como se explica en los capítulos 16 y 17).

3. Calcular el estadístico de contraste a partir de los datos.

4. Hallar el valor p para el estadístico de contraste.

5. Decidir si se rechaza o no se rechaza H0 en función del valor p.

6. Comprender que la conclusión alcanzada podría ser errónea por puro azar.

Formular las hipótesis

Por regla general, la afirmación contrastada se refiere a un parámetro poblacional (un número que caracteriza a toda la población). Como los parámetros suelen ser cantidades desconocidas, todo el mundo quiere hacer afirmaciones sobre sus valores posibles. Por ejemplo, decir que el 25% (o el 0,25) de las mujeres estadounidenses tienen varices es una afirmación referida a la proporción (ése es el parámetro) de las mujeres estadounidenses (ésa es la población) que tienen varices (ésa es la variable, tener o no varices).

Los investigadores a menudo cuestionan afirmaciones referidas a parámetros poblacionales. Por ejemplo, puedes plantear la hipótesis de que en realidad la proporción de mujeres estadounidenses que tienen varices es inferior a 0,25, según tus observaciones. O también puedes plantear la hipótesis de que, debido a que los zapatos de tacón están de moda, la proporción es superior a 0,25. O bien, si sencillamente cuestionas que la proporción real sea 0,25, tu hipótesis alternativa será: “No, no es 0,25”.

Definir la hipótesis nula

Todo contraste de hipótesis consta de dos afirmaciones opuestas, o hipótesis, referidas a un parámetro poblacional. La primera hipótesis se denomina hipótesis nula, y se designa como H0. La hipótesis nula siempre dice que el parámetro poblacional es igual al valor propuesto. Por ejemplo, si la afirmación es que el tiempo medio que tarda en hornearse una tarta de masa preparada de la marca X es 5 minutos, la notación estadística abreviada para la hipótesis nula en este caso sería la siguiente: H0: μ=5 (es decir, la media poblacional es 5 minutos).

La hipótesis nula siempre lleva el signo de igual; H0 no puede contener el signoni el signo . No es que quiera escurrir el bulto, pero la razón de que esto sea así escapa al alcance de este libro. Digamos simplemente que no me pagarías para que te lo explicara.

¿Cuál es la alternativa?

Antes de llevar a cabo el contraste de hipótesis tienes que poner dos hipótesis posibles sobre la mesa, una de las cuales es la hipótesis nula. Pero si la hipótesis nula se rechaza (por haberse encontrado suficientes pruebas en su contra), ¿cuál será la alternativa? En realidad existen tres posibilidades para la hipótesis alternativa, designada como Ha. Pongo a continuación sus notaciones abreviadas en el contexto del ejemplo de las tartas:

El parámetro poblacional es distinto del valor propuesto (Ha: μ 5).

El parámetro poblacional es mayor que el valor propuesto (Ha: μ>5).

El parámetro poblacional es menor que el valor propuesto (Ha: μ<5).

La hipótesis alternativa que elijas para el contraste de hipótesis depende de la conclusión a la que quieras llegar, si es que reúnes pruebas suficientes para refutar la hipótesis nula (la afirmación).

Por ejemplo, si quieres comprobar si una empresa tiene razón al afirmar que sus tartas se hornean en 5 minutos y no te importa si el tiempo medio real es mayor o menor que ese tiempo, utilizas la alternativa “distinto de”. Tus hipótesis para este contraste serían H0: μ=5 contra Ha: μ 5.

Si únicamente quieres saber si el tiempo resulta ser mayor de lo que la empresa afirma (esto es si la empresa está mintiendo al decir en sus anuncios que sus tartas se preparan rápidamente), utilizas la alternativa “mayor que”, en cuyo caso las dos hipótesis son H0: μ=5 contra Ha: μ>5.

Por último, pongamos que trabajas para la empresa que comercializa esas tartas y crees que pueden hornearse incluso en menos de cinco minutos (y la empresa podría decirlo así en sus anuncios). En ese caso quieres la alternativa “menor que”, y tus dos hipótesis serán H0: μ=5 contra Ha: μ<5.

¿Cómo sabes qué hipótesis poner en H0 y en Ha? La hipótesis nula dice que no ocurre nada nuevo; el resultado previo no varía o los grupos tienen la misma media (la diferencia es igual a cero). En general, se supone que una afirmación es verdadera hasta que se demuestre lo contrario. Así pues, la pregunta debe ser: ¿puedes demostrar lo contrario? Dicho de otro modo, ¿tienes pruebas suficientes para rechazar H0?

Recopilar pruebas (datos)

Una vez formuladas las hipótesis, el siguiente paso consiste en recopilar pruebas y determinar si dichas pruebas son contrarias al enunciado de H0. Recuerda que la afirmación se refiere a la población, pero es imposible contrastar a toda la población. Generalmente, lo mejor que puedes hacer es tomar una muestra. Como otras situaciones en que se recopilan estadísticas, la calidad de los datos es fundamental. (En el capítulo 3 explico cómo detectar estadísticas erróneas.)

Para recopilar datos válidos, lo primero es seleccionar una muestra válida. A la hora de seleccionar una muestra debes tener en cuenta dos cosas: evitar el sesgo y ser preciso. Para evitar el sesgo al seleccionar la muestra, asegúrate de que es aleatoria (los puntos de muestreo tienen la misma probabilidad de ser seleccionados que cualquiera otros posibles en la misma cantidad) y elige un tamaño muestral suficientemente grande como para que los resultados sean precisos. (En el capítulo 11 encontrarás más información sobre la precisión.)

Hay muchas formas distintas de recopilar datos, pero los métodos utilizados se reducen básicamente a dos: encuestas (estudios de observación) y experimentos (estudios controlados). En el capítulo 16 encontrarás todo lo que necesitas saber para diseñar y valorar encuestas, y para seleccionar muestras correctamente. En el capítulo 17 hablo de los experimentos: qué ventajas tienen sobre un estudio de observación, cuáles son los criterios de un experimento válido y cuándo puede inferirse una relación causa-efecto.

Procesar las pruebas: el estadístico de contraste

Una vez seleccionada la muestra, comienzan los cálculos. La hipótesis nula (H0) plantea una afirmación referida al parámetro poblacional; por ejemplo “La proporción de mujeres estadounidenses que tienen varices es 0,25” (dicho de otro modo, H0: p=0,25), o “El promedio de kilómetros que puede recorrer una furgoneta con un litro de gasolina es 9” (H0: μ=9). Los datos recopilados con la muestra miden la variable de interés, y los estadísticos calculados te ayudan a contrastar la afirmación referida al parámetro poblacional.

Recopilar estadísticos muestrales

Supongamos que estás contrastando una afirmación sobre la proporción de mujeres que tienen varices. En ese caso tienes que calcular la proporción de mujeres de tu muestra que tienen varices, y ese número será tu estadístico muestral. Si estás contrastando una afirmación referida al promedio de kilómetros que puede recorrer una furgoneta con un litro de gasolina, tu estadístico será el promedio de kilómetros que recorran las furgonetas de tu muestra con un litro de gasolina. Y sabiendo que quieres medir la variabilidad en cuanto al promedio de kilómetros por litro para varias furgonetas, tienes que calcular la desviación estándar de la muestra. (En el capítulo 5 encontrarás toda la información que necesitas sobre el cálculo de estadísticos muestrales.)

Medir la variabilidad con errores estándares

Una vez que hayas calculado todos los estadísticos muestrales necesarios, quizá creas que has terminado con la parte de análisis y que ya estás listo para extraer conclusiones, pero no es así. El problema es que los resultados están en sus unidades originales y eso te impide ver las cosas con perspectiva. Sabes que los resultados se basan en una muestra, y seguro que esos resultados muestrales van a variar. Si no tienes en cuenta esa variación, las conclusiones podrían estar totalmente equivocadas. (¿Cuánto varían los resultados muestrales? La variación muestral se mide con el error estándar; encontrarás más información al respecto en el capítulo 11.)

Supongamos que la afirmación es que el porcentaje de mujeres que tienen varices es el 25%, y en tu muestra de 100 mujeres el 20% las padecía. El error estándar de tu porcentaje muestral es el 4% (según las fórmulas del capítulo 11), de manera que los resultados variarán aproximadamente el doble de ese valor, es decir, alrededor del 8%, según la regla empírica (está en el capítulo 12). Por tanto, una diferencia del 5%, por ejemplo, entre la afirmación y tu resultado muestral (25%–20%=5%) tampoco es mucho, porque representa una divergencia inferior a dos errores estándares respecto de la afirmación.

Sin embargo, si tu porcentaje muestral está basado en una muestra de 1.000 mujeres, en lugar de 100, la cosa cambia. En este caso, al tener más información, esperas que tus resultados varíen menos. Si aplicas de nuevo las fórmulas del capítulo 11, esta vez te sale un error estándar de 0,013, el 1,3%. El margen de error (ME) es aproximadamente el doble, es decir, un 2,6% por ambos lados. Ahora una diferencia del 5% entre tu resultado muestral (20%) y la afirmación representada por H0 (25%) es una diferencia más significativa, ya que supera con mucho dos errores estándares.

¿Qué significación tienen tus resultados exactamente? En el siguiente apartado explico con más detalle la manera de medir con exactitud cuál es la divergencia entre tus resultados muestrales y la afirmación, en número de errores estándares. De este modo puedes extraer una conclusión específica sobre las pruebas que tienes en contra de la afirmación representada por H0.

Comprender las puntuaciones estándares

El número de errores estándares que un estadístico está por encima o por debajo de la media se llama puntuación estándar (por ejemplo, un valor z es un tipo de puntuación estándar; se explica en el capítulo 9). A fin de interpretar tu estadístico, tienes que convertirlo de unidades originales a una puntuación estándar. Para obtener una puntuación estándar, coges el estadístico, le restas la media y divides el resultado por el error estándar.

En el caso de los contrastes de hipótesis, utilizas el valor de H0 como media (te quedas con ese valor a menos que/hasta que tengas pruebas suficientes en su contra). La versión normalizada de tu estadístico se llama estadístico de contraste, y es el principal componente de un contraste de hipótesis. (En el capítulo 15 encontrarás las fórmulas para los contrastes de hipótesis más frecuentes.)

Calcular e interpretar el estadístico de contraste

El procedimiento general para convertir un estadístico en un estadístico de contraste (puntuación estándar) es el siguiente:

1. Resta al estadístico el valor propuesto (el número mencionado en H0).

2. Divide por el error estándar del estadístico. (Existen diferentes fórmulas de error estándar para diferentes problemas; en el capítulo 13 encontrarás fórmulas detalladas para el error estándar, y en el capítulo 15, fórmulas para varios estadísticos de contraste.)

Tu estadístico de contraste representa la divergencia entre tus resultados muestrales y el valor poblacional propuesto, en número de errores estándares. En el caso de una única media o proporción poblacional, sabes que estas divergencias estandarizadas deberían tener una distribución al menos aproximadamente normal si el tamaño muestral es suficientemente grande (hablamos de ello en el capítulo 11). Así pues, para interpretar tu estadístico de contraste en estos casos puedes ver en qué lugar de la distribución normal estándar (distribución Z) se encuentra.

Si utilizamos los números del ejemplo anterior sobre mujeres con varices, para obtener el estadístico de contraste tienes que coger la proporción de mujeres de la muestra que tienen varices (0,2), restar la proporción propuesta de mujeres con varices (0,25), y luego dividir el resultado por el error estándar (0,04). Según estos cálculos, el estadístico de contraste (puntuación estándar) es –0,05/0,04=–1,25. Esto te dice que tus resultados muestrales y la afirmación representada por H0, referida a la población, presentan una divergencia de 1,25 errores estándares; concretamente, que tus resultados muestrales están 1,25 errores estándares por debajo del valor propuesto. Ahora debes preguntarte si esto es prueba suficiente para rechazar la afirmación. Encontrarás la respuesta a esa pregunta en el siguiente apartado.

Ponderar los indicios y tomar decisiones: valores p

Una vez has hallado el estadístico de contraste, lo utilizas para decidir si debes rechazar o no H0. Para tomar esta decisión te basas en un número que mide la fuerza de este indicio (tu estadístico de contraste) contra la afirmación representada por H0. Es decir, ¿qué probabilidad hay de que tu estadístico de contraste haya ocurrido siendo verdadera la afirmación? Este número que calculas se llama valor p; es la probabilidad de que alguien pudiera haber obtenido resultados tan extremos como los tuyos aunque H0 sea correcta. Es la misma situación que se produce durante las deliberaciones tras un juicio: los miembros del jurado tienen que determinar qué probabilidad hay de que las pruebas sean las que son suponiendo que el acusado es inocente.

En este apartado hablo sobre los entresijos de los valores p, incluida la forma de calcularlos y utilizarlos para tomar decisiones en relación con H0.

Relacionar estadísticos de contraste y valores p

Para comprobar si la afirmación representada por H0 debe rechazarse (al fin y al cabo, todo gira en torno a H0) tienes que considerar el estadístico de contraste que has obtenido de tu muestra y ver si tienes pruebas suficientes para rechazar la afirmación. Si el estadístico de contraste es grande (en sentido positivo o negativo), tus datos diferirán mucho de la afirmación (estarán muy alejados de ella); es decir, cuanto más grande sea el estadístico de contraste, más indicios tendrás en contra de la afirmación. Para saber cuándo puedes considerar que tus datos “están muy alejados”, fíjate en dónde se encuentra tu estadístico de contraste dentro de la distribución de la cual procede. Cuando contrastas una media poblacional, si se cumplen ciertas condiciones, la distribución con la cual realizas la comparación es la distribución normal estándar (distribución Z), cuya media es 0 y cuya desviación estándar es 1; ésta es la distribución que utilizo como ejemplo a lo largo de este apartado. (En el capítulo 9 encontrarás más información sobre la distribución Z.)

Si el estadístico de contraste está cerca de cero, o al menos dentro de la zona donde deberían estar la mayoría de los resultados, entonces no tienes muchos indicios en contra de la afirmación (H0), basándote en tus datos. Si tu estadístico de contraste se encuentra en las colas de la distribución normal estándar (más información en el capítulo 9), entonces hay muchos indicios en contra de la afirmación (H0); este resultado tiene una probabilidad muy pequeña de ocurrir si la afirmación es verdadera. Dicho de otro modo; tienes suficientes indicios en contra de la afirmación (H0) y, por tanto, la rechazas.

Pero ¿cuándo se considera que el valor está demasiado lejos del cero? Si tienes una distribución normal o un tamaño muestral suficientemente grande, sabes que tu estadístico de contraste estará en algún lugar de una distribución normal estándar (tratada en el capítulo 11). Si la hipótesis nula (H0) es verdadera, la mayoría (más o menos el 95%) de las muestras generarán estadísticos de contraste que se encontrarán aproximadamente a no más de dos errores estándares de la afirmación. Si Ha es la alternativa “distinto de”, cualquier estadístico de contraste que se encuentre fuera de este rango dará lugar a un rechazo de H0. La figura 14-1 muestra las ubicaciones posibles del estadístico de contraste y las conclusiones correspondientes. En el siguiente apartado verás cómo se cuantifican los indicios que tienes en contra de H0.

Observa que si la hipótesis alternativa es la alternativa “menor que”, únicamente rechazarás H0 si el estadístico de contraste se encuentra en la cola izquierda de la distribución (por debajo de –1,64). De forma similar, si Ha es la alternativa “mayor que”, únicamente rechazarás H0 si el estadístico de contraste se encuentra en la cola derecha (por encima de 1,64).

Definir un valor p

Un valor p es una probabilidad asociada al estadístico de contraste. Mide la probabilidad de obtener resultados al menos tan extremos como el tuyo si la afirmación (H0) es verdadera. Si estás contrastando la media poblacional, cuanto más hacia el extremo se encuentre tu estadístico de contraste en las colas de la distribución normal estándar (distribución Z), más pequeño será tu valor p y, por tanto, menos probable será que los resultados puedan haber ocurrido y más indicios tendrás en contra de la afirmación (H0).

Calcular un valor p

Para hallar el valor p para un estadístico de contraste:

1. Busca el estadístico de contraste en la distribución apropiada, en este caso la distribución normal estándar (distribución Z) (encontrarás la tabla Z en el apéndice).

2. Encuentra la probabilidad de que Z esté en una posición más extrema que tu estadístico de contraste:

• Si Ha contiene una alternativa “menor que” (contraste unilateral izquierdo), busca la probabilidad de que Z sea más pequeña que el estadístico de contraste (es decir, busca tu estadístico de contraste en la tabla Z y mira cuál es la probabilidad correspondiente). Ése es el valor p.

• Si Ha contiene una alternativa “mayor que” (contraste unilateral derecho), busca la probabilidad de que Z sea más grande que el estadístico de contraste (es decir, busca tu estadístico de contraste en la tabla Z, mira cuál es la probabilidad que le corresponde y réstala de uno). El resultado es tu valor p.

• Si Ha contiene una alternativa “distinto de” (contraste bilateral), busca la probabilidad de que Z no coincida con el estadístico de contraste y multiplícala por dos. Existen dos casos:

• Si el estadístico de contraste es negativo, encuentra primero la probabilidad de que Z sea más pequeña que él (busca tu estadístico de contraste en la tabla Z y mira cuál es la probabilidad correspondiente). A continuación multiplica por dos esa probabilidad para obtener el valor p.

• Si el estadístico de contraste es positivo, encuentra primero la probabilidad de que Z sea más grande que él (busca tu estadístico de contraste en la tabla Z, mira cuál es la probabilidad que le corresponde y réstala de uno). A continuación multiplica por dos ese resultado para obtener el valor p.

¿Por qué multiplicas por dos las probabilidades cuando Ha contiene una alternativa del tipo “distinto de”? La alternativa “distinto de” viene a ser la combinación de la alternativa “mayor que” y la alternativa “menor que”. Si tienes un estadístico de contraste positivo, su valor p únicamente tiene en cuenta la parte “mayor que” de la alternativa “distinto de”, de manera que hay que doblarlo para tener en cuenta también la parte “menor que” (es posible doblar el valor p porque la distribución Z es simétrica).

De forma similar, si tienes un estadístico de contraste negativo, su valor p únicamente tiene en cuenta la parte “menor que” de la alternativa “distinto de”, y tienes que doblarlo para tener en cuenta también la parte “mayor que”.

Volviendo al ejemplo anterior de las mujeres con varices, si contrastas H0: p=0,25 contra Ha: p<0,25, el valor p resulta ser 0,1056. Esto es así porque el estadístico de contraste (calculado en el apartado anterior) era –1,25, y cuando buscas este número en la tabla Z (incluida en el apéndice) ves que la probabilidad de estar por debajo de este valor es 0,1056. Si hubieras contrastado la alternativa bilateral, Ha: p 0,25, el valor p sería 2×0,1056, es decir, 0,2112.

Si es probable que los resultados hayan ocurrido siendo verdadera la afirmación, entonces no rechazas H0 (igual que el jurado declara al acusado no culpable). Si es improbable que los resultados hayan ocurrido siendo verdadera la afirmación, entonces sí rechazas H0 (igual que el jurado declara al acusado culpable). El punto de corte entre rechazar H0y no rechazar H0 es un asunto peliagudo al que me refiero en el siguiente apartado.

Extraer conclusiones

Para extraer conclusiones sobre H0 (rechazarla o no rechazarla) a partir de un valor p, tienes que definir un punto de corte predeterminado de manera que únicamente rechazarás H0 si el valor p es menor o igual que ese punto de corte. Este punto de corte se llama nivel alfa (α) o nivel de significación para el contraste. Si bien el valor 0,05 es un punto de corte habitual para rechazar H0, los puntos de corte y las decisiones resultantes pueden variar: hay quien utiliza un punto de corte más estricto (por ejemplo 0,01), que requiere indicios más claros antes de rechazar H0, y hay quien prefiere un punto de corte menos estricto (por ejemplo 0,10), que requiere menos indicios.

Si H0 se rechaza (es decir, el valor p es menor o igual que el nivel de significación predeterminado), el investigador puede decir que ha encontrado un resultado estadísticamente significativo. Un resultado es estadísticamente significativo (o tiene significación estadística) cuando es demasiado poco común como para deberse al azar suponiendo que H0 sea verdadera. Si obtienes un resultado estadísticamente significativo, tienes suficientes indicios como para rechazar la afirmación, H0, y concluir que la realidad es otra (es decir, Ha).

Si el valor p es menor o igual que el nivel de significación, entonces cumple tus requisitos para tener suficientes indicios contra H0; por tanto, rechazas H0.

Si el valor p es mayor que el nivel de significación, los datos no aportan pruebas que estén más allá de toda duda razonable; por tanto, no rechazas H0.

Sin embargo, si tienes previsto tomar decisiones sobre H0 comparando el valor p con tu nivel de significación, tienes que definir previamente ese nivel de significación. No sería justo cambiar el punto de corte después de haber visto los datos y saber por dónde van los tiros.

A lo mejor te estás preguntando si puedes decir “aceptar H0” en lugar de “no rechazar H0”. La respuesta es no. En un contraste de hipótesis, no intentas demostrar si H0 es verdadera o no (que es lo que implica la palabra “aceptar”); de hecho, si supieras que H0 es verdadera, ya no harías el contraste de hipótesis. De lo que se trata es de ver si tienes suficientes indicios para decir que H0 es falsa, basándote en tus datos. Entonces, o tienes suficientes indicios para decir que es falsa (en cuyo caso rechazas H0) o no tienes suficientes indicios para decir que es falsa (en cuyo caso no rechazas H0).

Establecer límites para rechazar H0

Estas directrices te ayudarán a tomar una decisión (rechazar o no rechazar H0) basándote en un valor p cuando el nivel de significación sea 0,05:

Si el valor p es menor que 0,01 (muy pequeño), se considera que los resultados tienen una elevada significación estadística. Por tanto, rechazas H0.

Si el valor p está entre 0,05 y 0,01 (pero no extremadamente cerca de 0,05), se considera que los resultados tienen significación estadística. Por tanto, rechazas H0.

Si el valor p está muy cerca de 0,05 (por ejemplo 0,051 o 0,049), debe considerarse que los resultados tienen cierta significación estadística. En ese caso puedes tomar cualquiera de las dos decisiones.

Si el valor p es mayor que 0,05 (pero no está extremadamente cerca de 0,05), se considera que los resultados no tienen significación estadística. Por tanto, no rechazas H0.

Si oyes que un investigador dice que sus resultados tienen significación estadística, busca el valor p y decide tú si la tienen o no. Puede que el nivel de significación predeterminado del investigador no coincida con el tuyo. Si no mencionan el valor p, pídelo.

Un problema de varices

En el ejemplo anterior sobre las mujeres con varices, vimos que el valor p era 0,1056. Este valor p es bastante grande y aporta indicios muy débiles en contra de H0 para casi cualquier nivel de exigencia, ya que es mayor que 0,05 e incluso un poco mayor que 0,10 (que se considera un nivel de significación muy alto). En este caso no rechazas H0. No había indicios suficientes para decir que la proporción de mujeres con varices es inferior a 0,25 (la hipótesis alternativa). No se considera un resultado estadísticamente significativo.

Pero ahora supongamos que tu valor p hubiera sido 0,026. Un lector que hubiera establecido su punto de corte personal en 0,05 rechazaría H0 en este caso porque el valor p (0,026) es menor que 0,05. Su conclusión sería que la proporción de mujeres con varices no es igual a 0,25; según Ha en este caso, concluiría que es menor que 0,25, y los resultados serían estadísticamente significativos. Sin embargo, un lector cuyo nivel de significación fuera 0,01 no tendría indicios suficientes (basándose en tu muestra) para rechazar H0 porque el valor p de 0,026 es mayor que 0,01. Estos resultados no serían estadísticamente significativos. Por último, si el valor p fuera 0,049 y tu nivel de significación fuera 0,05, podrías seguir las reglas y decir que, por ser un valor menor que 0,05, rechazas H0, pero tendrías la obligación de mencionar que tus resultados no son concluyentes, para que fuera el lector quien decidiera (quizá podría lanzar una moneda al aire: “Cara, rechazo H0; cruz, no la rechazo”).

Valorar la posibilidad de tomar una decisión errónea

Una vez que has tomado la decisión de rechazar H0 o no rechazar H0, el siguiente paso es afrontar las consecuencias, es decir, cómo responde la gente a tu decisión.

Si concluyes que una afirmación no es cierta pero en realidad sí lo es, ¿el resultado será una demanda, cambios innecesarios en el producto o un boicot de los consumidores que no debería haberse producido? Es posible.

Si no puedes refutar una afirmación falsa, ¿qué ocurre a continuación? ¿Continuarán fabricándose los productos igual que hasta ahora? ¿No se dictará una nueva ley ni se adoptarán nuevas medidas porque no has demostrado que haya que cambiar nada? No sería la primera vez que se ha perdido la oportunidad de pulsar el botón de alarma.

Decidas lo que decidas al realizar el contraste de hipótesis, sabes que puedes equivocarte. Las cosas son así en el mundo de la estadística. La clave está en saber qué tipos de errores pueden ocurrir y cómo reducir las probabilidades de que ocurran.

Provocar una falsa alarma: errores de tipo 1

Imagina que una empresa de mensajería afirma que el tiempo medio de entrega de sus paquetes es de dos días, y una organización de consumidores contrasta esta hipótesis, obtiene un valor p de 0,04 y concluye que esa afirmación es falsa: creen que el tiempo medio de entrega es en realidad superior a dos días. Esta situación es bastante seria. Si la organización de consumidores puede justificar su decisión, ha hecho bien en informar al público sobre este problema de publicidad engañosa. Pero ¿qué ocurre si la organización está equivocada?

Incluso si la organización diseña el estudio correctamente, recopila datos válidos y realiza bien el análisis, puede equivocarse. ¿Por qué? Porque sus conclusiones se basan en una muestra de paquetes, no en toda la población. Y en el capítulo 11 vimos que los resultados muestrales varían de una muestra a otra.

Que los resultados de una muestra se salgan de lo normal no significa que sean imposibles. Un valor p de 0,04 significa que la probabilidad de obtener tu estadístico de contraste en concreto, incluso si la afirmación es verdadera, es del 4% (inferior al 5%). En este caso rechazas H0 porque esa probabilidad es pequeña. Pero ¡una probabilidad pequeña sigue siendo una probabilidad!

Puede que la muestra, a pesar de haberse seleccionado de forma aleatoria, sea una de esas muestras atípicas cuyo resultado termina alejándose mucho de lo que cabía esperar. Entonces, H0 podría ser verdadera, pero tus resultados te han conducido a una conclusión diferente. ¿Con qué frecuencia ocurre esto? El 5% de las veces (o la probabilidad de corte que establezcas para rechazar H0).

Rechazar H0 siendo verdadera es lo que se denomina error de tipo 1. A mí este nombre no me gusta porque no es nada descriptivo. Prefiero llamarlo falsa alarma. En el caso de los paquetes, si la organización de consumidores cometió un error del tipo 1 al rechazar la afirmación de la empresa, provocó una falsa alarma. ¿Cuál es el resultado? Una empresa de mensajería muy enfadada, de eso puedes estar seguro.

Para reducir la probabilidad de crear falsas alarmas, define una probabilidad de corte (nivel de significación) baja para rechazar H0. Si la fijas en el 5 o el 1%, la probabilidad de cometer un error de tipo 1 estará bajo control.

No detectar una afirmación falsa: errores de tipo 2

Ahora supongamos que la empresa realmente no entrega los paquetes en el plazo que dice. ¿Quién puede asegurar que la muestra de la organización de consumidores lo detectará? Si el tiempo de entrega real es de 2,1 días en lugar de 2, la diferencia sería muy difícil de detectar. Si el tiempo de entrega es de 3 días, incluso una muestra bastante pequeña probablemente podría descubrir que algo está pasando. El problema está en los valores intermedios, como por ejemplo 2,5 días.

Si H0 es falsa, tienes que averiguarlo y rechazarla. No rechazar H0 siendo falsa es lo que se denomina error de tipo 2. Yo prefiero llamarlo error de detección.

El tamaño muestral es la clave para detectar situaciones en que H0 es falsa y, de este modo, evitar errores de tipo 2. Cuanta más información tengas, menos variables serán tus resultados (como se explica en el capítulo 11) y más probable será que consigas detectar algún problema en la afirmación representada por H0.

Esta probabilidad de detectar cuándo H0 es en realidad falsa se denomina la potencia de un contraste. La potencia es una cuestión bastante compleja, pero de momento te basta con saber que cuanto mayor es el tamaño muestral, más potente es el contraste. Un contraste potente conlleva una probabilidad baja de cometer un error de tipo 2.

Como medida de prevención para reducir al mínimo la probabilidad de cometer un error de tipo 2, los estadísticos recomiendan seleccionar un tamaño muestral grande para garantizar que las discrepancias respecto de la situación real no se pasarán por alto.