En ocasiones en que no es posible o conveniente realizar un censo (analizar a todos los
elementos de una población), se selecciona una muestra, entendiendo por tal una parte
representativa de la población.
El muestreo es por lo tanto una herramienta de la investigación científica, cuya función
básica es determinar que parte de una población debe examinarse, con la finalidad de hacer
inferencias sobre dicha población.
La muestra debe lograr una representación adecuada de la población, en la que se
reproduzca de la mejor manera los rasgos esenciales de dicha población que son importantes
para la investigación. Para que una muestra sea representativa, y por lo tanto útil, debe de reflejar
las similitudes y diferencias encontradas en la población, es decir ejemplificar las características de
ésta.
Los errores más comunes que se pueden cometer son:
1.- Hacer conclusiones muy generales a partir de la observación de sólo una parte de la
Población, se denomina error de muestreo.
2.- Hacer conclusiones hacia una Población mucho más grandes de la que originalmente
se tomo la muestra. Error de Inferencia.
En la estadística se usa la palabra población para referirse no sólo a personas si no a
todos los elementos que han sido escogidos para su estudio y el término muestra se usa para
describir una porción escogida de la población.
TIPOS DE MUESTREO
Existen diferentes criterios de clasificación de los diferentes tipos de muestreo, aunque en
general pueden dividirse en dos grandes grupos: métodos de muestreo probabilísticos y métodos
de muestreo no probabilísticos.
I. Muestreo probabilístico
Los métodos de muestreo probabilísticos son aquellos que se basan en el principio de
equiprobabilidad. Es decir, aquellos en los que todos los individuos tienen la misma probabilidad de
ser elegidos para formar parte de una muestra y, consiguientemente, todas las posibles muestras
de tamaño n tienen la misma probabilidad de ser seleccionadas. Sólo estos métodos de muestreo
probabilísticos nos aseguran la representatividad de la muestra extraída y son, por tanto, los más
recomendables. Dentro de los métodos de muestreo probabilísticos encontramos los siguientes
tipos:
1.- Muestreo aleatorio simple:
El procedimiento empleado es el siguiente: 1) se asigna un número a cada individuo de la
población y 2) a través de algún medio mecánico (bolas dentro de una bolsa, tablas de números
aleatorios, números aleatorios generados con una calculadora u ordenador, etc.) se eligen tantos
sujetos como sea necesario para completar el tamaño de muestra requerido. Este procedimiento, atractivo por su simpleza, tiene poca o nula utilidad práctica cuando la
población que estamos manejando es muy grande.
2.- Muestreo aleatorio sistemático:
Este procedimiento exige, como el anterior, numerar todos los elementos de la población,
pero en lugar de extraer n números aleatorios sólo se extrae uno. Se parte de ese número aleatorio
i, que es un número elegido al azar, y los elementos que integran la muestra son los que ocupa los
lugares i, i+k, i+2k, i+3k,...,i+(n-1)k, es decir se toman los individuos de k en k, siendo k el resultado
de dividir el tamaño de la población entre el tamaño de la muestra: k= N/n. El número i que
empleamos como punto de partida será un número al azar entre 1 y k.
El riesgo este tipo de muestreo está en los casos en que se dan periodicidades en la
población ya que al elegir a los miembros de la muestra con una periodicidad constante (k)
podemos introducir una homogeneidad que no se da en la población. Imaginemos que estamos
seleccionando una muestra sobre listas de 10 individuos en los que los 5 primeros son varones y
los 5 últimos mujeres, si empleamos un muestreo aleatorio sistemático con k=10 siempre
seleccionaríamos o sólo hombres o sólo mujeres, no podría haber una representación de los dos
sexos.
3.- Muestreo aleatorio estratificado:
Trata de obviar las dificultades que presentan los anteriores ya que simplifican los procesos
y suelen reducir el error muestral para un tamaño dado de la muestra. Consiste en considerar
categorías típicas diferentes entre sí (estratos) que poseen gran homogeneidad respecto a alguna
característica (se puede estratificar, por ejemplo, según la profesión, el municipio de residencia, el
sexo, el estado civil, etc.). Lo que se pretende con este tipo de muestreo es asegurarse de que
todos los estratos de interés estarán representados adecuadamente en la muestra. Cada estrato
funciona independientemente, pudiendo aplicarse dentro de ellos el muestreo aleatorio simple o el
estratificado para elegir los elementos concretos que formarán parte de la muestra. En ocasiones
las dificultades que plantean son demasiado grandes, pues exige un conocimiento detallado de la
población. (Tamaño geográfico, sexos, edades,...).
La distribución de la muestra en función de los diferentes estratos se denomina afijación, y
puede ser de diferentes tipos:
Afijación Simple: A cada estrato le corresponde igual número de elementos muéstrales.
Afijación Proporcional: La distribución se hace de acuerdo con el peso (tamaño) de la población
en cada estrato.
Afijación Optima: Se tiene en cuenta la previsible dispersión de los resultados, de modo que se
considera la proporción y la desviación típica. Tiene poca aplicación ya que no se suele conocer la
desviación.
II. Métodos de muestreo no probabilísticos
A veces, para estudios exploratorios, el muestreo probabilístico resulta excesivamente
costoso y se acude a métodos no probabilísticos, aun siendo conscientes de que no sirven para
realizar generalizaciones (estimaciones inferenciales sobre la población), pues no se tiene certeza
de que la muestra extraída sea representativa, ya que no todos los sujetos de la población tienen la
misma probabilidad de se elegidos. En general se seleccionan a los sujetos siguiendo
determinados criterios procurando, en la medida de lo posible, que la muestra sea representativa.
En algunas circunstancias los métodos estadísticos y epidemiológicos permiten resolver los
problemas de representatividad aun en situaciones de muestreo no probabilístico, por ejemplo los
estudios de caso-control, donde los casos no son seleccionados aleatoriamente de la población.
Entre los métodos de muestreo no probabilísticos más utilizados en investigación encontramos:
1.- Muestreo por cuotas:
También denominado en ocasiones "accidental". Se asienta generalmente sobre la base
de un buen conocimiento de los estratos de la población y/o de los individuos más
"representativos" o "adecuados" para los fines de la investigación. Mantiene, por tanto, semejanzas
con el muestreo aleatorio estratificado, pero no tiene el carácter de aleatoriedad de aquél.
En este tipo de muestreo se fijan unas "cuotas" que consisten en un número de individuos
que reúnen unas determinadas condiciones, por ejemplo: 20 individuos de 25 a 40 años, de sexo
femenino y residentes en Gijón. Una vez determinada la cuota se eligen los primeros que se
encuentren que cumplan esas características. Este método se utiliza mucho en las encuestas de
opinión.
2.- Muestreo intencional o de conveniencia:
Este tipo de muestreo se caracteriza por un esfuerzo deliberado de obtener muestras
"representativas" mediante la inclusión en la muestra de grupos supuestamente típicos. Es muy
frecuente su utilización en sondeos preelectorales de zonas que en anteriores votaciones han
marcado tendencias de voto.
También puede ser que el investigador seleccione directa e intencionadamente los
individuos de la población. El caso más frecuente de este procedimiento el utilizar como muestra
los individuos a los que se tiene fácil acceso (los profesores de universidad emplean con mucha
frecuencia a sus propios alumnos).
Ventajas e inconvenientes de los distintos tipos de muestreo probabilístico
CONCEPTO GENERAL DE TEST DE HIPÓTESIS
OBJETIVO
Un test o contraste de hipótesis es un conjunto de reglas tendentes a decidir
cuál de dos hipótesis -H0 (hipótesis nula) o H1 (hipótesis alternativa)- debe
aceptarse en base al resultado obtenido en una muestra
Hipótesis es una aseveración de una población elaborado con el propósito de poner aprueba, para verificar si la afirmación es razonable se usan datos.
En el análisis estadístico se hace una aseveración, es decir, se plantea una hipótesis, después se hacen las pruebas para verificar la aseveración o para determinar que no es verdadera.
Por tanto, la prueba de hipótesis es un procedimiento basado en la evidencia muestral y la teoría de probabilidad; se emplea para determinar si la hipótesis es una afirmación razonable.
Prueba de una hipótesis: se realiza mediante un procedimiento sistemático de cinco paso:
PASOS
Siguiendo este procedimiento sistemático, al llegar al paso cinco se puede o no rechazar la hipótesis, pero debemos de tener cuidado con esta determinación ya que en la consideración de estadística no proporciona evidencia de que algo sea verdadero. Esta prueba aporta una clase de prueba más allá de una duda razonable. Analizaremos cada paso en detalle
Objetivo de la prueba de hipótesis.
El propósito de la prueba de hipótesis no es cuestionar el valor calculado del estadístico (muestral), sino hacer
un juicio con respecto a la diferencia entre estadístico de muestra y un valor planteado del parámetro.
Paso 1: Plantear la hipótesis nula Ho y la hipótesis alternativa H1.
Cualquier investigación estadística implica la existencia de hipótesis o afirmaciones acerca de las poblaciones que se estudian.
La hipótesis nula (Ho) se refiere siempre a un valor especificado del parámetro de población, no a una estadística de muestra. La letra H significa hipótesis y el subíndice cero no hay diferencia. Por lo general hay un "no" en la hipótesis nula que indica que "no hay cambio" Podemos rechazar o aceptar Ho.
La hipótesis nula es una afirmación que no se rechaza a menos que los datos maestrales proporcionen evidencia convincente de que es falsa. El planteamiento de la hipótesis nula siempre contiene un signo de igualdad con respecto al valor especificado del parámetro.
La hipótesis alternativa (H1) es cualquier hipótesis que difiera de la hipótesis nula. Es una afirmación que se acepta si los datos maestrales proporcionan evidencia suficiente de que la hipótesis nula es falsa. Se le conoce también como la hipótesis de investigación. El planteamiento de la hipótesis alternativa nunca contiene un signo de igualdad con respecto al valor especificado del parámetro.
Paso 2: Seleccionar el nivel de significancia.
Nivel de significacia: Probabilidad de rechazar la hipótesis nula cuando es verdadera. Se le denota mediante la letra griega α, tambiιn es denominada como nivel de riesgo, este termino es mas adecuado ya que se corre el riesgo de rechazar la hipótesis nula, cuando en realidad es verdadera. Este nivel esta bajo el control de la persona que realiza la prueba.
Si suponemos que la hipótesis planteada es verdadera, entonces, el nivel de significación indicará la probabilidad de no aceptarla, es decir, estén fuerade área de aceptación. El nivel de confianza (1-α), indica la probabilidad de aceptar la hipótesis planteada, cuando es verdadera en la población.
La distribución de muestreo de la estadística de prueba se divide en dos regiones, una región de rechazo (conocida como región crítica) y una región de no rechazo (aceptación). Si la estadística de prueba cae dentro de la región de aceptación, no se puede rechazar la hipótesis nula.
La región de rechazo puede considerarse como el conjunto de valores de la estadística de prueba que no tienen posibilidad de presentarse si la hipótesis nula es verdadera. Por otro lado, estos valores no son tan improbables de presentarse si la hipótesis nula es falsa. El valor crítico separa la región de no rechazo de la de rechazo.
Cualquiera sea la decisión tomada a partir de una prueba de hipótesis, ya sea de aceptación de la Ho o de la Ha, puede incurrirse en error:
Un error tipo I se presenta si la hipótesis nula Ho es rechazada cuando es verdadera y debía ser aceptada. La probabilidad de cometer un error tipo I se denomina con la letra alfa α
Un error tipo II, se denota con la letra griega β se presenta si la hipótesis nula es aceptada cuando de hecho es falsa y debía ser rechazada.
En cualquiera de los dos casos se comete un error al tomar una decisión equivocada.
En la siguiente tabla se muestran las decisiones que pueden tomar el investigador y las consecuencias posibles.
Para que cualquier ensayo de hipótesis sea bueno, debe diseñarse de forma que minimice los errores de decisión. En la práctica un tipo de error puede tener más importancia que el otro, y así se tiene a conseguir poner una limitación al error de mayor importancia. La única forma de reducir ambos tipos de errores es incrementar el tamaño de la muestra, lo cual puede ser o no ser posible.
La probabilidad de cometer un error de tipo II denotada con la letra griega beta β, depende de la diferencia entre los valores supuesto y real del parámetro de la población. Como es más fácil encontrar diferencias grandes, si la diferencia entre la estadística de muestra y el correspondiente parámetro de población es grande, la probabilidad de cometer un error de tipo II, probablemente sea pequeña.
El estudio y las conclusiones que obtengamos para una población cualquiera, se habrán apoyado exclusivamente en el análisis de una parte de ésta. De la probabilidad con la que estemos dispuestos a asumir estos errores, dependerá, por ejemplo, el tamaño de la muestra requerida. Las contrastaciones se apoyan en que los datos de partida siguen una distribución normal
Existe una relación inversa entre la magnitud de los errores α y β: conforme a aumenta, β disminuye. Esto obliga a establecer con cuidado el valor de a para las pruebas estadísticas. Lo ideal sería establecer α y β.En la práctica se establece el nivel α y para disminuir el Error β se incrementa el número de observaciones en la muestra, pues así se acortan los limites de confianza respecto a la hipótesis planteada .La meta de las pruebas estadísticas es rechazar la hipótesis planteada. En otras palabras, es deseable aumentar cuando ésta es verdadera, o sea, incrementar lo que se llama poder de la prueba (1- β) La aceptación de la hipótesis planteada debe interpretarse como que la información aleatoria de la muestra disponible no permite detectar la falsedad de esta hipótesis.
Paso 3: Cálculo del valor estadístico de prueba
Valor determinado a partir de la información muestral, que se utiliza para determinar si se rechaza la hipótesis nula., existen muchos estadísticos de prueba para nuestro caso utilizaremos los estadísticos z y t. La elección de uno de estos depende de la cantidad de muestras que se toman, si las muestras son de la prueba son iguales a 30 o mas se utiliza el estadístico z, en caso contrario se utiliza el estadístico t.
Tipos de prueba
a) Prueba bilateral o de dos extremos: la hipótesis planteada se formula con la igualdad
Ejemplo
H0 : µ = 200
H1 : µ ≠ 200
b) Pruebas unilateral o de un extremo: la hipótesis planteada se formula con ≥ o ≤
H0 : µ ≥ 200 H0 : µ ≤ 200
H1 : µ < 200 H1 : µ > 200
Paso 4: Formular la regla de decisión
Se establece las condiciones específicas en la que se rechaza la hipótesis nula y las condiciones en que no se rechaza la hipótesis nula. La región de rechazo define la ubicación de todos los valores que son tan grandes o tan pequeños, que la probabilidad de que se presenten bajo la suposición de que la hipótesis nula es verdadera, es muy remota
Distribución muestral del valor estadístico z, con prueba de una cola a la derecha
Valor critico: Es el punto de división entre la región en la que se rechaza la hipótesis nula y la región en la que no se rechaza la hipótesis nula.
Paso 5: Tomar una decisión.
En este último paso de la prueba de hipótesis, se calcula el estadístico de prueba, se compara con el valor crítico y se toma la decisión de rechazar o no la hipótesis nula. Tenga presente que en una prueba de hipótesis solo se puede tomar una de dos decisiones: aceptar o rechazar la hipótesis nula. Debe subrayarse que siempre existe la posibilidad de rechazar la hipótesis nula cuando no debería haberse rechazado (error tipo I). También existe la posibilidad de que la hipótesis nula se acepte cuando debería haberse rechazado (error de tipo II).
a) Test bilateral o de dos colas: Si H1 es la negación de H0.
b) Test unilateral o de una cola: Si H1 es una parte de la negación de H0.
ELECCIONES PREVIAS
Antes de realizar un test, el investigador debe decidir cuatro cosas:
a) H0: Hipótesis formada por una igualdad o afirmación positiva.
b) H1: Es la hipótesis que se quiere demostrar fuera de toda duda. Podrá ser una
parte de la negación de H0 (test de una cola) si la otra parte implica una conclusión/
acción equivalente a la que proporciona H0.
c) α : Es un valor tanto más pequeño cuantas más garantías se precisen de que
una decisión por H1 sea correcta. Usualmente α=5% .
d) Estadístico de contraste: Es la v.a. (dependiente de los valores de la muestra
y que resume toda la información relevante de ella) que se va a utilizar para
realizar el test.
MÉTODO
Para tomar la decisión debe obtenerse un intervalo de valores del estadístico
de contraste cuya probabilidad, bajo H0, sea 1−α. El intervalo -que será de
dos colas en los tests bilaterales y de una cola (con la desigualdad en el mismo
sentido que la de H0) en los unilaterales- es llamado región de aceptación, y los
valores que están fuera de él se denominan región crítica o región de rechazo.
Obtenida la muestra, si el valor que toma en ella el estadístico de contraste está
en la región de aceptación se acepta H0; si está fuera, se acepta H1. En el primer
caso se dice que el test (o el resultado) es estadísticamente no significativo; en
el segundo se dice que el test (o el resultado) es estadísticamente significativo
(ambos al error α).
ERRORES
Toda decisión por H1 viene acompañada de una posibilidad de error llamada
error α, error de Tipo I o nivel de significación dada por:
α = P(decidir H1⏐es cierta H0).
Toda decisión por H0 viene acompañada de una posibilidad de error llamada
error β o error de Tipo II dada por:
β = P(decidir H0⏐es cierta H1).
En particular:
a) El error α está controlado, pues se fija de antemano y tan pequeño como se
desee. Por ello las decisiones por H1 son siempre fiables.
b) El error β no está controlado de antemano, puediendo ser grande. Por ello las
decisiones por H0 no son de fiar.
c) El error α es un único número, pero el error β depende de la alternativa H1
que se considere.
d) El error β disminuye conforme aumenta α, conforme H1 se aleja de H0 y conforme
aumenta el tamaño n de la muestra (si todo lo demás permanece fijo).
POTENCIA DE UN TEST
Se llama potencia θ a la capacidad que tiene un test para detectar las hipótesis
alternativas ciertas, es decir:
θ = 1−β = P(decidir H1⏐es cierta H1)
Como es función de la hipótesis alternativa, en el caso de tests acerca de parámetros
su representación gráfica da la curva de potencia. Un test es tanto mejor
cuanto más potente sea
VALOR P
a) Al mínimo error α al cual un resultado es significativo se le llama valor P o
nivel crítico P o nivel mínimo de significación.
b) P es también la probabilidad de obtener un resultado tan extraño o más que el
obtenido cuando H0 es cierta, midiendo por tanto las evidencias que hay en
contra de H0 (pero no mide cuánto de falsa es H0).
c) El valor P de un test de una cola (con H1 en la dirección a que apuntan los datos)
suele ser la mitad del valor P del test de dos colas.
d) Fijado un valor de α: si P ≤ α se decide H1; si P > α se decide H0.
e) Las conclusiones de un test suelen expresarse así: H0 (P>tal) o H1 (P<cual).
TAMAÑO DE MUESTRA
Determinando el tamaño de muestra n de antemano, las conclusiones por
H0 también son fiables (las conclusiones por H1 siempre lo son). Para determinar
n hace falta especificar:
a) El error α del test;
b) La primera alternativa de interés, es decir la primera H1
c) El error β (o la potencia θ) para tal alternativa.
El n obtenido garantiza que el test realizado con tal muestra (al error α) dará
significativo el (1−β)×100% de las veces en que la verdadera hipótesis H1 se
diferencie de H0 en la cantidad δ especificada (o más veces si la diferencia es
mayor, o menos veces si es menor).
INTERVALOS DE CONFIANZA TRAS UN TEST DE HIPÓTESIS
a) Tras realizar un test de hipótesis acerca de un parámetro es conveniente
dar un intervalo de confianza para el mismo, tanto si se concluye H0 (para
así matizar la posible magnitud del error de tal conclusión) como si se concluye
H1 (para así indicar cuánto de falsa es H0).
b) Cuando el test es de dos colas, el intervalo será de dos colas (al error α si se
concluyó H1; al error 2β si se concluyó H0).
c) Cuando el test es de una cola, el intervalo será de una cola (al error α y con
la desigualdad en el sentido que indica H1 si se concluyó H1; al error β y con
la desigualdad en el sentido contrario al que indica H1 si se concluyó H0).
REGLAS PARA TOMAR LA DECISIÓN
a) Si n fue determinado de antemano:
i) Si P≤α se concluye H1 (la decisión es fiable);
ii) Si P>α se concluye H0 (la decisión es fiable).
b) Si n no se determinó de antemano, pero se conocen los errores α y β y la
mínima diferencia de interés δ (o la primera alternativa de interés ω
1 a la hipótesis nula ω 0):
i) Si P≤α se concluye H1 (la decisión es fiable).
ii) Si P>α se concluye H0 ≡ ω= ω
0 provisionalmente. La conclusión por H0 no
es fiable (y debe ampliarse la muestra y repetir el test); en otro caso la
conclusión por H0 es fiable (y el problema finaliza).
c) En otro caso (Regla Automática de Decisión para el caso de α=5%):
i) Si P≤5%: Se concluye H1;
ii) Si P>15% o 20% (depende de n): Se concluye H0;
iii) En otro caso: Se concluye H0, indicando que hay indicios de significación
y que conviene ampliar la muestra y repetir el test.
c) En otro caso (Regla Automática de Decisión para el caso de α=5%):
i) Si P≤5%: Se concluye H1;
ii) Si P>15% o 20% (depende de n): Se concluye H0;
iii) En otro caso: Se concluye H0, indicando que hay indicios de significación
y que conviene ampliar la muestra y repetir el test.
0 comentarios:
Publicar un comentario