Con la tecnología de Blogger.

sábado, 24 de noviembre de 2012

Índices estadísticos de variables cuantitativas


Parámetros de tendencia central, dispersión, posición y forma.

Los parámetros o índices son otra forma de presentar resumidos los datos estadísticos.
Hay que distinguir:
- parámetros de tendencia central, que informan del centro de la distribución
- parámetros de dispersión, que informan de la dispersión de los datos
- parámetros de posición, que sitúan a los datos en el conjunto ce la distribución ordenada.
Los más utilizados en Bioestadística son los percentiles. Algunos de ellos pueden
ser considerados también como parámetros de tendencia central y otros como de
dispersión.
- parámetros de forma, que precisan la forma de la distribución. Podría decirse que expresan
numéricamente la forma del histograma.


Parámetros de tendencia central

Los más importantes son:
- la media aritmética, o simplemente la media
- la mediana
- la moda
- los percentiles “centrales”

La MEDIA es la suma de todos los valores dividida por el número de ellos.
Símbolo: x
Cálculo:
1) datos aislados, originales:
x 8 1 4 8 8 5 1
x ; para el ejemplo A: x 5
N 7
para el ejemplo B: x 39,6

Propiedades de la media

1- si a cada valor de x le sumamos, restamos, multiplicamos o dividimos por una constante,
la media queda sumada, restada, multiplicada o dividida por esa constante
2- la media es sensible a la variación de cada valor de x
3- la media se expresa en la misma unidad de medida que los datos originales
4- si la media tiene decimales es habitual expresarla con uno más que los datos originales

La MEDIANA es el valor que ocupa el centro de la distribución una vez ordenados los datos.
El símbolo es M

1 – datos aislados, originales (¡que deben estar ordenados!)
a) N es impar: es el valor que ocupa el lugar (N+1)/2
b) N es par: es la media de los valores que ocupan los lugares N/2 y siguiente.
2 – datos agrupados
de forma simplificada se toma como M el punto medio de la clase que contenga la
mediana (el lugar se calcula como en los datos aislados) y se identifica la clase por la columna
de frecuencias acumuladas.


Propiedades de la mediana

Son las mismas que las de la media excepto la 2ª: la mediana sólo es sensible a la variación
de los datos originales si se altera el orden en el centro de la distribución.

La MODA es el valor más frecuente. Puede ocurrir que no haya moda o que haya más de
una (empates en el máximo). El símbolo es Mo.
Cálculo:
En datos originales se hace el recuento y se busca el valor más frecuente. Si hay empate, la
moda es múltiple.
-en datos agrupados en tabla: la Mo será el punto medio de la clase modal, es decir, la más
frecuente. En caso de empate se dan los puntos medios de las clases correspondientes.
Propiedades: como la mediana.

De estos tres parámetros de tendencia central el mejor es sin duda alguna la media, pero hay
algunos casos concretos (clases abiertas, valores muy discordantes) en que la mediana o incluso
la moda son mejores. Cuando N³30 la media suele ser un buen parámetro. En todo caso
si el CV (coeficiente de variación), que luego veremos, supera el 50% la media no es buen
representante del centro de la distribución.

En resumen


Parámetros de dispersión

Informan de la dispersión de los datos, de la amplitud del conjunto. Los más importantes son:
.
-La VARIANZA, que se basa en las diferencias entre cada valor y la media de la distribución.


Propiedades de la varianza
1- si a cada valor de x le sumamos o restamos una constante k, la varianza queda igual
2- si cada valor de x lo multiplicamos o dividimos por una constante k, la varianza queda
multiplicada o dividida por k2
3- la varianza es sensible a la variación de cada valor de x
4- la varianza se expresa en el cuadrado de la unidad de medida utilizada en la variable.
5- si la varianza tiene decimales, es habitual expresarla con dos decimales más que los
datos originales

-La DESVIACION ESTANDAR, que es la raíz cuadrada de la varianza.


Es la raíz cuadrada de la varianza y por tanto es un número
más manejable y de utilización más frecuente.
Símbolo: s .También se usa mucho D.E. y la abreviatura inglesa S.D. Y la letra griega s .

-El COEFICIENTE DE VARIACIÓN, que relaciona la desviación estándar y la media.


Es un índice abstracto, que no tiene unidad de medida.
Da igual que midamos la variable en cm , kg, sec., etc, , el coeficiente de variación se expresa
siempre como %. (que puede ser mayor del 100%).

PARAMETROS DE FORMA


1) SESGO : es el grado de asimetría de una distribución, expresado por el coeficiente de sesgo
o asimetría, cuyo valor ideal es 0 (entonces hay simetría). Cuando hay un Sesgo la parte
más alta del histograma (o de la campana de Gauss) se desplaza hacia la derecha o la izquierda
y la campana tiene una cola larga, donde estará la media, y otra más corta, en la que suelen
estar la mediana y la moda. Si la media es menor que la M y/o la Mo, el sesgo es negativo y si
es mayor, el sesgo es positivo.
Símbolo: Sg

Aunque lo mejor es observar la campana o el histograma. Mirando la campana, si se desplaza a la derecha el sesgo es negativo; si lo hace a la izquierda, positivo. Si nos ponemos en lugar de la campana, al revés.



2) CURTOSIS
es el grado de apuntamiento de una distribución, expresado por el coeficiente de curtosis, cuyo
cálculo es complejo y no se ve aquí.
Símbolo: ct o k
Se toma como referencia a la campana de Gauss de la distribución normal, cuya k vale 0 y se
dice que es mesocúrtica. Si la distribución es más alta y delgada, se dice que es leptocúrtica. y
k es >0. Si es achatada y ancha se denomina platicúrtica y k es <0.
Los “70 DATOS” tienen una k = -1,105 y por tanto la distribución es algo platicúrtica.

PARAMETROS DE POSICION


1) PERCENTILES
Los percentiles ( p ) son parámetros de posición que nos indican la situación de cada valor en
el conjunto de los datos ordenados, que se han dividido en 100 partes iguales. Se presentan
como tabla o como gráfico.
6-6
Se expresan como pa siendo a el % de datos que queda por debajo del valor original al que
corresponde ese percentil. Dicho de otra forma: a un valor le corresponde el percentil pa ,
cuando ordenados los datos el a% es menor que él y el (100-a)% es mayor.
Cálculo:
1- en datos originales : se ordenan los datos de menor a mayor y se calcula el lugar en el
que estará el percentil (pa) buscado mediante la fórmula : lugar del pa = N*a/100. El
valor que corresponda a es lugar o nº de orden será el pa
2- en datos agrupados: se utilizan la tabla o el gráfico de los porcentajes acumulados, interpolando,
si es preciso. Hay una fórmula, parecida a la de la mediana, pero no suele
ser necesaria.
Los percentiles se utilizan mucho en Pediatría en tablas y gráficos de crecimiento, pero en los
últimos años su uso se ha extendido a muchos datos biológicos: colesterol, tensión arterial,
densidad ósea... Han desplazado casi totalmente a otros parámetros de posición similares,
como los deciles (el conjunto se divide en 10 partes iguales) y los cuartiles (el conjunto se
divide en 4 partes).
Realmente hay100 percentiles, que van del p1 al p100, pero en la práctica se utilizan para
mayor claridad sólo algunos de ellos. En Europa en las tablas y gráficos de crecimiento se
utilizan el p3 , p10 , p25, p50, p75, p90, y p97.
El p50 se corresponde con el centro de la distribución: el 50% de los valores es mayor y el
50% es menor. Por tanto coincide con la mediana: p50 = M
En las variables biológicas los valores normales se obtienen a partir de muchas determinaciones
en individuos sanos. Si un valor está por debajo del p3 se considera anormalmente bajo;
si está por encima del p97, anormalmente alto; entre el p10 y el p90, totalmente normal. Entre
el p3 y el p10, así como entre el p90 y el p97, aunque son aún normales, se consideran como
en “zona de riesgo” o “sospecha”, dada la proximidad de la zona anormal.
Los percentiles entre p25 y p75 pueden ser considerados también como parámetros de tendencia
central y los mayores y menores como de dispersión.
Con los percentiles no pueden hacerse operaciones matemáticas, ya que son parámetros de
posición . Así, pues, p50 ¹ (p25 + p75)/2
Al final de este tema puede verse un ejemplo de gráficos percentilados del peso y talla de niños
de 2 a 18 años. Un niño de 5 ½ años que pesa 23 kg y mide 106 cm tiene una talla en el
p10, un peso <p90 y una relación peso/talla >p97.

DATOS BIVARIADOS. CORRELACION Y REGRESION.

Estudio de variables bidimensionales

A una de las variables se la llama variable independiente y se representa por X. A la otra se la
denomina variable dependiente y su símbolo es Y. (también se usan las minúsculas: x e y).
Los datos deben de ir siempre apareados. Para cada individuo se dan su X y su Y. (“Cada oveja
con su pareja”). El nº de individuos se representa por N.
N es el nº de individuos, no el nº de datos, que siempre será el doble de N, pues cada individuo
nos proporciona dos. ¡Es un error observado con frecuencia en los exámenes!
Ambas variables pueden ser cuantitativas (CT) o cualitativas (CL). En este tema veremos el caso
de que ambas variables sean CT (que se completará en el tema 18) . En el tema 16 veremos la
relación entre dos variables CL, expresada mediante la Odds ratio (OR). El caso de una variable
CL y otra CT se trata en el tema 17.

Tabulación

De los datos originales
se hace una tabla, vertical u horizontal, con una columna (o fila) para X y otra para Y. Es opcional
añadir otra para el número de orden del individuo. Los datos se ordenan en función del
orden de los individuos o de los valores de X o de los valores de Y o no se ordenan en absoluto.


De los datos agrupados en clases
Los valores de X e Y se agrupan en clases, siguiendo el método visto en el tema 4. La tabla es
bidimensional: en la primera columna se representan las clases de X y en la primera fila las clases
de Y. Al hacer el recuento los valores de cada individuo quedarán dentro de la casilla de la
tabla que englobe a ambos.
Ejemplo: Para los datos ya vistos la tabla podría ser así (presentada de forma simplificada y no
del todo ortodoxa para mayor claridad)



Gráficos

Datos originales, aislados

Es el diagrama de puntos, también llamado de dispersión o de nube de puntos. Los valores de
cada individuo llevados aun eje de coordenadas originan un punto.


Datos agrupados en clases

El gráfico es el Estéreograma. Cada casilla de la tabla (que es la conjunción de dos clases, una de
X y otra de Y) está representada por un prisma o cilindro (o incluso por una línea) cuya altura es
proporcional a la frecuencia.
Para mayor claridad las clases en vez de como 1-2, 3-4 y 5-6 se representan como A, B y C



Índices estadísticos

Los típicos de estas distribuciones, aparte de los de cada variable por separado, son el coeficiente
de correlación y la ecuación de regresión. Son los llamados índices o parámetros de asociación.
Son distintos en función del tipo de variables (CL-CL, CL-CT, CT-CT). en este tema sólo nos
ocuparemos del caso en que ambas variables son CT.
Correlación significa relación mutua y expresa el grado de asociación existente entre las variables,
el CUANTO de la relación. Su parámetro es el coeficiente de correlación. Su símbolo es r,
que puede acompañarse, si la claridad lo exige, de un subíndice con la notación de las variables
(p.e. rxy). Se puede calcular la correlación entre dos variables o más (correlación múltiple).
La regresión es la forma, el COMO de esa asociación. Expresa la relación entre las dos variables,
X e Y, mediante la ecuación de regresión y su representación gráfica la línea de regresión.
Mediante ella conocida una variable es posible predecir la otra. Por consenso X es la variable
independiente e Y la dependiente. De esta forma Y = f(X).

Coeficiente de correlación
Mide la intensidad de la asociación entre las variables. Es un número abstracto, independiente de
la unidad de medida de las variables. Puede adoptar cualquier valor entre –1 y 1. Dicho de otra
forma: r = Î(-1÷1). Suele expresarse con 3 decimales, a no ser que valga –1, 0 ó 1. Aparte de su
valor descriptivo sirve para ver la significación estadística de la relación (tema 18)
Aquí veremos sólo la correlación entre dos variables. Su coeficiente de correlación se llama de
Pearson, aunque cuando se dice simplemente coeficiente de correlación, se sobreentiende que es
éste. En el tema 18 se verá otro coeficiente, el de Spearman, que se usa cuando no puede utilizarse
el de Pearson.
Si se observa una correlación aparentemente alta entre X e Y puede tratarse de dos situaciones:
--una variación de X provoca otra en Y. Por ejemplo, el aumento de la temperatura corporal produce
un aumento de la frecuencia cardiaca.
--X e Y varían a la par por efecto de un a tercera o más variables. La correlación existente es
pura coincidencia. Son las llamadas correlaciones espurias, ya citadas en el tema 1. Son las más
frecuentes. De forma automática correlación  causalidad. Se requiere un estudio experimental
con resultado significativo.



gráficamente se puede representar así




Regresión

Ya hemos visto el concepto de regresión. La fórmula matemática que la expresa puede ser una
ecuación de primer grado (regresión lineal: y = a+bx) u otras ecuaciones más complejas (cuadrática:
y=ax2+bx+c ; exponencial: y=aebx ; potencial: y=axb ; hiperbólica: y=a(b/x) ; logarítmica:
y=a+blnx ; etc...), que no trataremos, pues son muy complejas. Nos limitaremos a la regresión
lineal, también llamada recta de regresión, pues su representación gráfica es una línea recta, que
representa lo mejor posible a todos los puntos del diagrama de dispersión. Realmente se podrían
trazar muchas rectas de regresión, pero sólo nos interesa la llamada “mejor línea de ajuste”, que
es la que corresponde a la ecuación y=a+bx ( ó y=bx+a; el orden de los sumandos no altera la
suma).
En esta fórmula b es el coeficiente de regresión, también llamado pendiente, pues de él depende
la inclinación de la recta y nos indica en cuanto se modifica y en media cuando x varía en
una unidad.
a es el valor de y cuando x = 0 , por lo que también se la llama ordenada en el origen o intersección
de y . Se ha comprobado que la mejor línea de ajuste es aquella en que la suma de los cuadrados
de las diferencias entre cada punto original y la línea de regresión es la menor de todas las
posibles. Por eso a este método se le llama “de los mínimos cuadrados”. Afortunadamente no
hay que calcularlos, pues se ha desarrollado una fórmula mucho más manejable para encontrar la
ecuación.

En principio se considera a y variable dependiente y a x variable independiente, por lo que la
regresión se dice que es de y sobre x. En este sentido b es realmente byx y así se entiende cuando
no hay subíndice. Matemáticamente también se puede calcular la regresión de x sobre y. Si
interesara este cálculo, lo que no es habitual, escribiríamos bxy para evitar confusiones



Representación gráfica
Para trazar una recta basta con dos puntos. En el diagrama de dispersión se busca el valor de y
para x = 0. El otro punto se obtiene a partir de un valor cualquiera de x que nos de una y que no
se salga del gráfico. En nuestro ejemplo: si x = 0 , y = 2,587 ; para x = 5 , y = 5,302



Coeficiente de determinación
Mide cuantitativamente la bondad o representatividad del ajuste de la recta a la nube de puntos.
Es el cuadrado de r. Su símbolo es r2
o R. En nuestro ejemplo r2 = 0,302 . Cuando se calculan
diversas ecuaciones de regresión (lineal, exponencial, logarítmica, etc.) la que tenga el r2 más
alto será la mejor, la más representativa. r2
unifica la fuerza de la asociación de positivos y negativos.
( una r = -0,400 es más potente que una r = 0,350 ; sus r2
son 0,160 y 0,122)





Teoría de la probabilidad

Definición

Veremos dos:
---La definición clásica de Laplace dice que la probabilidad, (p), de ocurrencia de un fenómeno
A (o evento, suceso, modalidad de una variable...) en un experimento aleatorio de resultados
equiprobables es igual al nº de casos favorables, también llamados éxitos, (símbolo: f ó r) dividido
por el nº de casos posibles (N).
pA = f/N
Como f puede estar entre 0 y N, los valores posibles de p van de 0 a 1. Suelen expresarse, salvo
el 0 y el 1, con 3 ó 4 decimales. También se puede expresar como porcentaje, entre 0% y 100%.
A veces es conveniente, por ser más manejable, expresarlo como fracción.
Tres aclaraciones a esta definición
1-Un experimento aleatorio
-no tiene resultado fijo, sino un conjunto de posibles resultados (2 ó más)
-el resultado no se conoce de antemano, ocurre de forma aparentemente casual.
-se puede repetir indefinidamente bajo las mismas condiciones.
2- Equiprobable quiere decir que todos los resultados tienen la misma probabilidad de ocurrir
Ejemplo: la probabilidad de que al tirar un lado salga un 3 es 1/6 .( 1/6 es preferible a 0,1667 ).
El modelo de Laplace es un modelo teórico, intuitivo, en el que por simple reflexión se pueden
saber las probabilidades.
3- Éxito se utiliza cuando ocurre el evento. El término es un clásico y se introdujo estudiando
tiradas de dados, aplicándose aunque el evento sea algo negativo. Si se estudia la mortalidad, un
fallecimiento será un “éxito”...


---La definición de Richard von Misses es más amplia y universal, basada en un modelo experimental,
práctico: “La mejor estimación de la probabilidad de la ocurrencia de un fenómeno en
un experimento aleatorio es su frecuencia relativa”.
Ejemplo:. Teóricamente al lanzar una moneda bien hecha la p de cara es de 0,5. Hacemos un
experimento tirando la moneda repetidamente. Vamos anotando como éxito las caras que van
saliendo y después de cada tirada se calcula la f.r. de éxitos. Tras variaciones de cierta amplitud
al principio pronto la f.r. se mueve cada vez más cerca de 0,5, con el que coincidirá exactamente
en el infinito.
De esta forma calculando la f.r. podemos hallar la probabilidad de sucesos en los que no podemos
utilizar la intuición. Por ejemplo, tirando varios cientos de chinchetas del modelo X al suelo,
la f.r. de las que queden con la punta hacia arriba nos dará la p de tal resultado en ese modelo.

Distribución de probabilidad
es el conjunto de las p de todas los valores o modalidades que puede adoptar una variable X.
Veamos el caso más sencillo, el de una variable cualitativa:
--se establece el dominio de la variable (todas las modalidades)
--se calcula la p de cada modalidad
--se tabula y se representa gráficamente



Método de Bayes
El modelo estadístico bayesiano se basa en probabilidades condicionadas y ha permitido el desarrollo,
aún bastante imperfecto, del “diagnóstico por ordenador”. A partir de las frecuencias de
determinados síntomas en diversas enfermedades calcula la p de padecer una u otra enfermedad.
Es un compleja especialidad dentro de la Estadística, cuyos detalles escapan a la intención de
esta asignatura. Veremos  un ejemplo.


Distribuciones fundamentales de probabilidad



Ya hemos visto que los fenómenos naturales siguen el modelo indeterminista, es decir las leyes
del azar, entendido como la combinación de múltiples factores, en gran parte desconocidos e
incontrolables, que conducen a resultados no previsibles de antemano, aunque sí conocidos, que
se caracterizan por su variabilidad en los diferentes individuos. A cada uno de los posibles resultados
se asocia una probabilidad, que en sucesos sencillos o poco complejos es fácil de calcular
por las leyes básicas o fundamentales de la probabilidad, pero al aumentar la complejidad el cálculo
se hace muy difícil o imposible. Entonces hay que recurrir a una serie de modelos teóricos,
las llamadas distribuciones o leyes fundamentales de la probabilidad, que nos permiten hacer el
cálculo con relativa facilidad. Al aumentar el nº de individuos todas las distribuciones se van
aproximando y acaban confluyendo y haciéndose una en el infinito.




Clasificación
a) para variables discretas

--D. binomial


Pueden ser elementales y complejos
Los elementales tienen dos resultados posibles: Éxito (cuando aparece el resultado que se pretende)
y fracaso , que puede ser único o múltiple. Sus probabilidades respectivas son p y q
En los complejos --el experimento elemental se repite n veces
--obteniendo r éxitos ( de 0 a n) : 0 £ r £ n
--cada modalidad de la variable va asociada a una r . Como r empieza en 0
siempre hay n+1 modalidades: la de r=0 y las de r entre uno y n.
-- un experimento binomial complejo


--D. de Poisson


también llamada de los sucesos raros o de las probabilidades pequeñas.
Es una variante de la DB cuando p o q son muy pequeñas y n no es muy grande. En esta situación
la DB se hace inexacta. La frontera se fija como se ha visto al tratar la aproximación de la
DB a una DP en p ó q £0,1 (ó el 10%, si se expresa en %; algunos admiten hasta 0,2 ó 20%) y
np ó nq £ 5 (ó 500 si se expresa como %), aunque últimamente se acepta hasta 10 (ó 1000). Como
en origen es una DB, es valido lo que hemos visto sobre n , r , Nr y N .
Aunque un suceso sea raro, ocurre de vez en cuando. Incluso con cierta frecuencia, si aumenta el
nº de ocasiones para que ocurra. Ya vimos que la p de acertar 6 en la Primitiva es bajísima, pero
como se hacen millones de apuestas, hay muchas semanas con uno o más acertantes. En un determinado
cruce puede ser que la probabilidad de que un coche tenga un accidente sea muy baja,
pero si el tráfico es muy intenso, puede haber accidentes incluso todos los días.
Al contrario, un hecho frecuente, como las llamadas que se reciben en la centralita telefónica de
un hospital, se puede convertir en raro si consideramos las llamadas en una unidad de tiempo
muy pequeña, p.e. segundos. En 24 horas quizá en la mayor parte de los segundos no haya ninguna
llamada.
¡Fijarse también en q , no sólo en p! . Una B(5 , 0’98) tiene la q=0,02 y debe ser aproximada
a una P(4,9)



b) para variables continuas

--D. normal


Es la distribución típica de variables aleatorias cuantitativas continuas cuando el tamaño es grande
(por consenso, cuando N³30) . Sus parámetros básicos son la media y la desviación estándar.
Su desarrollo se debe fundamentalmente a Laplace y Gauss. Quetelet le dió el nombre de normal
o natural porque observó que la gran mayoría de variables fisiológicas seguían este modelo. Es
un nombre consagrado por el uso y no quiere decir que las otras distribuciones sean “anormales”.
Los norteamericanos usan y han exportado la denominación de “distribución gaussiana”.
Siguen la DN todo tipo de variables biológicas ( como frecuencia cardíaca, tensión arterial, componentes
químicos de la sangre y orina, medidas corporales...), duración o vida de objetos y seres
vivos, etc



--D. de la t de Student


es la distribución teórica de las muestras pequeñas de una población que sigue la ley normal con
datos cuantitativos continuos.
Gosset (que utilizaba el seudónimo de Student) comprobó que cuando disminuía el tamaño de las
muestras, no valían del todo los normas de la DN, tanto más cuanto más pequeña sea la muestra.
Hasta N=30 las diferencias son bastante acusadas. Por eso la mayoría de autores ponen a ese
nivel la frontera de uso práctico entre DN y t de Student.. Otros lo ponen en 60 y algunos hasta
en 120. Los programas estadísticos utilizan casi exclusivamente la t de Student para todas las
variables continuas, ya que hasta el infinito no se produce una identidad plena entre ambas distribuciones.
La DN está en vías de extinción, al menos en la práctica. Nosotros seguiremos el
criterio de utilizar la t de Student para muestras pequeñas (N<30) y la DN para las grandes.



DISTRIBUCION BINOMIAL


Concepto
Es el modelo básico de distribución de las variables discretas (o discretizadas), que como ya sabemos
pueden ser reducidas en última instancia a dicotómicas.
Experimentos binomiales
Pueden ser elementales y complejos
Los elementales tienen dos resultados posibles: Éxito (cuando aparece el resultado que se pretende)
y fracaso , que puede ser único o múltiple. Sus probabilidades respectivas son p y q
En los complejos --el experimento elemental se repite n veces
--obteniendo r éxitos ( de 0 a n) : 0 £ r £ n
--cada modalidad de la variable va asociada a una r . Como r empieza en 0
siempre hay n+1 modalidades: la de r=0 y las de r entre uno y n.
-- un experimento binomial complejo puede repetirse N veces. Cada modalidad
aparecerá Nr veces.

Modelos clásicos de la distribución binomial

Los más importantes son las fuentes romanas, el aparato de Galton y el triángulo de Pascal.









0 comentarios:

Publicar un comentario