Download pdf - Unidad 5 La Curva Normal

Transcript
Page 1: Unidad 5 La Curva Normal

5. Distribución normal: Dios ama la curva normal. La estadística es una ciencia según la cual todas las mentiras se tornan cuadros. 

Pitigrilli, escritor italiano. 

 

 

 

Introducción. Antes de poder comenzar con esta unidad te pedimos que realices dos ejercicios. 

Resuelve el ejercicio 1 antes de continuar leyendo 

 

5.1. ¿Qué es la distribución normal?  

Cuando  graficamos  una  variable  en  forma  de  histogramas  o  polígonos  de  frecuencias  y observamos  que  los  datos  parecieran  asemejar  o  tener  una  “forma  de  campana”  entonces podríamos  pensar  que  la  distribución  de  dicha  variable  se  aproxima  a  una  “distribución matemática” precisa e importante denominada distribución normal o, simplemente, curva normal. 

 

Objetivo de la Unidad: 

Identificar el comportamiento y distribución de  los datos a  través de los conceptos básicos de la curva normal y sus derivados. 

Page 2: Unidad 5 La Curva Normal

 

 

 

 

 

 

La curva normal puede ser representada como: 

 

 

¡Importante! 

Te presentamos  la ecuación únicamente para que conozcas que existe una base matemática. No  te preocupes  tratando de descifrar qué significa  (al menos para este curso). 

1 /

√2 

La curva normal se define cómo: 

Una distribución teórica de los datos de una población (Pagano, 2008). Es una curva en forma de campana que puede ser descrita con la siguiente ecuación:  

La distribución normal se define cómo: 

La distribución de datos de cualquier variable que asemejen la forma de una curva normal. 

Page 3: Unidad 5 La Curva Normal

Ahora reflexiona un momento. ¿Porqué el título de la unidad se titula “Dios ama la curva normal”? ¿Para  qué  estaremos  estudiando  la  unidad?  ¡Porque  casi  todas  las  variables  que  puedan  ser graficadas en un histograma (en la naturaleza y en el comportamiento del hombre) se distribuyen de esta forma! Pero ¿por qué la curva normal es tan común en la naturaleza? 

La respuesta a esa pregunta quizá no exista. Sin embargo es curioso cómo es que prácticamente cualquier cosa que pueda ser medida tiene esta tendencia: La estatura de las personas, su peso, su IQ, las calificaciones de un examen, el tamaño los árboles de la cuadra, la cantidad de nubes que observo  al  día,  el  número  de  hojas  de  un  arbusto,  el  número  de  cabellos  de  una  persona,  las graduaciones de los lentes de las personas, etcétera (y la lista podría continuar). 

Para tratar de explicarlo a detalle tomemos, por ejemplo, la cantidad de letras elegidas al azar que determinada persona puede recordar. En algunas pruebas, la cantidad de letras recordadas puede ser alta, en otras, baja, y en la mayoría, las cantidades serán intermedias. Es decir, es probable que la  cantidad de  letras elegidas al azar que una persona pueda  recordar en diversas pruebas  siga aproximadamente la forma de una curva normal. 

Sin  embargo,  en  alguna  prueba  en  particular,  el  número  real  recordado  se  verá  afectado  por diversas circunstancias, tales como ruido en  la habitación, estado de ánimo de  la persona en ese momento, una combinación de letras confundidas inconscientemente con algún nombre familiar, una secuencia de letras elegidas al azar que resulta ser casi siempre la misma letra, etc. 

Así,  en  general,  la  persona  recuerda  una  cantidad  media,  una  cantidad  en  la  que  todas  las circunstancias  contrapuestas  se  cancelan  entre  sí,  y  por  eso  son  mucho  menos  comunes  las cantidades muy altas o muy bajas de letras recordadas. 

Esto crea una distribución que es unimodal, es decir, la mayoría de los casos están cerca del medio y  los menos  están  en  los  extremos.  También  crea  una  distribución  que  es  simétrica,  porque cualquier valor puede estar tanto por arriba como por debajo del medio (la podemos doblar por la mitad y ambos lados serían idénticos). 

   

Page 4: Unidad 5 La Curva Normal

Las características que debe poseer una distribución de datos para formar una curva normal es: 

a. Unimodalidad: Sólo existe una sola moda. No hay más de una puntuación más frecuente. 

 

b. Simétrica: Si partiésemos a la mitad la curva, ambos lados son idénticos. 

 

   

Page 5: Unidad 5 La Curva Normal

c. Mesocúrtica: La curva no es ni muy aplanada ni muy puntiaguda. 

 d. Asintótica:  Los dos extremos de  la  curva  jamás  tocan el  eje de  las X. Esto permite que 

siempre existe la posibilidad de toparnos con un valor más alto o más bajo. 

 

   

Page 6: Unidad 5 La Curva Normal

e. La media, la mediana y la moda poseen los mismos valores y se encuentran al centro de la curva (la dividen en dos). 

 

Resuelve el ejercicio 2 antes de continuar leyendo 

 

 

   

Page 7: Unidad 5 La Curva Normal

5.2. La desviación estándar y la varianza.  

Imaginemos un montículo de arena: 

 

Ahora pensemos en  la cantidad de arena que existe. Conforme más nos acercamos al centro de este más alto es y, mientras nos alejamos más del centro y nos vamos a las orillas la cantidad de arena disminuye y  tiene menor altura. Si dijéramos que el montículo de arena mide de punta a punta 1 metro podríamos afirmar lo siguiente: Si extrajésemos 30 centímetros de arena del centro del montículo y extrajéramos 30  centímetros de un extremo del montículo y pesáramos ambas muestras,  veríamos  que  la  cantidad  de  arena  sería muy  diferente;  la  arena  del  centro  pesaría mucho más que la poca arena extraída de la orillas. 

De  igual  forma que con  la arena,  la altura de una distribución de datos  indicaría  la cantidad de casos que obtuvieron un determinado valor. Entre más nos acerquemos al centro de la curva, más 

Page 8: Unidad 5 La Curva Normal

casos encontraremos  y  viceversa; entre más nos  alejemos del  centro de  la  curva, menos  casos existirán. 

Sin  dejar  a  un  lado  la  analogía  de  la  arena  podríamos  decir  que  en  lugar  de  hablar  de “centímetros”, para  la distribución de datos existen “desviaciones estándares”. Las desviaciones estándares serían los “centímetros” a partir del centro del montículo de arena… 

 

   

En SPSS la desviación estándar se calcula: 

a. Ingresar los datos de una variable y dar formato. b. Dar clic en “analizar”, “estadística descriptiva”, “frecuencias”. c. Seleccionar las variables en las que se calculará la desviación estándar 

al cuadro de “variables”. d. Dar clic en el submenú “estadísticas” y seleccionar “desviación 

estándar” y “varianza”. e. Dar clic en aceptar. 

 

La desviación estándar se define cómo: 

La medida empleada para indicar “qué tan lejos está el dato en bruto con respecto a la media de su distribución” (Pagano, 2008). 

La desviación es representada por una “s” en el caso de que sea calculada para la muestra y una “sigma” (δ) en el caso de una población. 

La fórmula de la distribución estándar (para muestras) es: 

Donde “n” es el total de sujetos y “x” es el valor de una variable para cada sujeto. 

Page 9: Unidad 5 La Curva Normal

Observa la siguiente figura: 

 

En la imagen anterior se ha dibujado una “curva normal”. En este caso se trata de una curva que representa datos obtenidos de una población1. La media está ubicada al centro de la curva (µ) y las líneas dibujadas a cada lado son los “centímetros” con respecto a la media. Es posible afirmar que la  línea del extremo  izquierdo es  la media menos una desviación estándar y  la  línea del extremo derecho es la media más una desviación estándar. Ahora surge la pregunta… ¿Para qué sirve esto?

                                                            1 Esto lo sabemos porque los símbolos son griegos y por tanto aluden a parámetros y no a estadísticos, recuerda la unidad sobre los conceptos básicos de la estadística. 

Page 10: Unidad 5 La Curva Normal

Resuelve el ejercicio 3 antes de continuar leyendo 

 

 

Observa las siguientes imágenes: 

 

 

Si nuevamente empleáramos la analogía del montículo de arena e imagináramos que toda la arena pesa 100 gramos entonces podríamos decir que a una desviación estándar a la derecha del centro del montículo encontraríamos 34 gramos de arena (observa los porcentajes de la imagen anterior), si pesáramos la arena de una a dos desviaciones estándares encontraríamos 14 gramos de arena y 

Page 11: Unidad 5 La Curva Normal

si  pesáramos  la  arena  de  dos  a  tres  desviaciones  estándares  encontraríamos  2  gramos aproximadamente. 

Si recordamos la propiedad de simetría de la curva normal (un lado es idéntico al otro) podríamos pensar que del lado izquierdo del montículo de arena habría las mismas distribuciones de la arena. Nota como si sumamos  los porcentajes de un solo  lado del montículo de arena encontramos 50 gramos de la arena de un  lado y 50 gramos del otro  lado (entre los dos lados suman 100 gramos que es lo que originalmente pesaba nuestro montículo). 

Si  lo  trasladáramos  a  cualquier  distribución  de  datos  diríamos  algo  similar… A más  o menos  1 desviación  estándar  se  encontrarían  el  34%  de  los  casos;  de más  o menos  1  a  2  desviaciones estándar  estarían  cerca  del  14%  de  los  datos  y  de más  o menos  2  a  3  desviaciones  estándar estarían aproximadamente el 2% de los casos. 

De igual forma podemos hacer combinaciones con los porcentajes que conocemos: 

68% 

 

 

   

Page 12: Unidad 5 La Curva Normal

72% 

 

 

84% 

 

 

   

Page 13: Unidad 5 La Curva Normal

98% 

 

 

 

Asimismo será necesario definir dos conceptos que son muy mencionados entre los investigadores de las ciencias sociales que responden a las siguientes preguntas: ¿Entre qué rango de la escala es fácil que encuentre a los sujetos de mi muestra (sujetos típicos o normales)? ¿Entre qué rango de la escala es difícil o infrecuente encontrar a sujetos de mi muestra (casos atípicos o anormales? 

 

Los casos típicos se definen cómo: 

• Los casos que se encuentran a una desviación estándar de la media. 

• El rango de casos típicos se obtienen de sumar y restar una vez la desviación estándar a la media. 

• Los casos típicos son aquellos que se encuentran en un rango que abarque al 68% se los sujetos (±1s). 

Page 14: Unidad 5 La Curva Normal

 

Resuelve el ejercicio 4 antes de continuar leyendo 

 

¿Y  qué  es  eso  de  varianza?  Generalmente  no  se  encontrarán  en  los  reportes  de  cualquier investigación  el  término  de  varianza  (cuando  se  trata  de medidas  de  dispersión).  La  varianza simplemente es el resultado de elevar al cuadrado la desviación estándar. 

 

 

 

¡Importante! 

La varianza no puede ser  interpretada como medida de dispersión de  los datos. La existencia de la varianza se debe a dos motivos principales: 

a. Permite  que  algunas  fórmulas  estadísticas  sean más  exactas  (cosa  de matemáticos). 

b. La  varianza  es  útil  en  análisis  estadísticos más  complejos  que  buscan explicar una variable A a través de una B. 

Los casos atípicos se definen cómo: 

• Los casos que se encuentran más de tres desviaciones estándar de la media. 

• El rango de casos típicos se obtienen de sumar y restar tres veces la desviación estándar a la media. Todos los casos que se encuentren afuera de este rango son casos atípicos o no normales. 

• Los casos atípicos son aquellos se muestran fuera de un rango que abarque el 99.9% de los casos (±3s) (recuerda que la curva es asintótica, siempre hay posibilidad de un valor menor o mayor en la escala; a pesar de que los porcentajes de las gráficas mostradas sumen 100% siempre puede escaparse algún sujeto). 

Page 15: Unidad 5 La Curva Normal

5.3. Nociones del teorema de Chevichev.  

 

Pafnuti  Chebyshov,  Tchebychev,  Tchebycheff,  Tschebyscheff  o  Čebišev  era  el  nombre  del personaje que observamos en la imagen anterior. El hecho de que tenga tantos nombres se debe a que cada uno es un intento de traducción de su apellido del ruso (Пафнутий Львович Чебышёв). Sin  embargo,  la  complejidad  del  apellido  no  es  lo  que  nos  interesa.  Lo  interesante  de  este matemático es el teorema que propuso que en resumen dice lo siguiente: 

 

El  fin de mencionar este  teorema es únicamente el hacer notar que existen diferentes  teorías y propuestas sobre el número de datos que se encuentran a n desviaciones estándar cuando éstos (los datos) se comportan de cómo una distribución normal. Si comparáramos los porcentajes antes estudiados y los del teorema de Chevichev veríamos que son muy similares. 

   

El teorema de Chevichev indica que cuando los datos se comportan como una distribución normal: 

a. Aproximadamente el 68% de la población está dentro de ±1s. b. Aproximadamente el 95% de la población está dentro de ±2s. c. Aproximadamente el 99% de la población está dentro de ±3s. 

Page 16: Unidad 5 La Curva Normal

5.4. Las puntuaciones estandarizadas.  

Para finalizar con esta unidad es necesario revisar el concepto de “puntuaciones estandarizadas” que también son conocidas como “puntajes Z”.  

 

Cuando nosotros queremos determinar de forma más exacta a cuántas desviaciones estándar se encuentra un sujeto esto nos permite compararlo contra “la norma” (contra todos los sujetos que fueron  analizados).  Podemos  decir  que  un  sujeto  se  encuentra  a más  o menos  n  número  de desviaciones estándar de la media. 

 

De  igual  forma  que  con  lo  revisado  en  los  subtemas  anteriores,  que  un  sujeto  se  encuentre  a menos de ±1s indicaría que es un caso típico. Si un sujeto se encuentra a ±1s entonces es un caso menos frecuente y si el sujeto se encuentra a ±3s es un caso atípico. En síntesis  la utilidad de  las puntuaciones  Z  es  el  permitirnos  precisar  exactamente  a  cuántas  desviaciones  estándar  se encuentra un dato de la media. Por ejemplo… 

 

El caso del profesor barco y el profesor estricto… 

Imaginemos que estamos comparando  las calificaciones de  los estudiantes. En una materia con un profesor “barco” podría pensarse que todos los alumnos obtienen altas calificaciones mientras que en una materia con un profeso “estricto” existiría mucha diversidad. Con el fin de ejemplificar diremos que  la materia con un profesor “barco” es Historia mientras que el profesor “estricto” es el que imparte Literatura. 

   

Para transformar un dato a puntuaciones estándares se aplica la siguiente fórmula (Pagano, 2008): 

Donde “x” es el dato que queremos convertir, la media se obtiene de la población o muestra estudiada y la “s” es la desviación estándar de la población o muestra estudiada. 

Una puntuación estándar o puntaje Z se define cómo: 

“Un dato transformado que indica a cuántas unidades de desviación estándar por encima o por debajo de la media, se encuentra un dato en bruto” (Pagano, 2008). 

Page 17: Unidad 5 La Curva Normal

 

   

El caso del profesor barco y el profesor estricto (continuación)… 

Así, si en Historia todos los alumnos obtienen más de 9 de calificación no sería apropiado comparar la calificación de esta materia contra otra las de Literatura; donde menos de la mitad de los estudiantes obtienen 6. Sin embargo, las puntuaciones estandarizadas sí nos permiten  comparar  las  dos  calificaciones  puesto  que  no  se  compara  a  maestro,  la dificultad  de  los  contenidos  o  la  forma  de  la  evaluación.  Simplemente  se  compara  al alumno contra el desempeño de sus compañeros: 

No  es posible decir: Pedro  sacó 9 en  la Historia pero  sacó 7 en  la  Literatura. Por  tanto Pedro es un excelente alumno de la Historia y un pésimo alumno en Literatura. 

Sí es posible decir: Pedro  se encuentra a  ‐0.8 desviaciones estándar del promedio en  la Historia y se encuentra a +1.7 desviaciones estándar de la media en la Literatura. Por tanto Pedro es muy buen estudiante en la materia de Literatura a comparación de sus alumnos pero necesita mejorar en la Historia. 

Page 18: Unidad 5 La Curva Normal

Ahora  bien,  también  es  posible  a  través  del  uso  de  las  puntuaciones  estándar,  identificar  los rangos precisos en los que se encuentra el X% de una muestra. Observa la siguiente tabla2… 

Si observas  a detalle, para  cada  valor  Z  existe un porcentaje.  Si  vamos  al  valor  Z de  “‐2.00”  el porcentaje  indicado es de 0.022753. Esto  indicaría que de menos  infinito desviaciones estándar a menos  dos  desviaciones  estándar  se  encuentra  el  2.27%  de  los  sujetos.  De  igual  forma,  si buscamos el valor Z de “+1.00” el porcentaje indicado es de 0.841344 que indica que el 84.13% de los sujetos se encuentras de menos infinito desviaciones estándar a más una desviación estándar. 

                                                            2 Obtenida de http://www.uv.es/~meliajl/Docencia/Tablas/ZColaIzq.PDF 3 Marcado con un aro azul en la tabla. 4 Marcado con un aro verde en la tabla. 

Page 19: Unidad 5 La Curva Normal

Si yo quisiera conocer el porcentaje de sujetos que se encuentra entre dos valores Z, simplemente resto  al  porcentaje mayor  el menor:  para  conocer  el  porcentaje  de  sujetos que  se  encuentran entre “‐2.00” y “+1.00” desviaciones sólo habría que restar 84.13%‐2.27% que daría 81.86%. 

Resuelve el ejercicio 5 antes de continuar leyendo 

 

 


Recommended