estadistica- teoricos clase4-matriz de datos.pdf

28

4.- MATRIZ DE DATOS Conceptos datos primarios y secundarios datos directos e indirectos datos cualitativos y cuantitativos datos agrupados y derivados distribución muestral y distribución normal

4.1 CLASIFICACIÓN DE LOS DATOS Los datos son valores que puede adoptar una variable, mediante la operacionalización de la variable se aclara debidamente como se va a proceder para obtener esa información. Por ejemplo si fuera una variable cuantitativa como peso un dato podría ser 56 kilos, si fuera una variables ordinal como una escala del 1 al 5 sobre intensidad del dolor, el dato sería por ejemplo 4 y si fuera una variable nominal como sexo , un dato podría ser sexo femenino. Se pueden clasificar de acuerdo al propósito para el cual se recolectaron los datos • Datos primarios: son aquellos que se obtienen específicamente con el fin de satisfacer las necesidades inmediatas de la investigación, y no han sido aún procesados.. Son los que el investigador recoge por si mismos durante el proceso de la investigación actual • Datos secundarios: son registros ya escritos que ya han sido recogidos y muchas veces procesados por otros investigadores o durante otra investigación Una segunda clasificación, en base a la elaboración o no del dato obtenido. • Datos directos: Se recolectan de una manera simple, no existen mayores supuestos en el proceso de recolección. Ej: peso • Datos indirectos: Son obtenidos por medio de operaciones matemáticas de los datos directos. Ej: IMB 4.4.1 Volcado de datos

Para que los datos puedan ser analizados fácilmente, necesitamos organizarlos, de modo que podamos distinguir patrones y llegar a conclusiones lógicas. El primer paso es el volcado de datos o sea su pasaje a una matriz

Habitualmente, la información primaria sobre los individuos, es decir, la forma más elemental en la que se expresan los datos es la de una matriz, en la que aparecen en la primera columna los individuos identificados de alguna manera (el nombre, las iniciales, el nº de historia Clínica, el nº en nº de registro, etc) y en las siguientes columnas las observaciones de los diferentes caracteres en estudio o variables para cada uno de las unidades de estudio tal y como aparece en la tabla.

Ejemplo Variables 1 variables 2 . . . variables p unidad 1 * * . . . * unidad 2 * * . . . *

. . . . . . . . . . . . . . . unidad n * * . . . *

29

Así, los datos correspondientes a una investigación llevada a cabo para el estudio de una posible contaminación radioactiva en un determinado lugar produjeron como resultado la matriz de datos, en donde se recogen las observaciones de los caracteres "edad", "sexo", "cáncer", "caída anormal del cabello" y "profesión" en los 100 individuos seleccionados en la muestra.

edad sexo cáncer caída cabello profesión unidad 1 32 masculino no poco agricultor unidad 2 29 femenino no no maestra . . . . . . . . . . . . . . . . . . unidad 100 61 masculino si mucho agricultor

Para los datos cuantitativos simplemente se coloca dentro la matriz el número correspondiente, las unidades serán las mismas para todos los datos de esa variable, por lo cual no hace falta agregársela a cada uno

Por ejemplo: edad (años) = 32 o peso (kilos)= 80

Para los datos cualitativos se podría proceder como en la matriz anterior en el caso de sexo y profesión y caída de cabello, colocando simplemente la palabra que indica la información. Esto puede ser muy engorroso para el llenado de la matriz y además es muy común que se cometan errores y no se utilice exactamente el mismo término, con los cual luego serán analizados como si fueran datos diferentes. Estas razones hacen que lo más útil sea codificar previamente los datos

Por ejemplo: sexo masculino = 1 y sexo femenino = 2

Consejos para el armado de una base de datos No deje líneas en blanco, ni líneas donde coloque algún título, los paquetes estadísticos no

trabajan así. Revise el sistema si utiliza coma o puntos para los decimales, y escriba todos los datos de

igual manera. Si luego va a transportar sus datos a un paquete estadístico use en su base la misma manera que el paquete utiliza

Revise como escribe la fecha en el sistema español o americano. Fecha dd/mm/aa 25/05/1810 o mm/dd/aa 05/25/1810 y escriba todas las fechas de igual modo

Utilice siempre las mismas unidades, todo en cm. o todo en metros, etc., etc. No ponga dos datos en la misma celda, cree una celda para cada uno. Sería un error colocar

de esta manera la presión sanguínea 150/80 En este caso deberían armar dos columnas una que dijera presión diastolita y sistólica y en cada uno colocar el dato correspondiente

4.4.2 Organización y revisión de datos

Datos agrupados: En ocasiones, en los datos cuantitativos que pueden tomar muchos valores, con objeto de facilitar la toma de los datos, el investigador podría agruparlos en intervalos. Puede ser que haya tomado los datos en forma precisa debido al proceso de medición. Por ejemplo, coloco marcas en la pared cada 10 cm. y tome el dato rápidamente a una gran cantidad de alumnos, porque no me interesa mayor precisión. Si se debe expresar todos los datos con un solo número se utilizaría en este caso el intervalo de clase o sea el valor medio

30

Datos derivados: Suponga que usted quiere obtener diferencia de peso luego de una dieta; para ellos deberá armar dos columnas una que diga peso anterior y otra que diga peso actual. Luego una tercera que llamará diferencia cuya información obtendrá luego de restar los datos de la segunda columna al de la primera. Siempre que esto sea posible no haga usted la cuenta hágala utilizando la misma base que puede ser un Excel, así no habrá error, pero recuerde que ese será un dato derivado de las otras celdas. Eso tiene algo bueno, no bien cambie usted un datos en las otras columnas se cambiará en la tercera, pero no olvide este detalle, si usted, luego de hacer las cuentas decidiera borrar las columnas anteriores, se borrarían también la tercera.

A pesar de los consejos anteriores es muy común cometer errores en el volcado de datos, por eso antes de comenzar a trabajar con los datos, se debe ser muy riguroso en su revisión. Los errores encontrados se pueden deber a un inadecuado registro de los datos en las planillas previas, y otras veces en el pasaje a la base de datos.

Se pueden evitar con acciones previas y / o posteriores Prevención: Para evitar estos inconvenientes se puede actuar antes poniendo límites en la base, para que no acepte valores mayores que los posibles Por ejemplo: no permitiendo que se acepten valores que excedan el valor máximo que puede tomar la variable. Por ejemplo, en los datos sobre edad no permitir que se coloque un valor que exceda las dos cifras Posteriormente: De todas formas siempre se debe proceder a una limpieza de datos corroborando de acuerdo a conceptos lógicos de datos imposibles

Verificación visual: a veces es muy útil simplemente mirar toda la base de datos y rápidamente corregir los errores muy llamativos que se observan, inclusive verificar si las celdas vacías se deben a datos faltantes en los registros o aun déficit en el volcado de datos

Verificación de rangos La verificación de rango compara cada dato con un conjunto de valores permitidos y usuales para esa variable. La verificación de rango se usa para: -Detectar y corregir valores no válidos: por ejemplo si codifique sexo en valores 1 y 2 no puede parecer el valor 11 -Identificar e investigar valores inusuales: revisar datos de kilos muy altos o de alturas extremas

Verificación de la consistencia La verificación de la consistencia examina cada par (a veces más) de datos relacionados, en relación con el conjunto de valores habituales y permitidos de las variables como par. Por ejemplo, los hombres no pueden tener datos sobre número de abortos Los estudiantes universitarios habitualmente tienen por lo menos 18 años aunque podría haber alguno menor excepcionalmente. La verificación de la consistencia se usa para: - Detectar y corregir las combinaciones no permitidas: hombres y abortos - Señalar e investigar combinaciones inusuales: estudiantes menores de 18 años

31

4.2 DISTRIBUCIÓN DE DATOS

Luego de la obtención y volcado de datos en la matriz habiéndose asegurado de que son los correctos, es importante graficar el comportamiento de estas variables, para observar su comportamiento, sobre todo si son datos cuantitativos.

Supongamos que obtuvimos datos de la presión sanguínea de una determinada población de pacientes, como tienen infinitos valores posibles los agrupamos en intervalos y armamos un gráfico consignando en el eje de las Y, la cantidad de personas que tienen ese valor de presión o frecuencia. Si los intervalos fueran pequeños probablemente nos encontraríamos con un gráfico de este tipo, donde el eje de las X se graficarían los valores de presión sanguínea y en el eje de las Y las frecuencias o sea la cantidad de personas que tienen valores de presión dentro de ese rango

Si se traza una líneas uniendo los puntos medios de cada intervalos (intervalo medio de clase), en este caso, quedaría dibujada una figura con forma de campana invertida simétrica, que representaría la distribución de esos datos.

Existen diversos tipo de curvas que pueden adoptar una distribución de datos pero este formato es el más conocido y se llama distribución normal, distribución de Gauss o distribución gaussiana, porque es una de las distribuciones de probabilidad de variable continua que con más frecuencia aparece en fenómenos reales.

La importancia de esta distribución radica en que permite modelizar numerosos fenómenos naturales, sociales y psicológicos. Algunos ejemplos de variables asociadas a fenómenos naturales que siguen el modelo de la normal son: variables biológicas como el peso, la altura, la presión sanguínea, etc.

1. Los valores de la curva son positivos ya que son frecuencias. 2. La curva tiene un valor máximo representado por el valor central. 3. La curva es simétrica con respecto al valor central 4. La curva tiene puntos de inflexión a partir de los cuales disminuye notablemente su área 5. Las dos colas (extremos) de la curva se extienden de manera indefinida y nunca tocan el

eje horizontal, o sea en el eje de las abscisas es asíntota horizontal. 6. El área bajo la curva es la unidad. 7. Para definir una curva de gauss se necesitan dos medida que indique cual es el valor

central (la media) y otra que indique la dispersión de los datos (el desvío standard)

Igual medida central y diferentes dispersión Igual dispersión y diferente medida central

32

Esta curva tiene una particularidad muy utilizada en estadística

El desvío estándar es una medida de dispersión muy utilizado por tener la siguiente cualidad. En un curva gaussiana el 100% de los datos se encuentran localizados debajo de la curva Y en el área comprendida: -entre la media y +/- aproximadamente un desvío estándar se encuentra el 68 % de los datos -entre la media y +/- aproximadamente dos desvíos estándar se encuentra el 95% de los datos -entre la media y+/- aproximadamente tres desvíos estándar se encuentra el 99 % de los datos

Si la distribución de datos no es simétrica porque tiene desplazado su valor central, se denomina curva sesgada .

Fig. A. Curva Sesgada a la derecha Fig. B. Curva Sesgada a la izquierda

Documents

estadistica- teoricos clase4-matriz de datos.pdf