Upload
tranthuan
View
230
Download
2
Embed Size (px)
Citation preview
Estadística Aplicada a la Investigación CAP.3
Escuela de Postgrado Maestría en Ciencias de la Educación
18
CAPITULO 3: LA RECOLECCION Y PRESENTACION DE DATOS 3.1. LA RECOLECCION DE DATOS
La recolección de datos, es el momento en el cual el investigador se pone en contacto con los elementos sometidos a estudio, con el propósito de captar los datos o las respuestas a las variables consideradas; a partir de ello se elabora la información estadística, se cuantificar las medidas de resumen e indicadores para el análisis estadístico10. Todos los trabajos de investigación, antes de empezar con el proceso de recolección de datos, presupone analizar los objetivos, precisar las variables e identificar las fuentes de datos, con la finalidad de definir que hay que recolectar y como hacerlo. En la práctica la recolección de datos, generalmente se puede realizar mediante dos modalidades: 1. Técnica de investigación documental bibliográfica 2. Técnica de trabajo de campo
El trabajo de campo, se puede llevar a cabo de dos maneras: La observación y exploración en el terreno, y la encuesta y la entrevista
LAS FUENTES DE DATOS
La fuente de datos es el lugar, la institución, las personas o elementos donde están o poseen los datos que se necesitan para cada una de las variables de la investigación: Las fuentes de datos pueden ser:
1. Las Oficinas de Estadística: como responsables de recopilar, procesar
y publicar las estadísticas que le competen. 2. Archivos ó Registros Administrativos: su función es de tipo legal y
administrativo; pero constituyen fuentes valiosas de información. Por ejemplo registros de estadísticas vitales, archivos de salud publica, hospitales y clínicas, archivos de matricula en el sector educación, etc.
3. Documentos: Boletines, informes estadísticos: fundamentalmente
publicados mediante medios escritos y/o electrónicos por instituciones especializadas..
10
Tomado de Ávila Acosta, R.(2000)
Estadística Aplicada a la Investigación CAP.3
Escuela de Postgrado Maestría en Ciencias de la Educación
19
4. Encuestas y Censos: se constituyen en fuentes primarias-directas y especiales-, que se aplican en un momento determinado, recopilando datos de una parte o la totalidad de la población.
5. Elementos ó Sujetos de una población sometida a estudio (personas,
instituciones ú objetos)
Las fuentes de datos usualmente se clasifican en fuentes secundarias y primarias; en este caso las tres primeras corresponden a fuentes secundarias, mientras que las dos últimas nos permiten obtener datos originales o lo que se conoce como fuentes primarias. TÉCNICA DE RECOPILACIÓN DE DATOS Estas son diversas y dependen de muchos factores, de entre los cuales se destacan: el objetivo del estudio, el acceso con los elementos de investigación, tamaño de la muestra, de los recursos (económicos, logísticos, tiempo) y de la oportunidad los datos; así como el tipo y naturaleza de la fuente de datos.
Las técnicas de uso cotidiano en la investigación social mas frecuente son:
a. Observación: se constituye en la técnica básica en la investigación científica para obtener información de los fenómenos que nos rodea.
Esta técnica se clasifica según: i. El ámbito donde se encuentran los datos: documental, y de
campo. ii. La relación entre investigador y el objeto de estudio: directa,
indirecta, no participante, y participante y activa. iii. Los medios utilizados: no estructurada –asistemática y libre-, y
estructurada-sistemática o regulada-.
b. Técnica documental: captura de datos en documentos, fuentes escritas u otros medios documentales. Estos documentos pueden ser académicos, informes o actas de eventos ocurridos, documentos personales, u otros medios: videos, fotografías, etc.
c. Entrevista: es un acto de interrelación entre personas, es una dialogo
intencionado entre personas. La calidad de la información bajo esta técnica, esta en función de la perfomance del entrevistador
Esta técnica presenta diversas modalidades: puede ser libre,
estructurada-existe un cuestionario-, focalizada -tema especifico-, simultanea, y sucesiva.
d. Cuestionario: es un conjunto de preguntas sistemáticamente
elaboradas, con el propositito de obtener datos de las variables
Estadística Aplicada a la Investigación CAP.3
Escuela de Postgrado Maestría en Ciencias de la Educación
20
seleccionadas en el estudio. Esto se formaliza a través de un formulario o cedula. Esta técnica requiere del conocimiento previo del problema a investigar, definir correctamente las unidades de análisis, plantear las preguntas adaptándose a las necesidades de investigación. Su preparación se efectúa en la fase de planeamiento de la encuesta, y debe considerarse: (i) Criterios de preparación de cuestionario: objetivos de la
investigación, tipo de variables, características del informante, procedimiento de elaboración, tiempo de aplicación;
(ii) Características formales: forma y tamaño del formulario, calidad
del papel, color de la impresión;
(iii) Clases de preguntas: abiertas, cerradas o dicotómicas-respuesta solo tienen dos alternativas-, literales- son abierta pero cuya respuesta es una palabra o cantidad-, de grados de intensidad-la respuestas expresan alguna preferencia dentro de una escala creciente o decreciente.
(iv) Pautas de redacción y contenido de las preguntas: preguntas
estrictamente necesarias, que sean claras y directas, que no sugiera respuestas, etc.
e. Encuesta: es la técnica donde se obtienen la información tal como se
necesita, preparada adecuadamente y con objetivos estadístico. Permite observar y registrar características en las unidades de análisis de una determinada población o muestra, delimitada en el espacio y en el tiempo. En toda encuesta se hace uso del cuestionario, y cuyas respuestas se registran en las cedulas o formularios.
Esta técnica, si esta dirigida a toda la población se le denomina Censo, pero si esta dirigida a una parte representativa o muestra, se llama Encuesta por muestreo.
Hay cuatro formas de obtener información con la técnica de la encuesta:
i. Entrevista cara –a-cara, dialogo o personal. ii. Entrevista telefónica
iii. Por empadronamiento, donde el empadronador registra las
respuestas en el formulario
Estadística Aplicada a la Investigación CAP.3
Escuela de Postgrado Maestría en Ciencias de la Educación
21
iv. Cuestionario por auto-enumeración, que incluye Internet, correo electrónico11.
Existe un ventajas y desventajas o rendimiento relativo del uso de estas formas; mientras que la entrevista personal tiene un elevados costo monetario, el correo electrónico tiene un bajo costo. En términos de tiempo, la entrevista por teléfono es más rápida, mientras que el correo electrónico es relativamente lento. Respecto a la tasa de respuesta la entrevista personal es sumamente alta, en el correo electrónico es baja. Así mismo, la entrevista personal es más compleja que vía correo electrónico.
3.2. ORGANIZACIÓN DE LOS DATOS
En el trabajo estadístico, siempre se va a disponer de muchos datos, que de hecho deben ser clasificados, ordenados y presentados adecuadamente que permita o facilite la comprensión, descripción y análisis del fenómeno bajo estudio, y obtener conclusiones validas para la toma de decisiones. Es decir generar información estadística organizada, para proceder al análisis e interpretación de los resultados.
La organización de la información presupone realizar los siguientes pasos:
1. Evaluación: verificar la validez y confiabilidad de los datos. 2. Codificación: técnica mediante la cual las respuestas se convierten en
símbolos, números o lenguaje que permite su procesamiento.
La codificación implica definir y establecer criterios de clasificación y categorización de las variables.
3. Clasificación: establecer las categorías de las variables. 4. Procesamiento de los datos: es el registro del número de casos12 en
cada una de las categorías de las variables, de acuerdo a un plan de tabulación previamente diseñado.
11
El cual sustituye a la forma de correo tradicional. 12 Frecuencias o repetición.
La recolección de datos originales revela muy poco por si sola. Es difícil determinar el verdadero significado de un grupo de números que simplemente se han registrado en un papel, por lo que se hace necesario organizar y describir tales datos de manera concisa y significativa, de tal manera que una simple “mirada” permita tener una idea de lo que puedan decirnos.
Estadística Aplicada a la Investigación CAP.3
Escuela de Postgrado Maestría en Ciencias de la Educación
22
5. Presentación de los datos: Pueden utilizarse varias herramientas básicas para describir y resumir un conjunto grande de datos. La forma más simple es el registro del número de casos en cada una de las categorías de las variables o también llamada serie ordenada13; pero su utilidad de una serie ordenada es limitada14. Por lo que se necesitan mejores técnicas para describir el conjunto de datos.
3.3. PRESENTACION DE LOS DATOS
Hay dos formas de presentar los datos estadísticos: a través de lo que se conoce como método de agrupación de datos o forma tabular: vía el uso de tablas estadísticas; así como mediante gráficos y diagramas.
3.3.1. REPRESENTACIÓN TABULAR Desde el punto de vista metodológico, es valido distinguir lo que se conoce como tablas de frecuencia o de distribuciones de frecuencia; y los cuadros estadísticos o de análisis. Antes de avanzar, es necesario considerar la parte formal, de la presentación de los datos sea tabla o cuadros estadísticos; nos referimos a las partes principales de una tabla o cuadro estadístico.
13
Este ordenamiento puede ser ascendente o descendente 14
Debido a que provee información sobre el valor máximo y mínimo de la serie, que es de poca utilidad para plantear análisis mas elaborados
Tabla Nº 01: DISTRIBUCIÓN DE FRECUENCIAS PARA
PASAJEROS DE TANS-PERU1
(Pasajeros por semana)
Xi ni hi % Ni Hi %
1
2
3
4
5
6
7
8
9
Total
1/ La mayor empresa Aerocomercial del Perú
FUENTE: Ministerio de Transportes y comunicaciones. División Aerocomercial, Lima 2003.
ELABORACIÓN propia
NUMERO DE TABLA
TITULO
UNIDAD DE MEDICION
ENCABEZAMIENTO
CUERPO
NOTA TECNICA
FUENTE
ELABORACION
Estadística Aplicada a la Investigación CAP.3
Escuela de Postgrado Maestría en Ciencias de la Educación
23
Formalmente, una tabla o cuadro estadístico completo –tal como los cuadros precedentes-, pueden tener ocho partes: numero de la tabla o cuadro, titulo, unidad de medida, encabezamiento, cuerpo, nota de pie o llamada, fuente, y elaboración.
1. Numero de tabla o cuadro: es el código o elemento de identificación que
permite ubicarlo en el interior del documento. El número va precedido de la palabra “tabla” o “cuadro”. Es recomendable- si el documento lo permite-, que dicho numero sirva para identificar tanto el numero del cuadro como el capitulo de ubicación. Por ejemplo Cuadro 2.1. Significa el primer cuadro del capitulo dos.
2. Titulo: es la descripción resumida del contenido del cuadro; este debe ser
breve, claro y completo, de tal manera que permita deducir sin ambigüedad el tipo de información que contiene el cuadro. Un titulo completo, debe considerar: Que: información existe en el cuadro-característica principal-. Donde: se refiere al lugar geográfico o institución a la que corresponde la información. Como: la forma como están ordenados o clasificados los datos en el cuadro. La variable que esta en la fila se identifica con la preposición “por” y la que esta en la columna por la preposición “según”. Cuando: es el momento o periodo de tiempo al que esta referida la información.
3. Unidad de medida: se anota debajo del titulo, se utiliza para abreviar la
escritura de las cifras y para expresar llas unidades de medida de la variable.
CUADRO Nº 13
DEPARTAMENTO DE PIURA: VIVIENDAS PARTICULARES1 POR
TIPO DE MATERIAL DE CONSTRUCCION PREDOMINANTE, SEGÚN PROVINCIAS. CENSO 1993
(Valores Porcentuales)
PROVINCIAS
TOTAL Tipo de material de construcción
Ladrillo Adobe Quincha Otros
PIURA
SULLANA
TALARA
PAITA
SECHURA
MORROPON
AYABACA
HUANCABAMBA
TOTAL DPTO.
1/ Vivienda particular es aquella destinada a servir de alojamiento uno o mas hogares
FUENTE: INEI. Censos Nacionales de 1993. Resultados definitivos. Dpto. de Piura, Tomo II
ELABORACION: Propia
NUMERO DE CUADRO
TITULO
UNIDAD DE MEDICION
ENCABEZAMIENTO
CUERPO
NOTA TECNICA
FUENTE
ELABORACION
Estadística Aplicada a la Investigación CAP.3
Escuela de Postgrado Maestría en Ciencias de la Educación
24
4. Encabezamiento: es la descripción de las filas y columnas de un cuadro
estadístico. Indica las variables, sus categorías o intervalos; así como también puede indicar un periodo de tiempo.
5. Cuerpo del Cuadro: Es la parte donde se colocan los datos de las
características de las variables indicados en el encabezamiento. Es el contenido numérico del cuadro.
6. Nota de pie de página: sirve fundamentalmente para aclarar algunos
términos o siglas.
7. Fuente: sirve para indicar de donde proviene los datos. Pueden ser de Fuentes primarias-si se obtiene por ejemplo de encuestas-, o secundarias- cuando se ha recurrido a información ya publicada.
8. Elaboración: Sirve para mencionar al responsable. Indica la
responsabilidad de la publicación del cuadro.
A. LAS TABLAS DE DISTRIBUCION DE FRECUENCIA
Son tablas de trabajo estadístico, que presentan la distribución de un conjunto de elementos de acuerdo a las categorías de las variables. Sirve para verificar la frecuencia o repetición de cada uno de los valores de la variable, que se obtiene después de realizada la fase de tabulación. Estas tablas presentan diferentes tipos de frecuencias: absolutas, relativas, acumuladas, etc. Estas tablas se utilizan además para organizar los datos y calcular algunos indicadores o medidas de resumen.
En toda tabla de frecuencia completa, se identifican los siguientes elementos:
1. Valor de la variable o intervalo de clase; que resulta de la
clasificación o categorización de la variable. Se representa por i
Y a los
puntos -, y por si
LL a los intervalos de clase.
2. Frecuencia absoluta: es el número de veces que se repite un
determinado valor de las variables-para variables cuantitativas discretas-. En el caso de intervalos, será el numero de observaciones pertenecientes a dicho intervalo.
Se representa por i
n mi ,...,1
, donde “m” representa el numero de
valores distintos que asume la variable, o el numero de intervalos considerados.
3. Frecuencia relativa: es el cocienten
nh i
i ; es decir el ratio de la
frecuencia absoluta respecto al total de observaciones.
Estadística Aplicada a la Investigación CAP.3
Escuela de Postgrado Maestría en Ciencias de la Educación
25
4. Frecuencia absoluta acumulada: es el proceso de acumular
sucesivamente las frecuencias absolutas, se representa por i
N mi ,...,1
.
Donde:
nnNnnnnN
nNnnnN
nNnnN
nN
mmmm
1321
323213
21212
11
...
........................................
5. Frecuencias relativas acumuladas: es el proceso de acumular o
sumar sucesivamente las frecuencias relativas, se representa por i
H
mi ,...,1 , tal como:
11321
323213
21212
11
mmmmhHhhhhH
hHhhhH
hHhhH
hH
...
........................................
6. Marca de clase: es el punto medio de cada intervalo 2
si
i
LLY
Propiedades de las frecuencias15:
a. Las frecuencias absolutas i
n y las frecuencias absolutas acumuladas
iN son números enteros no negativos y no mayores que n .
nni0 nN
i0
b. Las frecuencias relativas i
h y las frecuencias relativas acumuladas i
H son
números fraccionarios no negativos y no mayores que la unidad 1 .
10 i
h 10 i
H
c. La suma de todas las frecuencias absolutas es igual al tamaño de la
muestra. nnm
i
i
1
d. La suma de todas las frecuencias relativas es igual a la unidad. 11
m
i
ih
15
La frecuencias relativas pueden ser expresadas en referente la unidad, o para facilitar el análisis en referente 100; para lo cual hay que multiplicar la frecuencia relativa en referente unitario por 100.
Estadística Aplicada a la Investigación CAP.3
Escuela de Postgrado Maestría en Ciencias de la Educación
26
e. La última frecuencia absoluta acumulada es igual al tamaño de la muestra,
debido a que incluye a todos los valores. nNm
f. La última frecuencia relativa acumulada es igual a la unidad. 1m
H
A continuación se presentan las tablas de contingencia para variables cuantitativas, sean estas discretas o continuas sea en simbología de puntos o por intervalos. Aquí es necesario precisar que los intervalos generalmente se aplican cuando las variables son continuas. En el caso de variables discretas cuando el numero de observaciones suficientemente elevados.
Tabla de Distribución de Frecuencias (Simbología puntos)
iY
Valores de la
variable
in
Frecuencia absoluta
ih
Frecuencia relativa
iN
Frecuencia absoluta
acumulada
iH
Frecuencia relativas
acumulada
1Y
1n
nn
1 1N
1H
2Y
2n
nn
2 2N
2H
… … … …
nY
mn
nn
m nNm 1
mH
TOTAL n 1
Tabla de Distribución de Frecuencias
(Simbología intervalos)
SILL
Intervalos de clase
iY
Marca de
clase
in
Frecuencia absoluta
ih
Frecuencia relativa
iN
Frecuencia absoluta
acumulada
iH
Frecuencia relativa
acumulada
silLI
1
1Y
1n
nn
1 1N
1H
silLI
2
2Y
2n
nn
2 2N
2H
…
…
…
…
…
…
simLLI
mY
mn
nn
m nNm 1
mH
m
n 1
Estadística Aplicada a la Investigación CAP.3
Escuela de Postgrado Maestría en Ciencias de la Educación
27
El número de intervalos m es arbitrario. Sin embargo es necesario tener en
cuenta: la naturaleza de la variable, el número de observaciones, el recorrido de la variable, la sensibilidad de la variable (unidad de medida), y los objetivos del estudio que utiliza la información.16
El numero de intervalos y su amplitud, deben estar en relación con la naturaleza y contexto del estudio. Sin embargo, se prefiere determinar el número de intervalos mediante la formula propuesta por H.A. Sturgers17:
nm log322.31
Para facilitar los cálculos, es recomendable que la amplitud de los intervalos se redondee al número sencillo más cercano e inmediatamente superior. Se recomienda que las clases o intervalos sean iguales. La amplitud de cada clase se define por:
m
XX
m
RCi
minmax
Donde:
R se define como el recorrido de la variable, maxX : el máximo valor de la
variable, minX : el mínimo valor que ostenta la variable, m : el numero de
intervalos.
A continuación se presentan ejemplos de tablas de frecuencias: 1. Caso cuantitativo discreto:
Ejemplo 1: Nº de Miembros Perceptores de Ingresos del Hogar, de 50 Hogares Seleccionadas al Azar
1 2 2 3 2 1 2 1 1 1 1 1 3 3 3 2 2 3 2 1 1 2 2 2 1 2 2 2 4 1 2 1 3 1 1 2 1 2 2 1 1 2 1 3 1 1 2 3 1 2
16
El número de intervalos o clases en una tabla de frecuencias es arbitrario; sin embargo muy pocas clases no revelan ningún detalle sobre los datos, y demasiadas clases será tan confusa como el quantum de datos originales 17
Una forma alternativa, es la que se propone en Webster (2001), a través de la siguiente regla
nc 2 , en donde n es el numero de observaciones. El numero de clases o intervalos es la menor
potencia a la cual se eleva 2, de tal manera que el resultado sea igual o mayor que el numero de
observaciones. Si n=50 , 5026 , donde 6426 . Esta regla sugiere que deben haber seis clases
en la tabla de frecuencias.
Estadística Aplicada a la Investigación CAP.3
Escuela de Postgrado Maestría en Ciencias de la Educación
28
TABLA 3.1: Distribución de Frecuencias del Número de Perceptores de Ingresos
TABLA 3.2. Número de personas ocupadas de 100 empresas con menos
de 9 Personas Ocupadas seleccionadas al azar
2. Caso Cuantitativo Continuo:
Ejemplo 1: Rendimiento de Km/galón de n = 36 automóviles en área urbana 38.10 36.20 36.70 34.00 34.90 33.98 34.60 34.50 33.80 31.57 31.54 36.96 37.85 36.80 36.00 30.16 36.88 36.23 34.55 38.24 36.57 35.93 33.20 35.47 37.10 36.20 33.00 35.61 33.15 33.29 32.91 30.00 35.40 31.60 40.00 34.51 Y = Rendimiento Km/galón
iY Nº DE
PERCEPTORES
in
Frecuencia absoluta
(Nº DE HOGARES)
ih
Frecuencia relativa
(% DE HOGARES)
iN
Frecuencia absoluta
acumulada (ACUM.
HOGARES)
iH
Frecuencia relativa
acumulada (%ACUM.
HOGARES)
1 21 42 21 42
2 20 40 41 82
3 8 16 49 98
4 1 2 50 100
TOTAL 50 100
iY
Nº personas ocupadas
in
Frecuencia absoluta
ih
Frecuencia relativa
iN
Frecuencia absoluta
acumulada
iH
Frecuencia relativa
acumulada
1 5 0.05 5 0.05
2 14 0.14 19 0.19
3 18 0.18 37 0.37
4 25 0.25 62 0.62
5 20 0.20 82 0.82
6 10 0.10 92 0.92
7 5 0.05 97 0.97
8 3 0.03 100 1.00
TOTAL 100 1
Estadística Aplicada a la Investigación CAP.3
Escuela de Postgrado Maestría en Ciencias de la Educación
29
TABLA 3.3: Rendimiento de Km/galón de n = 36 automóviles en área urbana
3. Caso Cualitativo
En las tablas de frecuencia de variables cualitativas o atributos generalmente no tiene sentido determinar frecuencia acumulada; sin embargo cuando la variable es de orden resulta de suma importancia la frecuencia acumulada. Por ejemplo para las categorías de la variable calidad: muy buena, buena, regular, mala, pésima.
En muchos casos se estila codificar las categorías de las variables, antes de elaborar la tabla de frecuencias.
TABLA 3.4: Población de 200 personas por sexo.
[Intervalo de clases]
(Rendimiento)
IY
(Rendimiento medio)
In
(Automóviles)
Ih
(% de automóvil
es)
iN
(Acum.
Automov.)
iH
(% Acum. Automóviles)
[30.00, 31.25) 30.625 2 5.6 2 5.6
[31.25, 32.50) 31.875 3 8.3 5 13.9
[32.50, 33.75) 33.125 5 13.9 10 27.8
[33.75, 35.00) 34.375 8 22.2 18 50.0
[35.00, 36.25) 35.625 7 19.4 25 69.4
[36.25, 37.50) 36.875 6 16.7 31 86.1
[37.50, 38.75) 38.125 4 11.1 35 97.2
[38.75, 40.00) 39.375 1 2.8 36 100
TOTAL 36 100
SEXO
FRECUENCIA ABSOLUTA
FRECUENCIA RELATIVA
FRECUENCIA RELATIVA (%)
1. HOMBRE
120 (120/200)= 0.60 60
2. MUJER 80
(80/200)= 0.40
40
TOTAL 200 1.00 100
Estadística Aplicada a la Investigación CAP.3
Escuela de Postgrado Maestría en Ciencias de la Educación
30
TABLA 3.5: Población formada por 1000 familias, según tipo de vivienda
TIPO DE VIVIENDAS NUMERO DE VIVIENDAS
FRECUENCIA RELATIVA
% DE VIVIENDAS
1. Casa independ. 300 0.30 30
2.Dpto. en edificio 80 0.08 8
3. Viv. En quinta 200 0.20 20
4. Casa vecindad 320 0.32 32
5. Otro tipo 100 0.10 10
TOTAL 1000 1.00 100
B. LAS TABLAS DE CONTINGENCIA O CUADROS DE ANALISIS
Es el resultado de trabajos previos, dentro del proceso de investigación estadística, a decir: la planeación, recopilación o captura de datos, tabulación, cálculos, etc. Un cuadro de análisis puede adoptar una forma particular; sin embargo se sugiere uniformizar criterios para presentar los datos. En un Cuadro de “doble entrada”, bidimensional o de dos variables, se distinguen una Variable Principal colocada en forma horizontal y la Variable Secundaria colocada en forma vertical.18
CUADRO Nº 3.1.
PEA DE 15 Y MAS AÑOS DE EDAD DE LA REGION LORETO POR NIVEL DE EDUCACION ALCANZADO SEGÚN PROVINCIAS.
(Distribución Porcentual)
PROVINCIAS TOTAL PEA
NIVEL EDUCATIVO2
TOTAL SIN NIVEL
PRIM-ARIA
SECUN- DARIA
SUPE-RIOR
A. AMAZONAS 22508 100.0 13.5 52.2 24.3 10.0
LORETO 11038 100.0 12.5 60.5 19.7 7.3
MAYNAS 78890 100.0 5.2 36.0 38.1 20.7
M. RAMON CASTILLA 6564 100.0 14.0 53.8 23.5 8.7
REQUENA 11828 100.0 7.2 58.5 25.5 8.8
UCAYALI 10922 100.0 4.4 59.7 27.1 8.8
TOTAL DPTO1. 141750 100.0 7.5 44.1 32.4 16.0
1/ Excluye a los que no especificaron nivel de educación
2/ Se refiere a algún grado o año de estudios
FUENTE: INEI. Censos Nacionales de 1993. Resultados definitivos. Dpto. de Piura, Tomo II
ELABORACION: Propia
18
No es la única manera de presentar datos, pero es la mas usual si es que la naturaleza de las variables lo permiten.
Estadística Aplicada a la Investigación CAP.3
Escuela de Postgrado Maestría en Ciencias de la Educación
31
3.3.2. REPRESENTACION GRAFICA19
Los gráficos también son métodos útiles para describir un conjunto de datos. Aquí podemos incluir los Histogramas, diagramas de barras, diagramas circulares, etc. Histogramas20. Coloca las clases de una distribución de frecuencias en el eje horizontal y las frecuencias en el eje vertical. Son barras verticales presentadas una a continuación de otra. Permite presentar datos cuantitativos continuos. Es un gráfico muy utilizado. Propiedades: 1. El ancho de cada columna es igual en todo el gráfico y representa la
amplitud de clase. 2. La altura está en función a la frecuencia de la clase.
Ejemplo 01. Histograma de frecuencias de la edad de los conductores de servicio de taxi en distrito de Piura
19
Existen formas diversas de representación gráfica de los datos. Aquí, solamente se ilustra los caso mas comunes. Así
mismo, hoy en día es indispensable la utilización de herramientas informáticas para el procesamiento y representación de los datos, como por ejemplo EXCEL, E-VIEWS, SPSS-cuyas instrucciones básicas se anexa como parte del presente modulo 20
Importante tener en cuenta si es variable discreta o continua; y si las frecuencias son absolutas , relativas o acumulativas
EDAD
36.0
34.0
32.0
30.0
28.0
26.0
24.0
22.0
20.0
18.0
16.0
EDAD
Freq
uenc
y
30
20
10
0
Std. Dev = 5.60
Mean = 24.3
N = 148.00
Estadística Aplicada a la Investigación CAP.3
Escuela de Postgrado Maestría en Ciencias de la Educación
32
Ejemplo 02. Histograma de frecuencias para cociente intelectual de niños menores de 10 años
Diagrama de Barras: se utiliza para representar datos cuantitativos discretos o datos cualitativos.
Las barras son de igual ancho. La longitud es proporcional a la frecuencia de la categoría. El espacio entre barras debe ser homogéneo, para evitar efecto visual.
Ejemplo 01. Número de hijos en edad escolar
por médico del Hospital Central
Cociente intelectual
160.0150.0
140.0130.0
120.0110.0
100.090.0
80.070.0
60.050.0
Cociente intelectual
Freq
uenc
y
20
10
0
Std. Dev = 22.67
Mean = 101.7
N = 149.00
0
5
10
15
20
25
30
0 1 2 3 4 5
Nº de Médicos
Nº hijos en edad escolar
Fuente: Departamento de Personal
Estadística Aplicada a la Investigación CAP.3
Escuela de Postgrado Maestría en Ciencias de la Educación
33
El diagrama circular El círculo se divide en segmentos circulares, de tamaño proporcional a la frecuencia de la categoría
EJEMPLO: PACIENTES ATENDIDOS EN CONSULTORIOS EXTERNOS HOSPITAL REGIONAL
POR TRIMESTRE AÑO 2004
3.5. CASO PRÁCTICO
A: CONJUNTO DE DATOS
Asumiendo que hemos preguntado a un conjunto de N personas qué opinión tienen acerca de la subvención que el gobierno pretende otorgar a los mas pobres del país. Las N respuestas se encuentran en una escala que va de 1 a 9, donde 1 representa un total desacuerdo con la subvención, mientras que 9 quiere significar un acuerdo total21.
El resultado de la medición es el siguiente:
21
La respuesta (1) total desacuerdo con probabilidad 100%, (2) desacuerdo con (75%) de probabilidad, (3)
desacuerdo con (50%) de probabilidad, (4) desacuerdo con (25%) de probabilidad. La respuesta (5) les es indiferente. La respuesta (6) de acuerdo con (2%%) de probabilidad, respuesta (7) de acuerdo con (50%) de probabilidad, respuesta (8) de acuerdo con (75%) de probabilidad, y respuesta (9) totalmente de acuerdo.
1er trim., 20.4, 13%
2do trim., 27.4, 17%
3er trim., 90, 57%
4to trim., 20.4, 13%
Estadística Aplicada a la Investigación CAP.3
Escuela de Postgrado Maestría en Ciencias de la Educación
34
Tabla 01: Conjunto original de datos
7 5 6 8 6 5 9 5 8 6 5 7 5 5 4 5 8 5 4 2 6 6 4 6 4 8 4 3 4 3 3 1 1 4 5 6 5 8 5 4 7 4 3 5 3 4 9 4 2 6 3 4 2 4 1 3 6 3 1 2 4 4 6 2 4 7 4 2 4 6 4 4 6 7 5 8 5 7 6 5 6 5 7 5 6 4 5 4 1 6 5 6 5 5 5 4 6 2 5 5 6 5 4 4 3 5 5 9 4 3 6 5 7 3 2 4 4 7 4 2 1 8 2 7 4 5 5 7 5 5 1 5 8 5 6 7 6 6 7 7 5 2 5 6 5 8 5 3 6 5 5
Responda a las siguientes preguntas: a. Cuántas personas fueron encuestadas b. Cuál fue la respuesta más frecuente c. Cuántas personas tienen, como máximo, una actitud de cuatro puntos en
la escala (es decir, cuántas personas se encuentran en desacuerdo con la subvención)
Como personas tenemos dificultades para procesar o tener en cuenta mucha información de forma simultanea. La tabla 1 muestra demasiados datos como para responder a las preguntas anteriores con seguridad.
Una alternativa al repaso repetitivo de la tabla 1 es organizar los datos de tal forma que tengan una disposición que facilite la lectura. En este sentido, la primera acción a realizar es ordenar los datos desde el que posee el valor más pequeño hasta el que cuenta con el valor mayor.
Tabla 02: Conjunto ordenado de datos
1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 7 7 7 7 7 7 7 7 7 7 7 7 7 7 8 8 8 8 8 8 8 8 8 9 9 9
Estadística Aplicada a la Investigación CAP.3
Escuela de Postgrado Maestría en Ciencias de la Educación
35
Observe que tiene lugar una “ganancia” al pasar de la tabla 1 a la tabla 2. Parece que ésta es más fácil de interpretar. No ha desaparecido ninguna información; el único cambio está en la ordenación de los mismos datos.
No obstante, la solución es parcial, puesto que aún debe ser mejorada (sigue siendo difícil responder a las preguntas).
Si observamos la tabla 2, contiene una sucesión de datos con valores repetidos. Por ejemplo, el valor 1 se encuentra presente en seis ocasiones. Luego, una buena estrategia es mostrar una sola vez cada valor y hacerlo seguir por su frecuencia, es decir, por la cantidad de ocasiones en que aparece. Siguiendo este criterio, hemos conseguido la tabla 3:
Tabla 03: Conjunto ordenado de "valores" y "frecuencias"
1(6), 2(11), 3(12), 4(30), 5(40), 6(25), 7(14), 8(9), 9(3)
Aún se puede disponer la información de tal forma que resulte extremadamente fácil responder a preguntas del mismo tipo que las que hemos planteado. En la tabla 3 se ha mantenido la misma disposición que en la tabla 2. Esto es innecesario. Para disponer la información de manera óptima, vamos a generar una tabla que tenga dos columnas. En la columna primera se presentarán los valores, que representaremos con la letra X mientras que en la segunda columna se dispondrán las frecuencias, que representaremos con la letra f. Observemos el resultado en la tabla 4:
Tabla 04: Tabla de frecuencias
X f
1 6
2 11
3 12
4 30
5 40
6 25
7 14
8 9
9 3
Total 150
Estadística Aplicada a la Investigación CAP.3
Escuela de Postgrado Maestría en Ciencias de la Educación
36
Como la tabla 4, se trata de una tabla de frecuencias, ahora sí nos permite responder a las preguntas planteadas con facilidad:
¿Cuántas personas fueron encuestadas? Solución: 150
¿Cuál fue la respuesta más frecuente? Solución: 5 (40 datos)
¿Cuántas personas tienen, como máximo, una actitud de cuatro puntos en la escala? Solución: 59 (6+11+12+30)
B. ACUMULACION DE FRECUENCIAS
No todas las preguntas que planteadas sobre el mismo conjunto de datos han exigido el mismo esfuerzo. Así, mientras que las preguntas sobre el número de datos y el valor más frecuente se han respondido con una lectura de la tabla, la tercera pregunta ha necesitado de algunas operaciones.
Para responder a esa pregunta hemos tenido que realizar una suma de todas las frecuencias comprendidas entre el primer valor de la tabla y el valor que nos interesa, ambos inclusive. Esta cantidad final recibe el nombre de frecuencia acumulada.
Muchos interrogantes requieren respuestas que se basan en las frecuencias acumuladas. Luego, es recomendable escribir esta nueva información en la tabla, de tal forma que permita respuestas directas en el futuro.
Tabla 05: Tabla de frecuencias de tres columnas
X f F
1 6 6
2 11 17
3 12 29
4 30 59
5 40 99
6 25 124
7 14 138
8 9 147
9 3 150
Total 150
Si suponemos ahora que hemos preguntado a 25 personas por su distrito de nacimiento, obteniendo los siguientes resultados:
Estadística Aplicada a la Investigación CAP.3
Escuela de Postgrado Maestría en Ciencias de la Educación
37
Sullana, Cotabamba, Huancavelica, Guzmán Valle, Guzmán Valle, Callao, Huancavelica, Ancón, Sullana, Mala, Jaén, Huancavelica, Ancón, Sullana, Cotabamba, Ancón, Mala, Cotabamba, Mala, Ancón, Mala, Sullana, Callao, Jaén, Callao.
Si se solicitara construir una tabla de frecuencias con la información sobre los distritos de nacimiento, utilizando la siguiente codificación:
Distrito Código
Ancón 1
Callao 2
Cotabamba 3
Guzmán Valle 4
Huancavelica 5
Jaén 6
Mala 7
Sullana 8
Quizá tu respuesta haya sido ésta: ERROR
Tabla 06: Distribución por distritos
Distrito Código F F
Ancón 1 4 4
Callao 2 3 7
Cotabamba 3 3 10
Guzmán Valle 4 2 12
Huancavelica 5 3 15
Jaén 6 2 17
Mala 7 4 21
Sullana 8 4 25
¿Qué sentido tiene acumular frecuencias en el problema que se ha planteado sobre los distritos? Por ejemplo, ¿Qué significado tiene la cantidad 12 que acompaña al valor 4 (Guzmán Valle)? Sólo se puede hacer una lectura: hay doce personas que han nacido en Guzmán Valle. No podemos afirmar que Cotabamba, Callao o Ancón sean menos distrito de nacimiento que Guzmán Valle.
La diferencia esencial entre el problema de los distritos de nacimiento y el de las respuestas a la escala de acuerdo, se encuentra en el tipo de variable. En el caso de
Estadística Aplicada a la Investigación CAP.3
Escuela de Postgrado Maestría en Ciencias de la Educación
38
los distritos, éstos no pueden ordenarse en función de ser más o ser menos "distritos de nacimiento" (se pueden ordenar según número de habitantes, extensión, altitud media, etc. Pero no en función de ser más o ser menos distrito de nacimiento).
Luego, la acumulación de frecuencias sólo procede si los valores de la variable que se está estudiando se pueden ordenar. Así, la respuesta correcta al problema debe ser:
Tabla 07: Distribución por distritos
Distrito Código f
Ancón 1 4
Callao 2 3
Cotabamba 3 3
Guzmán Valle 4 2
Huancavelica 5 3
Jaén 6 2
Mala 7 4
Sullana 8 4
C. FRECUENCIAS RELATIVAS
Retomamos ahora el problema de las actitudes frente a la subvención. La tabla de frecuencias no termina aun. Se puede añadir más información útil en la que basar respuestas para otras preguntas.
Por ejemplo ¿Cuántas personas han respondido con una actitud media (valor 5)? Solución: 40. Observa ahora la siguiente tabla y responde a la misma pregunta.
Tabla 08: Nueva tabla de frecuencias
X F
1 200
2 170
3 120
4 60
5 40
6 60
7 120
8 170
9 200
Total 1140
Estadística Aplicada a la Investigación CAP.3
Escuela de Postgrado Maestría en Ciencias de la Educación
39
¿Qué ocurre ahora?
En la tabla 08 ha cambiado el conjunto de datos. Ahora son 1140, frente a los 150 del caso inicial. Una misma frecuencia, en este caso f=40, no tiene la misma interpretación en ambas tablas. ¿Qué ha cambiado?: la importancia relativa de la frecuencia, puesto que f=40 frente a n=150 es diferente a f=40 frente a n=1140. De hecho, el valor 5 pasa incluso de ser el más frecuente al menos presente.
La solución se encuentra en expresar las frecuencias en términos relativos en vez de absolutos. Esto es precisamente lo que consiguen las proporciones: expresar una cantidad con respecto al total. Así, añadimos una nueva columna, conteniendo las frecuencias relativas (fr) que surgen de hacer la operación fr = f / n. Observa el resultado comparando el obtenido con cada una de las dos tablas afectadas en este problema (4 y 8):
Tabla 09: Comparación entre dos tablas de frecuencias
X Datos anteriores Nuevos datos
f fr F fr
1 6 0.0400 200 0.1754
2 11 0.0733 170 0.1491
3 12 0.0800 120 0.1053
4 30 0.2000 60 0.0526
5 40 0.2667 40 0.0351
6 25 0.1667 60 0.0526
7 14 0.0933 120 0.1053
8 9 0.0600 170 0.1491
9 3 0.0200 200 0.1754
Total 150 1.0000 1140 1.0000
Observa que el valor 5 pasa de contar con una frecuencia relativa fr=0,2667 (más de la cuarta parte) a fr=0,0351 al ser comparado, respectivamente, con un total de n=150 a n=1140.
Un aspecto de interés se encuentra en la fila de los totales. Observa que el resultado es 1.0000 en los dos casos. Esto debe ocurrir siempre. Lo que se hace al traducir las frecuencias absolutas a las relativas es unificar el referente. En el conjunto de datos de la tabla 4, el referente absoluto es 150. En el conjunto de datos de la tabla 8, el referente absoluto es 1140.
No podemos comparar frecuencias de conjuntos de datos diferentes porque los referentes son diferentes. Para que la comparación sea factible es necesario
Estadística Aplicada a la Investigación CAP.3
Escuela de Postgrado Maestría en Ciencias de la Educación
40
unificar. Dado que las proporciones se expresan en tantos por uno, es posible comparar frecuencias entre tablas. En otros términos: para interpretar una frecuencia absoluta necesitamos conocer el número total de datos puesto que, según hemos visto, el número de datos condiciona la importancia de una frecuencia. Pero para interpretar una frecuencia relativa expresada como una proporción no es necesario conocer el número total de datos, puesto que aquí el referente es constante de una tabla a otra: 1.0000.
Sin embargo, no se termina el proceso de enriquecimiento de la tabla. Las proporciones se expresan siempre en cantidades que se sitúan entre 0 y 1. Es decir, las proporciones son números decimales. Y lo anterior es hasta cierto incomodo, ¿Cuál es la solución?
D. TABLA DE FRECUENCIAS
Por lo general, cuando se exponen los resultados de una encuesta en un medio de comunicación, lo habitual es utilizar otro tipo de frecuencias relativas: los porcentajes.
El principio que rige la utilización de los porcentajes es el mismo que para las proporciones: utilizar un referente fijo de tal forma que no sea necesario contar con el número total de datos para interpretar una frecuencia. La diferencia entre los porcentajes y las proporciones es que los primeros utilizan el referente 100, mientras que las proporciones utilizan el 1.
Luego, conseguir los porcentajes es muy fácil si se cuenta con las proporciones; bastará con multiplicar a éstas por 100:
Tabla 10: Tabla de frecuencias con porcentajes
X f fr %
1 6 0.0400 4.00
2 11 0.0733 7.33
3 12 0.0800 8.00
4 30 0.2000 20.00
5 40 0.2667 26.67
6 25 0.1667 16.67
7 14 0.0933 9.33
8 9 0.0600 6.00
9 3 0.0200 2.00
Total 150 1.0000 100.00
Estadística Aplicada a la Investigación CAP.3
Escuela de Postgrado Maestría en Ciencias de la Educación
41
Podemos completar también la tabla que se refiere a los distritos de nacimiento:
Tabla 11: Distribución por Distritos
Distrito Código f fr %
Ancón 1 4 0.16 16
Callao 2 3 0.12 12
Cotabamba 3 3 0.12 12
Guzmán Valle 4 2 0.08 8
Huancavelica 5 3 0.12 12
Jaén 6 2 0.08 8
Mala 7 4 0.16 16
Sullana 8 4 0.16 16
TOTAL 25 1.00 100
Además, como sabemos, la variable actitud frente a la subvención admite orden entre sus valores. Luego, para completar la tabla, bastará con acumular sus frecuencias:
Tabla 12: Tabla de frecuencias completa
X f fr % F Fr %
1 6 0.0400 4.00 6 0.0400 4.00
2 11 0.0733 7.33 17 0.1133 11.33
3 12 0.0800 8.00 29 0.1933 19.33
4 30 0.2000 20.00 59 0.3933 39.33
5 40 0.2667 26.67 99 0.6600 66.00
6 25 0.1667 16.67 124 0.8267 82.67
7 14 0.0933 9.33 138 0.9200 92.00
8 9 0.0600 6.00 147 0.9800 98.00
9 3 0.0200 2.00 150 1.0000 100.00
Total 150 1.0000 100.00