10
ESTADÍSTICA DESCRIPTIVA Capítulo 1. INTRODUCCIÓN 1.1 ¿Qué es la estadística? ESTADÍSTICA es el arte de realizar inferencias y sacar conclusiones a partir de datos imperfectos. Los datos son generalmente imperfectos en el sentido que aún cuando posean información útil no nos cuentan la historia completa. Es necesario contar con métodos que nos permitan extraer información a partir de los datos observados para comprender mejor las situaciones que los mismos representan. Algunas técnicas de análisis de datos son sorprendentemente simples de aprender y usar más allá del hecho que la teoría matemática que las sustentan puede ser muy compleja. Todos, aún los estadísticos, tenemos problemas al enfrentarnos con listados de datos. Existen muchos métodos estadísticos cuyo propósito es ayudarnos a poner de manifiesto las características sobresalientes e interesantes de nuestros datos que pueden ser usados en casi todas las áreas del conocimiento. Los métodos estadísticos pueden y deberían ser usados en todas las etapas de una investigación, desde el comienzo hasta el final. Existe el convencimiento de que la estadística trata con el ANÁLISIS DE DATOS (quizás porque esta es la contribución más visible de la estadística), pero este punto de vista excluye aspectos vitales relacionados con el DISEÑO DE LAS INVESTIGACIONES. Es importante tomar conciencia que la elección del método de análisis para un problema, se basa tanto en el tipo de datos diponibles como en la forma en que fueron recolectados. 1.2 ¿Por qué estudiar estadística? Porque los datos estadísticos y las conclusiones obtenidas aplicando metodología estadística ejercen una profunda influencia en casi todos los campos de la actividad humana. En particular, la estadística invade cada vez más cualquier investigación relativa a salud pública. Este crecimiento, probablemente relacionado con el interés por aumentar la credibilidad y confiabilidad de las investigaciones, no garantiza que en todos los casos la metodología estadística haya sido correctamente utilizada, o peor aún, que sea válida. ¿Por qué debe preocuparnos la aplicación incorrecta de métodos estadísticos en un trabajo científico o en un informe técnico? - Porque las conclusiones pueden ser incorrectas. - Porque no todos los lectores están en condiciones de detectar el error, y esto

ESTADÍSTICA DESCRIPTIVA aprendiz

Embed Size (px)

Citation preview

ESTADSTICA DESCRIPTIVA Captulo 1. INTRODUCCIN 1.1 Qu es la estadstica? ESTADSTICA es el arte de realizar inferencias y sacar conclusiones a partir de datos imperfectos. Los datos son generalmente imperfectos en el sentido que an cuando posean informacin til no nos cuentan la historia completa. Es necesario contar con mtodos que nos permitan extraer informacin a partir de los datos observados para comprender mejor las situaciones que los mismos representan. Algunas tcnicas de anlisis de datos son sorprendentemente simples de aprender y usar ms all del hecho que la teora matemtica que las sustentan puede ser muy compleja. Todos, an los estadsticos, tenemos problemas al enfrentarnos con listados de datos. Existen muchos mtodos estadsticos cuyo propsito es ayudarnos a poner de manifiesto las caractersticas sobresalientes e interesantes de nuestros datos que pueden ser usados en casi todas las reas del conocimiento. Los mtodos estadsticos pueden y deberan ser usados en todas las etapas de una investigacin, desde el comienzo hasta el final. Existe el convencimiento de que la estadstica trata con el ANLISIS DE DATOS (quizs porque esta es la contribucin ms visible de la estadstica), pero este punto de vista excluye aspectos vitales relacionados con el DISEO DE LAS INVESTIGACIONES. Es importante tomar conciencia que la eleccin del mtodo de anlisis para un problema, se basa tanto en el tipo de datos diponibles como en la forma en que fueron recolectados. 1.2 Por qu estudiar estadstica? Porque los datos estadsticos y las conclusiones obtenidas aplicando metodologa estadstica ejercen una profunda influencia en casi todos los campos de la actividad humana. En particular, la estadstica invade cada vez ms cualquier investigacin relativa a salud pblica. Este crecimiento, probablemente relacionado con el inters por aumentar la credibilidad y confiabilidad de las investigaciones, no garantiza que en todos los casos la metodologa estadstica haya sido correctamente utilizada, o peor an, que sea vlida. Por qu debe preocuparnos la aplicacin incorrecta de mtodos estadsticos en un trabajo cientfico o en un informe tcnico? - Porque las conclusiones pueden ser incorrectas. - Porque no todos los lectores estn en condiciones de detectar el error, y esto genera un importante ruido en la bibliografa cientfica (Aunque este argumento tiende a sobredimensionar la importancia de un paper, existe considerable evidencia que los lectores sin formacin metodolgica tienden a aceptar como vlidas las conclusiones

de los trabajos publicados, en especial si se encuentran publicados en revistas prestigiosas). El estudio de la Estadstica y el modo de pensamiento que se genera a partir del mismo, capacita a la persona para evaluar objetiva y efectivamente si la informacin que recibe (va tablas, grficos, porcentajes, tasas, etc.) es relevante y adecuada. Por supuesto, la interpretacin de cualquier problema requiere, no slo de conocimientos metodolgicos sino tambin, de un profundo conocimiento del tema. An cuando una persona no est interesada en especializarse en estadstica, un entrenamiento bsico en el tema permite una mejor comprensin de la informacin cuantitativa. 1.3 reas de la estadstica Describiremos brevemente cada una de las reas en que puede dividirse la estadstica: I. Diseo: Planeamiento y desarrollo de investigaciones. II. Descripcin: Resumen y exploracin de datos. III. Inferencia: Hacer predicciones o generalizaciones acerca de caractersticas de una poblacin en base a la informacin de una muestra de la poblacin. I. Diseo Es una actividad crucial. Consiste en definir como se desarrollar la investigacin para dar respuesta a las preguntas que motivaron la misma. La recoleccin de los datos requiere en general de un gran esfuerzo, por lo que, dedicar especial cuidado a la etapa de planificacin de la investigacin ahorra trabajo en las siguientes etapas. Un estudio bien diseado resulta simple de analizar y las conclusiones suelen ser obvias. Un experimento pobremente diseado o con datos inapropiadamente recolectados o registrados puede ser incapaz de dar respuesta a las preguntas que motivaron la investigacin, ms all de lo sofisticado que sea el anlisis estadstico. An en los casos en que se estudian datos ya registrados, en que estamos restringidos a la informacin existente, los principios del buen diseo de experimentos, pueden ser tiles para ayudar a seleccionar un conjunto razonable de datos que est relacionado con el problema de inters. II. Descripcin Los mtodos de la Estadstica Descriptiva o Anlisis Exploratorio de Datos ayudan a presentar los datos de modo tal que sobresalga su estructura. Hay varias formas simples e interesantes de organizar los datos en grficos que permiten detectar tanto las caractersticas sobresalientes como las caractersticas inesperadas. El otro modo de describir los datos es resumirlos en uno o dos nmeros que pretenden caracterizar el conjunto con la menor distorsin o perdida de informacin posible. Explorar los datos, debe ser la primera etapa de todo anlisis de datos. Por qu no analizarlos directamente? En primer lugar porque las computadoras no son demasiado hbiles (slo son rpidas), hacen aquello para lo que estn programadas y actan sobre los datos que les ofrecemos. Datos errneos o inesperados sern procesados de modo inapropiado y ni usted, ni la computadora se darn cuenta a menos que realice previamente un anlisis exploratorio de los datos. III. Inferencia Inferencia Estadstica hace referencia a un conjunto de mtodos que permiten hacer predicciones acerca de caractersticas de un fenmeno sobre la base de informacin parcial acerca del mismo. Los mtodos de la inferencia nos permiten proponer el valor de una cantidad desconocida (estimacin) o decidir entre dos teoras contrapuestas cul de ellas explica mejor los datos observados (test de hiptesis). El fin ltimo de cualquier estudio es aprender sobre las poblaciones. Pero es usualmente necesario, y ms prctico, estudiar solo una muestra de cada una de las poblaciones. Definimos: POBLACIN MUESTRA total de sujetos o unidades de anlisis de inters en el estudio cualquier subconjunto de los sujetos o unidades de anlisis de la poblacin, en el cual se recolectarn los datos Usamos una muestra para conocer o estimar caractersticas de la poblacin, denominamos: PARMETRO una medida resumen calculada sobre la poblacin ESTADSTICO una medida resumen calculada sobre la muestra La calidad de la estimacin puede ser muy variada, y generalmente las estimaciones estadsticas son errneas, en el sentido que no son perfectamente exactas. La ventaja de los mtodos estadsticos es que aplicados sobre datos obtenidos a partir de muestras aleatorias permiten cuantificar el error que podemos cometer en nuestra estimacin o calcular la probabilidad de cometer un error al tomar una decisin en un test de hiptesis. Finalmente, cuando existen datos para toda la poblacin (CENSO) no hay necesidad de usar mtodos de estadstica inferencial, ya que es posible calcular exactamente los parmetros de inters. En el censo poblacional, por ejemplo, se registra el sexo de todas las personas censadas, que son prcticamente toda la poblacin, as que es posible conocer exactamente la proporcin de habitantes de los dos sexos. TIPOS DE DATOS En este captulo presentaremos los distintos tipos de datos o variables que podemos encontrar en una investigacin e comentaremos algunas estrategias para el manejo de datos con una computadora. 2.1 CARACTERSTICAS DE LOS CONJUNTOS DE DATOS. En lo que sigue denominaremos - UNIDAD DE ANLISIS O DE OBSERVACIN al objeto bajo estudio. El mismo puede ser una persona, una familia, un pas, una regin, una institucin o en general, cualquier objeto. - VARIABLE a cualquier caracterstica de la unidad de observacin que interese registrar, la que en el momento de ser registrada puede ser transformada en un nmero. - VALOR de una variable, OBSERVACIN o MEDICIN, al nmero que describe a la caracterstica de inters en una unidad de observacin particular. - CASO o REGISTRO al conjunto de mediciones realizadas sobre una unidad de observacin. Consideremos el siguiente ejemplo: Caso Sexo Lugar nacimiento Edad PAS 1 F J1 35 110 2 M J2 28 120 REGISTRO 3 M J2 59 136 OBSERVACIN VARIABLE Sexo, lugar nacimiento, edad, presin arterial sistlica son variables que describen a una persona, su sexo, su lugar de nacimiento, su edad, etc. son los valores que estas variables toman para esta persona. Cuando se disea una investigacin, se intenta estudiar de qu modo una o ms variables (variables independientes) afectan a una o ms variables de inters (variables dependientes). Por ejemplo en un experimento, el investigador impone a los sujetos condiciones (variable independiente) y estudia el efecto de la misma sobre una caracterstica del sujeto (aparicin de una cierta caracterstica, modificacin de una condicin, etc.). Un paso importante al comenzar a manejar un conjunto de datos es identificar cuntas variables se han registrado y cmo fueron registradas esas variables, lo que permitir definir la estrategia de anlisis. En el ejemplo anterior algunas de las variables son nmeros y otras son letras que indican categoras. A continuacin se presenta una clasificacin de los distintos tipos de datos que podemos encontrar. Debe notarse que distintos autores usan distintos criterios para clasificar datos por lo que presentaremos aqu un criterio que resulta til desde el punto de vista de seleccionar el mtodo de anlisis estadstico ms apropiado para los mismos. 2.2 TIPOS DE DATOS 2.2.1 DATOS CATEGRICOS O CUALITATIVOS Las variables categricas resultan de registrar la presencia de un atributo. Las categoras de una variable cualitativa deben ser definidas claramente durante la etapa de diseo de la investigacin y deben ser mutuamente excluyentes y exhaustivas. Esto significa que cada unidad de observacin debe ser clasificada sin ambigedad en una y solo una de las categoras posibles y que existe una categora para clasificar a todo individuo. En este sentido, es importante contemplar todas las posibilidades cuando se construyen variables categricas, incluyendo una categora tal como No sabe / No contesta, o No registrado u Otras, que asegura que todos los individuos observados sern clasificados con el criterio que define la variable. Los datos categricos se clasifican en dicotmicos, nominales y ordinales. a) Dos categoras (DICOTMICOS) El individuo o la unidad de observacin puede ser asignada a solo una de dos categoras. En general, se trata de presencia - ausencia del atributo y es ventajoso asignar cdigo 0 a la ausencia y 1 a la presencia. Ejemplos: 1) varn mujer 2) embarazada - no embarazada 3) fumador - no fumador 4) hipertenso normotenso Debe notarse que los ejemplos 1) y 2) definitivamente cubren todas las categoras, mientras que 3) y 4) son simplificaciones de categoras ms complejas. En 3) no est claro donde se asignan los ex-fumadores, en tanto que en 4) fue necesario establecer un criterio de corte para armar una variable categrica a partir de una variable numrica. b) Ms de dos categoras CATEGORAS NOMINALES No existe orden obvio entre las categoras. Ejemplos: pas de origen, estado civil, diagnstico. CATEGORAS ORDINALES Existe un orden natural entre las categoras. Ejemplos: 1) Tabaquismo: No fuma / ex-fumador / fuma 10 cigarrillos diarios / fuma > 10 cigarrillos diarios 2) Severidad de la patologa: Ausente / leve / moderado / severo. An cuando los datos ordinales puedan ser codificados como nmeros como en el caso de estadios de cncer de mama de I a IV, no podemos decir que una paciente en el estadio IV tiene un pronstico dos veces ms grave que una paciente en estadio II, ni que la diferencia entre estadio I y II es la misma que entre estadio III y IV. En cambio, cuando se considera la edad de una persona, 40 aos es el doble de 20 y una diferencia de 1 ao es la misma a travs de todo el rango de valores. Por esta razn, debemos ser cuidadosos al tratar variables cualitativas, especialmente cuando se han codificado numricamente, ya que no pueden ser analizadas como nmeros sino que deben ser analizados como categoras. Es incorrecto presentar, por ejemplo, el estadio promedio de cncer en un grupo de pacientes. En la prctica clnica se usan escalas para definir grados de un sntoma o de una enfermedad, tales como 0, +, ++, +++. Es importante definir operativamente este tipo de variables y estudiar su confiabilidad de modo de asegurar que dos observadores puestos frente al mismo paciente, lo clasificarn en la misma categora. 2.2.2 DATOS NUMRICOS Una variable es numrica cuando el resultado de la observacin o medicin es un nmero. Se clasifican en: a) Discretos. La variable slo puede tomar un cierto conjunto de valores posibles. En general, aparecen por conteo. Ejemplo: nmero de miembros del hogar, nmero de intervenciones quirrgicas, nmero de casos notificados de una cierta patologa. b) Continuos. Generalmente son el resultado de una medicin que se expresa en unidades. Las mediciones pueden tomar tericamente un conjunto infinito de valores posibles dentro de un rango. En la prctica los valores posibles de la variable estn limitados por la precisin del mtodo de medicin o por el modo de registro. Ejemplos: altura, peso, pH, nivel de colesterol en sangre. La distincin entre datos discretos y continuos es importante para decidir qu mtodo de anlisis estadstico utilizar, ya que hay mtodos que suponen que los datos son continuos. Consideremos por ejemplo, la variable edad. Edad es continua, pero si se la registra en aos resulta ser discreta. En estudios con adultos, en que la edad va de 20 a 70 aos, por ejemplo, no hay problemas en tratarla como continua, ya que el nmero de valores posibles es muy grande. Pero en el caso de nios en edad preescolar, si la edad se registra en aos debe tratarse como discreta, en tanto que si se la registra en meses puede tratarse como continua. Del mismo modo, la variable nmero de pulsaciones/min. es una variable discreta, pero se la trata como continua debido al gran nmero de valores posibles. Los datos numricos (discretos o continuos) pueden ser transformados en categricos y ser tratados como tales. Aunque esto es correcto no necesariamente es eficiente y siempre es preferible registrar el valor numrico de la medicin, ya que esto permite: - Analizar la variable como numrica Anlisis estadstico ms simple y ms potente. - Armar nuevas categoras usando criterios diferentes. Slo en casos especiales es preferible registrar datos numricos como categricos, por ejemplo, cuando se sabe que la medicin es poco precisa (nmero de cigarrillos diarios, nmero de tazas de caf en una semana). 2.2.3 OTRO TIPO DE DATOS a) Porcentajes Los porcentajes son el resultado de tomar el cociente entre dos cantidades. Ejemplos: reduccin porcentual de la presin arterial luego de la aplicacin de una droga, o peso corporal relativo (peso observado/peso deseable). En el primer caso las cantidades que forman el cociente se miden simultaneamente, en tanto que en el segundo caso el denominador es un valor estndar preexistente. Aunque los porcentajes pueden pensarse como variables continuas pueden causar problemas en el anlisis, especialmente cuando pueden tomar valores mayores y menores que 100% (ejemplo: de peso corporal relativo) o cuando pueden dar valores negativos (ejemplo: reduccin porcentual de la PA. En este ltimo caso, un paciente con PAS en 150 mm Hg con un 20% de aumento en la PAS llegar a 180 mmHg, pero una posterior disminucin del 20% lo llevar a 144 mm Hg). Se debe tener cuidado al analizar estos datos. b) Escalas analgicas visuales Cuando se necesita que una persona indique el grado de alguna caracterstica no medible, tal como satisfaccin, dolor, bienestar, agrado, acuerdo, etc. una tcnica que permite obtener categoras ordinales es la escala analgica visual. Se presenta al encuestado una lnea recta (generalmente de 10 cm.) cuyos extremos indican estados extremos y se les pide que marquen una posicin en la recta que represente la percepcin de su estado. Ejemplo. Interesa estimar grado de satisfaccin con un tratamiento, se puede usar la siguiente escala. Totalmente Totalmente insatisfecho satisfecho ubicacin del encuestado Estas escalas son muy tiles para valorar cambios en el mismo individuo. An cuando un puntaje de 3.7 no dice nada en si mismo, una reduccin de 2 puntos en un paciente si nos da informacin. Debe tenerse cuidado al tratar este tipo de datos ya que, a diferencia de los datos numricos, an cuando se registren como nmeros la escala subyacente no necesariamente es la misma para dos sujetos distintos. c) Scores Los scores son indicadores de la condicin de un individuo basados en la observacin de varias variables, generalmente categricas. En clnica los scores se construyen en base a sntomas y signos, asignndole a cada uno de ellos un puntaje y calculando un puntaje total o score, que es un indicador de la condicin del paciente. Un ejemplo es el score Apagar usado como indicador de pronstico en el recin nacido. Puntaje Signo 0 1 2 Latidos Ausente < 100 100 Respiracin Ausente Llanto dbil, hiperventilacin Llanto fuerte Tono muscular Flccido Leve Buena flexin Reflejos Ausente Leve Llanto Color Azul, plido Cuerpo rosado, extremidades azules Totalmente rosa El recin nacido es evaluado en los minutos 0 y 5 de vida. Cada signo recibe un puntaje de 0 a 2, los cuales se suman y el score resultante es un nmero entre 0 a 10. Se considera que un score 7 es de buen pronstico, y que un Apgar 3 es de muy mal pronstico. No es de inters aqu discutir la validez de este particular score, pero remarcaremos tres caractersticas que son comunes a este tipo de scores: - en la evaluacin de cada signo est presente cierto nivel de subjetividad, - al transformar las categoras en nmeros, estamos valorando las diferencias entre 0 y 1 y entre 1 y 2 como equivalentes, - los cinco signos son igualmente importantes en la construccin del score. Los scores deberan tratarse en el anlisis tal como se los trata en la prctica, como criterios para definir categoras ordinales y no como variables numricas. d) Datos censurados Una observacin censurada es aquella que no pudo ser medirla exactamente, pero que se sabe que est ms all de un cierto lmite, es decir, conocemos una cota inferior o superior para el dato. Ejemplos. - Cuando se miden elementos traza, el nivel del elemento en la muestra puede ser menor que el lmite de deteccin de la tcnica. Este es un dato con censura izquierda ya que no se conoce el verdadero valor, pero si se conoce una cota superior. - Estudios de seguimiento en los que interesa el tiempo de supervivencia. En los pacientes que se mantienen vivos finalizar el estudio, se desconoce el tiempo real de supervivencia, pero se sabe que ste es mayor que el tiempo de permanencia en el estudio. El tiempo de supervivencia est censurado a derecha, slo conocemos una cota inferior para el mismo. - Un estudio de seguimiento en que interesa estudiar el tiempo transcurrido hasta la recidiva de una patologa. En aquellos sujetos que se pierden del estudio (por abandono, por muerte por otras causas o por cualquier otra razn) pero que sabemos que estuvieron libres de la patologa mientras permanecieron en el estudio (hasta el ltimo control), el dato de tiempo transcurrido hasta la recidiva est censurado a derecha. Por qu es importante identificar el tipo de datos? Porque el tipo de datos DETERMINA el mtodo de anlisis apropiado y vlido y cada mtodo de anlisis estadstico es especfico para un cierto tipo de datos. La distincin ms importante es entre datos numricos y categricos.