22
Herramientas estadísticas en criminología

Herramientas estadísticas en criminología · 2019. 10. 10. · Herramientas estadísticas en criminología Concepción San Luis Costas Isabel Cañadas Osinski. Reservados todos

  • Upload
    others

  • View
    5

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Herramientas estadísticas en criminología · 2019. 10. 10. · Herramientas estadísticas en criminología Concepción San Luis Costas Isabel Cañadas Osinski. Reservados todos

Herramientas estadiacutesticas en criminologiacutea

Coleccioacuten Criminologiacutea - Manuales

Coordinadores Cristina reChea alberola

antonio andreacutes Pueyo

andrea Gimeacutenez-salinas Framis

Herramientas estadiacutesticas en criminologiacutea

Concepcioacuten San Luis Costas Isabel Cantildeadas Osinski

Reservados todos los derechos Estaacute prohibido bajo las sanciones penales y el resarcimiento civil previstos en las leyes reproducir registrar

o transmitir esta publicacioacuten iacutentegra o parcialmentepor cualquier sistema de recuperacioacuten y por cualquier medio

sea mecaacutenico electroacutenico magneacutetico electrooacuteptico por fotocopiao por cualquier otro sin la autorizacioacuten previa por escrito

de Editorial Siacutentesis S A

copy Concepcioacuten San Luis Costas Isabel Cantildeadas Osinski

copy EDITORIAL SIacuteNTESIS S AVallehermoso 34 28015 Madrid

Teleacutefono 91 593 20 98wwwsintesiscom

ISBN 978-84-9171-396-8Depoacutesito Legal M 27170-2019

Impreso en Espantildea - Printed in Spain

Consulte nuestra paacutegina web wwwsintesiscomEn ella encontraraacute el cataacutelogo completo y comentado

5

Iacutendice

IntroduccIoacuten 11

1 PlanIfIcando la InvestIgacIoacuten 13

11 Introduccioacuten 1312 Disentildeo y validez de la investigacioacuten 17

121 Validez interna y validez ecoloacutegica doacutende 18122 Validez externa cuaacutentos y quieacutenes 18123 Validez de la conclusioacuten estadiacutestica 19124 Validez de constructo medida 19125 Disentildeo y objetivos de la investigacioacuten 19

13 Conceptos claves 20131 Muestreo 21132 Poblacioacuten 21133 Censo 21134 Muestra 22135 Procedimientos de muestreo 22

14 Meacutetodos de seleccioacuten de las muestras 23141 Muestreo aleatorio simple 24142 Muestreo aleatorio estratificado 25143 Muestreo intencional u opinaacutetico 25144 Muestreo bola de nieve 25

15 Variables concepto operacionalizacioacuten tipos y escalas 2516 La matriz de datos 28

Herramientas estadiacutesticas en criminologiacutea

6

2 exPlorando los datos 31

21 Introduccioacuten 3122 Exploracioacuten de los datos para una variable 31

221 Distribucioacuten de frecuencias 32222 Representaciones graacuteficas Valores perdidos y atiacutepicos 34223 Representaciones numeacutericas iacutendices de tendencia central de varia-

bilidad y de posicioacuten 3723 Exploracioacuten de los datos para dos variables 47

231 Representaciones graacuteficas el diagrama de dispersioacuten 47232 Representaciones numeacutericas covarianza e iacutendices de correlacioacuten de

Pearson Spearman y ji-cuadrado 50

3 PuntuacIones tiacutePIcas queacute son y Para queacute sIrven 5931 Introduccioacuten 5932 Escalas y unidades de medida 6033 Las puntuaciones tiacutepicas y sus propiedades 6334 Puntuaciones tiacutepicas y percentiles 6535 Puntuaciones tiacutepicas y la distribucioacuten normal 6936 PuntuacionestiacutepicasyelcoeficientedecorrelacioacutendePearson 76

4 varIables aleatorIas 7941 Introduccioacuten 7942 Variable aleatoria discreta 79

421 La distribucioacuten binomial 8343 Variable aleatoria continua 85

431 La distribucioacuten normal 86432 La distribucioacuten χ2 de Pearson 88433 La distribucioacuten t de Student 90434 La distribucioacuten F de Fisher 92

44 Distribucioacuten muestral de un estadiacutestico 94441 Distribucioacuten muestral de la media 98

5 artIculando los resultados Para la toma de decIsIones 10551 Introduccioacuten 10552 Pruebasdesignificacioacuten 106

Iacutendice

7

521 El proceso en la prueba de significacioacuten 108522 Probabilidad asociada y nivel de significacioacuten 111523 Probabilidad asociada y tamantildeo de la muestra 113524 Error tipo I error tipo II y potencia 115525 Potencia y tamantildeo de la muestra 117526 Tamantildeo del efecto 119

53 Estimacioacuten de paraacutemetros 125531 Estimacioacuten puntual 125532 Estimacioacuten por intervalos 128533 Proceso de construccioacuten de los intervalos de confianza 130534 Factores que afectan a la precisioacuten del intervalo de confianza 132

6 el caso de una muestra 133

61 Introduccioacuten 13362 Intervalodeconfianzadelamedia 13463 Intervalodeconfianzadelavarianza 14164 Intervalodeconfianzadelamedianaydeotrospercentiles 14465 Intervalodeconfianzadelaproporcioacuten 14666 IntervalodeconfianzadelacorrelacioacutendePearson 14967 IntervalodeconfianzadelacorrelacioacutendeSpearman 15168 Tamantildeo de la muestra para los distintos paraacutemetros 15369 Estudio de la distribucioacuten de los datos forma e independencia de las

observaciones 157691 Normalidad de las observaciones 157692 Independencia de las observaciones 158

7 el caso de dos muestras 161

71 Introduccioacuten 16172 Muestras independientes y relacionadas 16173 El caso de dos medias independientes 16374 El caso de dos medias relacionadas o de medidas repetidas 16975 El caso de dos varianzas 173

751 Muestras independientes 173752 Muestras relacionadas 174

76 El caso de dos proporciones 176761 Muestras independientes 176762 Muestras relacionadas 178

Herramientas estadiacutesticas en criminologiacutea

8

77 Alternativas no parameacutetricas 181771 Prueba de Mann-Whitney 181772 Prueba de Wilcoxon 184

8 el caso de maacutes de dos muestras I 187

81 Introduccioacuten 18782 Nomenclatura 18883 ANOVA de un factor para muestras independientes 190

831 Supuestos 192832 Estadiacutestico de contraste F 193

84 ANOVA de un factor de medidas repetidas 196841 Supuestos 198842 Estadiacutestico de contraste 199

85 Resultados complementarios 200851 Tamantildeo del efecto 202852 Potencia 203853 Comparaciones muacuteltiples 203

86 Alternativas no parameacutetricas 207861 Kruskal-Wallis 207862 Freedman 209863 Comparaciones a posteriori 211

9 el caso de maacutes de dos muestras II 213

91 Introduccioacuten 21392 Disentildeo de dos factores completamente aleatorizado 216

921 Supuestos del modelo 216922 El estadiacutestico de contraste 217

93 Interpretacioacuten de los efectos principales y de la interaccioacuten 22394 Efectos simples 22595 Resultados complementarios 228

951 Tamantildeo del efecto 228952 Potencia 229953 Comparaciones muacuteltiples 229

96 Alternativa no parameacutetrica 23297 Disentildeos de maacutes de dos factores 234

Iacutendice

9

10 regresIoacuten lIneal 235

101 Introduccioacuten 235102 Modelo de regresioacuten lineal 236103 El ajuste del modelo datos 240

1031 Los coeficientes semiparciales 241104 Meacutetodos de construccioacuten del modelo 243105 Anaacutelisis de variables mediadoras y moderadoras 245

1051 Efecto de mediacioacuten 2461052 Efecto de moderacioacuten 248

106 Supuestosenelanaacutelisis 251107 Inferencia en la regresioacuten muacuteltiple 254108 Fiabilidad y validez del modelo 255109 Regresioacuten logiacutestica binaria 257

referencIas bIblIograacutefIcas 261

Contenidos digitales

Anexo 1 Tablas estadiacutesticas

Anexo 2 Acceso a descarga de programas

Anexo 3 Viacutedeos

Anexo 4 Datos simulados

Anexo 5 Actividades propuestas de replicacioacuten

31

2Explorando los datos

21 Introduccioacuten

La primera cuestioacuten que debe contemplarse antes de la aplicacioacuten de cualquier teacutecnica estadiacutestica es la relativa a la descripcioacuten de la muestra (en algunos casos excepcionales de la poblacioacuten) la segunda el estudio minucioso de las caracteriacutesticas que presentan lasvariablesobjetodeestudioquehansidocuantificadasmedianteelcorrespondienteproceso de medida o asignacioacuten numeacuterica

El anaacutelisis exploratorio de los datos implica una actitud curiosa que estaacute motivada porlapremisadequecuantomejorconozcaelinvestigadorlosdatosquetienemaacutesefi-cientementesepuedenusarparadesarrollaryrefinarsuspropuestasPortantoeltrabajode detective del investigador tendraacute como principal objetivo un abordaje exploratorio de datos para maximizar lo que pueda aprender a partir de ellos y de este modo entender el conjunto de las variables y su comportamiento

22 Exploracioacuten de los datos para una variable

Realizar un anaacutelisis exploratorio de los datos permitiraacute al investigador mediante un conjunto de procedimientos sencillos

ndash Conocer la estructura de los datos es decir ver las caracteriacutesticas que presenta su dis-tribucioacuten e intuir la distribucioacuten de probabilidad que presentan visualizando la forma y sus propiedades caracteriacutesticas (normalidad simetriacutea apuntamiento o curtosis)

ndash Detectar posibles errores en el disentildeondash Detectar errores en el proceso de recogida de datosndash Identificar casos atiacutepicos frutodediversas causasquepuedenabarcardesde

errores humanos hasta la presencia de valores anoacutemalos en relacioacuten con el con-junto general de valores

Herramientas estadiacutesticas en criminologiacutea

32

ndash Evaluar y tratar datos ausentes (datos que faltan en la matriz)ndash Comprobar los supuestos subyacentes a la teacutecnica estadiacutestica que se pretende

emplear para responder a las preguntas de la investigacioacuten

Para cumplir con estos objetivos deberaacute construir una distribucioacuten de frecuencias y acu-diralasrepresentacionesgraacuteficasynumeacutericasloqueseexplicaenlassiguientespaacuteginas

221 Distribucioacuten de frecuencias

Una vez se tiene la matriz de datos es el momento de empezar a organizar variables sujetos analizar los casos etc El primer paso es la construccioacuten de una distribucioacuten de frecuencias disposicioacuten de una variable en una tabla con sus modalidades que inclu-ye el recuento de casos en cada una los porcentajes etc Hay tantas distribuciones de frecuencias como variables contenga la matriz una distribucioacuten para cada una de las variables

cuadro 21 Matriz de datos

Sujeto Creencias Motivacioacuten Empatiacutea Distorsiones Emociones Control Responsabilidad

123456789

10

110100120120 50110 60 30 40 90

51503312251118305441

20 2 822 52116 32429

123110120131150110175133120149

11249

106347

13103142556127334090

81010 9 4 9 8 5 4 7

La matriz de datos del cuadro 21 es un ejemplo de los resultados obtenidos tras un programa de intervencioacuten a hombres maltratadores en la aplicacioacuten de una bateriacutea de cuestionarios para medir sus creencias sexistas su motivacioacuten para el cambio la empatiacuteaconlasviacutectimaslasdistorsionescognitivaslaidentificacioacutendeemocioneselcontrol de la ira y la asuncioacuten de responsabilidad En la matriz de datos estaacuten los sujetos con sus puntuaciones en las variables pero la visioacuten de estas resulta un tanto confusa al no estar ordenadas sus puntuaciones

Al extraer por ejemplo las variables creencias sexistas y asuncioacuten de responsabi-lidad y organizar cada una en una distribucioacuten de frecuencias (cuadro 22) se puede

Explorando los datos

33

observar todo el rango de valores y el nuacutemero de casos (ni) de sus modalidades Ense-guida se aprecia por ejemplo que las puntuaciones en creencias se concentran maacutes en torno a los valores maacutes altos de la distribucioacuten (hay 6 sujetos con valores entre 90 y 120) casi lo mismo que la responsabilidad cuyo mayor nuacutemero de casos se encuentra en los valores maacutes altos (6 sujetos entre 8 y 10) aunque en general sus puntuaciones esteacuten maacutes repartidas

cuadro 22 Distribuciones de frecuencias

Creencias ni Responsabilidad ni

30 40 50 60 70 80 90100110120

1 1 1 1 0 0 1 1 2 2

4 5 6 7 8 910

2 1 0 1 2 2 2

10

10

La ventaja fundamental de una distribucioacuten de frecuencias es la posibilidad de ex-traer conclusiones de la variable sin realizar siquiera un anaacutelisis estadiacutestico complejo Incluso sin perder sencillez se puede complementar con otros datos

ndashFrecuencia absoluta (ni) nuacutemero de casos de cada modalidad de la variablendashFrecuencia acumulada (na) recuento de las frecuencias absolutas en orden as-

cendente seguacuten el sentido de las modalidadesndashProporcioacuten o frecuencia relativa (pi) frecuencia absoluta nuacutemero total de ca-

sos (n)ndashProporcioacuten acumulada (pa) frecuencia acumulada (na) nuacutemero total de casos (n)ndashPorcentaje (Pi) proporcioacuten (pi) x 100ndashPorcentaje acumulado (Pa) proporcioacuten acumulada (pa) x 100

En el caso de la variable creencias sexistas quedariacutea tal y como se aprecia en el cuadro 23 En general sus valores se encuentran bastante repartidos en la distribucioacuten aunque el mayor porcentaje de casos se situacutea en los valores 110 y 120 y ninguacuten sujeto ha obtenido una puntuacioacuten de 70 u 80

Herramientas estadiacutesticas en criminologiacutea

34

cuadro 23 Distribucioacuten de frecuencias de la variable creencias

Creencias ni na pi pa Pi Pa

30 40 50 60 70 80 90100110120

1111001122

1 2 3 4 4 4 5 6 810

01 01 01 01

00

01 01 02 02

01020304040405060810

10101010 0 010102020

10 20 30 40 40 40 50 60 80100

n = 10 - 10 - 100 -

Cabe decir que la frecuencia proporcioacuten y porcentaje acumulados (na pa y Pa) solo se utilizan con variables cuantitativas Pensando por ejemplo en la variable estado civil con sus modalidades y frecuencias absolutas iquestqueacute sentido tendriacutea hacer un re-cuento acumulado de sus frecuencias Aunque ahora no se aprecie la utilidad de la acumulacioacuten maacutes adelante se comprobaraacute lo praacutectico que resulta para localizar sujetos de la distribucioacuten y para interpretar su posicioacuten

222 Representaciones graacuteficas Valores perdidos y atiacutepicos

Una manera sencilla de observar el comportamiento de una variable es mediante su re-presentacioacutengraacuteficanoenvanosufuncioacutenprincipalesobtenerinformacionesglobalesmedianteunsologolpedevistaExistengraacuteficasparatodoslosgustosperonosiempresuaspectosofisticadoessinoacutenimodeclaridadyexactitudLas representacionesmaacutessencillassonlasquemejorreflejanlascaracteriacutesticasdelasvariablesyestassonlasquese van a presentar a continuacioacuten

Cuandolavariableescualitativaocuantitativadiscretaungraacuteficomuyutilizadoesel diagrama de barras En la abscisa se colocan las modalidades de la variable y en la ordenada las frecuencias o porcentajes Tambieacuten se puede representar la variable medida endosomaacutesgruposparasucomparacioacutentalycomosepuedeverenlafigura21

Eneldiagramadelafigura21secomparaporejemploelgradodeiraenungrupo de hombres y otro de mujeres Las diferencias en las modalidades baja media alta y muy alta noestaacutenmuyclarasSepodriacuteadecirqueenlastressepresentanni-veles similares de ira

Explorando los datos

35

Frec

uenc

ia

10

8

6

4

2

0Baja Media Alta Muy alta

fIgura 21 Diagrama de barras

Cuando se trata de variables cuantitativas los diagramas se denominan histogra-mascomosemuestraen lafigura22Enesteejemploseobserva laevolucioacutendeun grupo de adolescentes diagnosticados de un trastorno adaptativo antes y despueacutes de una intervencioacuten para mejorar su grado de incertidumbre en temas relacionados con la identidad (objetivos a largo plazo eleccioacuten profesional patrones de amistad orientacioacutenyconductasexualetc)Enelprimergraacuteficotodoslossujetostienenunapuntuacioacuten superior a 35 situaacutendose un gran nuacutemero de ellos entre los valores 40 y 50 delaescalaEnelsegundograacuteficoesdondeseconstatalamejoriacuteatraseltratamientopuesto que ninguacuten sujeto supera el valor de 50 en la escala de incertidumbre ubicaacuten-doseunelevadonuacutemerodeellosentrelosvalores10y30Setratadedoshistogramasbien sencillos que arrojan mucha informacioacuten Es importante sentildealar que se debe res-petarelorigendecoordenadasenambosgraacuteficossinoresultandifiacutecilesdecomparary pierden toda su funcioacuten de informar raacutepidamente de los cambios en una variable de su comportamiento en grupos distintos etc

Frec

uenc

ia

6

5

4

3

2

1

00 5 10 15 20 25 30 35 40 45 50 55 60 65 70

Grado de incertidumbre antes

Frec

uenc

ia

6

5

4

3

2

1

00 5 10 15 20 25 30 35 40 45 50 55 60 65 70

Grado de incertidumbre despueacutes

fIgura 22 Histograma de la misma variable en dos momentos distintos

Herramientas estadiacutesticas en criminologiacutea

36

Ungraacuteficodignodemencioacuteneslacurva normal que es el modelo prototipo contra el que se suelen comparar la mayoriacutea de las variables cuando se trabaja con meacutetrica cuantitativaSecaracterizaporsersimeacutetricaypresentarunaliacutenealisaosuavizadacondos colas de igual longitud lo que implica que el porcentaje de casos en ambas es ideacuten-ticoEnrealidadsetratadeunhistogramacuandosehanrecogidoinfinitosdatosdelavariable en otras palabras se trata de un modelo teoacuterico

Sinembargoypeseaseresteelmodeloporantonomasianotodaslasvariablesse acercan a esta distribucioacuten es maacutes en muchas ocasiones es extremadamente com-plicado siquiera encontrar variables que se asemejen a eacutel La situacioacuten maacutes habitual es que cada una de las variables que se haya medido presente diferencias tanto en localizacioacutencomoenformaydispersioacutenrespectoalmodelorepresentadoenlafigu-ra 23 de ahiacute la importancia de describir para cada variable estas caracteriacutesticas lo que permitiraacute evaluar el grado de semejanza con el modelo teoacuterico sobre el que descansaraacute el anaacutelisis de datos

Dispersioacuten

LocalizacioacutenCola izquierda Cola derecha

fIgura 23 Curva normal

Un aspecto que condicionaraacute en gran medida la obtencioacuten de representaciones nu-meacutericas son los casos raros o atiacutepicos Un valor raro hace referencia a un sujeto que presenta un comportamiento muy diferente del resto normalmente porque tiene pun-tuaciones extremas por encima o por debajo de la cola de la distribucioacuten lo que provoca que esta se aleje de una normal Una de las consecuencias de la presencia de outliers porejemploeseldesplazamientoartificialdelamediahaciaarribaohaciadebajocon-virtieacutendolosenobservacionesinfluyentes(Kaplan2000)

LapresenciadeestosdatospuededebersesimplementeaerroresdecodificacioacutenBajo tal circunstancia son faacutecilmente detectables mediante un anaacutelisis de frecuencias

Explorando los datos

37

quepermitaidentificarvaloresfueradelrangoadmisibleEncualquiercasolosva-lores raros son faacuteciles de identificarmediante una simple inspeccioacuten visual de larepresentacioacutengraacuteficaseobservanlossujetoscuyaspuntuacionesestaacutenmuyporen-cima o por debajo de la cola de la distribucioacuten o del intervalo establecido Una vez identificadoelsujetoenlabasededatoshabriacuteaqueeliminarloyvolverarepetirlosanaacutelisis Cuando son detectados hay que de plantearse si esos sujetos proceden de otra poblacioacuten distinta o si por el contrario perteneciendo a la poblacioacuten de referen-cia se trata de sujetos excepcionales El problema es que no siempre es faacutecil hacer esta distincioacuten

Por su parte los valores perdidos se deben a una gran variedad de circunstancias que pueden ocurrir durante una investigacioacuten y que estaacuten fuera del control del investigador Asiacuteporejemplopuedesucederquehaya fallosen losequipos (registrospsicofisio-loacutegicos por ejemplo) o que los sujetos no respondan deliberadamente a determinadas cuestiones o bien por muerte experimental

Ante los valores perdidos se deben considerar su cantidad y el grado en que afectan a la investigacioacuten En este caso no hay una respuesta clara y siacute una gran variedad de opiniones Cohen y Cohen (1983) entienden que es soportable hasta un 5 o 10 por ciento de casos perdidos En segundo lugar se ha de valorar si la estructura de los datos per-didosesaleatoriaosistemaacuteticaSiladistribucioacutendelosvaloresperdidosesaleatoriaestariacuteaindicandoquelossujetosenlosquehaypresentesvaloresperdidosdifierensolopor azar de aquellos en los que no estaacuten presentes Por tanto los resultados obtenidos en estos sujetos podriacutean ser generalizables al resto En el caso de que la distribucioacuten de datos perdidos siga un patroacuten sistemaacutetico se tratariacutea del caso contrario y por tanto no se deberiacutea ignorar esta circunstancia Es maacutes se deberiacutea hacer todo lo posible por intentar interpretar el comportamiento y naturaleza de la distribucioacuten de los valores perdidos (por queacute y coacutemo se distribuyen a lo largo de las distintas variables y de los sujetos)

223 Representaciones numeacutericas iacutendices de tendencia central de variabilidad y de posicioacuten

Enmuchoscasosunadistribucioacutende frecuenciasyuna representacioacutengraacuteficaseraacutenmaacutesquesuficientesparaentenderelcomportamientodeunavariableenungrupodesujetosSinembargocuandoelintereacutessecentraenlacomparacioacutendevariosgruposenlamismavariableoenmaacutesdeunatratarcontablasygraacuteficosymaacutestablasymaacutesgraacute-ficospuederesultarunpocoengorrosotantoparaelpropiomanejocomoparaellectorde los informes En situaciones asiacute puede ser maacutes apropiado trabajar con unos iacutendices quedescribandeformamaacutessencillalainformacioacutencontenidaenlasdistribucionesSetrata de los estadiacutesticos de una muestra iacutendices que ademaacutes de hacer manejable la in-formacioacuten contenida en los datos son la base sobre la que se sustenta la mayoriacutea de las teacutecnicas de anaacutelisis de datos

Herramientas estadiacutesticas en criminologiacutea

38

Los estadiacutesticos de tendencia central son aquellos que resumen el comportamiento de una variable en un solo valor representando asiacute al conjunto de sujetos en el que son calculados

La media aritmeacutetica es el iacutendice de tendencia central maacutes utilizado y su caacutelculo es tan simple como promediar todas las puntuaciones de un grupo en una variable tal y comoreflejansusfoacutermulasparadatosbrutosyparadatosdeunadistribucioacutendefre-cuencias

XXn

isum= X

n Xni isum

=sdot

donde Xi es la puntuacioacuten de un sujeto n es el tamantildeo de la muestra y ni la frecuencia absoluta

SeaelsiguienteejemploEnelserviciodepsiquiatriacuteadeuncentropenitenciariose ha observado que los internos drogodependientes con insomnio croacutenico muestran ciertasensibilidadinusualalruidoDebidoalasdificultadesqueconllevalaaplicacioacutende cuestionarios que midan la sonoridad subjetiva se decide evaluarlos con una prueba en la que deben interrumpir un sonido cuando les resulta molesto y se recoge el tiempo (en segundos) que tardan en pulsar el interruptor Los datos de diez pacientes son los siguientes

4 5 8 2 4 2 5 2 2 6

La media aritmeacutetica es

XXn

4 5 8 2 4 2 5 2 2 610

4010

4isum= =

+ + + + + + + + += =

Suponiendoqueenlossujetossinladolenciadescritalamediaaritmeacuteticaes8se-gundos se puede concluir que estos pacientes que han tardado en conjunto un promedio de 4 segundos en sentir el sonido como un ruido molesto presentan una sensibilidad al ruido mayor

Al agrupar los datos anteriores en una tabla (veacutease el cuadro 24) la media aritmeacute-tica que resulta es

X

n Xn

8 0 8 10 6 0 810

4010

4i isum=

sdot=

+ + + + + += =

Explorando los datos

39

cuadro 24 Caacutelculo de la media en una distribucioacuten de frecuencias

Xi ni ni Xi

2345678

4 0 2 2 1 0 1

8 0 810 6 0 8

ndash 10 40

Tal es la sencillez de la obtencioacuten de la media que se ha convertido en un estadiacutestico omnipresenteentodoinformedeinvestigacioacutenquetrateconvariablesSinembargoantes de su caacutelculo deberaacuten tenerse en cuenta las siguientes consideraciones

ndashEs muy sensible a cualquier variacioacuten en los datos Por ejemplo un error en la introduccioacuten de un valor numeacuterico puede resultar desastroso al calcularla

3 5 7 4 `X = 4753 5 7 40 `X = 1375

ndashNo se debe utilizar ante conjuntos de datos en los que hay casos extremos por-que deja de cumplir con su funcioacuten que es la de representar al conjunto

X 1 2 2 4 4 8 9 10 cuya media es`X = 5

iquestA quieacuten representa esta media si ni siquiera su valor estaacute en la distribucioacuten Porestosiempredeberaacuteiracompantildeadadeungraacuteficoobiensedebeinformarque los datos se ajustan a una distribucioacuten simeacutetrica

ndashConvariablescualitativasnotienesentidocalcularlaiquestsepuedeafirmarquelamedia aritmeacutetica del estado civil es 25 Tambieacuten hay que ser cautelosos con el resultado de algunas variables cuantitativas discretas como por ejemplo el nuacutemerodedelitosSepuededecirqueundelincuentehacometidoeldoblededelitos que otro pero iquestes pertinente hablar de un promedio de 35 delitos

La simplicidad en la obtencioacuten de la media aritmeacutetica la ha convertido en la estrella de los estadiacutesticos de tendencia central Doctos y legos la conocen y utilizan pero hay

Herramientas estadiacutesticas en criminologiacutea

40

que ser cautos porque los datos no estaacuten exentos de trampas En aquellos casos en los que no sea adecuado calcularla se puede probar con la moda o con la mediana

La moda es un iacutendice de tendencia central que representa el valor cuya frecuen-cia absoluta es la maacutes alta en la distribucioacuten Puede utilizarse con cualquier tipo de variable ya sea cualitativa o cuantitativa y su obtencioacuten es muy sencilla Los datos simplemente se ordenan y se ve cuaacutel se repite maacutes Ese valor es por tanto la moda de la distribucioacuten En el ejemplo de los pacientes con delirium por abstinencia la moda tanto con los datos brutos como agrupados en la distribucioacuten de frecuencias (cuadro 24) es 2 (y no 4 cuidado con esto) Este resultado se interpreta como que la mayoriacutea de los pacientes de este grupo tarda 2 segundos en sentir el ruido como molesto (Cabe sentildealar que la moda no coincide con la media lo que ya habla de una distribucioacuten asimeacutetrica)

Puede suceder que una distribucioacuten tenga dos valores con la maacutexima frecuencia la misma o muy similar pero que ambas se diferencien bastante del resto En estos casos se dice que la distribucioacuten presenta dos modas o que es bimodal

2 2 4 4 4 6 6 6 6 6 6 8 8 8 10 10 10 10 10 10 10

En los datos anteriores se tienen dos modas Mo1 = 6 y Mo2 = 10Cuando los valores de la moda son adyacentes algunos analistas toman como

estadiacutesticolamediadeambasSinembargoestonodebehacersepuestoqueelre-sultado puede carecer de sentido podriacutea tratarse de un valor que no existe en la dis-tribucioacuten Por otro lado iquestcuaacutel es el problema de presentar dos modas Precisamente lo anterior la obtencioacuten (o presentacioacuten) de dos modas permite ver hasta queacute punto el caacutelculo de una media es liacutecito En efecto si las dos modas son adyacentes y centra-das no seriacutea ninguacuten problema pero si no lo son esto debe advertir de que no hay que calcular la media

La mediana es un iacutendice que informa del dato de la distribucioacuten que la divide en dos partesigualesysedefineportantocomoaquelvalorquedejaporencimaypordebajoel 50 por ciento de las frecuencias Puede utilizarse con variables cualitativas cuyas mo-dalidades puedan ordenarse y con variables cuantitativas

Suobtencioacutenesenormementesencillauacutenicamentehayquelocalizarenlacolum-na de proporciones acumuladas de la tabla de la distribucioacuten el valor que comprenda el 05 y ver a queacute puntuacioacuten de la variable corresponde En el ejemplo (cuadro 25) tras obtener las proporciones acumuladas la mediana se localiza en la proporcioacuten acumulada 06 porque es la que incluye 05 (la anterior se queda en 04) por lo que la mediana es Md = 4 es decir el valor de la distribucioacuten que divide a los sujetos en dos grupos

Explorando los datos

41

cuadro 25 Localizacioacuten de la mediana

Xi ni pi pa

2345678

4 0 2 2 1 0 1

04000202010001

04040608090910

ndash 10 10

Cabe sentildealar que si su valor coincide con el de la media y el de la moda o son muy similares la distribucioacuten es simeacutetrica o muy cercana a la simetriacutea En cambio si los re-sultados para los tres iacutendices son muy diferentes hay que tener cuidado con la forma de la distribucioacuten y lo que se ha calculado Hayquerecordarqueunarepresentacioacutengraacuteficaes un complemento perfecto en los anaacutelisis para aclarar los resultados

Los iacutendices de posicioacuten son todos aquellos que permiten situar a un sujeto dentro de unadistribucioacutendefrecuenciasSunombregeneacutericoescuantiles y los maacutes utilizados en este contexto son los percentiles y los cuartiles

Los percentiles tambieacuten llamados centiles son las puntuaciones de la variable que dividen la distribucioacuten en cien partes iguales Hay por tanto 99 percentiles La nomen-clatura utilizada es Pk y su valor se interpreta como la puntuacioacuten que deja por debajo de siacute al k por ciento de los sujetos Por ejemplo si P20 = 9 se dice que 9 es el valor de la distribucioacuten que deja por debajo de siacute al 20 por ciento de los sujetos

Por su parte los cuartiles son las puntuaciones de la variable que dividen la distri-bucioacuten en cuatro partes iguales Hay por tanto tres cuartiles La nomenclatura utilizada es Qk (k = 1 2 o 3) y su valor se interpreta como la puntuacioacuten que deja por debajo de siacute al 25 k por ciento de los sujetos Por ejemplo si Q3 = 8 se dice que 8 es el valor de la distribucioacuten que deja por debajo de siacute al 75 por ciento de los sujetos

Obtener percentiles o cuartiles es tan sencillo como hacerlo con la mediana se bus-ca en la columna de las proporciones acumuladas o de los porcentajes acumulados de la distribucioacuten la proporcioacuten o porcentaje de intereacutes y se localiza la puntuacioacuten de la variable a la que pertenece

El cuadro 26 es el resultado de aplicar un test que mide conductas saacutedicas Un sujeto que por ejemplo obtiene una puntuacioacuten igual a 15 resulta que se situacutea en el percentil P77 y en el cuartil Q3 lo que lo coloca en los valores altos de la distribucioacuten Es claramente necesaria una raacutepida intervencioacuten

Herramientas estadiacutesticas en criminologiacutea

42

Los percentiles y los cuartiles permiten interpretar la situacioacuten de un sujeto en la distribucioacuten de la variable que se ha medido sin necesidad de conocer ni la puntuacioacuten directa ni el valor miacutenimo y maacuteximo de la distribucioacuten lo que resulta de gran utilidad

Por otro lado del cuadro 26 se desprende que la mediana se localiza en el percentil 50 y en el cuartil 2 siendo su valor igual a 12

En efecto en distribuciones simeacutetricas

Md = P50 = D5 = Q2

cuadro 26 Localizacioacuten de percentiles y cuartiles

Xi ni na pa Pk Qk

6 7 8 91011

12

13141516171819

8 4 8 5 710

9

11 9 7 8 4 4 6

8 12 20 25 32 42

51

62 71 78 86 90 94100

008012020025032042

051

062071078086090094100

P7P11P19P24P31P41

P50

P61P70P77P85P89P93P99

ndashndashndashndash

Q1ndash

Q2

ndashndash

Q3ndashndashndashndash

No todos somos iguales Bien es cierto que entre las personas existen ciertos com-portamientos similares pero siempre hay diferencias individuales Mientras que los procesoscomogrupovienencuantificadosconlosiacutendicesdetendenciacentral(mediamedianamodaetc)lasdiferenciasindividualesseveraacutenreflejadasenlosiacutendices de variabilidad Dicho con otras palabras estos iacutendices permitiraacuten saber cuaacutento se distan-cian los individuos del sujeto promedio En el ejemplo que se presenta se recogen las puntuaciones de cinco criminales obtenidas en egocentrismo ilimitado

X1 10 11 12 13 14

La media calculada es`X=12Sinembargolosregistrosmuestrandiferenciasentreellos por lo que cada uno se distancia de su media

Explorando los datos

43

10 ndash 12 = ndash2 11 ndash 12 = ndash1 12 ndash 12 = 0 13 ndash 12 = 1 y 14 ndash 12 = 2

Los resultados muestran alejamientos positivos y negativos (unos son maacutes ego-ceacutentricos y otros menos con respecto a la media de 12) con lo que se podriacutea plantear el caacutelculo del promedio de esas distancias como iacutendice de variabilidad En efecto esto es precisamente lo que hace el estadiacutestico desviacioacuten media

sum=

minusDM

(X X)nXi

1

Sufoacutermulaclaramentereflejacuaacutentosealejanenpromediolaspuntuacionesdesumedia Aplicaacutendola a los datos del ejemplo

sum=

minus=

minus + minus + + +=DM

(X X)n

( 2) ( 1) 0 1 25

0Xi

1

Habiendo constatado las diferencias individuales iquestcoacutemo es posible que el prome-dio de distancias sea igual a cero La razoacuten es muy sencilla las diferencias son unas positivas y otras negativas compensaacutendose las unas con las otras y siempre va a ocurrir que la suma de esas diferencias sea igual a 0 ya que son distancias a un punto central que es la media

Entonces si la desviacioacuten media siempre va a ser igual a cero hay que buscar otro iacutendice que siendo tan sencillo e informativo como este solvente el problema Una po-sibilidad seriacutea trabajar con las diferencias en valores absolutos pero estos resultan poco manejables matemaacuteticamente y por tanto poco convincentes

Otra opcioacuten es calcular las diferencias elevarlas al cuadrado y a partir de ahiacute obte-ner su promedio Un iacutendice de dispersioacuten computado asiacute se denomina varianza

sum=

minusS

(X X)nX

2 i2

Aplicaacutendolo a los datos

sum=

minus=

+ + + +=S

(X X )n

4 1 0 1 45

2X2 i 1

2

1

Una foacutermula maacutes raacutepida de obtener la varianza sobre todo cuando se manejan mu-chos datos es mediante la siguiente expresioacuten

Page 2: Herramientas estadísticas en criminología · 2019. 10. 10. · Herramientas estadísticas en criminología Concepción San Luis Costas Isabel Cañadas Osinski. Reservados todos

Coleccioacuten Criminologiacutea - Manuales

Coordinadores Cristina reChea alberola

antonio andreacutes Pueyo

andrea Gimeacutenez-salinas Framis

Herramientas estadiacutesticas en criminologiacutea

Concepcioacuten San Luis Costas Isabel Cantildeadas Osinski

Reservados todos los derechos Estaacute prohibido bajo las sanciones penales y el resarcimiento civil previstos en las leyes reproducir registrar

o transmitir esta publicacioacuten iacutentegra o parcialmentepor cualquier sistema de recuperacioacuten y por cualquier medio

sea mecaacutenico electroacutenico magneacutetico electrooacuteptico por fotocopiao por cualquier otro sin la autorizacioacuten previa por escrito

de Editorial Siacutentesis S A

copy Concepcioacuten San Luis Costas Isabel Cantildeadas Osinski

copy EDITORIAL SIacuteNTESIS S AVallehermoso 34 28015 Madrid

Teleacutefono 91 593 20 98wwwsintesiscom

ISBN 978-84-9171-396-8Depoacutesito Legal M 27170-2019

Impreso en Espantildea - Printed in Spain

Consulte nuestra paacutegina web wwwsintesiscomEn ella encontraraacute el cataacutelogo completo y comentado

5

Iacutendice

IntroduccIoacuten 11

1 PlanIfIcando la InvestIgacIoacuten 13

11 Introduccioacuten 1312 Disentildeo y validez de la investigacioacuten 17

121 Validez interna y validez ecoloacutegica doacutende 18122 Validez externa cuaacutentos y quieacutenes 18123 Validez de la conclusioacuten estadiacutestica 19124 Validez de constructo medida 19125 Disentildeo y objetivos de la investigacioacuten 19

13 Conceptos claves 20131 Muestreo 21132 Poblacioacuten 21133 Censo 21134 Muestra 22135 Procedimientos de muestreo 22

14 Meacutetodos de seleccioacuten de las muestras 23141 Muestreo aleatorio simple 24142 Muestreo aleatorio estratificado 25143 Muestreo intencional u opinaacutetico 25144 Muestreo bola de nieve 25

15 Variables concepto operacionalizacioacuten tipos y escalas 2516 La matriz de datos 28

Herramientas estadiacutesticas en criminologiacutea

6

2 exPlorando los datos 31

21 Introduccioacuten 3122 Exploracioacuten de los datos para una variable 31

221 Distribucioacuten de frecuencias 32222 Representaciones graacuteficas Valores perdidos y atiacutepicos 34223 Representaciones numeacutericas iacutendices de tendencia central de varia-

bilidad y de posicioacuten 3723 Exploracioacuten de los datos para dos variables 47

231 Representaciones graacuteficas el diagrama de dispersioacuten 47232 Representaciones numeacutericas covarianza e iacutendices de correlacioacuten de

Pearson Spearman y ji-cuadrado 50

3 PuntuacIones tiacutePIcas queacute son y Para queacute sIrven 5931 Introduccioacuten 5932 Escalas y unidades de medida 6033 Las puntuaciones tiacutepicas y sus propiedades 6334 Puntuaciones tiacutepicas y percentiles 6535 Puntuaciones tiacutepicas y la distribucioacuten normal 6936 PuntuacionestiacutepicasyelcoeficientedecorrelacioacutendePearson 76

4 varIables aleatorIas 7941 Introduccioacuten 7942 Variable aleatoria discreta 79

421 La distribucioacuten binomial 8343 Variable aleatoria continua 85

431 La distribucioacuten normal 86432 La distribucioacuten χ2 de Pearson 88433 La distribucioacuten t de Student 90434 La distribucioacuten F de Fisher 92

44 Distribucioacuten muestral de un estadiacutestico 94441 Distribucioacuten muestral de la media 98

5 artIculando los resultados Para la toma de decIsIones 10551 Introduccioacuten 10552 Pruebasdesignificacioacuten 106

Iacutendice

7

521 El proceso en la prueba de significacioacuten 108522 Probabilidad asociada y nivel de significacioacuten 111523 Probabilidad asociada y tamantildeo de la muestra 113524 Error tipo I error tipo II y potencia 115525 Potencia y tamantildeo de la muestra 117526 Tamantildeo del efecto 119

53 Estimacioacuten de paraacutemetros 125531 Estimacioacuten puntual 125532 Estimacioacuten por intervalos 128533 Proceso de construccioacuten de los intervalos de confianza 130534 Factores que afectan a la precisioacuten del intervalo de confianza 132

6 el caso de una muestra 133

61 Introduccioacuten 13362 Intervalodeconfianzadelamedia 13463 Intervalodeconfianzadelavarianza 14164 Intervalodeconfianzadelamedianaydeotrospercentiles 14465 Intervalodeconfianzadelaproporcioacuten 14666 IntervalodeconfianzadelacorrelacioacutendePearson 14967 IntervalodeconfianzadelacorrelacioacutendeSpearman 15168 Tamantildeo de la muestra para los distintos paraacutemetros 15369 Estudio de la distribucioacuten de los datos forma e independencia de las

observaciones 157691 Normalidad de las observaciones 157692 Independencia de las observaciones 158

7 el caso de dos muestras 161

71 Introduccioacuten 16172 Muestras independientes y relacionadas 16173 El caso de dos medias independientes 16374 El caso de dos medias relacionadas o de medidas repetidas 16975 El caso de dos varianzas 173

751 Muestras independientes 173752 Muestras relacionadas 174

76 El caso de dos proporciones 176761 Muestras independientes 176762 Muestras relacionadas 178

Herramientas estadiacutesticas en criminologiacutea

8

77 Alternativas no parameacutetricas 181771 Prueba de Mann-Whitney 181772 Prueba de Wilcoxon 184

8 el caso de maacutes de dos muestras I 187

81 Introduccioacuten 18782 Nomenclatura 18883 ANOVA de un factor para muestras independientes 190

831 Supuestos 192832 Estadiacutestico de contraste F 193

84 ANOVA de un factor de medidas repetidas 196841 Supuestos 198842 Estadiacutestico de contraste 199

85 Resultados complementarios 200851 Tamantildeo del efecto 202852 Potencia 203853 Comparaciones muacuteltiples 203

86 Alternativas no parameacutetricas 207861 Kruskal-Wallis 207862 Freedman 209863 Comparaciones a posteriori 211

9 el caso de maacutes de dos muestras II 213

91 Introduccioacuten 21392 Disentildeo de dos factores completamente aleatorizado 216

921 Supuestos del modelo 216922 El estadiacutestico de contraste 217

93 Interpretacioacuten de los efectos principales y de la interaccioacuten 22394 Efectos simples 22595 Resultados complementarios 228

951 Tamantildeo del efecto 228952 Potencia 229953 Comparaciones muacuteltiples 229

96 Alternativa no parameacutetrica 23297 Disentildeos de maacutes de dos factores 234

Iacutendice

9

10 regresIoacuten lIneal 235

101 Introduccioacuten 235102 Modelo de regresioacuten lineal 236103 El ajuste del modelo datos 240

1031 Los coeficientes semiparciales 241104 Meacutetodos de construccioacuten del modelo 243105 Anaacutelisis de variables mediadoras y moderadoras 245

1051 Efecto de mediacioacuten 2461052 Efecto de moderacioacuten 248

106 Supuestosenelanaacutelisis 251107 Inferencia en la regresioacuten muacuteltiple 254108 Fiabilidad y validez del modelo 255109 Regresioacuten logiacutestica binaria 257

referencIas bIblIograacutefIcas 261

Contenidos digitales

Anexo 1 Tablas estadiacutesticas

Anexo 2 Acceso a descarga de programas

Anexo 3 Viacutedeos

Anexo 4 Datos simulados

Anexo 5 Actividades propuestas de replicacioacuten

31

2Explorando los datos

21 Introduccioacuten

La primera cuestioacuten que debe contemplarse antes de la aplicacioacuten de cualquier teacutecnica estadiacutestica es la relativa a la descripcioacuten de la muestra (en algunos casos excepcionales de la poblacioacuten) la segunda el estudio minucioso de las caracteriacutesticas que presentan lasvariablesobjetodeestudioquehansidocuantificadasmedianteelcorrespondienteproceso de medida o asignacioacuten numeacuterica

El anaacutelisis exploratorio de los datos implica una actitud curiosa que estaacute motivada porlapremisadequecuantomejorconozcaelinvestigadorlosdatosquetienemaacutesefi-cientementesepuedenusarparadesarrollaryrefinarsuspropuestasPortantoeltrabajode detective del investigador tendraacute como principal objetivo un abordaje exploratorio de datos para maximizar lo que pueda aprender a partir de ellos y de este modo entender el conjunto de las variables y su comportamiento

22 Exploracioacuten de los datos para una variable

Realizar un anaacutelisis exploratorio de los datos permitiraacute al investigador mediante un conjunto de procedimientos sencillos

ndash Conocer la estructura de los datos es decir ver las caracteriacutesticas que presenta su dis-tribucioacuten e intuir la distribucioacuten de probabilidad que presentan visualizando la forma y sus propiedades caracteriacutesticas (normalidad simetriacutea apuntamiento o curtosis)

ndash Detectar posibles errores en el disentildeondash Detectar errores en el proceso de recogida de datosndash Identificar casos atiacutepicos frutodediversas causasquepuedenabarcardesde

errores humanos hasta la presencia de valores anoacutemalos en relacioacuten con el con-junto general de valores

Herramientas estadiacutesticas en criminologiacutea

32

ndash Evaluar y tratar datos ausentes (datos que faltan en la matriz)ndash Comprobar los supuestos subyacentes a la teacutecnica estadiacutestica que se pretende

emplear para responder a las preguntas de la investigacioacuten

Para cumplir con estos objetivos deberaacute construir una distribucioacuten de frecuencias y acu-diralasrepresentacionesgraacuteficasynumeacutericasloqueseexplicaenlassiguientespaacuteginas

221 Distribucioacuten de frecuencias

Una vez se tiene la matriz de datos es el momento de empezar a organizar variables sujetos analizar los casos etc El primer paso es la construccioacuten de una distribucioacuten de frecuencias disposicioacuten de una variable en una tabla con sus modalidades que inclu-ye el recuento de casos en cada una los porcentajes etc Hay tantas distribuciones de frecuencias como variables contenga la matriz una distribucioacuten para cada una de las variables

cuadro 21 Matriz de datos

Sujeto Creencias Motivacioacuten Empatiacutea Distorsiones Emociones Control Responsabilidad

123456789

10

110100120120 50110 60 30 40 90

51503312251118305441

20 2 822 52116 32429

123110120131150110175133120149

11249

106347

13103142556127334090

81010 9 4 9 8 5 4 7

La matriz de datos del cuadro 21 es un ejemplo de los resultados obtenidos tras un programa de intervencioacuten a hombres maltratadores en la aplicacioacuten de una bateriacutea de cuestionarios para medir sus creencias sexistas su motivacioacuten para el cambio la empatiacuteaconlasviacutectimaslasdistorsionescognitivaslaidentificacioacutendeemocioneselcontrol de la ira y la asuncioacuten de responsabilidad En la matriz de datos estaacuten los sujetos con sus puntuaciones en las variables pero la visioacuten de estas resulta un tanto confusa al no estar ordenadas sus puntuaciones

Al extraer por ejemplo las variables creencias sexistas y asuncioacuten de responsabi-lidad y organizar cada una en una distribucioacuten de frecuencias (cuadro 22) se puede

Explorando los datos

33

observar todo el rango de valores y el nuacutemero de casos (ni) de sus modalidades Ense-guida se aprecia por ejemplo que las puntuaciones en creencias se concentran maacutes en torno a los valores maacutes altos de la distribucioacuten (hay 6 sujetos con valores entre 90 y 120) casi lo mismo que la responsabilidad cuyo mayor nuacutemero de casos se encuentra en los valores maacutes altos (6 sujetos entre 8 y 10) aunque en general sus puntuaciones esteacuten maacutes repartidas

cuadro 22 Distribuciones de frecuencias

Creencias ni Responsabilidad ni

30 40 50 60 70 80 90100110120

1 1 1 1 0 0 1 1 2 2

4 5 6 7 8 910

2 1 0 1 2 2 2

10

10

La ventaja fundamental de una distribucioacuten de frecuencias es la posibilidad de ex-traer conclusiones de la variable sin realizar siquiera un anaacutelisis estadiacutestico complejo Incluso sin perder sencillez se puede complementar con otros datos

ndashFrecuencia absoluta (ni) nuacutemero de casos de cada modalidad de la variablendashFrecuencia acumulada (na) recuento de las frecuencias absolutas en orden as-

cendente seguacuten el sentido de las modalidadesndashProporcioacuten o frecuencia relativa (pi) frecuencia absoluta nuacutemero total de ca-

sos (n)ndashProporcioacuten acumulada (pa) frecuencia acumulada (na) nuacutemero total de casos (n)ndashPorcentaje (Pi) proporcioacuten (pi) x 100ndashPorcentaje acumulado (Pa) proporcioacuten acumulada (pa) x 100

En el caso de la variable creencias sexistas quedariacutea tal y como se aprecia en el cuadro 23 En general sus valores se encuentran bastante repartidos en la distribucioacuten aunque el mayor porcentaje de casos se situacutea en los valores 110 y 120 y ninguacuten sujeto ha obtenido una puntuacioacuten de 70 u 80

Herramientas estadiacutesticas en criminologiacutea

34

cuadro 23 Distribucioacuten de frecuencias de la variable creencias

Creencias ni na pi pa Pi Pa

30 40 50 60 70 80 90100110120

1111001122

1 2 3 4 4 4 5 6 810

01 01 01 01

00

01 01 02 02

01020304040405060810

10101010 0 010102020

10 20 30 40 40 40 50 60 80100

n = 10 - 10 - 100 -

Cabe decir que la frecuencia proporcioacuten y porcentaje acumulados (na pa y Pa) solo se utilizan con variables cuantitativas Pensando por ejemplo en la variable estado civil con sus modalidades y frecuencias absolutas iquestqueacute sentido tendriacutea hacer un re-cuento acumulado de sus frecuencias Aunque ahora no se aprecie la utilidad de la acumulacioacuten maacutes adelante se comprobaraacute lo praacutectico que resulta para localizar sujetos de la distribucioacuten y para interpretar su posicioacuten

222 Representaciones graacuteficas Valores perdidos y atiacutepicos

Una manera sencilla de observar el comportamiento de una variable es mediante su re-presentacioacutengraacuteficanoenvanosufuncioacutenprincipalesobtenerinformacionesglobalesmedianteunsologolpedevistaExistengraacuteficasparatodoslosgustosperonosiempresuaspectosofisticadoessinoacutenimodeclaridadyexactitudLas representacionesmaacutessencillassonlasquemejorreflejanlascaracteriacutesticasdelasvariablesyestassonlasquese van a presentar a continuacioacuten

Cuandolavariableescualitativaocuantitativadiscretaungraacuteficomuyutilizadoesel diagrama de barras En la abscisa se colocan las modalidades de la variable y en la ordenada las frecuencias o porcentajes Tambieacuten se puede representar la variable medida endosomaacutesgruposparasucomparacioacutentalycomosepuedeverenlafigura21

Eneldiagramadelafigura21secomparaporejemploelgradodeiraenungrupo de hombres y otro de mujeres Las diferencias en las modalidades baja media alta y muy alta noestaacutenmuyclarasSepodriacuteadecirqueenlastressepresentanni-veles similares de ira

Explorando los datos

35

Frec

uenc

ia

10

8

6

4

2

0Baja Media Alta Muy alta

fIgura 21 Diagrama de barras

Cuando se trata de variables cuantitativas los diagramas se denominan histogra-mascomosemuestraen lafigura22Enesteejemploseobserva laevolucioacutendeun grupo de adolescentes diagnosticados de un trastorno adaptativo antes y despueacutes de una intervencioacuten para mejorar su grado de incertidumbre en temas relacionados con la identidad (objetivos a largo plazo eleccioacuten profesional patrones de amistad orientacioacutenyconductasexualetc)Enelprimergraacuteficotodoslossujetostienenunapuntuacioacuten superior a 35 situaacutendose un gran nuacutemero de ellos entre los valores 40 y 50 delaescalaEnelsegundograacuteficoesdondeseconstatalamejoriacuteatraseltratamientopuesto que ninguacuten sujeto supera el valor de 50 en la escala de incertidumbre ubicaacuten-doseunelevadonuacutemerodeellosentrelosvalores10y30Setratadedoshistogramasbien sencillos que arrojan mucha informacioacuten Es importante sentildealar que se debe res-petarelorigendecoordenadasenambosgraacuteficossinoresultandifiacutecilesdecomparary pierden toda su funcioacuten de informar raacutepidamente de los cambios en una variable de su comportamiento en grupos distintos etc

Frec

uenc

ia

6

5

4

3

2

1

00 5 10 15 20 25 30 35 40 45 50 55 60 65 70

Grado de incertidumbre antes

Frec

uenc

ia

6

5

4

3

2

1

00 5 10 15 20 25 30 35 40 45 50 55 60 65 70

Grado de incertidumbre despueacutes

fIgura 22 Histograma de la misma variable en dos momentos distintos

Herramientas estadiacutesticas en criminologiacutea

36

Ungraacuteficodignodemencioacuteneslacurva normal que es el modelo prototipo contra el que se suelen comparar la mayoriacutea de las variables cuando se trabaja con meacutetrica cuantitativaSecaracterizaporsersimeacutetricaypresentarunaliacutenealisaosuavizadacondos colas de igual longitud lo que implica que el porcentaje de casos en ambas es ideacuten-ticoEnrealidadsetratadeunhistogramacuandosehanrecogidoinfinitosdatosdelavariable en otras palabras se trata de un modelo teoacuterico

Sinembargoypeseaseresteelmodeloporantonomasianotodaslasvariablesse acercan a esta distribucioacuten es maacutes en muchas ocasiones es extremadamente com-plicado siquiera encontrar variables que se asemejen a eacutel La situacioacuten maacutes habitual es que cada una de las variables que se haya medido presente diferencias tanto en localizacioacutencomoenformaydispersioacutenrespectoalmodelorepresentadoenlafigu-ra 23 de ahiacute la importancia de describir para cada variable estas caracteriacutesticas lo que permitiraacute evaluar el grado de semejanza con el modelo teoacuterico sobre el que descansaraacute el anaacutelisis de datos

Dispersioacuten

LocalizacioacutenCola izquierda Cola derecha

fIgura 23 Curva normal

Un aspecto que condicionaraacute en gran medida la obtencioacuten de representaciones nu-meacutericas son los casos raros o atiacutepicos Un valor raro hace referencia a un sujeto que presenta un comportamiento muy diferente del resto normalmente porque tiene pun-tuaciones extremas por encima o por debajo de la cola de la distribucioacuten lo que provoca que esta se aleje de una normal Una de las consecuencias de la presencia de outliers porejemploeseldesplazamientoartificialdelamediahaciaarribaohaciadebajocon-virtieacutendolosenobservacionesinfluyentes(Kaplan2000)

LapresenciadeestosdatospuededebersesimplementeaerroresdecodificacioacutenBajo tal circunstancia son faacutecilmente detectables mediante un anaacutelisis de frecuencias

Explorando los datos

37

quepermitaidentificarvaloresfueradelrangoadmisibleEncualquiercasolosva-lores raros son faacuteciles de identificarmediante una simple inspeccioacuten visual de larepresentacioacutengraacuteficaseobservanlossujetoscuyaspuntuacionesestaacutenmuyporen-cima o por debajo de la cola de la distribucioacuten o del intervalo establecido Una vez identificadoelsujetoenlabasededatoshabriacuteaqueeliminarloyvolverarepetirlosanaacutelisis Cuando son detectados hay que de plantearse si esos sujetos proceden de otra poblacioacuten distinta o si por el contrario perteneciendo a la poblacioacuten de referen-cia se trata de sujetos excepcionales El problema es que no siempre es faacutecil hacer esta distincioacuten

Por su parte los valores perdidos se deben a una gran variedad de circunstancias que pueden ocurrir durante una investigacioacuten y que estaacuten fuera del control del investigador Asiacuteporejemplopuedesucederquehaya fallosen losequipos (registrospsicofisio-loacutegicos por ejemplo) o que los sujetos no respondan deliberadamente a determinadas cuestiones o bien por muerte experimental

Ante los valores perdidos se deben considerar su cantidad y el grado en que afectan a la investigacioacuten En este caso no hay una respuesta clara y siacute una gran variedad de opiniones Cohen y Cohen (1983) entienden que es soportable hasta un 5 o 10 por ciento de casos perdidos En segundo lugar se ha de valorar si la estructura de los datos per-didosesaleatoriaosistemaacuteticaSiladistribucioacutendelosvaloresperdidosesaleatoriaestariacuteaindicandoquelossujetosenlosquehaypresentesvaloresperdidosdifierensolopor azar de aquellos en los que no estaacuten presentes Por tanto los resultados obtenidos en estos sujetos podriacutean ser generalizables al resto En el caso de que la distribucioacuten de datos perdidos siga un patroacuten sistemaacutetico se tratariacutea del caso contrario y por tanto no se deberiacutea ignorar esta circunstancia Es maacutes se deberiacutea hacer todo lo posible por intentar interpretar el comportamiento y naturaleza de la distribucioacuten de los valores perdidos (por queacute y coacutemo se distribuyen a lo largo de las distintas variables y de los sujetos)

223 Representaciones numeacutericas iacutendices de tendencia central de variabilidad y de posicioacuten

Enmuchoscasosunadistribucioacutende frecuenciasyuna representacioacutengraacuteficaseraacutenmaacutesquesuficientesparaentenderelcomportamientodeunavariableenungrupodesujetosSinembargocuandoelintereacutessecentraenlacomparacioacutendevariosgruposenlamismavariableoenmaacutesdeunatratarcontablasygraacuteficosymaacutestablasymaacutesgraacute-ficospuederesultarunpocoengorrosotantoparaelpropiomanejocomoparaellectorde los informes En situaciones asiacute puede ser maacutes apropiado trabajar con unos iacutendices quedescribandeformamaacutessencillalainformacioacutencontenidaenlasdistribucionesSetrata de los estadiacutesticos de una muestra iacutendices que ademaacutes de hacer manejable la in-formacioacuten contenida en los datos son la base sobre la que se sustenta la mayoriacutea de las teacutecnicas de anaacutelisis de datos

Herramientas estadiacutesticas en criminologiacutea

38

Los estadiacutesticos de tendencia central son aquellos que resumen el comportamiento de una variable en un solo valor representando asiacute al conjunto de sujetos en el que son calculados

La media aritmeacutetica es el iacutendice de tendencia central maacutes utilizado y su caacutelculo es tan simple como promediar todas las puntuaciones de un grupo en una variable tal y comoreflejansusfoacutermulasparadatosbrutosyparadatosdeunadistribucioacutendefre-cuencias

XXn

isum= X

n Xni isum

=sdot

donde Xi es la puntuacioacuten de un sujeto n es el tamantildeo de la muestra y ni la frecuencia absoluta

SeaelsiguienteejemploEnelserviciodepsiquiatriacuteadeuncentropenitenciariose ha observado que los internos drogodependientes con insomnio croacutenico muestran ciertasensibilidadinusualalruidoDebidoalasdificultadesqueconllevalaaplicacioacutende cuestionarios que midan la sonoridad subjetiva se decide evaluarlos con una prueba en la que deben interrumpir un sonido cuando les resulta molesto y se recoge el tiempo (en segundos) que tardan en pulsar el interruptor Los datos de diez pacientes son los siguientes

4 5 8 2 4 2 5 2 2 6

La media aritmeacutetica es

XXn

4 5 8 2 4 2 5 2 2 610

4010

4isum= =

+ + + + + + + + += =

Suponiendoqueenlossujetossinladolenciadescritalamediaaritmeacuteticaes8se-gundos se puede concluir que estos pacientes que han tardado en conjunto un promedio de 4 segundos en sentir el sonido como un ruido molesto presentan una sensibilidad al ruido mayor

Al agrupar los datos anteriores en una tabla (veacutease el cuadro 24) la media aritmeacute-tica que resulta es

X

n Xn

8 0 8 10 6 0 810

4010

4i isum=

sdot=

+ + + + + += =

Explorando los datos

39

cuadro 24 Caacutelculo de la media en una distribucioacuten de frecuencias

Xi ni ni Xi

2345678

4 0 2 2 1 0 1

8 0 810 6 0 8

ndash 10 40

Tal es la sencillez de la obtencioacuten de la media que se ha convertido en un estadiacutestico omnipresenteentodoinformedeinvestigacioacutenquetrateconvariablesSinembargoantes de su caacutelculo deberaacuten tenerse en cuenta las siguientes consideraciones

ndashEs muy sensible a cualquier variacioacuten en los datos Por ejemplo un error en la introduccioacuten de un valor numeacuterico puede resultar desastroso al calcularla

3 5 7 4 `X = 4753 5 7 40 `X = 1375

ndashNo se debe utilizar ante conjuntos de datos en los que hay casos extremos por-que deja de cumplir con su funcioacuten que es la de representar al conjunto

X 1 2 2 4 4 8 9 10 cuya media es`X = 5

iquestA quieacuten representa esta media si ni siquiera su valor estaacute en la distribucioacuten Porestosiempredeberaacuteiracompantildeadadeungraacuteficoobiensedebeinformarque los datos se ajustan a una distribucioacuten simeacutetrica

ndashConvariablescualitativasnotienesentidocalcularlaiquestsepuedeafirmarquelamedia aritmeacutetica del estado civil es 25 Tambieacuten hay que ser cautelosos con el resultado de algunas variables cuantitativas discretas como por ejemplo el nuacutemerodedelitosSepuededecirqueundelincuentehacometidoeldoblededelitos que otro pero iquestes pertinente hablar de un promedio de 35 delitos

La simplicidad en la obtencioacuten de la media aritmeacutetica la ha convertido en la estrella de los estadiacutesticos de tendencia central Doctos y legos la conocen y utilizan pero hay

Herramientas estadiacutesticas en criminologiacutea

40

que ser cautos porque los datos no estaacuten exentos de trampas En aquellos casos en los que no sea adecuado calcularla se puede probar con la moda o con la mediana

La moda es un iacutendice de tendencia central que representa el valor cuya frecuen-cia absoluta es la maacutes alta en la distribucioacuten Puede utilizarse con cualquier tipo de variable ya sea cualitativa o cuantitativa y su obtencioacuten es muy sencilla Los datos simplemente se ordenan y se ve cuaacutel se repite maacutes Ese valor es por tanto la moda de la distribucioacuten En el ejemplo de los pacientes con delirium por abstinencia la moda tanto con los datos brutos como agrupados en la distribucioacuten de frecuencias (cuadro 24) es 2 (y no 4 cuidado con esto) Este resultado se interpreta como que la mayoriacutea de los pacientes de este grupo tarda 2 segundos en sentir el ruido como molesto (Cabe sentildealar que la moda no coincide con la media lo que ya habla de una distribucioacuten asimeacutetrica)

Puede suceder que una distribucioacuten tenga dos valores con la maacutexima frecuencia la misma o muy similar pero que ambas se diferencien bastante del resto En estos casos se dice que la distribucioacuten presenta dos modas o que es bimodal

2 2 4 4 4 6 6 6 6 6 6 8 8 8 10 10 10 10 10 10 10

En los datos anteriores se tienen dos modas Mo1 = 6 y Mo2 = 10Cuando los valores de la moda son adyacentes algunos analistas toman como

estadiacutesticolamediadeambasSinembargoestonodebehacersepuestoqueelre-sultado puede carecer de sentido podriacutea tratarse de un valor que no existe en la dis-tribucioacuten Por otro lado iquestcuaacutel es el problema de presentar dos modas Precisamente lo anterior la obtencioacuten (o presentacioacuten) de dos modas permite ver hasta queacute punto el caacutelculo de una media es liacutecito En efecto si las dos modas son adyacentes y centra-das no seriacutea ninguacuten problema pero si no lo son esto debe advertir de que no hay que calcular la media

La mediana es un iacutendice que informa del dato de la distribucioacuten que la divide en dos partesigualesysedefineportantocomoaquelvalorquedejaporencimaypordebajoel 50 por ciento de las frecuencias Puede utilizarse con variables cualitativas cuyas mo-dalidades puedan ordenarse y con variables cuantitativas

Suobtencioacutenesenormementesencillauacutenicamentehayquelocalizarenlacolum-na de proporciones acumuladas de la tabla de la distribucioacuten el valor que comprenda el 05 y ver a queacute puntuacioacuten de la variable corresponde En el ejemplo (cuadro 25) tras obtener las proporciones acumuladas la mediana se localiza en la proporcioacuten acumulada 06 porque es la que incluye 05 (la anterior se queda en 04) por lo que la mediana es Md = 4 es decir el valor de la distribucioacuten que divide a los sujetos en dos grupos

Explorando los datos

41

cuadro 25 Localizacioacuten de la mediana

Xi ni pi pa

2345678

4 0 2 2 1 0 1

04000202010001

04040608090910

ndash 10 10

Cabe sentildealar que si su valor coincide con el de la media y el de la moda o son muy similares la distribucioacuten es simeacutetrica o muy cercana a la simetriacutea En cambio si los re-sultados para los tres iacutendices son muy diferentes hay que tener cuidado con la forma de la distribucioacuten y lo que se ha calculado Hayquerecordarqueunarepresentacioacutengraacuteficaes un complemento perfecto en los anaacutelisis para aclarar los resultados

Los iacutendices de posicioacuten son todos aquellos que permiten situar a un sujeto dentro de unadistribucioacutendefrecuenciasSunombregeneacutericoescuantiles y los maacutes utilizados en este contexto son los percentiles y los cuartiles

Los percentiles tambieacuten llamados centiles son las puntuaciones de la variable que dividen la distribucioacuten en cien partes iguales Hay por tanto 99 percentiles La nomen-clatura utilizada es Pk y su valor se interpreta como la puntuacioacuten que deja por debajo de siacute al k por ciento de los sujetos Por ejemplo si P20 = 9 se dice que 9 es el valor de la distribucioacuten que deja por debajo de siacute al 20 por ciento de los sujetos

Por su parte los cuartiles son las puntuaciones de la variable que dividen la distri-bucioacuten en cuatro partes iguales Hay por tanto tres cuartiles La nomenclatura utilizada es Qk (k = 1 2 o 3) y su valor se interpreta como la puntuacioacuten que deja por debajo de siacute al 25 k por ciento de los sujetos Por ejemplo si Q3 = 8 se dice que 8 es el valor de la distribucioacuten que deja por debajo de siacute al 75 por ciento de los sujetos

Obtener percentiles o cuartiles es tan sencillo como hacerlo con la mediana se bus-ca en la columna de las proporciones acumuladas o de los porcentajes acumulados de la distribucioacuten la proporcioacuten o porcentaje de intereacutes y se localiza la puntuacioacuten de la variable a la que pertenece

El cuadro 26 es el resultado de aplicar un test que mide conductas saacutedicas Un sujeto que por ejemplo obtiene una puntuacioacuten igual a 15 resulta que se situacutea en el percentil P77 y en el cuartil Q3 lo que lo coloca en los valores altos de la distribucioacuten Es claramente necesaria una raacutepida intervencioacuten

Herramientas estadiacutesticas en criminologiacutea

42

Los percentiles y los cuartiles permiten interpretar la situacioacuten de un sujeto en la distribucioacuten de la variable que se ha medido sin necesidad de conocer ni la puntuacioacuten directa ni el valor miacutenimo y maacuteximo de la distribucioacuten lo que resulta de gran utilidad

Por otro lado del cuadro 26 se desprende que la mediana se localiza en el percentil 50 y en el cuartil 2 siendo su valor igual a 12

En efecto en distribuciones simeacutetricas

Md = P50 = D5 = Q2

cuadro 26 Localizacioacuten de percentiles y cuartiles

Xi ni na pa Pk Qk

6 7 8 91011

12

13141516171819

8 4 8 5 710

9

11 9 7 8 4 4 6

8 12 20 25 32 42

51

62 71 78 86 90 94100

008012020025032042

051

062071078086090094100

P7P11P19P24P31P41

P50

P61P70P77P85P89P93P99

ndashndashndashndash

Q1ndash

Q2

ndashndash

Q3ndashndashndashndash

No todos somos iguales Bien es cierto que entre las personas existen ciertos com-portamientos similares pero siempre hay diferencias individuales Mientras que los procesoscomogrupovienencuantificadosconlosiacutendicesdetendenciacentral(mediamedianamodaetc)lasdiferenciasindividualesseveraacutenreflejadasenlosiacutendices de variabilidad Dicho con otras palabras estos iacutendices permitiraacuten saber cuaacutento se distan-cian los individuos del sujeto promedio En el ejemplo que se presenta se recogen las puntuaciones de cinco criminales obtenidas en egocentrismo ilimitado

X1 10 11 12 13 14

La media calculada es`X=12Sinembargolosregistrosmuestrandiferenciasentreellos por lo que cada uno se distancia de su media

Explorando los datos

43

10 ndash 12 = ndash2 11 ndash 12 = ndash1 12 ndash 12 = 0 13 ndash 12 = 1 y 14 ndash 12 = 2

Los resultados muestran alejamientos positivos y negativos (unos son maacutes ego-ceacutentricos y otros menos con respecto a la media de 12) con lo que se podriacutea plantear el caacutelculo del promedio de esas distancias como iacutendice de variabilidad En efecto esto es precisamente lo que hace el estadiacutestico desviacioacuten media

sum=

minusDM

(X X)nXi

1

Sufoacutermulaclaramentereflejacuaacutentosealejanenpromediolaspuntuacionesdesumedia Aplicaacutendola a los datos del ejemplo

sum=

minus=

minus + minus + + +=DM

(X X)n

( 2) ( 1) 0 1 25

0Xi

1

Habiendo constatado las diferencias individuales iquestcoacutemo es posible que el prome-dio de distancias sea igual a cero La razoacuten es muy sencilla las diferencias son unas positivas y otras negativas compensaacutendose las unas con las otras y siempre va a ocurrir que la suma de esas diferencias sea igual a 0 ya que son distancias a un punto central que es la media

Entonces si la desviacioacuten media siempre va a ser igual a cero hay que buscar otro iacutendice que siendo tan sencillo e informativo como este solvente el problema Una po-sibilidad seriacutea trabajar con las diferencias en valores absolutos pero estos resultan poco manejables matemaacuteticamente y por tanto poco convincentes

Otra opcioacuten es calcular las diferencias elevarlas al cuadrado y a partir de ahiacute obte-ner su promedio Un iacutendice de dispersioacuten computado asiacute se denomina varianza

sum=

minusS

(X X)nX

2 i2

Aplicaacutendolo a los datos

sum=

minus=

+ + + +=S

(X X )n

4 1 0 1 45

2X2 i 1

2

1

Una foacutermula maacutes raacutepida de obtener la varianza sobre todo cuando se manejan mu-chos datos es mediante la siguiente expresioacuten

Page 3: Herramientas estadísticas en criminología · 2019. 10. 10. · Herramientas estadísticas en criminología Concepción San Luis Costas Isabel Cañadas Osinski. Reservados todos

Herramientas estadiacutesticas en criminologiacutea

Concepcioacuten San Luis Costas Isabel Cantildeadas Osinski

Reservados todos los derechos Estaacute prohibido bajo las sanciones penales y el resarcimiento civil previstos en las leyes reproducir registrar

o transmitir esta publicacioacuten iacutentegra o parcialmentepor cualquier sistema de recuperacioacuten y por cualquier medio

sea mecaacutenico electroacutenico magneacutetico electrooacuteptico por fotocopiao por cualquier otro sin la autorizacioacuten previa por escrito

de Editorial Siacutentesis S A

copy Concepcioacuten San Luis Costas Isabel Cantildeadas Osinski

copy EDITORIAL SIacuteNTESIS S AVallehermoso 34 28015 Madrid

Teleacutefono 91 593 20 98wwwsintesiscom

ISBN 978-84-9171-396-8Depoacutesito Legal M 27170-2019

Impreso en Espantildea - Printed in Spain

Consulte nuestra paacutegina web wwwsintesiscomEn ella encontraraacute el cataacutelogo completo y comentado

5

Iacutendice

IntroduccIoacuten 11

1 PlanIfIcando la InvestIgacIoacuten 13

11 Introduccioacuten 1312 Disentildeo y validez de la investigacioacuten 17

121 Validez interna y validez ecoloacutegica doacutende 18122 Validez externa cuaacutentos y quieacutenes 18123 Validez de la conclusioacuten estadiacutestica 19124 Validez de constructo medida 19125 Disentildeo y objetivos de la investigacioacuten 19

13 Conceptos claves 20131 Muestreo 21132 Poblacioacuten 21133 Censo 21134 Muestra 22135 Procedimientos de muestreo 22

14 Meacutetodos de seleccioacuten de las muestras 23141 Muestreo aleatorio simple 24142 Muestreo aleatorio estratificado 25143 Muestreo intencional u opinaacutetico 25144 Muestreo bola de nieve 25

15 Variables concepto operacionalizacioacuten tipos y escalas 2516 La matriz de datos 28

Herramientas estadiacutesticas en criminologiacutea

6

2 exPlorando los datos 31

21 Introduccioacuten 3122 Exploracioacuten de los datos para una variable 31

221 Distribucioacuten de frecuencias 32222 Representaciones graacuteficas Valores perdidos y atiacutepicos 34223 Representaciones numeacutericas iacutendices de tendencia central de varia-

bilidad y de posicioacuten 3723 Exploracioacuten de los datos para dos variables 47

231 Representaciones graacuteficas el diagrama de dispersioacuten 47232 Representaciones numeacutericas covarianza e iacutendices de correlacioacuten de

Pearson Spearman y ji-cuadrado 50

3 PuntuacIones tiacutePIcas queacute son y Para queacute sIrven 5931 Introduccioacuten 5932 Escalas y unidades de medida 6033 Las puntuaciones tiacutepicas y sus propiedades 6334 Puntuaciones tiacutepicas y percentiles 6535 Puntuaciones tiacutepicas y la distribucioacuten normal 6936 PuntuacionestiacutepicasyelcoeficientedecorrelacioacutendePearson 76

4 varIables aleatorIas 7941 Introduccioacuten 7942 Variable aleatoria discreta 79

421 La distribucioacuten binomial 8343 Variable aleatoria continua 85

431 La distribucioacuten normal 86432 La distribucioacuten χ2 de Pearson 88433 La distribucioacuten t de Student 90434 La distribucioacuten F de Fisher 92

44 Distribucioacuten muestral de un estadiacutestico 94441 Distribucioacuten muestral de la media 98

5 artIculando los resultados Para la toma de decIsIones 10551 Introduccioacuten 10552 Pruebasdesignificacioacuten 106

Iacutendice

7

521 El proceso en la prueba de significacioacuten 108522 Probabilidad asociada y nivel de significacioacuten 111523 Probabilidad asociada y tamantildeo de la muestra 113524 Error tipo I error tipo II y potencia 115525 Potencia y tamantildeo de la muestra 117526 Tamantildeo del efecto 119

53 Estimacioacuten de paraacutemetros 125531 Estimacioacuten puntual 125532 Estimacioacuten por intervalos 128533 Proceso de construccioacuten de los intervalos de confianza 130534 Factores que afectan a la precisioacuten del intervalo de confianza 132

6 el caso de una muestra 133

61 Introduccioacuten 13362 Intervalodeconfianzadelamedia 13463 Intervalodeconfianzadelavarianza 14164 Intervalodeconfianzadelamedianaydeotrospercentiles 14465 Intervalodeconfianzadelaproporcioacuten 14666 IntervalodeconfianzadelacorrelacioacutendePearson 14967 IntervalodeconfianzadelacorrelacioacutendeSpearman 15168 Tamantildeo de la muestra para los distintos paraacutemetros 15369 Estudio de la distribucioacuten de los datos forma e independencia de las

observaciones 157691 Normalidad de las observaciones 157692 Independencia de las observaciones 158

7 el caso de dos muestras 161

71 Introduccioacuten 16172 Muestras independientes y relacionadas 16173 El caso de dos medias independientes 16374 El caso de dos medias relacionadas o de medidas repetidas 16975 El caso de dos varianzas 173

751 Muestras independientes 173752 Muestras relacionadas 174

76 El caso de dos proporciones 176761 Muestras independientes 176762 Muestras relacionadas 178

Herramientas estadiacutesticas en criminologiacutea

8

77 Alternativas no parameacutetricas 181771 Prueba de Mann-Whitney 181772 Prueba de Wilcoxon 184

8 el caso de maacutes de dos muestras I 187

81 Introduccioacuten 18782 Nomenclatura 18883 ANOVA de un factor para muestras independientes 190

831 Supuestos 192832 Estadiacutestico de contraste F 193

84 ANOVA de un factor de medidas repetidas 196841 Supuestos 198842 Estadiacutestico de contraste 199

85 Resultados complementarios 200851 Tamantildeo del efecto 202852 Potencia 203853 Comparaciones muacuteltiples 203

86 Alternativas no parameacutetricas 207861 Kruskal-Wallis 207862 Freedman 209863 Comparaciones a posteriori 211

9 el caso de maacutes de dos muestras II 213

91 Introduccioacuten 21392 Disentildeo de dos factores completamente aleatorizado 216

921 Supuestos del modelo 216922 El estadiacutestico de contraste 217

93 Interpretacioacuten de los efectos principales y de la interaccioacuten 22394 Efectos simples 22595 Resultados complementarios 228

951 Tamantildeo del efecto 228952 Potencia 229953 Comparaciones muacuteltiples 229

96 Alternativa no parameacutetrica 23297 Disentildeos de maacutes de dos factores 234

Iacutendice

9

10 regresIoacuten lIneal 235

101 Introduccioacuten 235102 Modelo de regresioacuten lineal 236103 El ajuste del modelo datos 240

1031 Los coeficientes semiparciales 241104 Meacutetodos de construccioacuten del modelo 243105 Anaacutelisis de variables mediadoras y moderadoras 245

1051 Efecto de mediacioacuten 2461052 Efecto de moderacioacuten 248

106 Supuestosenelanaacutelisis 251107 Inferencia en la regresioacuten muacuteltiple 254108 Fiabilidad y validez del modelo 255109 Regresioacuten logiacutestica binaria 257

referencIas bIblIograacutefIcas 261

Contenidos digitales

Anexo 1 Tablas estadiacutesticas

Anexo 2 Acceso a descarga de programas

Anexo 3 Viacutedeos

Anexo 4 Datos simulados

Anexo 5 Actividades propuestas de replicacioacuten

31

2Explorando los datos

21 Introduccioacuten

La primera cuestioacuten que debe contemplarse antes de la aplicacioacuten de cualquier teacutecnica estadiacutestica es la relativa a la descripcioacuten de la muestra (en algunos casos excepcionales de la poblacioacuten) la segunda el estudio minucioso de las caracteriacutesticas que presentan lasvariablesobjetodeestudioquehansidocuantificadasmedianteelcorrespondienteproceso de medida o asignacioacuten numeacuterica

El anaacutelisis exploratorio de los datos implica una actitud curiosa que estaacute motivada porlapremisadequecuantomejorconozcaelinvestigadorlosdatosquetienemaacutesefi-cientementesepuedenusarparadesarrollaryrefinarsuspropuestasPortantoeltrabajode detective del investigador tendraacute como principal objetivo un abordaje exploratorio de datos para maximizar lo que pueda aprender a partir de ellos y de este modo entender el conjunto de las variables y su comportamiento

22 Exploracioacuten de los datos para una variable

Realizar un anaacutelisis exploratorio de los datos permitiraacute al investigador mediante un conjunto de procedimientos sencillos

ndash Conocer la estructura de los datos es decir ver las caracteriacutesticas que presenta su dis-tribucioacuten e intuir la distribucioacuten de probabilidad que presentan visualizando la forma y sus propiedades caracteriacutesticas (normalidad simetriacutea apuntamiento o curtosis)

ndash Detectar posibles errores en el disentildeondash Detectar errores en el proceso de recogida de datosndash Identificar casos atiacutepicos frutodediversas causasquepuedenabarcardesde

errores humanos hasta la presencia de valores anoacutemalos en relacioacuten con el con-junto general de valores

Herramientas estadiacutesticas en criminologiacutea

32

ndash Evaluar y tratar datos ausentes (datos que faltan en la matriz)ndash Comprobar los supuestos subyacentes a la teacutecnica estadiacutestica que se pretende

emplear para responder a las preguntas de la investigacioacuten

Para cumplir con estos objetivos deberaacute construir una distribucioacuten de frecuencias y acu-diralasrepresentacionesgraacuteficasynumeacutericasloqueseexplicaenlassiguientespaacuteginas

221 Distribucioacuten de frecuencias

Una vez se tiene la matriz de datos es el momento de empezar a organizar variables sujetos analizar los casos etc El primer paso es la construccioacuten de una distribucioacuten de frecuencias disposicioacuten de una variable en una tabla con sus modalidades que inclu-ye el recuento de casos en cada una los porcentajes etc Hay tantas distribuciones de frecuencias como variables contenga la matriz una distribucioacuten para cada una de las variables

cuadro 21 Matriz de datos

Sujeto Creencias Motivacioacuten Empatiacutea Distorsiones Emociones Control Responsabilidad

123456789

10

110100120120 50110 60 30 40 90

51503312251118305441

20 2 822 52116 32429

123110120131150110175133120149

11249

106347

13103142556127334090

81010 9 4 9 8 5 4 7

La matriz de datos del cuadro 21 es un ejemplo de los resultados obtenidos tras un programa de intervencioacuten a hombres maltratadores en la aplicacioacuten de una bateriacutea de cuestionarios para medir sus creencias sexistas su motivacioacuten para el cambio la empatiacuteaconlasviacutectimaslasdistorsionescognitivaslaidentificacioacutendeemocioneselcontrol de la ira y la asuncioacuten de responsabilidad En la matriz de datos estaacuten los sujetos con sus puntuaciones en las variables pero la visioacuten de estas resulta un tanto confusa al no estar ordenadas sus puntuaciones

Al extraer por ejemplo las variables creencias sexistas y asuncioacuten de responsabi-lidad y organizar cada una en una distribucioacuten de frecuencias (cuadro 22) se puede

Explorando los datos

33

observar todo el rango de valores y el nuacutemero de casos (ni) de sus modalidades Ense-guida se aprecia por ejemplo que las puntuaciones en creencias se concentran maacutes en torno a los valores maacutes altos de la distribucioacuten (hay 6 sujetos con valores entre 90 y 120) casi lo mismo que la responsabilidad cuyo mayor nuacutemero de casos se encuentra en los valores maacutes altos (6 sujetos entre 8 y 10) aunque en general sus puntuaciones esteacuten maacutes repartidas

cuadro 22 Distribuciones de frecuencias

Creencias ni Responsabilidad ni

30 40 50 60 70 80 90100110120

1 1 1 1 0 0 1 1 2 2

4 5 6 7 8 910

2 1 0 1 2 2 2

10

10

La ventaja fundamental de una distribucioacuten de frecuencias es la posibilidad de ex-traer conclusiones de la variable sin realizar siquiera un anaacutelisis estadiacutestico complejo Incluso sin perder sencillez se puede complementar con otros datos

ndashFrecuencia absoluta (ni) nuacutemero de casos de cada modalidad de la variablendashFrecuencia acumulada (na) recuento de las frecuencias absolutas en orden as-

cendente seguacuten el sentido de las modalidadesndashProporcioacuten o frecuencia relativa (pi) frecuencia absoluta nuacutemero total de ca-

sos (n)ndashProporcioacuten acumulada (pa) frecuencia acumulada (na) nuacutemero total de casos (n)ndashPorcentaje (Pi) proporcioacuten (pi) x 100ndashPorcentaje acumulado (Pa) proporcioacuten acumulada (pa) x 100

En el caso de la variable creencias sexistas quedariacutea tal y como se aprecia en el cuadro 23 En general sus valores se encuentran bastante repartidos en la distribucioacuten aunque el mayor porcentaje de casos se situacutea en los valores 110 y 120 y ninguacuten sujeto ha obtenido una puntuacioacuten de 70 u 80

Herramientas estadiacutesticas en criminologiacutea

34

cuadro 23 Distribucioacuten de frecuencias de la variable creencias

Creencias ni na pi pa Pi Pa

30 40 50 60 70 80 90100110120

1111001122

1 2 3 4 4 4 5 6 810

01 01 01 01

00

01 01 02 02

01020304040405060810

10101010 0 010102020

10 20 30 40 40 40 50 60 80100

n = 10 - 10 - 100 -

Cabe decir que la frecuencia proporcioacuten y porcentaje acumulados (na pa y Pa) solo se utilizan con variables cuantitativas Pensando por ejemplo en la variable estado civil con sus modalidades y frecuencias absolutas iquestqueacute sentido tendriacutea hacer un re-cuento acumulado de sus frecuencias Aunque ahora no se aprecie la utilidad de la acumulacioacuten maacutes adelante se comprobaraacute lo praacutectico que resulta para localizar sujetos de la distribucioacuten y para interpretar su posicioacuten

222 Representaciones graacuteficas Valores perdidos y atiacutepicos

Una manera sencilla de observar el comportamiento de una variable es mediante su re-presentacioacutengraacuteficanoenvanosufuncioacutenprincipalesobtenerinformacionesglobalesmedianteunsologolpedevistaExistengraacuteficasparatodoslosgustosperonosiempresuaspectosofisticadoessinoacutenimodeclaridadyexactitudLas representacionesmaacutessencillassonlasquemejorreflejanlascaracteriacutesticasdelasvariablesyestassonlasquese van a presentar a continuacioacuten

Cuandolavariableescualitativaocuantitativadiscretaungraacuteficomuyutilizadoesel diagrama de barras En la abscisa se colocan las modalidades de la variable y en la ordenada las frecuencias o porcentajes Tambieacuten se puede representar la variable medida endosomaacutesgruposparasucomparacioacutentalycomosepuedeverenlafigura21

Eneldiagramadelafigura21secomparaporejemploelgradodeiraenungrupo de hombres y otro de mujeres Las diferencias en las modalidades baja media alta y muy alta noestaacutenmuyclarasSepodriacuteadecirqueenlastressepresentanni-veles similares de ira

Explorando los datos

35

Frec

uenc

ia

10

8

6

4

2

0Baja Media Alta Muy alta

fIgura 21 Diagrama de barras

Cuando se trata de variables cuantitativas los diagramas se denominan histogra-mascomosemuestraen lafigura22Enesteejemploseobserva laevolucioacutendeun grupo de adolescentes diagnosticados de un trastorno adaptativo antes y despueacutes de una intervencioacuten para mejorar su grado de incertidumbre en temas relacionados con la identidad (objetivos a largo plazo eleccioacuten profesional patrones de amistad orientacioacutenyconductasexualetc)Enelprimergraacuteficotodoslossujetostienenunapuntuacioacuten superior a 35 situaacutendose un gran nuacutemero de ellos entre los valores 40 y 50 delaescalaEnelsegundograacuteficoesdondeseconstatalamejoriacuteatraseltratamientopuesto que ninguacuten sujeto supera el valor de 50 en la escala de incertidumbre ubicaacuten-doseunelevadonuacutemerodeellosentrelosvalores10y30Setratadedoshistogramasbien sencillos que arrojan mucha informacioacuten Es importante sentildealar que se debe res-petarelorigendecoordenadasenambosgraacuteficossinoresultandifiacutecilesdecomparary pierden toda su funcioacuten de informar raacutepidamente de los cambios en una variable de su comportamiento en grupos distintos etc

Frec

uenc

ia

6

5

4

3

2

1

00 5 10 15 20 25 30 35 40 45 50 55 60 65 70

Grado de incertidumbre antes

Frec

uenc

ia

6

5

4

3

2

1

00 5 10 15 20 25 30 35 40 45 50 55 60 65 70

Grado de incertidumbre despueacutes

fIgura 22 Histograma de la misma variable en dos momentos distintos

Herramientas estadiacutesticas en criminologiacutea

36

Ungraacuteficodignodemencioacuteneslacurva normal que es el modelo prototipo contra el que se suelen comparar la mayoriacutea de las variables cuando se trabaja con meacutetrica cuantitativaSecaracterizaporsersimeacutetricaypresentarunaliacutenealisaosuavizadacondos colas de igual longitud lo que implica que el porcentaje de casos en ambas es ideacuten-ticoEnrealidadsetratadeunhistogramacuandosehanrecogidoinfinitosdatosdelavariable en otras palabras se trata de un modelo teoacuterico

Sinembargoypeseaseresteelmodeloporantonomasianotodaslasvariablesse acercan a esta distribucioacuten es maacutes en muchas ocasiones es extremadamente com-plicado siquiera encontrar variables que se asemejen a eacutel La situacioacuten maacutes habitual es que cada una de las variables que se haya medido presente diferencias tanto en localizacioacutencomoenformaydispersioacutenrespectoalmodelorepresentadoenlafigu-ra 23 de ahiacute la importancia de describir para cada variable estas caracteriacutesticas lo que permitiraacute evaluar el grado de semejanza con el modelo teoacuterico sobre el que descansaraacute el anaacutelisis de datos

Dispersioacuten

LocalizacioacutenCola izquierda Cola derecha

fIgura 23 Curva normal

Un aspecto que condicionaraacute en gran medida la obtencioacuten de representaciones nu-meacutericas son los casos raros o atiacutepicos Un valor raro hace referencia a un sujeto que presenta un comportamiento muy diferente del resto normalmente porque tiene pun-tuaciones extremas por encima o por debajo de la cola de la distribucioacuten lo que provoca que esta se aleje de una normal Una de las consecuencias de la presencia de outliers porejemploeseldesplazamientoartificialdelamediahaciaarribaohaciadebajocon-virtieacutendolosenobservacionesinfluyentes(Kaplan2000)

LapresenciadeestosdatospuededebersesimplementeaerroresdecodificacioacutenBajo tal circunstancia son faacutecilmente detectables mediante un anaacutelisis de frecuencias

Explorando los datos

37

quepermitaidentificarvaloresfueradelrangoadmisibleEncualquiercasolosva-lores raros son faacuteciles de identificarmediante una simple inspeccioacuten visual de larepresentacioacutengraacuteficaseobservanlossujetoscuyaspuntuacionesestaacutenmuyporen-cima o por debajo de la cola de la distribucioacuten o del intervalo establecido Una vez identificadoelsujetoenlabasededatoshabriacuteaqueeliminarloyvolverarepetirlosanaacutelisis Cuando son detectados hay que de plantearse si esos sujetos proceden de otra poblacioacuten distinta o si por el contrario perteneciendo a la poblacioacuten de referen-cia se trata de sujetos excepcionales El problema es que no siempre es faacutecil hacer esta distincioacuten

Por su parte los valores perdidos se deben a una gran variedad de circunstancias que pueden ocurrir durante una investigacioacuten y que estaacuten fuera del control del investigador Asiacuteporejemplopuedesucederquehaya fallosen losequipos (registrospsicofisio-loacutegicos por ejemplo) o que los sujetos no respondan deliberadamente a determinadas cuestiones o bien por muerte experimental

Ante los valores perdidos se deben considerar su cantidad y el grado en que afectan a la investigacioacuten En este caso no hay una respuesta clara y siacute una gran variedad de opiniones Cohen y Cohen (1983) entienden que es soportable hasta un 5 o 10 por ciento de casos perdidos En segundo lugar se ha de valorar si la estructura de los datos per-didosesaleatoriaosistemaacuteticaSiladistribucioacutendelosvaloresperdidosesaleatoriaestariacuteaindicandoquelossujetosenlosquehaypresentesvaloresperdidosdifierensolopor azar de aquellos en los que no estaacuten presentes Por tanto los resultados obtenidos en estos sujetos podriacutean ser generalizables al resto En el caso de que la distribucioacuten de datos perdidos siga un patroacuten sistemaacutetico se tratariacutea del caso contrario y por tanto no se deberiacutea ignorar esta circunstancia Es maacutes se deberiacutea hacer todo lo posible por intentar interpretar el comportamiento y naturaleza de la distribucioacuten de los valores perdidos (por queacute y coacutemo se distribuyen a lo largo de las distintas variables y de los sujetos)

223 Representaciones numeacutericas iacutendices de tendencia central de variabilidad y de posicioacuten

Enmuchoscasosunadistribucioacutende frecuenciasyuna representacioacutengraacuteficaseraacutenmaacutesquesuficientesparaentenderelcomportamientodeunavariableenungrupodesujetosSinembargocuandoelintereacutessecentraenlacomparacioacutendevariosgruposenlamismavariableoenmaacutesdeunatratarcontablasygraacuteficosymaacutestablasymaacutesgraacute-ficospuederesultarunpocoengorrosotantoparaelpropiomanejocomoparaellectorde los informes En situaciones asiacute puede ser maacutes apropiado trabajar con unos iacutendices quedescribandeformamaacutessencillalainformacioacutencontenidaenlasdistribucionesSetrata de los estadiacutesticos de una muestra iacutendices que ademaacutes de hacer manejable la in-formacioacuten contenida en los datos son la base sobre la que se sustenta la mayoriacutea de las teacutecnicas de anaacutelisis de datos

Herramientas estadiacutesticas en criminologiacutea

38

Los estadiacutesticos de tendencia central son aquellos que resumen el comportamiento de una variable en un solo valor representando asiacute al conjunto de sujetos en el que son calculados

La media aritmeacutetica es el iacutendice de tendencia central maacutes utilizado y su caacutelculo es tan simple como promediar todas las puntuaciones de un grupo en una variable tal y comoreflejansusfoacutermulasparadatosbrutosyparadatosdeunadistribucioacutendefre-cuencias

XXn

isum= X

n Xni isum

=sdot

donde Xi es la puntuacioacuten de un sujeto n es el tamantildeo de la muestra y ni la frecuencia absoluta

SeaelsiguienteejemploEnelserviciodepsiquiatriacuteadeuncentropenitenciariose ha observado que los internos drogodependientes con insomnio croacutenico muestran ciertasensibilidadinusualalruidoDebidoalasdificultadesqueconllevalaaplicacioacutende cuestionarios que midan la sonoridad subjetiva se decide evaluarlos con una prueba en la que deben interrumpir un sonido cuando les resulta molesto y se recoge el tiempo (en segundos) que tardan en pulsar el interruptor Los datos de diez pacientes son los siguientes

4 5 8 2 4 2 5 2 2 6

La media aritmeacutetica es

XXn

4 5 8 2 4 2 5 2 2 610

4010

4isum= =

+ + + + + + + + += =

Suponiendoqueenlossujetossinladolenciadescritalamediaaritmeacuteticaes8se-gundos se puede concluir que estos pacientes que han tardado en conjunto un promedio de 4 segundos en sentir el sonido como un ruido molesto presentan una sensibilidad al ruido mayor

Al agrupar los datos anteriores en una tabla (veacutease el cuadro 24) la media aritmeacute-tica que resulta es

X

n Xn

8 0 8 10 6 0 810

4010

4i isum=

sdot=

+ + + + + += =

Explorando los datos

39

cuadro 24 Caacutelculo de la media en una distribucioacuten de frecuencias

Xi ni ni Xi

2345678

4 0 2 2 1 0 1

8 0 810 6 0 8

ndash 10 40

Tal es la sencillez de la obtencioacuten de la media que se ha convertido en un estadiacutestico omnipresenteentodoinformedeinvestigacioacutenquetrateconvariablesSinembargoantes de su caacutelculo deberaacuten tenerse en cuenta las siguientes consideraciones

ndashEs muy sensible a cualquier variacioacuten en los datos Por ejemplo un error en la introduccioacuten de un valor numeacuterico puede resultar desastroso al calcularla

3 5 7 4 `X = 4753 5 7 40 `X = 1375

ndashNo se debe utilizar ante conjuntos de datos en los que hay casos extremos por-que deja de cumplir con su funcioacuten que es la de representar al conjunto

X 1 2 2 4 4 8 9 10 cuya media es`X = 5

iquestA quieacuten representa esta media si ni siquiera su valor estaacute en la distribucioacuten Porestosiempredeberaacuteiracompantildeadadeungraacuteficoobiensedebeinformarque los datos se ajustan a una distribucioacuten simeacutetrica

ndashConvariablescualitativasnotienesentidocalcularlaiquestsepuedeafirmarquelamedia aritmeacutetica del estado civil es 25 Tambieacuten hay que ser cautelosos con el resultado de algunas variables cuantitativas discretas como por ejemplo el nuacutemerodedelitosSepuededecirqueundelincuentehacometidoeldoblededelitos que otro pero iquestes pertinente hablar de un promedio de 35 delitos

La simplicidad en la obtencioacuten de la media aritmeacutetica la ha convertido en la estrella de los estadiacutesticos de tendencia central Doctos y legos la conocen y utilizan pero hay

Herramientas estadiacutesticas en criminologiacutea

40

que ser cautos porque los datos no estaacuten exentos de trampas En aquellos casos en los que no sea adecuado calcularla se puede probar con la moda o con la mediana

La moda es un iacutendice de tendencia central que representa el valor cuya frecuen-cia absoluta es la maacutes alta en la distribucioacuten Puede utilizarse con cualquier tipo de variable ya sea cualitativa o cuantitativa y su obtencioacuten es muy sencilla Los datos simplemente se ordenan y se ve cuaacutel se repite maacutes Ese valor es por tanto la moda de la distribucioacuten En el ejemplo de los pacientes con delirium por abstinencia la moda tanto con los datos brutos como agrupados en la distribucioacuten de frecuencias (cuadro 24) es 2 (y no 4 cuidado con esto) Este resultado se interpreta como que la mayoriacutea de los pacientes de este grupo tarda 2 segundos en sentir el ruido como molesto (Cabe sentildealar que la moda no coincide con la media lo que ya habla de una distribucioacuten asimeacutetrica)

Puede suceder que una distribucioacuten tenga dos valores con la maacutexima frecuencia la misma o muy similar pero que ambas se diferencien bastante del resto En estos casos se dice que la distribucioacuten presenta dos modas o que es bimodal

2 2 4 4 4 6 6 6 6 6 6 8 8 8 10 10 10 10 10 10 10

En los datos anteriores se tienen dos modas Mo1 = 6 y Mo2 = 10Cuando los valores de la moda son adyacentes algunos analistas toman como

estadiacutesticolamediadeambasSinembargoestonodebehacersepuestoqueelre-sultado puede carecer de sentido podriacutea tratarse de un valor que no existe en la dis-tribucioacuten Por otro lado iquestcuaacutel es el problema de presentar dos modas Precisamente lo anterior la obtencioacuten (o presentacioacuten) de dos modas permite ver hasta queacute punto el caacutelculo de una media es liacutecito En efecto si las dos modas son adyacentes y centra-das no seriacutea ninguacuten problema pero si no lo son esto debe advertir de que no hay que calcular la media

La mediana es un iacutendice que informa del dato de la distribucioacuten que la divide en dos partesigualesysedefineportantocomoaquelvalorquedejaporencimaypordebajoel 50 por ciento de las frecuencias Puede utilizarse con variables cualitativas cuyas mo-dalidades puedan ordenarse y con variables cuantitativas

Suobtencioacutenesenormementesencillauacutenicamentehayquelocalizarenlacolum-na de proporciones acumuladas de la tabla de la distribucioacuten el valor que comprenda el 05 y ver a queacute puntuacioacuten de la variable corresponde En el ejemplo (cuadro 25) tras obtener las proporciones acumuladas la mediana se localiza en la proporcioacuten acumulada 06 porque es la que incluye 05 (la anterior se queda en 04) por lo que la mediana es Md = 4 es decir el valor de la distribucioacuten que divide a los sujetos en dos grupos

Explorando los datos

41

cuadro 25 Localizacioacuten de la mediana

Xi ni pi pa

2345678

4 0 2 2 1 0 1

04000202010001

04040608090910

ndash 10 10

Cabe sentildealar que si su valor coincide con el de la media y el de la moda o son muy similares la distribucioacuten es simeacutetrica o muy cercana a la simetriacutea En cambio si los re-sultados para los tres iacutendices son muy diferentes hay que tener cuidado con la forma de la distribucioacuten y lo que se ha calculado Hayquerecordarqueunarepresentacioacutengraacuteficaes un complemento perfecto en los anaacutelisis para aclarar los resultados

Los iacutendices de posicioacuten son todos aquellos que permiten situar a un sujeto dentro de unadistribucioacutendefrecuenciasSunombregeneacutericoescuantiles y los maacutes utilizados en este contexto son los percentiles y los cuartiles

Los percentiles tambieacuten llamados centiles son las puntuaciones de la variable que dividen la distribucioacuten en cien partes iguales Hay por tanto 99 percentiles La nomen-clatura utilizada es Pk y su valor se interpreta como la puntuacioacuten que deja por debajo de siacute al k por ciento de los sujetos Por ejemplo si P20 = 9 se dice que 9 es el valor de la distribucioacuten que deja por debajo de siacute al 20 por ciento de los sujetos

Por su parte los cuartiles son las puntuaciones de la variable que dividen la distri-bucioacuten en cuatro partes iguales Hay por tanto tres cuartiles La nomenclatura utilizada es Qk (k = 1 2 o 3) y su valor se interpreta como la puntuacioacuten que deja por debajo de siacute al 25 k por ciento de los sujetos Por ejemplo si Q3 = 8 se dice que 8 es el valor de la distribucioacuten que deja por debajo de siacute al 75 por ciento de los sujetos

Obtener percentiles o cuartiles es tan sencillo como hacerlo con la mediana se bus-ca en la columna de las proporciones acumuladas o de los porcentajes acumulados de la distribucioacuten la proporcioacuten o porcentaje de intereacutes y se localiza la puntuacioacuten de la variable a la que pertenece

El cuadro 26 es el resultado de aplicar un test que mide conductas saacutedicas Un sujeto que por ejemplo obtiene una puntuacioacuten igual a 15 resulta que se situacutea en el percentil P77 y en el cuartil Q3 lo que lo coloca en los valores altos de la distribucioacuten Es claramente necesaria una raacutepida intervencioacuten

Herramientas estadiacutesticas en criminologiacutea

42

Los percentiles y los cuartiles permiten interpretar la situacioacuten de un sujeto en la distribucioacuten de la variable que se ha medido sin necesidad de conocer ni la puntuacioacuten directa ni el valor miacutenimo y maacuteximo de la distribucioacuten lo que resulta de gran utilidad

Por otro lado del cuadro 26 se desprende que la mediana se localiza en el percentil 50 y en el cuartil 2 siendo su valor igual a 12

En efecto en distribuciones simeacutetricas

Md = P50 = D5 = Q2

cuadro 26 Localizacioacuten de percentiles y cuartiles

Xi ni na pa Pk Qk

6 7 8 91011

12

13141516171819

8 4 8 5 710

9

11 9 7 8 4 4 6

8 12 20 25 32 42

51

62 71 78 86 90 94100

008012020025032042

051

062071078086090094100

P7P11P19P24P31P41

P50

P61P70P77P85P89P93P99

ndashndashndashndash

Q1ndash

Q2

ndashndash

Q3ndashndashndashndash

No todos somos iguales Bien es cierto que entre las personas existen ciertos com-portamientos similares pero siempre hay diferencias individuales Mientras que los procesoscomogrupovienencuantificadosconlosiacutendicesdetendenciacentral(mediamedianamodaetc)lasdiferenciasindividualesseveraacutenreflejadasenlosiacutendices de variabilidad Dicho con otras palabras estos iacutendices permitiraacuten saber cuaacutento se distan-cian los individuos del sujeto promedio En el ejemplo que se presenta se recogen las puntuaciones de cinco criminales obtenidas en egocentrismo ilimitado

X1 10 11 12 13 14

La media calculada es`X=12Sinembargolosregistrosmuestrandiferenciasentreellos por lo que cada uno se distancia de su media

Explorando los datos

43

10 ndash 12 = ndash2 11 ndash 12 = ndash1 12 ndash 12 = 0 13 ndash 12 = 1 y 14 ndash 12 = 2

Los resultados muestran alejamientos positivos y negativos (unos son maacutes ego-ceacutentricos y otros menos con respecto a la media de 12) con lo que se podriacutea plantear el caacutelculo del promedio de esas distancias como iacutendice de variabilidad En efecto esto es precisamente lo que hace el estadiacutestico desviacioacuten media

sum=

minusDM

(X X)nXi

1

Sufoacutermulaclaramentereflejacuaacutentosealejanenpromediolaspuntuacionesdesumedia Aplicaacutendola a los datos del ejemplo

sum=

minus=

minus + minus + + +=DM

(X X)n

( 2) ( 1) 0 1 25

0Xi

1

Habiendo constatado las diferencias individuales iquestcoacutemo es posible que el prome-dio de distancias sea igual a cero La razoacuten es muy sencilla las diferencias son unas positivas y otras negativas compensaacutendose las unas con las otras y siempre va a ocurrir que la suma de esas diferencias sea igual a 0 ya que son distancias a un punto central que es la media

Entonces si la desviacioacuten media siempre va a ser igual a cero hay que buscar otro iacutendice que siendo tan sencillo e informativo como este solvente el problema Una po-sibilidad seriacutea trabajar con las diferencias en valores absolutos pero estos resultan poco manejables matemaacuteticamente y por tanto poco convincentes

Otra opcioacuten es calcular las diferencias elevarlas al cuadrado y a partir de ahiacute obte-ner su promedio Un iacutendice de dispersioacuten computado asiacute se denomina varianza

sum=

minusS

(X X)nX

2 i2

Aplicaacutendolo a los datos

sum=

minus=

+ + + +=S

(X X )n

4 1 0 1 45

2X2 i 1

2

1

Una foacutermula maacutes raacutepida de obtener la varianza sobre todo cuando se manejan mu-chos datos es mediante la siguiente expresioacuten

Page 4: Herramientas estadísticas en criminología · 2019. 10. 10. · Herramientas estadísticas en criminología Concepción San Luis Costas Isabel Cañadas Osinski. Reservados todos

Reservados todos los derechos Estaacute prohibido bajo las sanciones penales y el resarcimiento civil previstos en las leyes reproducir registrar

o transmitir esta publicacioacuten iacutentegra o parcialmentepor cualquier sistema de recuperacioacuten y por cualquier medio

sea mecaacutenico electroacutenico magneacutetico electrooacuteptico por fotocopiao por cualquier otro sin la autorizacioacuten previa por escrito

de Editorial Siacutentesis S A

copy Concepcioacuten San Luis Costas Isabel Cantildeadas Osinski

copy EDITORIAL SIacuteNTESIS S AVallehermoso 34 28015 Madrid

Teleacutefono 91 593 20 98wwwsintesiscom

ISBN 978-84-9171-396-8Depoacutesito Legal M 27170-2019

Impreso en Espantildea - Printed in Spain

Consulte nuestra paacutegina web wwwsintesiscomEn ella encontraraacute el cataacutelogo completo y comentado

5

Iacutendice

IntroduccIoacuten 11

1 PlanIfIcando la InvestIgacIoacuten 13

11 Introduccioacuten 1312 Disentildeo y validez de la investigacioacuten 17

121 Validez interna y validez ecoloacutegica doacutende 18122 Validez externa cuaacutentos y quieacutenes 18123 Validez de la conclusioacuten estadiacutestica 19124 Validez de constructo medida 19125 Disentildeo y objetivos de la investigacioacuten 19

13 Conceptos claves 20131 Muestreo 21132 Poblacioacuten 21133 Censo 21134 Muestra 22135 Procedimientos de muestreo 22

14 Meacutetodos de seleccioacuten de las muestras 23141 Muestreo aleatorio simple 24142 Muestreo aleatorio estratificado 25143 Muestreo intencional u opinaacutetico 25144 Muestreo bola de nieve 25

15 Variables concepto operacionalizacioacuten tipos y escalas 2516 La matriz de datos 28

Herramientas estadiacutesticas en criminologiacutea

6

2 exPlorando los datos 31

21 Introduccioacuten 3122 Exploracioacuten de los datos para una variable 31

221 Distribucioacuten de frecuencias 32222 Representaciones graacuteficas Valores perdidos y atiacutepicos 34223 Representaciones numeacutericas iacutendices de tendencia central de varia-

bilidad y de posicioacuten 3723 Exploracioacuten de los datos para dos variables 47

231 Representaciones graacuteficas el diagrama de dispersioacuten 47232 Representaciones numeacutericas covarianza e iacutendices de correlacioacuten de

Pearson Spearman y ji-cuadrado 50

3 PuntuacIones tiacutePIcas queacute son y Para queacute sIrven 5931 Introduccioacuten 5932 Escalas y unidades de medida 6033 Las puntuaciones tiacutepicas y sus propiedades 6334 Puntuaciones tiacutepicas y percentiles 6535 Puntuaciones tiacutepicas y la distribucioacuten normal 6936 PuntuacionestiacutepicasyelcoeficientedecorrelacioacutendePearson 76

4 varIables aleatorIas 7941 Introduccioacuten 7942 Variable aleatoria discreta 79

421 La distribucioacuten binomial 8343 Variable aleatoria continua 85

431 La distribucioacuten normal 86432 La distribucioacuten χ2 de Pearson 88433 La distribucioacuten t de Student 90434 La distribucioacuten F de Fisher 92

44 Distribucioacuten muestral de un estadiacutestico 94441 Distribucioacuten muestral de la media 98

5 artIculando los resultados Para la toma de decIsIones 10551 Introduccioacuten 10552 Pruebasdesignificacioacuten 106

Iacutendice

7

521 El proceso en la prueba de significacioacuten 108522 Probabilidad asociada y nivel de significacioacuten 111523 Probabilidad asociada y tamantildeo de la muestra 113524 Error tipo I error tipo II y potencia 115525 Potencia y tamantildeo de la muestra 117526 Tamantildeo del efecto 119

53 Estimacioacuten de paraacutemetros 125531 Estimacioacuten puntual 125532 Estimacioacuten por intervalos 128533 Proceso de construccioacuten de los intervalos de confianza 130534 Factores que afectan a la precisioacuten del intervalo de confianza 132

6 el caso de una muestra 133

61 Introduccioacuten 13362 Intervalodeconfianzadelamedia 13463 Intervalodeconfianzadelavarianza 14164 Intervalodeconfianzadelamedianaydeotrospercentiles 14465 Intervalodeconfianzadelaproporcioacuten 14666 IntervalodeconfianzadelacorrelacioacutendePearson 14967 IntervalodeconfianzadelacorrelacioacutendeSpearman 15168 Tamantildeo de la muestra para los distintos paraacutemetros 15369 Estudio de la distribucioacuten de los datos forma e independencia de las

observaciones 157691 Normalidad de las observaciones 157692 Independencia de las observaciones 158

7 el caso de dos muestras 161

71 Introduccioacuten 16172 Muestras independientes y relacionadas 16173 El caso de dos medias independientes 16374 El caso de dos medias relacionadas o de medidas repetidas 16975 El caso de dos varianzas 173

751 Muestras independientes 173752 Muestras relacionadas 174

76 El caso de dos proporciones 176761 Muestras independientes 176762 Muestras relacionadas 178

Herramientas estadiacutesticas en criminologiacutea

8

77 Alternativas no parameacutetricas 181771 Prueba de Mann-Whitney 181772 Prueba de Wilcoxon 184

8 el caso de maacutes de dos muestras I 187

81 Introduccioacuten 18782 Nomenclatura 18883 ANOVA de un factor para muestras independientes 190

831 Supuestos 192832 Estadiacutestico de contraste F 193

84 ANOVA de un factor de medidas repetidas 196841 Supuestos 198842 Estadiacutestico de contraste 199

85 Resultados complementarios 200851 Tamantildeo del efecto 202852 Potencia 203853 Comparaciones muacuteltiples 203

86 Alternativas no parameacutetricas 207861 Kruskal-Wallis 207862 Freedman 209863 Comparaciones a posteriori 211

9 el caso de maacutes de dos muestras II 213

91 Introduccioacuten 21392 Disentildeo de dos factores completamente aleatorizado 216

921 Supuestos del modelo 216922 El estadiacutestico de contraste 217

93 Interpretacioacuten de los efectos principales y de la interaccioacuten 22394 Efectos simples 22595 Resultados complementarios 228

951 Tamantildeo del efecto 228952 Potencia 229953 Comparaciones muacuteltiples 229

96 Alternativa no parameacutetrica 23297 Disentildeos de maacutes de dos factores 234

Iacutendice

9

10 regresIoacuten lIneal 235

101 Introduccioacuten 235102 Modelo de regresioacuten lineal 236103 El ajuste del modelo datos 240

1031 Los coeficientes semiparciales 241104 Meacutetodos de construccioacuten del modelo 243105 Anaacutelisis de variables mediadoras y moderadoras 245

1051 Efecto de mediacioacuten 2461052 Efecto de moderacioacuten 248

106 Supuestosenelanaacutelisis 251107 Inferencia en la regresioacuten muacuteltiple 254108 Fiabilidad y validez del modelo 255109 Regresioacuten logiacutestica binaria 257

referencIas bIblIograacutefIcas 261

Contenidos digitales

Anexo 1 Tablas estadiacutesticas

Anexo 2 Acceso a descarga de programas

Anexo 3 Viacutedeos

Anexo 4 Datos simulados

Anexo 5 Actividades propuestas de replicacioacuten

31

2Explorando los datos

21 Introduccioacuten

La primera cuestioacuten que debe contemplarse antes de la aplicacioacuten de cualquier teacutecnica estadiacutestica es la relativa a la descripcioacuten de la muestra (en algunos casos excepcionales de la poblacioacuten) la segunda el estudio minucioso de las caracteriacutesticas que presentan lasvariablesobjetodeestudioquehansidocuantificadasmedianteelcorrespondienteproceso de medida o asignacioacuten numeacuterica

El anaacutelisis exploratorio de los datos implica una actitud curiosa que estaacute motivada porlapremisadequecuantomejorconozcaelinvestigadorlosdatosquetienemaacutesefi-cientementesepuedenusarparadesarrollaryrefinarsuspropuestasPortantoeltrabajode detective del investigador tendraacute como principal objetivo un abordaje exploratorio de datos para maximizar lo que pueda aprender a partir de ellos y de este modo entender el conjunto de las variables y su comportamiento

22 Exploracioacuten de los datos para una variable

Realizar un anaacutelisis exploratorio de los datos permitiraacute al investigador mediante un conjunto de procedimientos sencillos

ndash Conocer la estructura de los datos es decir ver las caracteriacutesticas que presenta su dis-tribucioacuten e intuir la distribucioacuten de probabilidad que presentan visualizando la forma y sus propiedades caracteriacutesticas (normalidad simetriacutea apuntamiento o curtosis)

ndash Detectar posibles errores en el disentildeondash Detectar errores en el proceso de recogida de datosndash Identificar casos atiacutepicos frutodediversas causasquepuedenabarcardesde

errores humanos hasta la presencia de valores anoacutemalos en relacioacuten con el con-junto general de valores

Herramientas estadiacutesticas en criminologiacutea

32

ndash Evaluar y tratar datos ausentes (datos que faltan en la matriz)ndash Comprobar los supuestos subyacentes a la teacutecnica estadiacutestica que se pretende

emplear para responder a las preguntas de la investigacioacuten

Para cumplir con estos objetivos deberaacute construir una distribucioacuten de frecuencias y acu-diralasrepresentacionesgraacuteficasynumeacutericasloqueseexplicaenlassiguientespaacuteginas

221 Distribucioacuten de frecuencias

Una vez se tiene la matriz de datos es el momento de empezar a organizar variables sujetos analizar los casos etc El primer paso es la construccioacuten de una distribucioacuten de frecuencias disposicioacuten de una variable en una tabla con sus modalidades que inclu-ye el recuento de casos en cada una los porcentajes etc Hay tantas distribuciones de frecuencias como variables contenga la matriz una distribucioacuten para cada una de las variables

cuadro 21 Matriz de datos

Sujeto Creencias Motivacioacuten Empatiacutea Distorsiones Emociones Control Responsabilidad

123456789

10

110100120120 50110 60 30 40 90

51503312251118305441

20 2 822 52116 32429

123110120131150110175133120149

11249

106347

13103142556127334090

81010 9 4 9 8 5 4 7

La matriz de datos del cuadro 21 es un ejemplo de los resultados obtenidos tras un programa de intervencioacuten a hombres maltratadores en la aplicacioacuten de una bateriacutea de cuestionarios para medir sus creencias sexistas su motivacioacuten para el cambio la empatiacuteaconlasviacutectimaslasdistorsionescognitivaslaidentificacioacutendeemocioneselcontrol de la ira y la asuncioacuten de responsabilidad En la matriz de datos estaacuten los sujetos con sus puntuaciones en las variables pero la visioacuten de estas resulta un tanto confusa al no estar ordenadas sus puntuaciones

Al extraer por ejemplo las variables creencias sexistas y asuncioacuten de responsabi-lidad y organizar cada una en una distribucioacuten de frecuencias (cuadro 22) se puede

Explorando los datos

33

observar todo el rango de valores y el nuacutemero de casos (ni) de sus modalidades Ense-guida se aprecia por ejemplo que las puntuaciones en creencias se concentran maacutes en torno a los valores maacutes altos de la distribucioacuten (hay 6 sujetos con valores entre 90 y 120) casi lo mismo que la responsabilidad cuyo mayor nuacutemero de casos se encuentra en los valores maacutes altos (6 sujetos entre 8 y 10) aunque en general sus puntuaciones esteacuten maacutes repartidas

cuadro 22 Distribuciones de frecuencias

Creencias ni Responsabilidad ni

30 40 50 60 70 80 90100110120

1 1 1 1 0 0 1 1 2 2

4 5 6 7 8 910

2 1 0 1 2 2 2

10

10

La ventaja fundamental de una distribucioacuten de frecuencias es la posibilidad de ex-traer conclusiones de la variable sin realizar siquiera un anaacutelisis estadiacutestico complejo Incluso sin perder sencillez se puede complementar con otros datos

ndashFrecuencia absoluta (ni) nuacutemero de casos de cada modalidad de la variablendashFrecuencia acumulada (na) recuento de las frecuencias absolutas en orden as-

cendente seguacuten el sentido de las modalidadesndashProporcioacuten o frecuencia relativa (pi) frecuencia absoluta nuacutemero total de ca-

sos (n)ndashProporcioacuten acumulada (pa) frecuencia acumulada (na) nuacutemero total de casos (n)ndashPorcentaje (Pi) proporcioacuten (pi) x 100ndashPorcentaje acumulado (Pa) proporcioacuten acumulada (pa) x 100

En el caso de la variable creencias sexistas quedariacutea tal y como se aprecia en el cuadro 23 En general sus valores se encuentran bastante repartidos en la distribucioacuten aunque el mayor porcentaje de casos se situacutea en los valores 110 y 120 y ninguacuten sujeto ha obtenido una puntuacioacuten de 70 u 80

Herramientas estadiacutesticas en criminologiacutea

34

cuadro 23 Distribucioacuten de frecuencias de la variable creencias

Creencias ni na pi pa Pi Pa

30 40 50 60 70 80 90100110120

1111001122

1 2 3 4 4 4 5 6 810

01 01 01 01

00

01 01 02 02

01020304040405060810

10101010 0 010102020

10 20 30 40 40 40 50 60 80100

n = 10 - 10 - 100 -

Cabe decir que la frecuencia proporcioacuten y porcentaje acumulados (na pa y Pa) solo se utilizan con variables cuantitativas Pensando por ejemplo en la variable estado civil con sus modalidades y frecuencias absolutas iquestqueacute sentido tendriacutea hacer un re-cuento acumulado de sus frecuencias Aunque ahora no se aprecie la utilidad de la acumulacioacuten maacutes adelante se comprobaraacute lo praacutectico que resulta para localizar sujetos de la distribucioacuten y para interpretar su posicioacuten

222 Representaciones graacuteficas Valores perdidos y atiacutepicos

Una manera sencilla de observar el comportamiento de una variable es mediante su re-presentacioacutengraacuteficanoenvanosufuncioacutenprincipalesobtenerinformacionesglobalesmedianteunsologolpedevistaExistengraacuteficasparatodoslosgustosperonosiempresuaspectosofisticadoessinoacutenimodeclaridadyexactitudLas representacionesmaacutessencillassonlasquemejorreflejanlascaracteriacutesticasdelasvariablesyestassonlasquese van a presentar a continuacioacuten

Cuandolavariableescualitativaocuantitativadiscretaungraacuteficomuyutilizadoesel diagrama de barras En la abscisa se colocan las modalidades de la variable y en la ordenada las frecuencias o porcentajes Tambieacuten se puede representar la variable medida endosomaacutesgruposparasucomparacioacutentalycomosepuedeverenlafigura21

Eneldiagramadelafigura21secomparaporejemploelgradodeiraenungrupo de hombres y otro de mujeres Las diferencias en las modalidades baja media alta y muy alta noestaacutenmuyclarasSepodriacuteadecirqueenlastressepresentanni-veles similares de ira

Explorando los datos

35

Frec

uenc

ia

10

8

6

4

2

0Baja Media Alta Muy alta

fIgura 21 Diagrama de barras

Cuando se trata de variables cuantitativas los diagramas se denominan histogra-mascomosemuestraen lafigura22Enesteejemploseobserva laevolucioacutendeun grupo de adolescentes diagnosticados de un trastorno adaptativo antes y despueacutes de una intervencioacuten para mejorar su grado de incertidumbre en temas relacionados con la identidad (objetivos a largo plazo eleccioacuten profesional patrones de amistad orientacioacutenyconductasexualetc)Enelprimergraacuteficotodoslossujetostienenunapuntuacioacuten superior a 35 situaacutendose un gran nuacutemero de ellos entre los valores 40 y 50 delaescalaEnelsegundograacuteficoesdondeseconstatalamejoriacuteatraseltratamientopuesto que ninguacuten sujeto supera el valor de 50 en la escala de incertidumbre ubicaacuten-doseunelevadonuacutemerodeellosentrelosvalores10y30Setratadedoshistogramasbien sencillos que arrojan mucha informacioacuten Es importante sentildealar que se debe res-petarelorigendecoordenadasenambosgraacuteficossinoresultandifiacutecilesdecomparary pierden toda su funcioacuten de informar raacutepidamente de los cambios en una variable de su comportamiento en grupos distintos etc

Frec

uenc

ia

6

5

4

3

2

1

00 5 10 15 20 25 30 35 40 45 50 55 60 65 70

Grado de incertidumbre antes

Frec

uenc

ia

6

5

4

3

2

1

00 5 10 15 20 25 30 35 40 45 50 55 60 65 70

Grado de incertidumbre despueacutes

fIgura 22 Histograma de la misma variable en dos momentos distintos

Herramientas estadiacutesticas en criminologiacutea

36

Ungraacuteficodignodemencioacuteneslacurva normal que es el modelo prototipo contra el que se suelen comparar la mayoriacutea de las variables cuando se trabaja con meacutetrica cuantitativaSecaracterizaporsersimeacutetricaypresentarunaliacutenealisaosuavizadacondos colas de igual longitud lo que implica que el porcentaje de casos en ambas es ideacuten-ticoEnrealidadsetratadeunhistogramacuandosehanrecogidoinfinitosdatosdelavariable en otras palabras se trata de un modelo teoacuterico

Sinembargoypeseaseresteelmodeloporantonomasianotodaslasvariablesse acercan a esta distribucioacuten es maacutes en muchas ocasiones es extremadamente com-plicado siquiera encontrar variables que se asemejen a eacutel La situacioacuten maacutes habitual es que cada una de las variables que se haya medido presente diferencias tanto en localizacioacutencomoenformaydispersioacutenrespectoalmodelorepresentadoenlafigu-ra 23 de ahiacute la importancia de describir para cada variable estas caracteriacutesticas lo que permitiraacute evaluar el grado de semejanza con el modelo teoacuterico sobre el que descansaraacute el anaacutelisis de datos

Dispersioacuten

LocalizacioacutenCola izquierda Cola derecha

fIgura 23 Curva normal

Un aspecto que condicionaraacute en gran medida la obtencioacuten de representaciones nu-meacutericas son los casos raros o atiacutepicos Un valor raro hace referencia a un sujeto que presenta un comportamiento muy diferente del resto normalmente porque tiene pun-tuaciones extremas por encima o por debajo de la cola de la distribucioacuten lo que provoca que esta se aleje de una normal Una de las consecuencias de la presencia de outliers porejemploeseldesplazamientoartificialdelamediahaciaarribaohaciadebajocon-virtieacutendolosenobservacionesinfluyentes(Kaplan2000)

LapresenciadeestosdatospuededebersesimplementeaerroresdecodificacioacutenBajo tal circunstancia son faacutecilmente detectables mediante un anaacutelisis de frecuencias

Explorando los datos

37

quepermitaidentificarvaloresfueradelrangoadmisibleEncualquiercasolosva-lores raros son faacuteciles de identificarmediante una simple inspeccioacuten visual de larepresentacioacutengraacuteficaseobservanlossujetoscuyaspuntuacionesestaacutenmuyporen-cima o por debajo de la cola de la distribucioacuten o del intervalo establecido Una vez identificadoelsujetoenlabasededatoshabriacuteaqueeliminarloyvolverarepetirlosanaacutelisis Cuando son detectados hay que de plantearse si esos sujetos proceden de otra poblacioacuten distinta o si por el contrario perteneciendo a la poblacioacuten de referen-cia se trata de sujetos excepcionales El problema es que no siempre es faacutecil hacer esta distincioacuten

Por su parte los valores perdidos se deben a una gran variedad de circunstancias que pueden ocurrir durante una investigacioacuten y que estaacuten fuera del control del investigador Asiacuteporejemplopuedesucederquehaya fallosen losequipos (registrospsicofisio-loacutegicos por ejemplo) o que los sujetos no respondan deliberadamente a determinadas cuestiones o bien por muerte experimental

Ante los valores perdidos se deben considerar su cantidad y el grado en que afectan a la investigacioacuten En este caso no hay una respuesta clara y siacute una gran variedad de opiniones Cohen y Cohen (1983) entienden que es soportable hasta un 5 o 10 por ciento de casos perdidos En segundo lugar se ha de valorar si la estructura de los datos per-didosesaleatoriaosistemaacuteticaSiladistribucioacutendelosvaloresperdidosesaleatoriaestariacuteaindicandoquelossujetosenlosquehaypresentesvaloresperdidosdifierensolopor azar de aquellos en los que no estaacuten presentes Por tanto los resultados obtenidos en estos sujetos podriacutean ser generalizables al resto En el caso de que la distribucioacuten de datos perdidos siga un patroacuten sistemaacutetico se tratariacutea del caso contrario y por tanto no se deberiacutea ignorar esta circunstancia Es maacutes se deberiacutea hacer todo lo posible por intentar interpretar el comportamiento y naturaleza de la distribucioacuten de los valores perdidos (por queacute y coacutemo se distribuyen a lo largo de las distintas variables y de los sujetos)

223 Representaciones numeacutericas iacutendices de tendencia central de variabilidad y de posicioacuten

Enmuchoscasosunadistribucioacutende frecuenciasyuna representacioacutengraacuteficaseraacutenmaacutesquesuficientesparaentenderelcomportamientodeunavariableenungrupodesujetosSinembargocuandoelintereacutessecentraenlacomparacioacutendevariosgruposenlamismavariableoenmaacutesdeunatratarcontablasygraacuteficosymaacutestablasymaacutesgraacute-ficospuederesultarunpocoengorrosotantoparaelpropiomanejocomoparaellectorde los informes En situaciones asiacute puede ser maacutes apropiado trabajar con unos iacutendices quedescribandeformamaacutessencillalainformacioacutencontenidaenlasdistribucionesSetrata de los estadiacutesticos de una muestra iacutendices que ademaacutes de hacer manejable la in-formacioacuten contenida en los datos son la base sobre la que se sustenta la mayoriacutea de las teacutecnicas de anaacutelisis de datos

Herramientas estadiacutesticas en criminologiacutea

38

Los estadiacutesticos de tendencia central son aquellos que resumen el comportamiento de una variable en un solo valor representando asiacute al conjunto de sujetos en el que son calculados

La media aritmeacutetica es el iacutendice de tendencia central maacutes utilizado y su caacutelculo es tan simple como promediar todas las puntuaciones de un grupo en una variable tal y comoreflejansusfoacutermulasparadatosbrutosyparadatosdeunadistribucioacutendefre-cuencias

XXn

isum= X

n Xni isum

=sdot

donde Xi es la puntuacioacuten de un sujeto n es el tamantildeo de la muestra y ni la frecuencia absoluta

SeaelsiguienteejemploEnelserviciodepsiquiatriacuteadeuncentropenitenciariose ha observado que los internos drogodependientes con insomnio croacutenico muestran ciertasensibilidadinusualalruidoDebidoalasdificultadesqueconllevalaaplicacioacutende cuestionarios que midan la sonoridad subjetiva se decide evaluarlos con una prueba en la que deben interrumpir un sonido cuando les resulta molesto y se recoge el tiempo (en segundos) que tardan en pulsar el interruptor Los datos de diez pacientes son los siguientes

4 5 8 2 4 2 5 2 2 6

La media aritmeacutetica es

XXn

4 5 8 2 4 2 5 2 2 610

4010

4isum= =

+ + + + + + + + += =

Suponiendoqueenlossujetossinladolenciadescritalamediaaritmeacuteticaes8se-gundos se puede concluir que estos pacientes que han tardado en conjunto un promedio de 4 segundos en sentir el sonido como un ruido molesto presentan una sensibilidad al ruido mayor

Al agrupar los datos anteriores en una tabla (veacutease el cuadro 24) la media aritmeacute-tica que resulta es

X

n Xn

8 0 8 10 6 0 810

4010

4i isum=

sdot=

+ + + + + += =

Explorando los datos

39

cuadro 24 Caacutelculo de la media en una distribucioacuten de frecuencias

Xi ni ni Xi

2345678

4 0 2 2 1 0 1

8 0 810 6 0 8

ndash 10 40

Tal es la sencillez de la obtencioacuten de la media que se ha convertido en un estadiacutestico omnipresenteentodoinformedeinvestigacioacutenquetrateconvariablesSinembargoantes de su caacutelculo deberaacuten tenerse en cuenta las siguientes consideraciones

ndashEs muy sensible a cualquier variacioacuten en los datos Por ejemplo un error en la introduccioacuten de un valor numeacuterico puede resultar desastroso al calcularla

3 5 7 4 `X = 4753 5 7 40 `X = 1375

ndashNo se debe utilizar ante conjuntos de datos en los que hay casos extremos por-que deja de cumplir con su funcioacuten que es la de representar al conjunto

X 1 2 2 4 4 8 9 10 cuya media es`X = 5

iquestA quieacuten representa esta media si ni siquiera su valor estaacute en la distribucioacuten Porestosiempredeberaacuteiracompantildeadadeungraacuteficoobiensedebeinformarque los datos se ajustan a una distribucioacuten simeacutetrica

ndashConvariablescualitativasnotienesentidocalcularlaiquestsepuedeafirmarquelamedia aritmeacutetica del estado civil es 25 Tambieacuten hay que ser cautelosos con el resultado de algunas variables cuantitativas discretas como por ejemplo el nuacutemerodedelitosSepuededecirqueundelincuentehacometidoeldoblededelitos que otro pero iquestes pertinente hablar de un promedio de 35 delitos

La simplicidad en la obtencioacuten de la media aritmeacutetica la ha convertido en la estrella de los estadiacutesticos de tendencia central Doctos y legos la conocen y utilizan pero hay

Herramientas estadiacutesticas en criminologiacutea

40

que ser cautos porque los datos no estaacuten exentos de trampas En aquellos casos en los que no sea adecuado calcularla se puede probar con la moda o con la mediana

La moda es un iacutendice de tendencia central que representa el valor cuya frecuen-cia absoluta es la maacutes alta en la distribucioacuten Puede utilizarse con cualquier tipo de variable ya sea cualitativa o cuantitativa y su obtencioacuten es muy sencilla Los datos simplemente se ordenan y se ve cuaacutel se repite maacutes Ese valor es por tanto la moda de la distribucioacuten En el ejemplo de los pacientes con delirium por abstinencia la moda tanto con los datos brutos como agrupados en la distribucioacuten de frecuencias (cuadro 24) es 2 (y no 4 cuidado con esto) Este resultado se interpreta como que la mayoriacutea de los pacientes de este grupo tarda 2 segundos en sentir el ruido como molesto (Cabe sentildealar que la moda no coincide con la media lo que ya habla de una distribucioacuten asimeacutetrica)

Puede suceder que una distribucioacuten tenga dos valores con la maacutexima frecuencia la misma o muy similar pero que ambas se diferencien bastante del resto En estos casos se dice que la distribucioacuten presenta dos modas o que es bimodal

2 2 4 4 4 6 6 6 6 6 6 8 8 8 10 10 10 10 10 10 10

En los datos anteriores se tienen dos modas Mo1 = 6 y Mo2 = 10Cuando los valores de la moda son adyacentes algunos analistas toman como

estadiacutesticolamediadeambasSinembargoestonodebehacersepuestoqueelre-sultado puede carecer de sentido podriacutea tratarse de un valor que no existe en la dis-tribucioacuten Por otro lado iquestcuaacutel es el problema de presentar dos modas Precisamente lo anterior la obtencioacuten (o presentacioacuten) de dos modas permite ver hasta queacute punto el caacutelculo de una media es liacutecito En efecto si las dos modas son adyacentes y centra-das no seriacutea ninguacuten problema pero si no lo son esto debe advertir de que no hay que calcular la media

La mediana es un iacutendice que informa del dato de la distribucioacuten que la divide en dos partesigualesysedefineportantocomoaquelvalorquedejaporencimaypordebajoel 50 por ciento de las frecuencias Puede utilizarse con variables cualitativas cuyas mo-dalidades puedan ordenarse y con variables cuantitativas

Suobtencioacutenesenormementesencillauacutenicamentehayquelocalizarenlacolum-na de proporciones acumuladas de la tabla de la distribucioacuten el valor que comprenda el 05 y ver a queacute puntuacioacuten de la variable corresponde En el ejemplo (cuadro 25) tras obtener las proporciones acumuladas la mediana se localiza en la proporcioacuten acumulada 06 porque es la que incluye 05 (la anterior se queda en 04) por lo que la mediana es Md = 4 es decir el valor de la distribucioacuten que divide a los sujetos en dos grupos

Explorando los datos

41

cuadro 25 Localizacioacuten de la mediana

Xi ni pi pa

2345678

4 0 2 2 1 0 1

04000202010001

04040608090910

ndash 10 10

Cabe sentildealar que si su valor coincide con el de la media y el de la moda o son muy similares la distribucioacuten es simeacutetrica o muy cercana a la simetriacutea En cambio si los re-sultados para los tres iacutendices son muy diferentes hay que tener cuidado con la forma de la distribucioacuten y lo que se ha calculado Hayquerecordarqueunarepresentacioacutengraacuteficaes un complemento perfecto en los anaacutelisis para aclarar los resultados

Los iacutendices de posicioacuten son todos aquellos que permiten situar a un sujeto dentro de unadistribucioacutendefrecuenciasSunombregeneacutericoescuantiles y los maacutes utilizados en este contexto son los percentiles y los cuartiles

Los percentiles tambieacuten llamados centiles son las puntuaciones de la variable que dividen la distribucioacuten en cien partes iguales Hay por tanto 99 percentiles La nomen-clatura utilizada es Pk y su valor se interpreta como la puntuacioacuten que deja por debajo de siacute al k por ciento de los sujetos Por ejemplo si P20 = 9 se dice que 9 es el valor de la distribucioacuten que deja por debajo de siacute al 20 por ciento de los sujetos

Por su parte los cuartiles son las puntuaciones de la variable que dividen la distri-bucioacuten en cuatro partes iguales Hay por tanto tres cuartiles La nomenclatura utilizada es Qk (k = 1 2 o 3) y su valor se interpreta como la puntuacioacuten que deja por debajo de siacute al 25 k por ciento de los sujetos Por ejemplo si Q3 = 8 se dice que 8 es el valor de la distribucioacuten que deja por debajo de siacute al 75 por ciento de los sujetos

Obtener percentiles o cuartiles es tan sencillo como hacerlo con la mediana se bus-ca en la columna de las proporciones acumuladas o de los porcentajes acumulados de la distribucioacuten la proporcioacuten o porcentaje de intereacutes y se localiza la puntuacioacuten de la variable a la que pertenece

El cuadro 26 es el resultado de aplicar un test que mide conductas saacutedicas Un sujeto que por ejemplo obtiene una puntuacioacuten igual a 15 resulta que se situacutea en el percentil P77 y en el cuartil Q3 lo que lo coloca en los valores altos de la distribucioacuten Es claramente necesaria una raacutepida intervencioacuten

Herramientas estadiacutesticas en criminologiacutea

42

Los percentiles y los cuartiles permiten interpretar la situacioacuten de un sujeto en la distribucioacuten de la variable que se ha medido sin necesidad de conocer ni la puntuacioacuten directa ni el valor miacutenimo y maacuteximo de la distribucioacuten lo que resulta de gran utilidad

Por otro lado del cuadro 26 se desprende que la mediana se localiza en el percentil 50 y en el cuartil 2 siendo su valor igual a 12

En efecto en distribuciones simeacutetricas

Md = P50 = D5 = Q2

cuadro 26 Localizacioacuten de percentiles y cuartiles

Xi ni na pa Pk Qk

6 7 8 91011

12

13141516171819

8 4 8 5 710

9

11 9 7 8 4 4 6

8 12 20 25 32 42

51

62 71 78 86 90 94100

008012020025032042

051

062071078086090094100

P7P11P19P24P31P41

P50

P61P70P77P85P89P93P99

ndashndashndashndash

Q1ndash

Q2

ndashndash

Q3ndashndashndashndash

No todos somos iguales Bien es cierto que entre las personas existen ciertos com-portamientos similares pero siempre hay diferencias individuales Mientras que los procesoscomogrupovienencuantificadosconlosiacutendicesdetendenciacentral(mediamedianamodaetc)lasdiferenciasindividualesseveraacutenreflejadasenlosiacutendices de variabilidad Dicho con otras palabras estos iacutendices permitiraacuten saber cuaacutento se distan-cian los individuos del sujeto promedio En el ejemplo que se presenta se recogen las puntuaciones de cinco criminales obtenidas en egocentrismo ilimitado

X1 10 11 12 13 14

La media calculada es`X=12Sinembargolosregistrosmuestrandiferenciasentreellos por lo que cada uno se distancia de su media

Explorando los datos

43

10 ndash 12 = ndash2 11 ndash 12 = ndash1 12 ndash 12 = 0 13 ndash 12 = 1 y 14 ndash 12 = 2

Los resultados muestran alejamientos positivos y negativos (unos son maacutes ego-ceacutentricos y otros menos con respecto a la media de 12) con lo que se podriacutea plantear el caacutelculo del promedio de esas distancias como iacutendice de variabilidad En efecto esto es precisamente lo que hace el estadiacutestico desviacioacuten media

sum=

minusDM

(X X)nXi

1

Sufoacutermulaclaramentereflejacuaacutentosealejanenpromediolaspuntuacionesdesumedia Aplicaacutendola a los datos del ejemplo

sum=

minus=

minus + minus + + +=DM

(X X)n

( 2) ( 1) 0 1 25

0Xi

1

Habiendo constatado las diferencias individuales iquestcoacutemo es posible que el prome-dio de distancias sea igual a cero La razoacuten es muy sencilla las diferencias son unas positivas y otras negativas compensaacutendose las unas con las otras y siempre va a ocurrir que la suma de esas diferencias sea igual a 0 ya que son distancias a un punto central que es la media

Entonces si la desviacioacuten media siempre va a ser igual a cero hay que buscar otro iacutendice que siendo tan sencillo e informativo como este solvente el problema Una po-sibilidad seriacutea trabajar con las diferencias en valores absolutos pero estos resultan poco manejables matemaacuteticamente y por tanto poco convincentes

Otra opcioacuten es calcular las diferencias elevarlas al cuadrado y a partir de ahiacute obte-ner su promedio Un iacutendice de dispersioacuten computado asiacute se denomina varianza

sum=

minusS

(X X)nX

2 i2

Aplicaacutendolo a los datos

sum=

minus=

+ + + +=S

(X X )n

4 1 0 1 45

2X2 i 1

2

1

Una foacutermula maacutes raacutepida de obtener la varianza sobre todo cuando se manejan mu-chos datos es mediante la siguiente expresioacuten

Page 5: Herramientas estadísticas en criminología · 2019. 10. 10. · Herramientas estadísticas en criminología Concepción San Luis Costas Isabel Cañadas Osinski. Reservados todos

5

Iacutendice

IntroduccIoacuten 11

1 PlanIfIcando la InvestIgacIoacuten 13

11 Introduccioacuten 1312 Disentildeo y validez de la investigacioacuten 17

121 Validez interna y validez ecoloacutegica doacutende 18122 Validez externa cuaacutentos y quieacutenes 18123 Validez de la conclusioacuten estadiacutestica 19124 Validez de constructo medida 19125 Disentildeo y objetivos de la investigacioacuten 19

13 Conceptos claves 20131 Muestreo 21132 Poblacioacuten 21133 Censo 21134 Muestra 22135 Procedimientos de muestreo 22

14 Meacutetodos de seleccioacuten de las muestras 23141 Muestreo aleatorio simple 24142 Muestreo aleatorio estratificado 25143 Muestreo intencional u opinaacutetico 25144 Muestreo bola de nieve 25

15 Variables concepto operacionalizacioacuten tipos y escalas 2516 La matriz de datos 28

Herramientas estadiacutesticas en criminologiacutea

6

2 exPlorando los datos 31

21 Introduccioacuten 3122 Exploracioacuten de los datos para una variable 31

221 Distribucioacuten de frecuencias 32222 Representaciones graacuteficas Valores perdidos y atiacutepicos 34223 Representaciones numeacutericas iacutendices de tendencia central de varia-

bilidad y de posicioacuten 3723 Exploracioacuten de los datos para dos variables 47

231 Representaciones graacuteficas el diagrama de dispersioacuten 47232 Representaciones numeacutericas covarianza e iacutendices de correlacioacuten de

Pearson Spearman y ji-cuadrado 50

3 PuntuacIones tiacutePIcas queacute son y Para queacute sIrven 5931 Introduccioacuten 5932 Escalas y unidades de medida 6033 Las puntuaciones tiacutepicas y sus propiedades 6334 Puntuaciones tiacutepicas y percentiles 6535 Puntuaciones tiacutepicas y la distribucioacuten normal 6936 PuntuacionestiacutepicasyelcoeficientedecorrelacioacutendePearson 76

4 varIables aleatorIas 7941 Introduccioacuten 7942 Variable aleatoria discreta 79

421 La distribucioacuten binomial 8343 Variable aleatoria continua 85

431 La distribucioacuten normal 86432 La distribucioacuten χ2 de Pearson 88433 La distribucioacuten t de Student 90434 La distribucioacuten F de Fisher 92

44 Distribucioacuten muestral de un estadiacutestico 94441 Distribucioacuten muestral de la media 98

5 artIculando los resultados Para la toma de decIsIones 10551 Introduccioacuten 10552 Pruebasdesignificacioacuten 106

Iacutendice

7

521 El proceso en la prueba de significacioacuten 108522 Probabilidad asociada y nivel de significacioacuten 111523 Probabilidad asociada y tamantildeo de la muestra 113524 Error tipo I error tipo II y potencia 115525 Potencia y tamantildeo de la muestra 117526 Tamantildeo del efecto 119

53 Estimacioacuten de paraacutemetros 125531 Estimacioacuten puntual 125532 Estimacioacuten por intervalos 128533 Proceso de construccioacuten de los intervalos de confianza 130534 Factores que afectan a la precisioacuten del intervalo de confianza 132

6 el caso de una muestra 133

61 Introduccioacuten 13362 Intervalodeconfianzadelamedia 13463 Intervalodeconfianzadelavarianza 14164 Intervalodeconfianzadelamedianaydeotrospercentiles 14465 Intervalodeconfianzadelaproporcioacuten 14666 IntervalodeconfianzadelacorrelacioacutendePearson 14967 IntervalodeconfianzadelacorrelacioacutendeSpearman 15168 Tamantildeo de la muestra para los distintos paraacutemetros 15369 Estudio de la distribucioacuten de los datos forma e independencia de las

observaciones 157691 Normalidad de las observaciones 157692 Independencia de las observaciones 158

7 el caso de dos muestras 161

71 Introduccioacuten 16172 Muestras independientes y relacionadas 16173 El caso de dos medias independientes 16374 El caso de dos medias relacionadas o de medidas repetidas 16975 El caso de dos varianzas 173

751 Muestras independientes 173752 Muestras relacionadas 174

76 El caso de dos proporciones 176761 Muestras independientes 176762 Muestras relacionadas 178

Herramientas estadiacutesticas en criminologiacutea

8

77 Alternativas no parameacutetricas 181771 Prueba de Mann-Whitney 181772 Prueba de Wilcoxon 184

8 el caso de maacutes de dos muestras I 187

81 Introduccioacuten 18782 Nomenclatura 18883 ANOVA de un factor para muestras independientes 190

831 Supuestos 192832 Estadiacutestico de contraste F 193

84 ANOVA de un factor de medidas repetidas 196841 Supuestos 198842 Estadiacutestico de contraste 199

85 Resultados complementarios 200851 Tamantildeo del efecto 202852 Potencia 203853 Comparaciones muacuteltiples 203

86 Alternativas no parameacutetricas 207861 Kruskal-Wallis 207862 Freedman 209863 Comparaciones a posteriori 211

9 el caso de maacutes de dos muestras II 213

91 Introduccioacuten 21392 Disentildeo de dos factores completamente aleatorizado 216

921 Supuestos del modelo 216922 El estadiacutestico de contraste 217

93 Interpretacioacuten de los efectos principales y de la interaccioacuten 22394 Efectos simples 22595 Resultados complementarios 228

951 Tamantildeo del efecto 228952 Potencia 229953 Comparaciones muacuteltiples 229

96 Alternativa no parameacutetrica 23297 Disentildeos de maacutes de dos factores 234

Iacutendice

9

10 regresIoacuten lIneal 235

101 Introduccioacuten 235102 Modelo de regresioacuten lineal 236103 El ajuste del modelo datos 240

1031 Los coeficientes semiparciales 241104 Meacutetodos de construccioacuten del modelo 243105 Anaacutelisis de variables mediadoras y moderadoras 245

1051 Efecto de mediacioacuten 2461052 Efecto de moderacioacuten 248

106 Supuestosenelanaacutelisis 251107 Inferencia en la regresioacuten muacuteltiple 254108 Fiabilidad y validez del modelo 255109 Regresioacuten logiacutestica binaria 257

referencIas bIblIograacutefIcas 261

Contenidos digitales

Anexo 1 Tablas estadiacutesticas

Anexo 2 Acceso a descarga de programas

Anexo 3 Viacutedeos

Anexo 4 Datos simulados

Anexo 5 Actividades propuestas de replicacioacuten

31

2Explorando los datos

21 Introduccioacuten

La primera cuestioacuten que debe contemplarse antes de la aplicacioacuten de cualquier teacutecnica estadiacutestica es la relativa a la descripcioacuten de la muestra (en algunos casos excepcionales de la poblacioacuten) la segunda el estudio minucioso de las caracteriacutesticas que presentan lasvariablesobjetodeestudioquehansidocuantificadasmedianteelcorrespondienteproceso de medida o asignacioacuten numeacuterica

El anaacutelisis exploratorio de los datos implica una actitud curiosa que estaacute motivada porlapremisadequecuantomejorconozcaelinvestigadorlosdatosquetienemaacutesefi-cientementesepuedenusarparadesarrollaryrefinarsuspropuestasPortantoeltrabajode detective del investigador tendraacute como principal objetivo un abordaje exploratorio de datos para maximizar lo que pueda aprender a partir de ellos y de este modo entender el conjunto de las variables y su comportamiento

22 Exploracioacuten de los datos para una variable

Realizar un anaacutelisis exploratorio de los datos permitiraacute al investigador mediante un conjunto de procedimientos sencillos

ndash Conocer la estructura de los datos es decir ver las caracteriacutesticas que presenta su dis-tribucioacuten e intuir la distribucioacuten de probabilidad que presentan visualizando la forma y sus propiedades caracteriacutesticas (normalidad simetriacutea apuntamiento o curtosis)

ndash Detectar posibles errores en el disentildeondash Detectar errores en el proceso de recogida de datosndash Identificar casos atiacutepicos frutodediversas causasquepuedenabarcardesde

errores humanos hasta la presencia de valores anoacutemalos en relacioacuten con el con-junto general de valores

Herramientas estadiacutesticas en criminologiacutea

32

ndash Evaluar y tratar datos ausentes (datos que faltan en la matriz)ndash Comprobar los supuestos subyacentes a la teacutecnica estadiacutestica que se pretende

emplear para responder a las preguntas de la investigacioacuten

Para cumplir con estos objetivos deberaacute construir una distribucioacuten de frecuencias y acu-diralasrepresentacionesgraacuteficasynumeacutericasloqueseexplicaenlassiguientespaacuteginas

221 Distribucioacuten de frecuencias

Una vez se tiene la matriz de datos es el momento de empezar a organizar variables sujetos analizar los casos etc El primer paso es la construccioacuten de una distribucioacuten de frecuencias disposicioacuten de una variable en una tabla con sus modalidades que inclu-ye el recuento de casos en cada una los porcentajes etc Hay tantas distribuciones de frecuencias como variables contenga la matriz una distribucioacuten para cada una de las variables

cuadro 21 Matriz de datos

Sujeto Creencias Motivacioacuten Empatiacutea Distorsiones Emociones Control Responsabilidad

123456789

10

110100120120 50110 60 30 40 90

51503312251118305441

20 2 822 52116 32429

123110120131150110175133120149

11249

106347

13103142556127334090

81010 9 4 9 8 5 4 7

La matriz de datos del cuadro 21 es un ejemplo de los resultados obtenidos tras un programa de intervencioacuten a hombres maltratadores en la aplicacioacuten de una bateriacutea de cuestionarios para medir sus creencias sexistas su motivacioacuten para el cambio la empatiacuteaconlasviacutectimaslasdistorsionescognitivaslaidentificacioacutendeemocioneselcontrol de la ira y la asuncioacuten de responsabilidad En la matriz de datos estaacuten los sujetos con sus puntuaciones en las variables pero la visioacuten de estas resulta un tanto confusa al no estar ordenadas sus puntuaciones

Al extraer por ejemplo las variables creencias sexistas y asuncioacuten de responsabi-lidad y organizar cada una en una distribucioacuten de frecuencias (cuadro 22) se puede

Explorando los datos

33

observar todo el rango de valores y el nuacutemero de casos (ni) de sus modalidades Ense-guida se aprecia por ejemplo que las puntuaciones en creencias se concentran maacutes en torno a los valores maacutes altos de la distribucioacuten (hay 6 sujetos con valores entre 90 y 120) casi lo mismo que la responsabilidad cuyo mayor nuacutemero de casos se encuentra en los valores maacutes altos (6 sujetos entre 8 y 10) aunque en general sus puntuaciones esteacuten maacutes repartidas

cuadro 22 Distribuciones de frecuencias

Creencias ni Responsabilidad ni

30 40 50 60 70 80 90100110120

1 1 1 1 0 0 1 1 2 2

4 5 6 7 8 910

2 1 0 1 2 2 2

10

10

La ventaja fundamental de una distribucioacuten de frecuencias es la posibilidad de ex-traer conclusiones de la variable sin realizar siquiera un anaacutelisis estadiacutestico complejo Incluso sin perder sencillez se puede complementar con otros datos

ndashFrecuencia absoluta (ni) nuacutemero de casos de cada modalidad de la variablendashFrecuencia acumulada (na) recuento de las frecuencias absolutas en orden as-

cendente seguacuten el sentido de las modalidadesndashProporcioacuten o frecuencia relativa (pi) frecuencia absoluta nuacutemero total de ca-

sos (n)ndashProporcioacuten acumulada (pa) frecuencia acumulada (na) nuacutemero total de casos (n)ndashPorcentaje (Pi) proporcioacuten (pi) x 100ndashPorcentaje acumulado (Pa) proporcioacuten acumulada (pa) x 100

En el caso de la variable creencias sexistas quedariacutea tal y como se aprecia en el cuadro 23 En general sus valores se encuentran bastante repartidos en la distribucioacuten aunque el mayor porcentaje de casos se situacutea en los valores 110 y 120 y ninguacuten sujeto ha obtenido una puntuacioacuten de 70 u 80

Herramientas estadiacutesticas en criminologiacutea

34

cuadro 23 Distribucioacuten de frecuencias de la variable creencias

Creencias ni na pi pa Pi Pa

30 40 50 60 70 80 90100110120

1111001122

1 2 3 4 4 4 5 6 810

01 01 01 01

00

01 01 02 02

01020304040405060810

10101010 0 010102020

10 20 30 40 40 40 50 60 80100

n = 10 - 10 - 100 -

Cabe decir que la frecuencia proporcioacuten y porcentaje acumulados (na pa y Pa) solo se utilizan con variables cuantitativas Pensando por ejemplo en la variable estado civil con sus modalidades y frecuencias absolutas iquestqueacute sentido tendriacutea hacer un re-cuento acumulado de sus frecuencias Aunque ahora no se aprecie la utilidad de la acumulacioacuten maacutes adelante se comprobaraacute lo praacutectico que resulta para localizar sujetos de la distribucioacuten y para interpretar su posicioacuten

222 Representaciones graacuteficas Valores perdidos y atiacutepicos

Una manera sencilla de observar el comportamiento de una variable es mediante su re-presentacioacutengraacuteficanoenvanosufuncioacutenprincipalesobtenerinformacionesglobalesmedianteunsologolpedevistaExistengraacuteficasparatodoslosgustosperonosiempresuaspectosofisticadoessinoacutenimodeclaridadyexactitudLas representacionesmaacutessencillassonlasquemejorreflejanlascaracteriacutesticasdelasvariablesyestassonlasquese van a presentar a continuacioacuten

Cuandolavariableescualitativaocuantitativadiscretaungraacuteficomuyutilizadoesel diagrama de barras En la abscisa se colocan las modalidades de la variable y en la ordenada las frecuencias o porcentajes Tambieacuten se puede representar la variable medida endosomaacutesgruposparasucomparacioacutentalycomosepuedeverenlafigura21

Eneldiagramadelafigura21secomparaporejemploelgradodeiraenungrupo de hombres y otro de mujeres Las diferencias en las modalidades baja media alta y muy alta noestaacutenmuyclarasSepodriacuteadecirqueenlastressepresentanni-veles similares de ira

Explorando los datos

35

Frec

uenc

ia

10

8

6

4

2

0Baja Media Alta Muy alta

fIgura 21 Diagrama de barras

Cuando se trata de variables cuantitativas los diagramas se denominan histogra-mascomosemuestraen lafigura22Enesteejemploseobserva laevolucioacutendeun grupo de adolescentes diagnosticados de un trastorno adaptativo antes y despueacutes de una intervencioacuten para mejorar su grado de incertidumbre en temas relacionados con la identidad (objetivos a largo plazo eleccioacuten profesional patrones de amistad orientacioacutenyconductasexualetc)Enelprimergraacuteficotodoslossujetostienenunapuntuacioacuten superior a 35 situaacutendose un gran nuacutemero de ellos entre los valores 40 y 50 delaescalaEnelsegundograacuteficoesdondeseconstatalamejoriacuteatraseltratamientopuesto que ninguacuten sujeto supera el valor de 50 en la escala de incertidumbre ubicaacuten-doseunelevadonuacutemerodeellosentrelosvalores10y30Setratadedoshistogramasbien sencillos que arrojan mucha informacioacuten Es importante sentildealar que se debe res-petarelorigendecoordenadasenambosgraacuteficossinoresultandifiacutecilesdecomparary pierden toda su funcioacuten de informar raacutepidamente de los cambios en una variable de su comportamiento en grupos distintos etc

Frec

uenc

ia

6

5

4

3

2

1

00 5 10 15 20 25 30 35 40 45 50 55 60 65 70

Grado de incertidumbre antes

Frec

uenc

ia

6

5

4

3

2

1

00 5 10 15 20 25 30 35 40 45 50 55 60 65 70

Grado de incertidumbre despueacutes

fIgura 22 Histograma de la misma variable en dos momentos distintos

Herramientas estadiacutesticas en criminologiacutea

36

Ungraacuteficodignodemencioacuteneslacurva normal que es el modelo prototipo contra el que se suelen comparar la mayoriacutea de las variables cuando se trabaja con meacutetrica cuantitativaSecaracterizaporsersimeacutetricaypresentarunaliacutenealisaosuavizadacondos colas de igual longitud lo que implica que el porcentaje de casos en ambas es ideacuten-ticoEnrealidadsetratadeunhistogramacuandosehanrecogidoinfinitosdatosdelavariable en otras palabras se trata de un modelo teoacuterico

Sinembargoypeseaseresteelmodeloporantonomasianotodaslasvariablesse acercan a esta distribucioacuten es maacutes en muchas ocasiones es extremadamente com-plicado siquiera encontrar variables que se asemejen a eacutel La situacioacuten maacutes habitual es que cada una de las variables que se haya medido presente diferencias tanto en localizacioacutencomoenformaydispersioacutenrespectoalmodelorepresentadoenlafigu-ra 23 de ahiacute la importancia de describir para cada variable estas caracteriacutesticas lo que permitiraacute evaluar el grado de semejanza con el modelo teoacuterico sobre el que descansaraacute el anaacutelisis de datos

Dispersioacuten

LocalizacioacutenCola izquierda Cola derecha

fIgura 23 Curva normal

Un aspecto que condicionaraacute en gran medida la obtencioacuten de representaciones nu-meacutericas son los casos raros o atiacutepicos Un valor raro hace referencia a un sujeto que presenta un comportamiento muy diferente del resto normalmente porque tiene pun-tuaciones extremas por encima o por debajo de la cola de la distribucioacuten lo que provoca que esta se aleje de una normal Una de las consecuencias de la presencia de outliers porejemploeseldesplazamientoartificialdelamediahaciaarribaohaciadebajocon-virtieacutendolosenobservacionesinfluyentes(Kaplan2000)

LapresenciadeestosdatospuededebersesimplementeaerroresdecodificacioacutenBajo tal circunstancia son faacutecilmente detectables mediante un anaacutelisis de frecuencias

Explorando los datos

37

quepermitaidentificarvaloresfueradelrangoadmisibleEncualquiercasolosva-lores raros son faacuteciles de identificarmediante una simple inspeccioacuten visual de larepresentacioacutengraacuteficaseobservanlossujetoscuyaspuntuacionesestaacutenmuyporen-cima o por debajo de la cola de la distribucioacuten o del intervalo establecido Una vez identificadoelsujetoenlabasededatoshabriacuteaqueeliminarloyvolverarepetirlosanaacutelisis Cuando son detectados hay que de plantearse si esos sujetos proceden de otra poblacioacuten distinta o si por el contrario perteneciendo a la poblacioacuten de referen-cia se trata de sujetos excepcionales El problema es que no siempre es faacutecil hacer esta distincioacuten

Por su parte los valores perdidos se deben a una gran variedad de circunstancias que pueden ocurrir durante una investigacioacuten y que estaacuten fuera del control del investigador Asiacuteporejemplopuedesucederquehaya fallosen losequipos (registrospsicofisio-loacutegicos por ejemplo) o que los sujetos no respondan deliberadamente a determinadas cuestiones o bien por muerte experimental

Ante los valores perdidos se deben considerar su cantidad y el grado en que afectan a la investigacioacuten En este caso no hay una respuesta clara y siacute una gran variedad de opiniones Cohen y Cohen (1983) entienden que es soportable hasta un 5 o 10 por ciento de casos perdidos En segundo lugar se ha de valorar si la estructura de los datos per-didosesaleatoriaosistemaacuteticaSiladistribucioacutendelosvaloresperdidosesaleatoriaestariacuteaindicandoquelossujetosenlosquehaypresentesvaloresperdidosdifierensolopor azar de aquellos en los que no estaacuten presentes Por tanto los resultados obtenidos en estos sujetos podriacutean ser generalizables al resto En el caso de que la distribucioacuten de datos perdidos siga un patroacuten sistemaacutetico se tratariacutea del caso contrario y por tanto no se deberiacutea ignorar esta circunstancia Es maacutes se deberiacutea hacer todo lo posible por intentar interpretar el comportamiento y naturaleza de la distribucioacuten de los valores perdidos (por queacute y coacutemo se distribuyen a lo largo de las distintas variables y de los sujetos)

223 Representaciones numeacutericas iacutendices de tendencia central de variabilidad y de posicioacuten

Enmuchoscasosunadistribucioacutende frecuenciasyuna representacioacutengraacuteficaseraacutenmaacutesquesuficientesparaentenderelcomportamientodeunavariableenungrupodesujetosSinembargocuandoelintereacutessecentraenlacomparacioacutendevariosgruposenlamismavariableoenmaacutesdeunatratarcontablasygraacuteficosymaacutestablasymaacutesgraacute-ficospuederesultarunpocoengorrosotantoparaelpropiomanejocomoparaellectorde los informes En situaciones asiacute puede ser maacutes apropiado trabajar con unos iacutendices quedescribandeformamaacutessencillalainformacioacutencontenidaenlasdistribucionesSetrata de los estadiacutesticos de una muestra iacutendices que ademaacutes de hacer manejable la in-formacioacuten contenida en los datos son la base sobre la que se sustenta la mayoriacutea de las teacutecnicas de anaacutelisis de datos

Herramientas estadiacutesticas en criminologiacutea

38

Los estadiacutesticos de tendencia central son aquellos que resumen el comportamiento de una variable en un solo valor representando asiacute al conjunto de sujetos en el que son calculados

La media aritmeacutetica es el iacutendice de tendencia central maacutes utilizado y su caacutelculo es tan simple como promediar todas las puntuaciones de un grupo en una variable tal y comoreflejansusfoacutermulasparadatosbrutosyparadatosdeunadistribucioacutendefre-cuencias

XXn

isum= X

n Xni isum

=sdot

donde Xi es la puntuacioacuten de un sujeto n es el tamantildeo de la muestra y ni la frecuencia absoluta

SeaelsiguienteejemploEnelserviciodepsiquiatriacuteadeuncentropenitenciariose ha observado que los internos drogodependientes con insomnio croacutenico muestran ciertasensibilidadinusualalruidoDebidoalasdificultadesqueconllevalaaplicacioacutende cuestionarios que midan la sonoridad subjetiva se decide evaluarlos con una prueba en la que deben interrumpir un sonido cuando les resulta molesto y se recoge el tiempo (en segundos) que tardan en pulsar el interruptor Los datos de diez pacientes son los siguientes

4 5 8 2 4 2 5 2 2 6

La media aritmeacutetica es

XXn

4 5 8 2 4 2 5 2 2 610

4010

4isum= =

+ + + + + + + + += =

Suponiendoqueenlossujetossinladolenciadescritalamediaaritmeacuteticaes8se-gundos se puede concluir que estos pacientes que han tardado en conjunto un promedio de 4 segundos en sentir el sonido como un ruido molesto presentan una sensibilidad al ruido mayor

Al agrupar los datos anteriores en una tabla (veacutease el cuadro 24) la media aritmeacute-tica que resulta es

X

n Xn

8 0 8 10 6 0 810

4010

4i isum=

sdot=

+ + + + + += =

Explorando los datos

39

cuadro 24 Caacutelculo de la media en una distribucioacuten de frecuencias

Xi ni ni Xi

2345678

4 0 2 2 1 0 1

8 0 810 6 0 8

ndash 10 40

Tal es la sencillez de la obtencioacuten de la media que se ha convertido en un estadiacutestico omnipresenteentodoinformedeinvestigacioacutenquetrateconvariablesSinembargoantes de su caacutelculo deberaacuten tenerse en cuenta las siguientes consideraciones

ndashEs muy sensible a cualquier variacioacuten en los datos Por ejemplo un error en la introduccioacuten de un valor numeacuterico puede resultar desastroso al calcularla

3 5 7 4 `X = 4753 5 7 40 `X = 1375

ndashNo se debe utilizar ante conjuntos de datos en los que hay casos extremos por-que deja de cumplir con su funcioacuten que es la de representar al conjunto

X 1 2 2 4 4 8 9 10 cuya media es`X = 5

iquestA quieacuten representa esta media si ni siquiera su valor estaacute en la distribucioacuten Porestosiempredeberaacuteiracompantildeadadeungraacuteficoobiensedebeinformarque los datos se ajustan a una distribucioacuten simeacutetrica

ndashConvariablescualitativasnotienesentidocalcularlaiquestsepuedeafirmarquelamedia aritmeacutetica del estado civil es 25 Tambieacuten hay que ser cautelosos con el resultado de algunas variables cuantitativas discretas como por ejemplo el nuacutemerodedelitosSepuededecirqueundelincuentehacometidoeldoblededelitos que otro pero iquestes pertinente hablar de un promedio de 35 delitos

La simplicidad en la obtencioacuten de la media aritmeacutetica la ha convertido en la estrella de los estadiacutesticos de tendencia central Doctos y legos la conocen y utilizan pero hay

Herramientas estadiacutesticas en criminologiacutea

40

que ser cautos porque los datos no estaacuten exentos de trampas En aquellos casos en los que no sea adecuado calcularla se puede probar con la moda o con la mediana

La moda es un iacutendice de tendencia central que representa el valor cuya frecuen-cia absoluta es la maacutes alta en la distribucioacuten Puede utilizarse con cualquier tipo de variable ya sea cualitativa o cuantitativa y su obtencioacuten es muy sencilla Los datos simplemente se ordenan y se ve cuaacutel se repite maacutes Ese valor es por tanto la moda de la distribucioacuten En el ejemplo de los pacientes con delirium por abstinencia la moda tanto con los datos brutos como agrupados en la distribucioacuten de frecuencias (cuadro 24) es 2 (y no 4 cuidado con esto) Este resultado se interpreta como que la mayoriacutea de los pacientes de este grupo tarda 2 segundos en sentir el ruido como molesto (Cabe sentildealar que la moda no coincide con la media lo que ya habla de una distribucioacuten asimeacutetrica)

Puede suceder que una distribucioacuten tenga dos valores con la maacutexima frecuencia la misma o muy similar pero que ambas se diferencien bastante del resto En estos casos se dice que la distribucioacuten presenta dos modas o que es bimodal

2 2 4 4 4 6 6 6 6 6 6 8 8 8 10 10 10 10 10 10 10

En los datos anteriores se tienen dos modas Mo1 = 6 y Mo2 = 10Cuando los valores de la moda son adyacentes algunos analistas toman como

estadiacutesticolamediadeambasSinembargoestonodebehacersepuestoqueelre-sultado puede carecer de sentido podriacutea tratarse de un valor que no existe en la dis-tribucioacuten Por otro lado iquestcuaacutel es el problema de presentar dos modas Precisamente lo anterior la obtencioacuten (o presentacioacuten) de dos modas permite ver hasta queacute punto el caacutelculo de una media es liacutecito En efecto si las dos modas son adyacentes y centra-das no seriacutea ninguacuten problema pero si no lo son esto debe advertir de que no hay que calcular la media

La mediana es un iacutendice que informa del dato de la distribucioacuten que la divide en dos partesigualesysedefineportantocomoaquelvalorquedejaporencimaypordebajoel 50 por ciento de las frecuencias Puede utilizarse con variables cualitativas cuyas mo-dalidades puedan ordenarse y con variables cuantitativas

Suobtencioacutenesenormementesencillauacutenicamentehayquelocalizarenlacolum-na de proporciones acumuladas de la tabla de la distribucioacuten el valor que comprenda el 05 y ver a queacute puntuacioacuten de la variable corresponde En el ejemplo (cuadro 25) tras obtener las proporciones acumuladas la mediana se localiza en la proporcioacuten acumulada 06 porque es la que incluye 05 (la anterior se queda en 04) por lo que la mediana es Md = 4 es decir el valor de la distribucioacuten que divide a los sujetos en dos grupos

Explorando los datos

41

cuadro 25 Localizacioacuten de la mediana

Xi ni pi pa

2345678

4 0 2 2 1 0 1

04000202010001

04040608090910

ndash 10 10

Cabe sentildealar que si su valor coincide con el de la media y el de la moda o son muy similares la distribucioacuten es simeacutetrica o muy cercana a la simetriacutea En cambio si los re-sultados para los tres iacutendices son muy diferentes hay que tener cuidado con la forma de la distribucioacuten y lo que se ha calculado Hayquerecordarqueunarepresentacioacutengraacuteficaes un complemento perfecto en los anaacutelisis para aclarar los resultados

Los iacutendices de posicioacuten son todos aquellos que permiten situar a un sujeto dentro de unadistribucioacutendefrecuenciasSunombregeneacutericoescuantiles y los maacutes utilizados en este contexto son los percentiles y los cuartiles

Los percentiles tambieacuten llamados centiles son las puntuaciones de la variable que dividen la distribucioacuten en cien partes iguales Hay por tanto 99 percentiles La nomen-clatura utilizada es Pk y su valor se interpreta como la puntuacioacuten que deja por debajo de siacute al k por ciento de los sujetos Por ejemplo si P20 = 9 se dice que 9 es el valor de la distribucioacuten que deja por debajo de siacute al 20 por ciento de los sujetos

Por su parte los cuartiles son las puntuaciones de la variable que dividen la distri-bucioacuten en cuatro partes iguales Hay por tanto tres cuartiles La nomenclatura utilizada es Qk (k = 1 2 o 3) y su valor se interpreta como la puntuacioacuten que deja por debajo de siacute al 25 k por ciento de los sujetos Por ejemplo si Q3 = 8 se dice que 8 es el valor de la distribucioacuten que deja por debajo de siacute al 75 por ciento de los sujetos

Obtener percentiles o cuartiles es tan sencillo como hacerlo con la mediana se bus-ca en la columna de las proporciones acumuladas o de los porcentajes acumulados de la distribucioacuten la proporcioacuten o porcentaje de intereacutes y se localiza la puntuacioacuten de la variable a la que pertenece

El cuadro 26 es el resultado de aplicar un test que mide conductas saacutedicas Un sujeto que por ejemplo obtiene una puntuacioacuten igual a 15 resulta que se situacutea en el percentil P77 y en el cuartil Q3 lo que lo coloca en los valores altos de la distribucioacuten Es claramente necesaria una raacutepida intervencioacuten

Herramientas estadiacutesticas en criminologiacutea

42

Los percentiles y los cuartiles permiten interpretar la situacioacuten de un sujeto en la distribucioacuten de la variable que se ha medido sin necesidad de conocer ni la puntuacioacuten directa ni el valor miacutenimo y maacuteximo de la distribucioacuten lo que resulta de gran utilidad

Por otro lado del cuadro 26 se desprende que la mediana se localiza en el percentil 50 y en el cuartil 2 siendo su valor igual a 12

En efecto en distribuciones simeacutetricas

Md = P50 = D5 = Q2

cuadro 26 Localizacioacuten de percentiles y cuartiles

Xi ni na pa Pk Qk

6 7 8 91011

12

13141516171819

8 4 8 5 710

9

11 9 7 8 4 4 6

8 12 20 25 32 42

51

62 71 78 86 90 94100

008012020025032042

051

062071078086090094100

P7P11P19P24P31P41

P50

P61P70P77P85P89P93P99

ndashndashndashndash

Q1ndash

Q2

ndashndash

Q3ndashndashndashndash

No todos somos iguales Bien es cierto que entre las personas existen ciertos com-portamientos similares pero siempre hay diferencias individuales Mientras que los procesoscomogrupovienencuantificadosconlosiacutendicesdetendenciacentral(mediamedianamodaetc)lasdiferenciasindividualesseveraacutenreflejadasenlosiacutendices de variabilidad Dicho con otras palabras estos iacutendices permitiraacuten saber cuaacutento se distan-cian los individuos del sujeto promedio En el ejemplo que se presenta se recogen las puntuaciones de cinco criminales obtenidas en egocentrismo ilimitado

X1 10 11 12 13 14

La media calculada es`X=12Sinembargolosregistrosmuestrandiferenciasentreellos por lo que cada uno se distancia de su media

Explorando los datos

43

10 ndash 12 = ndash2 11 ndash 12 = ndash1 12 ndash 12 = 0 13 ndash 12 = 1 y 14 ndash 12 = 2

Los resultados muestran alejamientos positivos y negativos (unos son maacutes ego-ceacutentricos y otros menos con respecto a la media de 12) con lo que se podriacutea plantear el caacutelculo del promedio de esas distancias como iacutendice de variabilidad En efecto esto es precisamente lo que hace el estadiacutestico desviacioacuten media

sum=

minusDM

(X X)nXi

1

Sufoacutermulaclaramentereflejacuaacutentosealejanenpromediolaspuntuacionesdesumedia Aplicaacutendola a los datos del ejemplo

sum=

minus=

minus + minus + + +=DM

(X X)n

( 2) ( 1) 0 1 25

0Xi

1

Habiendo constatado las diferencias individuales iquestcoacutemo es posible que el prome-dio de distancias sea igual a cero La razoacuten es muy sencilla las diferencias son unas positivas y otras negativas compensaacutendose las unas con las otras y siempre va a ocurrir que la suma de esas diferencias sea igual a 0 ya que son distancias a un punto central que es la media

Entonces si la desviacioacuten media siempre va a ser igual a cero hay que buscar otro iacutendice que siendo tan sencillo e informativo como este solvente el problema Una po-sibilidad seriacutea trabajar con las diferencias en valores absolutos pero estos resultan poco manejables matemaacuteticamente y por tanto poco convincentes

Otra opcioacuten es calcular las diferencias elevarlas al cuadrado y a partir de ahiacute obte-ner su promedio Un iacutendice de dispersioacuten computado asiacute se denomina varianza

sum=

minusS

(X X)nX

2 i2

Aplicaacutendolo a los datos

sum=

minus=

+ + + +=S

(X X )n

4 1 0 1 45

2X2 i 1

2

1

Una foacutermula maacutes raacutepida de obtener la varianza sobre todo cuando se manejan mu-chos datos es mediante la siguiente expresioacuten

Page 6: Herramientas estadísticas en criminología · 2019. 10. 10. · Herramientas estadísticas en criminología Concepción San Luis Costas Isabel Cañadas Osinski. Reservados todos

Herramientas estadiacutesticas en criminologiacutea

6

2 exPlorando los datos 31

21 Introduccioacuten 3122 Exploracioacuten de los datos para una variable 31

221 Distribucioacuten de frecuencias 32222 Representaciones graacuteficas Valores perdidos y atiacutepicos 34223 Representaciones numeacutericas iacutendices de tendencia central de varia-

bilidad y de posicioacuten 3723 Exploracioacuten de los datos para dos variables 47

231 Representaciones graacuteficas el diagrama de dispersioacuten 47232 Representaciones numeacutericas covarianza e iacutendices de correlacioacuten de

Pearson Spearman y ji-cuadrado 50

3 PuntuacIones tiacutePIcas queacute son y Para queacute sIrven 5931 Introduccioacuten 5932 Escalas y unidades de medida 6033 Las puntuaciones tiacutepicas y sus propiedades 6334 Puntuaciones tiacutepicas y percentiles 6535 Puntuaciones tiacutepicas y la distribucioacuten normal 6936 PuntuacionestiacutepicasyelcoeficientedecorrelacioacutendePearson 76

4 varIables aleatorIas 7941 Introduccioacuten 7942 Variable aleatoria discreta 79

421 La distribucioacuten binomial 8343 Variable aleatoria continua 85

431 La distribucioacuten normal 86432 La distribucioacuten χ2 de Pearson 88433 La distribucioacuten t de Student 90434 La distribucioacuten F de Fisher 92

44 Distribucioacuten muestral de un estadiacutestico 94441 Distribucioacuten muestral de la media 98

5 artIculando los resultados Para la toma de decIsIones 10551 Introduccioacuten 10552 Pruebasdesignificacioacuten 106

Iacutendice

7

521 El proceso en la prueba de significacioacuten 108522 Probabilidad asociada y nivel de significacioacuten 111523 Probabilidad asociada y tamantildeo de la muestra 113524 Error tipo I error tipo II y potencia 115525 Potencia y tamantildeo de la muestra 117526 Tamantildeo del efecto 119

53 Estimacioacuten de paraacutemetros 125531 Estimacioacuten puntual 125532 Estimacioacuten por intervalos 128533 Proceso de construccioacuten de los intervalos de confianza 130534 Factores que afectan a la precisioacuten del intervalo de confianza 132

6 el caso de una muestra 133

61 Introduccioacuten 13362 Intervalodeconfianzadelamedia 13463 Intervalodeconfianzadelavarianza 14164 Intervalodeconfianzadelamedianaydeotrospercentiles 14465 Intervalodeconfianzadelaproporcioacuten 14666 IntervalodeconfianzadelacorrelacioacutendePearson 14967 IntervalodeconfianzadelacorrelacioacutendeSpearman 15168 Tamantildeo de la muestra para los distintos paraacutemetros 15369 Estudio de la distribucioacuten de los datos forma e independencia de las

observaciones 157691 Normalidad de las observaciones 157692 Independencia de las observaciones 158

7 el caso de dos muestras 161

71 Introduccioacuten 16172 Muestras independientes y relacionadas 16173 El caso de dos medias independientes 16374 El caso de dos medias relacionadas o de medidas repetidas 16975 El caso de dos varianzas 173

751 Muestras independientes 173752 Muestras relacionadas 174

76 El caso de dos proporciones 176761 Muestras independientes 176762 Muestras relacionadas 178

Herramientas estadiacutesticas en criminologiacutea

8

77 Alternativas no parameacutetricas 181771 Prueba de Mann-Whitney 181772 Prueba de Wilcoxon 184

8 el caso de maacutes de dos muestras I 187

81 Introduccioacuten 18782 Nomenclatura 18883 ANOVA de un factor para muestras independientes 190

831 Supuestos 192832 Estadiacutestico de contraste F 193

84 ANOVA de un factor de medidas repetidas 196841 Supuestos 198842 Estadiacutestico de contraste 199

85 Resultados complementarios 200851 Tamantildeo del efecto 202852 Potencia 203853 Comparaciones muacuteltiples 203

86 Alternativas no parameacutetricas 207861 Kruskal-Wallis 207862 Freedman 209863 Comparaciones a posteriori 211

9 el caso de maacutes de dos muestras II 213

91 Introduccioacuten 21392 Disentildeo de dos factores completamente aleatorizado 216

921 Supuestos del modelo 216922 El estadiacutestico de contraste 217

93 Interpretacioacuten de los efectos principales y de la interaccioacuten 22394 Efectos simples 22595 Resultados complementarios 228

951 Tamantildeo del efecto 228952 Potencia 229953 Comparaciones muacuteltiples 229

96 Alternativa no parameacutetrica 23297 Disentildeos de maacutes de dos factores 234

Iacutendice

9

10 regresIoacuten lIneal 235

101 Introduccioacuten 235102 Modelo de regresioacuten lineal 236103 El ajuste del modelo datos 240

1031 Los coeficientes semiparciales 241104 Meacutetodos de construccioacuten del modelo 243105 Anaacutelisis de variables mediadoras y moderadoras 245

1051 Efecto de mediacioacuten 2461052 Efecto de moderacioacuten 248

106 Supuestosenelanaacutelisis 251107 Inferencia en la regresioacuten muacuteltiple 254108 Fiabilidad y validez del modelo 255109 Regresioacuten logiacutestica binaria 257

referencIas bIblIograacutefIcas 261

Contenidos digitales

Anexo 1 Tablas estadiacutesticas

Anexo 2 Acceso a descarga de programas

Anexo 3 Viacutedeos

Anexo 4 Datos simulados

Anexo 5 Actividades propuestas de replicacioacuten

31

2Explorando los datos

21 Introduccioacuten

La primera cuestioacuten que debe contemplarse antes de la aplicacioacuten de cualquier teacutecnica estadiacutestica es la relativa a la descripcioacuten de la muestra (en algunos casos excepcionales de la poblacioacuten) la segunda el estudio minucioso de las caracteriacutesticas que presentan lasvariablesobjetodeestudioquehansidocuantificadasmedianteelcorrespondienteproceso de medida o asignacioacuten numeacuterica

El anaacutelisis exploratorio de los datos implica una actitud curiosa que estaacute motivada porlapremisadequecuantomejorconozcaelinvestigadorlosdatosquetienemaacutesefi-cientementesepuedenusarparadesarrollaryrefinarsuspropuestasPortantoeltrabajode detective del investigador tendraacute como principal objetivo un abordaje exploratorio de datos para maximizar lo que pueda aprender a partir de ellos y de este modo entender el conjunto de las variables y su comportamiento

22 Exploracioacuten de los datos para una variable

Realizar un anaacutelisis exploratorio de los datos permitiraacute al investigador mediante un conjunto de procedimientos sencillos

ndash Conocer la estructura de los datos es decir ver las caracteriacutesticas que presenta su dis-tribucioacuten e intuir la distribucioacuten de probabilidad que presentan visualizando la forma y sus propiedades caracteriacutesticas (normalidad simetriacutea apuntamiento o curtosis)

ndash Detectar posibles errores en el disentildeondash Detectar errores en el proceso de recogida de datosndash Identificar casos atiacutepicos frutodediversas causasquepuedenabarcardesde

errores humanos hasta la presencia de valores anoacutemalos en relacioacuten con el con-junto general de valores

Herramientas estadiacutesticas en criminologiacutea

32

ndash Evaluar y tratar datos ausentes (datos que faltan en la matriz)ndash Comprobar los supuestos subyacentes a la teacutecnica estadiacutestica que se pretende

emplear para responder a las preguntas de la investigacioacuten

Para cumplir con estos objetivos deberaacute construir una distribucioacuten de frecuencias y acu-diralasrepresentacionesgraacuteficasynumeacutericasloqueseexplicaenlassiguientespaacuteginas

221 Distribucioacuten de frecuencias

Una vez se tiene la matriz de datos es el momento de empezar a organizar variables sujetos analizar los casos etc El primer paso es la construccioacuten de una distribucioacuten de frecuencias disposicioacuten de una variable en una tabla con sus modalidades que inclu-ye el recuento de casos en cada una los porcentajes etc Hay tantas distribuciones de frecuencias como variables contenga la matriz una distribucioacuten para cada una de las variables

cuadro 21 Matriz de datos

Sujeto Creencias Motivacioacuten Empatiacutea Distorsiones Emociones Control Responsabilidad

123456789

10

110100120120 50110 60 30 40 90

51503312251118305441

20 2 822 52116 32429

123110120131150110175133120149

11249

106347

13103142556127334090

81010 9 4 9 8 5 4 7

La matriz de datos del cuadro 21 es un ejemplo de los resultados obtenidos tras un programa de intervencioacuten a hombres maltratadores en la aplicacioacuten de una bateriacutea de cuestionarios para medir sus creencias sexistas su motivacioacuten para el cambio la empatiacuteaconlasviacutectimaslasdistorsionescognitivaslaidentificacioacutendeemocioneselcontrol de la ira y la asuncioacuten de responsabilidad En la matriz de datos estaacuten los sujetos con sus puntuaciones en las variables pero la visioacuten de estas resulta un tanto confusa al no estar ordenadas sus puntuaciones

Al extraer por ejemplo las variables creencias sexistas y asuncioacuten de responsabi-lidad y organizar cada una en una distribucioacuten de frecuencias (cuadro 22) se puede

Explorando los datos

33

observar todo el rango de valores y el nuacutemero de casos (ni) de sus modalidades Ense-guida se aprecia por ejemplo que las puntuaciones en creencias se concentran maacutes en torno a los valores maacutes altos de la distribucioacuten (hay 6 sujetos con valores entre 90 y 120) casi lo mismo que la responsabilidad cuyo mayor nuacutemero de casos se encuentra en los valores maacutes altos (6 sujetos entre 8 y 10) aunque en general sus puntuaciones esteacuten maacutes repartidas

cuadro 22 Distribuciones de frecuencias

Creencias ni Responsabilidad ni

30 40 50 60 70 80 90100110120

1 1 1 1 0 0 1 1 2 2

4 5 6 7 8 910

2 1 0 1 2 2 2

10

10

La ventaja fundamental de una distribucioacuten de frecuencias es la posibilidad de ex-traer conclusiones de la variable sin realizar siquiera un anaacutelisis estadiacutestico complejo Incluso sin perder sencillez se puede complementar con otros datos

ndashFrecuencia absoluta (ni) nuacutemero de casos de cada modalidad de la variablendashFrecuencia acumulada (na) recuento de las frecuencias absolutas en orden as-

cendente seguacuten el sentido de las modalidadesndashProporcioacuten o frecuencia relativa (pi) frecuencia absoluta nuacutemero total de ca-

sos (n)ndashProporcioacuten acumulada (pa) frecuencia acumulada (na) nuacutemero total de casos (n)ndashPorcentaje (Pi) proporcioacuten (pi) x 100ndashPorcentaje acumulado (Pa) proporcioacuten acumulada (pa) x 100

En el caso de la variable creencias sexistas quedariacutea tal y como se aprecia en el cuadro 23 En general sus valores se encuentran bastante repartidos en la distribucioacuten aunque el mayor porcentaje de casos se situacutea en los valores 110 y 120 y ninguacuten sujeto ha obtenido una puntuacioacuten de 70 u 80

Herramientas estadiacutesticas en criminologiacutea

34

cuadro 23 Distribucioacuten de frecuencias de la variable creencias

Creencias ni na pi pa Pi Pa

30 40 50 60 70 80 90100110120

1111001122

1 2 3 4 4 4 5 6 810

01 01 01 01

00

01 01 02 02

01020304040405060810

10101010 0 010102020

10 20 30 40 40 40 50 60 80100

n = 10 - 10 - 100 -

Cabe decir que la frecuencia proporcioacuten y porcentaje acumulados (na pa y Pa) solo se utilizan con variables cuantitativas Pensando por ejemplo en la variable estado civil con sus modalidades y frecuencias absolutas iquestqueacute sentido tendriacutea hacer un re-cuento acumulado de sus frecuencias Aunque ahora no se aprecie la utilidad de la acumulacioacuten maacutes adelante se comprobaraacute lo praacutectico que resulta para localizar sujetos de la distribucioacuten y para interpretar su posicioacuten

222 Representaciones graacuteficas Valores perdidos y atiacutepicos

Una manera sencilla de observar el comportamiento de una variable es mediante su re-presentacioacutengraacuteficanoenvanosufuncioacutenprincipalesobtenerinformacionesglobalesmedianteunsologolpedevistaExistengraacuteficasparatodoslosgustosperonosiempresuaspectosofisticadoessinoacutenimodeclaridadyexactitudLas representacionesmaacutessencillassonlasquemejorreflejanlascaracteriacutesticasdelasvariablesyestassonlasquese van a presentar a continuacioacuten

Cuandolavariableescualitativaocuantitativadiscretaungraacuteficomuyutilizadoesel diagrama de barras En la abscisa se colocan las modalidades de la variable y en la ordenada las frecuencias o porcentajes Tambieacuten se puede representar la variable medida endosomaacutesgruposparasucomparacioacutentalycomosepuedeverenlafigura21

Eneldiagramadelafigura21secomparaporejemploelgradodeiraenungrupo de hombres y otro de mujeres Las diferencias en las modalidades baja media alta y muy alta noestaacutenmuyclarasSepodriacuteadecirqueenlastressepresentanni-veles similares de ira

Explorando los datos

35

Frec

uenc

ia

10

8

6

4

2

0Baja Media Alta Muy alta

fIgura 21 Diagrama de barras

Cuando se trata de variables cuantitativas los diagramas se denominan histogra-mascomosemuestraen lafigura22Enesteejemploseobserva laevolucioacutendeun grupo de adolescentes diagnosticados de un trastorno adaptativo antes y despueacutes de una intervencioacuten para mejorar su grado de incertidumbre en temas relacionados con la identidad (objetivos a largo plazo eleccioacuten profesional patrones de amistad orientacioacutenyconductasexualetc)Enelprimergraacuteficotodoslossujetostienenunapuntuacioacuten superior a 35 situaacutendose un gran nuacutemero de ellos entre los valores 40 y 50 delaescalaEnelsegundograacuteficoesdondeseconstatalamejoriacuteatraseltratamientopuesto que ninguacuten sujeto supera el valor de 50 en la escala de incertidumbre ubicaacuten-doseunelevadonuacutemerodeellosentrelosvalores10y30Setratadedoshistogramasbien sencillos que arrojan mucha informacioacuten Es importante sentildealar que se debe res-petarelorigendecoordenadasenambosgraacuteficossinoresultandifiacutecilesdecomparary pierden toda su funcioacuten de informar raacutepidamente de los cambios en una variable de su comportamiento en grupos distintos etc

Frec

uenc

ia

6

5

4

3

2

1

00 5 10 15 20 25 30 35 40 45 50 55 60 65 70

Grado de incertidumbre antes

Frec

uenc

ia

6

5

4

3

2

1

00 5 10 15 20 25 30 35 40 45 50 55 60 65 70

Grado de incertidumbre despueacutes

fIgura 22 Histograma de la misma variable en dos momentos distintos

Herramientas estadiacutesticas en criminologiacutea

36

Ungraacuteficodignodemencioacuteneslacurva normal que es el modelo prototipo contra el que se suelen comparar la mayoriacutea de las variables cuando se trabaja con meacutetrica cuantitativaSecaracterizaporsersimeacutetricaypresentarunaliacutenealisaosuavizadacondos colas de igual longitud lo que implica que el porcentaje de casos en ambas es ideacuten-ticoEnrealidadsetratadeunhistogramacuandosehanrecogidoinfinitosdatosdelavariable en otras palabras se trata de un modelo teoacuterico

Sinembargoypeseaseresteelmodeloporantonomasianotodaslasvariablesse acercan a esta distribucioacuten es maacutes en muchas ocasiones es extremadamente com-plicado siquiera encontrar variables que se asemejen a eacutel La situacioacuten maacutes habitual es que cada una de las variables que se haya medido presente diferencias tanto en localizacioacutencomoenformaydispersioacutenrespectoalmodelorepresentadoenlafigu-ra 23 de ahiacute la importancia de describir para cada variable estas caracteriacutesticas lo que permitiraacute evaluar el grado de semejanza con el modelo teoacuterico sobre el que descansaraacute el anaacutelisis de datos

Dispersioacuten

LocalizacioacutenCola izquierda Cola derecha

fIgura 23 Curva normal

Un aspecto que condicionaraacute en gran medida la obtencioacuten de representaciones nu-meacutericas son los casos raros o atiacutepicos Un valor raro hace referencia a un sujeto que presenta un comportamiento muy diferente del resto normalmente porque tiene pun-tuaciones extremas por encima o por debajo de la cola de la distribucioacuten lo que provoca que esta se aleje de una normal Una de las consecuencias de la presencia de outliers porejemploeseldesplazamientoartificialdelamediahaciaarribaohaciadebajocon-virtieacutendolosenobservacionesinfluyentes(Kaplan2000)

LapresenciadeestosdatospuededebersesimplementeaerroresdecodificacioacutenBajo tal circunstancia son faacutecilmente detectables mediante un anaacutelisis de frecuencias

Explorando los datos

37

quepermitaidentificarvaloresfueradelrangoadmisibleEncualquiercasolosva-lores raros son faacuteciles de identificarmediante una simple inspeccioacuten visual de larepresentacioacutengraacuteficaseobservanlossujetoscuyaspuntuacionesestaacutenmuyporen-cima o por debajo de la cola de la distribucioacuten o del intervalo establecido Una vez identificadoelsujetoenlabasededatoshabriacuteaqueeliminarloyvolverarepetirlosanaacutelisis Cuando son detectados hay que de plantearse si esos sujetos proceden de otra poblacioacuten distinta o si por el contrario perteneciendo a la poblacioacuten de referen-cia se trata de sujetos excepcionales El problema es que no siempre es faacutecil hacer esta distincioacuten

Por su parte los valores perdidos se deben a una gran variedad de circunstancias que pueden ocurrir durante una investigacioacuten y que estaacuten fuera del control del investigador Asiacuteporejemplopuedesucederquehaya fallosen losequipos (registrospsicofisio-loacutegicos por ejemplo) o que los sujetos no respondan deliberadamente a determinadas cuestiones o bien por muerte experimental

Ante los valores perdidos se deben considerar su cantidad y el grado en que afectan a la investigacioacuten En este caso no hay una respuesta clara y siacute una gran variedad de opiniones Cohen y Cohen (1983) entienden que es soportable hasta un 5 o 10 por ciento de casos perdidos En segundo lugar se ha de valorar si la estructura de los datos per-didosesaleatoriaosistemaacuteticaSiladistribucioacutendelosvaloresperdidosesaleatoriaestariacuteaindicandoquelossujetosenlosquehaypresentesvaloresperdidosdifierensolopor azar de aquellos en los que no estaacuten presentes Por tanto los resultados obtenidos en estos sujetos podriacutean ser generalizables al resto En el caso de que la distribucioacuten de datos perdidos siga un patroacuten sistemaacutetico se tratariacutea del caso contrario y por tanto no se deberiacutea ignorar esta circunstancia Es maacutes se deberiacutea hacer todo lo posible por intentar interpretar el comportamiento y naturaleza de la distribucioacuten de los valores perdidos (por queacute y coacutemo se distribuyen a lo largo de las distintas variables y de los sujetos)

223 Representaciones numeacutericas iacutendices de tendencia central de variabilidad y de posicioacuten

Enmuchoscasosunadistribucioacutende frecuenciasyuna representacioacutengraacuteficaseraacutenmaacutesquesuficientesparaentenderelcomportamientodeunavariableenungrupodesujetosSinembargocuandoelintereacutessecentraenlacomparacioacutendevariosgruposenlamismavariableoenmaacutesdeunatratarcontablasygraacuteficosymaacutestablasymaacutesgraacute-ficospuederesultarunpocoengorrosotantoparaelpropiomanejocomoparaellectorde los informes En situaciones asiacute puede ser maacutes apropiado trabajar con unos iacutendices quedescribandeformamaacutessencillalainformacioacutencontenidaenlasdistribucionesSetrata de los estadiacutesticos de una muestra iacutendices que ademaacutes de hacer manejable la in-formacioacuten contenida en los datos son la base sobre la que se sustenta la mayoriacutea de las teacutecnicas de anaacutelisis de datos

Herramientas estadiacutesticas en criminologiacutea

38

Los estadiacutesticos de tendencia central son aquellos que resumen el comportamiento de una variable en un solo valor representando asiacute al conjunto de sujetos en el que son calculados

La media aritmeacutetica es el iacutendice de tendencia central maacutes utilizado y su caacutelculo es tan simple como promediar todas las puntuaciones de un grupo en una variable tal y comoreflejansusfoacutermulasparadatosbrutosyparadatosdeunadistribucioacutendefre-cuencias

XXn

isum= X

n Xni isum

=sdot

donde Xi es la puntuacioacuten de un sujeto n es el tamantildeo de la muestra y ni la frecuencia absoluta

SeaelsiguienteejemploEnelserviciodepsiquiatriacuteadeuncentropenitenciariose ha observado que los internos drogodependientes con insomnio croacutenico muestran ciertasensibilidadinusualalruidoDebidoalasdificultadesqueconllevalaaplicacioacutende cuestionarios que midan la sonoridad subjetiva se decide evaluarlos con una prueba en la que deben interrumpir un sonido cuando les resulta molesto y se recoge el tiempo (en segundos) que tardan en pulsar el interruptor Los datos de diez pacientes son los siguientes

4 5 8 2 4 2 5 2 2 6

La media aritmeacutetica es

XXn

4 5 8 2 4 2 5 2 2 610

4010

4isum= =

+ + + + + + + + += =

Suponiendoqueenlossujetossinladolenciadescritalamediaaritmeacuteticaes8se-gundos se puede concluir que estos pacientes que han tardado en conjunto un promedio de 4 segundos en sentir el sonido como un ruido molesto presentan una sensibilidad al ruido mayor

Al agrupar los datos anteriores en una tabla (veacutease el cuadro 24) la media aritmeacute-tica que resulta es

X

n Xn

8 0 8 10 6 0 810

4010

4i isum=

sdot=

+ + + + + += =

Explorando los datos

39

cuadro 24 Caacutelculo de la media en una distribucioacuten de frecuencias

Xi ni ni Xi

2345678

4 0 2 2 1 0 1

8 0 810 6 0 8

ndash 10 40

Tal es la sencillez de la obtencioacuten de la media que se ha convertido en un estadiacutestico omnipresenteentodoinformedeinvestigacioacutenquetrateconvariablesSinembargoantes de su caacutelculo deberaacuten tenerse en cuenta las siguientes consideraciones

ndashEs muy sensible a cualquier variacioacuten en los datos Por ejemplo un error en la introduccioacuten de un valor numeacuterico puede resultar desastroso al calcularla

3 5 7 4 `X = 4753 5 7 40 `X = 1375

ndashNo se debe utilizar ante conjuntos de datos en los que hay casos extremos por-que deja de cumplir con su funcioacuten que es la de representar al conjunto

X 1 2 2 4 4 8 9 10 cuya media es`X = 5

iquestA quieacuten representa esta media si ni siquiera su valor estaacute en la distribucioacuten Porestosiempredeberaacuteiracompantildeadadeungraacuteficoobiensedebeinformarque los datos se ajustan a una distribucioacuten simeacutetrica

ndashConvariablescualitativasnotienesentidocalcularlaiquestsepuedeafirmarquelamedia aritmeacutetica del estado civil es 25 Tambieacuten hay que ser cautelosos con el resultado de algunas variables cuantitativas discretas como por ejemplo el nuacutemerodedelitosSepuededecirqueundelincuentehacometidoeldoblededelitos que otro pero iquestes pertinente hablar de un promedio de 35 delitos

La simplicidad en la obtencioacuten de la media aritmeacutetica la ha convertido en la estrella de los estadiacutesticos de tendencia central Doctos y legos la conocen y utilizan pero hay

Herramientas estadiacutesticas en criminologiacutea

40

que ser cautos porque los datos no estaacuten exentos de trampas En aquellos casos en los que no sea adecuado calcularla se puede probar con la moda o con la mediana

La moda es un iacutendice de tendencia central que representa el valor cuya frecuen-cia absoluta es la maacutes alta en la distribucioacuten Puede utilizarse con cualquier tipo de variable ya sea cualitativa o cuantitativa y su obtencioacuten es muy sencilla Los datos simplemente se ordenan y se ve cuaacutel se repite maacutes Ese valor es por tanto la moda de la distribucioacuten En el ejemplo de los pacientes con delirium por abstinencia la moda tanto con los datos brutos como agrupados en la distribucioacuten de frecuencias (cuadro 24) es 2 (y no 4 cuidado con esto) Este resultado se interpreta como que la mayoriacutea de los pacientes de este grupo tarda 2 segundos en sentir el ruido como molesto (Cabe sentildealar que la moda no coincide con la media lo que ya habla de una distribucioacuten asimeacutetrica)

Puede suceder que una distribucioacuten tenga dos valores con la maacutexima frecuencia la misma o muy similar pero que ambas se diferencien bastante del resto En estos casos se dice que la distribucioacuten presenta dos modas o que es bimodal

2 2 4 4 4 6 6 6 6 6 6 8 8 8 10 10 10 10 10 10 10

En los datos anteriores se tienen dos modas Mo1 = 6 y Mo2 = 10Cuando los valores de la moda son adyacentes algunos analistas toman como

estadiacutesticolamediadeambasSinembargoestonodebehacersepuestoqueelre-sultado puede carecer de sentido podriacutea tratarse de un valor que no existe en la dis-tribucioacuten Por otro lado iquestcuaacutel es el problema de presentar dos modas Precisamente lo anterior la obtencioacuten (o presentacioacuten) de dos modas permite ver hasta queacute punto el caacutelculo de una media es liacutecito En efecto si las dos modas son adyacentes y centra-das no seriacutea ninguacuten problema pero si no lo son esto debe advertir de que no hay que calcular la media

La mediana es un iacutendice que informa del dato de la distribucioacuten que la divide en dos partesigualesysedefineportantocomoaquelvalorquedejaporencimaypordebajoel 50 por ciento de las frecuencias Puede utilizarse con variables cualitativas cuyas mo-dalidades puedan ordenarse y con variables cuantitativas

Suobtencioacutenesenormementesencillauacutenicamentehayquelocalizarenlacolum-na de proporciones acumuladas de la tabla de la distribucioacuten el valor que comprenda el 05 y ver a queacute puntuacioacuten de la variable corresponde En el ejemplo (cuadro 25) tras obtener las proporciones acumuladas la mediana se localiza en la proporcioacuten acumulada 06 porque es la que incluye 05 (la anterior se queda en 04) por lo que la mediana es Md = 4 es decir el valor de la distribucioacuten que divide a los sujetos en dos grupos

Explorando los datos

41

cuadro 25 Localizacioacuten de la mediana

Xi ni pi pa

2345678

4 0 2 2 1 0 1

04000202010001

04040608090910

ndash 10 10

Cabe sentildealar que si su valor coincide con el de la media y el de la moda o son muy similares la distribucioacuten es simeacutetrica o muy cercana a la simetriacutea En cambio si los re-sultados para los tres iacutendices son muy diferentes hay que tener cuidado con la forma de la distribucioacuten y lo que se ha calculado Hayquerecordarqueunarepresentacioacutengraacuteficaes un complemento perfecto en los anaacutelisis para aclarar los resultados

Los iacutendices de posicioacuten son todos aquellos que permiten situar a un sujeto dentro de unadistribucioacutendefrecuenciasSunombregeneacutericoescuantiles y los maacutes utilizados en este contexto son los percentiles y los cuartiles

Los percentiles tambieacuten llamados centiles son las puntuaciones de la variable que dividen la distribucioacuten en cien partes iguales Hay por tanto 99 percentiles La nomen-clatura utilizada es Pk y su valor se interpreta como la puntuacioacuten que deja por debajo de siacute al k por ciento de los sujetos Por ejemplo si P20 = 9 se dice que 9 es el valor de la distribucioacuten que deja por debajo de siacute al 20 por ciento de los sujetos

Por su parte los cuartiles son las puntuaciones de la variable que dividen la distri-bucioacuten en cuatro partes iguales Hay por tanto tres cuartiles La nomenclatura utilizada es Qk (k = 1 2 o 3) y su valor se interpreta como la puntuacioacuten que deja por debajo de siacute al 25 k por ciento de los sujetos Por ejemplo si Q3 = 8 se dice que 8 es el valor de la distribucioacuten que deja por debajo de siacute al 75 por ciento de los sujetos

Obtener percentiles o cuartiles es tan sencillo como hacerlo con la mediana se bus-ca en la columna de las proporciones acumuladas o de los porcentajes acumulados de la distribucioacuten la proporcioacuten o porcentaje de intereacutes y se localiza la puntuacioacuten de la variable a la que pertenece

El cuadro 26 es el resultado de aplicar un test que mide conductas saacutedicas Un sujeto que por ejemplo obtiene una puntuacioacuten igual a 15 resulta que se situacutea en el percentil P77 y en el cuartil Q3 lo que lo coloca en los valores altos de la distribucioacuten Es claramente necesaria una raacutepida intervencioacuten

Herramientas estadiacutesticas en criminologiacutea

42

Los percentiles y los cuartiles permiten interpretar la situacioacuten de un sujeto en la distribucioacuten de la variable que se ha medido sin necesidad de conocer ni la puntuacioacuten directa ni el valor miacutenimo y maacuteximo de la distribucioacuten lo que resulta de gran utilidad

Por otro lado del cuadro 26 se desprende que la mediana se localiza en el percentil 50 y en el cuartil 2 siendo su valor igual a 12

En efecto en distribuciones simeacutetricas

Md = P50 = D5 = Q2

cuadro 26 Localizacioacuten de percentiles y cuartiles

Xi ni na pa Pk Qk

6 7 8 91011

12

13141516171819

8 4 8 5 710

9

11 9 7 8 4 4 6

8 12 20 25 32 42

51

62 71 78 86 90 94100

008012020025032042

051

062071078086090094100

P7P11P19P24P31P41

P50

P61P70P77P85P89P93P99

ndashndashndashndash

Q1ndash

Q2

ndashndash

Q3ndashndashndashndash

No todos somos iguales Bien es cierto que entre las personas existen ciertos com-portamientos similares pero siempre hay diferencias individuales Mientras que los procesoscomogrupovienencuantificadosconlosiacutendicesdetendenciacentral(mediamedianamodaetc)lasdiferenciasindividualesseveraacutenreflejadasenlosiacutendices de variabilidad Dicho con otras palabras estos iacutendices permitiraacuten saber cuaacutento se distan-cian los individuos del sujeto promedio En el ejemplo que se presenta se recogen las puntuaciones de cinco criminales obtenidas en egocentrismo ilimitado

X1 10 11 12 13 14

La media calculada es`X=12Sinembargolosregistrosmuestrandiferenciasentreellos por lo que cada uno se distancia de su media

Explorando los datos

43

10 ndash 12 = ndash2 11 ndash 12 = ndash1 12 ndash 12 = 0 13 ndash 12 = 1 y 14 ndash 12 = 2

Los resultados muestran alejamientos positivos y negativos (unos son maacutes ego-ceacutentricos y otros menos con respecto a la media de 12) con lo que se podriacutea plantear el caacutelculo del promedio de esas distancias como iacutendice de variabilidad En efecto esto es precisamente lo que hace el estadiacutestico desviacioacuten media

sum=

minusDM

(X X)nXi

1

Sufoacutermulaclaramentereflejacuaacutentosealejanenpromediolaspuntuacionesdesumedia Aplicaacutendola a los datos del ejemplo

sum=

minus=

minus + minus + + +=DM

(X X)n

( 2) ( 1) 0 1 25

0Xi

1

Habiendo constatado las diferencias individuales iquestcoacutemo es posible que el prome-dio de distancias sea igual a cero La razoacuten es muy sencilla las diferencias son unas positivas y otras negativas compensaacutendose las unas con las otras y siempre va a ocurrir que la suma de esas diferencias sea igual a 0 ya que son distancias a un punto central que es la media

Entonces si la desviacioacuten media siempre va a ser igual a cero hay que buscar otro iacutendice que siendo tan sencillo e informativo como este solvente el problema Una po-sibilidad seriacutea trabajar con las diferencias en valores absolutos pero estos resultan poco manejables matemaacuteticamente y por tanto poco convincentes

Otra opcioacuten es calcular las diferencias elevarlas al cuadrado y a partir de ahiacute obte-ner su promedio Un iacutendice de dispersioacuten computado asiacute se denomina varianza

sum=

minusS

(X X)nX

2 i2

Aplicaacutendolo a los datos

sum=

minus=

+ + + +=S

(X X )n

4 1 0 1 45

2X2 i 1

2

1

Una foacutermula maacutes raacutepida de obtener la varianza sobre todo cuando se manejan mu-chos datos es mediante la siguiente expresioacuten

Page 7: Herramientas estadísticas en criminología · 2019. 10. 10. · Herramientas estadísticas en criminología Concepción San Luis Costas Isabel Cañadas Osinski. Reservados todos

Iacutendice

7

521 El proceso en la prueba de significacioacuten 108522 Probabilidad asociada y nivel de significacioacuten 111523 Probabilidad asociada y tamantildeo de la muestra 113524 Error tipo I error tipo II y potencia 115525 Potencia y tamantildeo de la muestra 117526 Tamantildeo del efecto 119

53 Estimacioacuten de paraacutemetros 125531 Estimacioacuten puntual 125532 Estimacioacuten por intervalos 128533 Proceso de construccioacuten de los intervalos de confianza 130534 Factores que afectan a la precisioacuten del intervalo de confianza 132

6 el caso de una muestra 133

61 Introduccioacuten 13362 Intervalodeconfianzadelamedia 13463 Intervalodeconfianzadelavarianza 14164 Intervalodeconfianzadelamedianaydeotrospercentiles 14465 Intervalodeconfianzadelaproporcioacuten 14666 IntervalodeconfianzadelacorrelacioacutendePearson 14967 IntervalodeconfianzadelacorrelacioacutendeSpearman 15168 Tamantildeo de la muestra para los distintos paraacutemetros 15369 Estudio de la distribucioacuten de los datos forma e independencia de las

observaciones 157691 Normalidad de las observaciones 157692 Independencia de las observaciones 158

7 el caso de dos muestras 161

71 Introduccioacuten 16172 Muestras independientes y relacionadas 16173 El caso de dos medias independientes 16374 El caso de dos medias relacionadas o de medidas repetidas 16975 El caso de dos varianzas 173

751 Muestras independientes 173752 Muestras relacionadas 174

76 El caso de dos proporciones 176761 Muestras independientes 176762 Muestras relacionadas 178

Herramientas estadiacutesticas en criminologiacutea

8

77 Alternativas no parameacutetricas 181771 Prueba de Mann-Whitney 181772 Prueba de Wilcoxon 184

8 el caso de maacutes de dos muestras I 187

81 Introduccioacuten 18782 Nomenclatura 18883 ANOVA de un factor para muestras independientes 190

831 Supuestos 192832 Estadiacutestico de contraste F 193

84 ANOVA de un factor de medidas repetidas 196841 Supuestos 198842 Estadiacutestico de contraste 199

85 Resultados complementarios 200851 Tamantildeo del efecto 202852 Potencia 203853 Comparaciones muacuteltiples 203

86 Alternativas no parameacutetricas 207861 Kruskal-Wallis 207862 Freedman 209863 Comparaciones a posteriori 211

9 el caso de maacutes de dos muestras II 213

91 Introduccioacuten 21392 Disentildeo de dos factores completamente aleatorizado 216

921 Supuestos del modelo 216922 El estadiacutestico de contraste 217

93 Interpretacioacuten de los efectos principales y de la interaccioacuten 22394 Efectos simples 22595 Resultados complementarios 228

951 Tamantildeo del efecto 228952 Potencia 229953 Comparaciones muacuteltiples 229

96 Alternativa no parameacutetrica 23297 Disentildeos de maacutes de dos factores 234

Iacutendice

9

10 regresIoacuten lIneal 235

101 Introduccioacuten 235102 Modelo de regresioacuten lineal 236103 El ajuste del modelo datos 240

1031 Los coeficientes semiparciales 241104 Meacutetodos de construccioacuten del modelo 243105 Anaacutelisis de variables mediadoras y moderadoras 245

1051 Efecto de mediacioacuten 2461052 Efecto de moderacioacuten 248

106 Supuestosenelanaacutelisis 251107 Inferencia en la regresioacuten muacuteltiple 254108 Fiabilidad y validez del modelo 255109 Regresioacuten logiacutestica binaria 257

referencIas bIblIograacutefIcas 261

Contenidos digitales

Anexo 1 Tablas estadiacutesticas

Anexo 2 Acceso a descarga de programas

Anexo 3 Viacutedeos

Anexo 4 Datos simulados

Anexo 5 Actividades propuestas de replicacioacuten

31

2Explorando los datos

21 Introduccioacuten

La primera cuestioacuten que debe contemplarse antes de la aplicacioacuten de cualquier teacutecnica estadiacutestica es la relativa a la descripcioacuten de la muestra (en algunos casos excepcionales de la poblacioacuten) la segunda el estudio minucioso de las caracteriacutesticas que presentan lasvariablesobjetodeestudioquehansidocuantificadasmedianteelcorrespondienteproceso de medida o asignacioacuten numeacuterica

El anaacutelisis exploratorio de los datos implica una actitud curiosa que estaacute motivada porlapremisadequecuantomejorconozcaelinvestigadorlosdatosquetienemaacutesefi-cientementesepuedenusarparadesarrollaryrefinarsuspropuestasPortantoeltrabajode detective del investigador tendraacute como principal objetivo un abordaje exploratorio de datos para maximizar lo que pueda aprender a partir de ellos y de este modo entender el conjunto de las variables y su comportamiento

22 Exploracioacuten de los datos para una variable

Realizar un anaacutelisis exploratorio de los datos permitiraacute al investigador mediante un conjunto de procedimientos sencillos

ndash Conocer la estructura de los datos es decir ver las caracteriacutesticas que presenta su dis-tribucioacuten e intuir la distribucioacuten de probabilidad que presentan visualizando la forma y sus propiedades caracteriacutesticas (normalidad simetriacutea apuntamiento o curtosis)

ndash Detectar posibles errores en el disentildeondash Detectar errores en el proceso de recogida de datosndash Identificar casos atiacutepicos frutodediversas causasquepuedenabarcardesde

errores humanos hasta la presencia de valores anoacutemalos en relacioacuten con el con-junto general de valores

Herramientas estadiacutesticas en criminologiacutea

32

ndash Evaluar y tratar datos ausentes (datos que faltan en la matriz)ndash Comprobar los supuestos subyacentes a la teacutecnica estadiacutestica que se pretende

emplear para responder a las preguntas de la investigacioacuten

Para cumplir con estos objetivos deberaacute construir una distribucioacuten de frecuencias y acu-diralasrepresentacionesgraacuteficasynumeacutericasloqueseexplicaenlassiguientespaacuteginas

221 Distribucioacuten de frecuencias

Una vez se tiene la matriz de datos es el momento de empezar a organizar variables sujetos analizar los casos etc El primer paso es la construccioacuten de una distribucioacuten de frecuencias disposicioacuten de una variable en una tabla con sus modalidades que inclu-ye el recuento de casos en cada una los porcentajes etc Hay tantas distribuciones de frecuencias como variables contenga la matriz una distribucioacuten para cada una de las variables

cuadro 21 Matriz de datos

Sujeto Creencias Motivacioacuten Empatiacutea Distorsiones Emociones Control Responsabilidad

123456789

10

110100120120 50110 60 30 40 90

51503312251118305441

20 2 822 52116 32429

123110120131150110175133120149

11249

106347

13103142556127334090

81010 9 4 9 8 5 4 7

La matriz de datos del cuadro 21 es un ejemplo de los resultados obtenidos tras un programa de intervencioacuten a hombres maltratadores en la aplicacioacuten de una bateriacutea de cuestionarios para medir sus creencias sexistas su motivacioacuten para el cambio la empatiacuteaconlasviacutectimaslasdistorsionescognitivaslaidentificacioacutendeemocioneselcontrol de la ira y la asuncioacuten de responsabilidad En la matriz de datos estaacuten los sujetos con sus puntuaciones en las variables pero la visioacuten de estas resulta un tanto confusa al no estar ordenadas sus puntuaciones

Al extraer por ejemplo las variables creencias sexistas y asuncioacuten de responsabi-lidad y organizar cada una en una distribucioacuten de frecuencias (cuadro 22) se puede

Explorando los datos

33

observar todo el rango de valores y el nuacutemero de casos (ni) de sus modalidades Ense-guida se aprecia por ejemplo que las puntuaciones en creencias se concentran maacutes en torno a los valores maacutes altos de la distribucioacuten (hay 6 sujetos con valores entre 90 y 120) casi lo mismo que la responsabilidad cuyo mayor nuacutemero de casos se encuentra en los valores maacutes altos (6 sujetos entre 8 y 10) aunque en general sus puntuaciones esteacuten maacutes repartidas

cuadro 22 Distribuciones de frecuencias

Creencias ni Responsabilidad ni

30 40 50 60 70 80 90100110120

1 1 1 1 0 0 1 1 2 2

4 5 6 7 8 910

2 1 0 1 2 2 2

10

10

La ventaja fundamental de una distribucioacuten de frecuencias es la posibilidad de ex-traer conclusiones de la variable sin realizar siquiera un anaacutelisis estadiacutestico complejo Incluso sin perder sencillez se puede complementar con otros datos

ndashFrecuencia absoluta (ni) nuacutemero de casos de cada modalidad de la variablendashFrecuencia acumulada (na) recuento de las frecuencias absolutas en orden as-

cendente seguacuten el sentido de las modalidadesndashProporcioacuten o frecuencia relativa (pi) frecuencia absoluta nuacutemero total de ca-

sos (n)ndashProporcioacuten acumulada (pa) frecuencia acumulada (na) nuacutemero total de casos (n)ndashPorcentaje (Pi) proporcioacuten (pi) x 100ndashPorcentaje acumulado (Pa) proporcioacuten acumulada (pa) x 100

En el caso de la variable creencias sexistas quedariacutea tal y como se aprecia en el cuadro 23 En general sus valores se encuentran bastante repartidos en la distribucioacuten aunque el mayor porcentaje de casos se situacutea en los valores 110 y 120 y ninguacuten sujeto ha obtenido una puntuacioacuten de 70 u 80

Herramientas estadiacutesticas en criminologiacutea

34

cuadro 23 Distribucioacuten de frecuencias de la variable creencias

Creencias ni na pi pa Pi Pa

30 40 50 60 70 80 90100110120

1111001122

1 2 3 4 4 4 5 6 810

01 01 01 01

00

01 01 02 02

01020304040405060810

10101010 0 010102020

10 20 30 40 40 40 50 60 80100

n = 10 - 10 - 100 -

Cabe decir que la frecuencia proporcioacuten y porcentaje acumulados (na pa y Pa) solo se utilizan con variables cuantitativas Pensando por ejemplo en la variable estado civil con sus modalidades y frecuencias absolutas iquestqueacute sentido tendriacutea hacer un re-cuento acumulado de sus frecuencias Aunque ahora no se aprecie la utilidad de la acumulacioacuten maacutes adelante se comprobaraacute lo praacutectico que resulta para localizar sujetos de la distribucioacuten y para interpretar su posicioacuten

222 Representaciones graacuteficas Valores perdidos y atiacutepicos

Una manera sencilla de observar el comportamiento de una variable es mediante su re-presentacioacutengraacuteficanoenvanosufuncioacutenprincipalesobtenerinformacionesglobalesmedianteunsologolpedevistaExistengraacuteficasparatodoslosgustosperonosiempresuaspectosofisticadoessinoacutenimodeclaridadyexactitudLas representacionesmaacutessencillassonlasquemejorreflejanlascaracteriacutesticasdelasvariablesyestassonlasquese van a presentar a continuacioacuten

Cuandolavariableescualitativaocuantitativadiscretaungraacuteficomuyutilizadoesel diagrama de barras En la abscisa se colocan las modalidades de la variable y en la ordenada las frecuencias o porcentajes Tambieacuten se puede representar la variable medida endosomaacutesgruposparasucomparacioacutentalycomosepuedeverenlafigura21

Eneldiagramadelafigura21secomparaporejemploelgradodeiraenungrupo de hombres y otro de mujeres Las diferencias en las modalidades baja media alta y muy alta noestaacutenmuyclarasSepodriacuteadecirqueenlastressepresentanni-veles similares de ira

Explorando los datos

35

Frec

uenc

ia

10

8

6

4

2

0Baja Media Alta Muy alta

fIgura 21 Diagrama de barras

Cuando se trata de variables cuantitativas los diagramas se denominan histogra-mascomosemuestraen lafigura22Enesteejemploseobserva laevolucioacutendeun grupo de adolescentes diagnosticados de un trastorno adaptativo antes y despueacutes de una intervencioacuten para mejorar su grado de incertidumbre en temas relacionados con la identidad (objetivos a largo plazo eleccioacuten profesional patrones de amistad orientacioacutenyconductasexualetc)Enelprimergraacuteficotodoslossujetostienenunapuntuacioacuten superior a 35 situaacutendose un gran nuacutemero de ellos entre los valores 40 y 50 delaescalaEnelsegundograacuteficoesdondeseconstatalamejoriacuteatraseltratamientopuesto que ninguacuten sujeto supera el valor de 50 en la escala de incertidumbre ubicaacuten-doseunelevadonuacutemerodeellosentrelosvalores10y30Setratadedoshistogramasbien sencillos que arrojan mucha informacioacuten Es importante sentildealar que se debe res-petarelorigendecoordenadasenambosgraacuteficossinoresultandifiacutecilesdecomparary pierden toda su funcioacuten de informar raacutepidamente de los cambios en una variable de su comportamiento en grupos distintos etc

Frec

uenc

ia

6

5

4

3

2

1

00 5 10 15 20 25 30 35 40 45 50 55 60 65 70

Grado de incertidumbre antes

Frec

uenc

ia

6

5

4

3

2

1

00 5 10 15 20 25 30 35 40 45 50 55 60 65 70

Grado de incertidumbre despueacutes

fIgura 22 Histograma de la misma variable en dos momentos distintos

Herramientas estadiacutesticas en criminologiacutea

36

Ungraacuteficodignodemencioacuteneslacurva normal que es el modelo prototipo contra el que se suelen comparar la mayoriacutea de las variables cuando se trabaja con meacutetrica cuantitativaSecaracterizaporsersimeacutetricaypresentarunaliacutenealisaosuavizadacondos colas de igual longitud lo que implica que el porcentaje de casos en ambas es ideacuten-ticoEnrealidadsetratadeunhistogramacuandosehanrecogidoinfinitosdatosdelavariable en otras palabras se trata de un modelo teoacuterico

Sinembargoypeseaseresteelmodeloporantonomasianotodaslasvariablesse acercan a esta distribucioacuten es maacutes en muchas ocasiones es extremadamente com-plicado siquiera encontrar variables que se asemejen a eacutel La situacioacuten maacutes habitual es que cada una de las variables que se haya medido presente diferencias tanto en localizacioacutencomoenformaydispersioacutenrespectoalmodelorepresentadoenlafigu-ra 23 de ahiacute la importancia de describir para cada variable estas caracteriacutesticas lo que permitiraacute evaluar el grado de semejanza con el modelo teoacuterico sobre el que descansaraacute el anaacutelisis de datos

Dispersioacuten

LocalizacioacutenCola izquierda Cola derecha

fIgura 23 Curva normal

Un aspecto que condicionaraacute en gran medida la obtencioacuten de representaciones nu-meacutericas son los casos raros o atiacutepicos Un valor raro hace referencia a un sujeto que presenta un comportamiento muy diferente del resto normalmente porque tiene pun-tuaciones extremas por encima o por debajo de la cola de la distribucioacuten lo que provoca que esta se aleje de una normal Una de las consecuencias de la presencia de outliers porejemploeseldesplazamientoartificialdelamediahaciaarribaohaciadebajocon-virtieacutendolosenobservacionesinfluyentes(Kaplan2000)

LapresenciadeestosdatospuededebersesimplementeaerroresdecodificacioacutenBajo tal circunstancia son faacutecilmente detectables mediante un anaacutelisis de frecuencias

Explorando los datos

37

quepermitaidentificarvaloresfueradelrangoadmisibleEncualquiercasolosva-lores raros son faacuteciles de identificarmediante una simple inspeccioacuten visual de larepresentacioacutengraacuteficaseobservanlossujetoscuyaspuntuacionesestaacutenmuyporen-cima o por debajo de la cola de la distribucioacuten o del intervalo establecido Una vez identificadoelsujetoenlabasededatoshabriacuteaqueeliminarloyvolverarepetirlosanaacutelisis Cuando son detectados hay que de plantearse si esos sujetos proceden de otra poblacioacuten distinta o si por el contrario perteneciendo a la poblacioacuten de referen-cia se trata de sujetos excepcionales El problema es que no siempre es faacutecil hacer esta distincioacuten

Por su parte los valores perdidos se deben a una gran variedad de circunstancias que pueden ocurrir durante una investigacioacuten y que estaacuten fuera del control del investigador Asiacuteporejemplopuedesucederquehaya fallosen losequipos (registrospsicofisio-loacutegicos por ejemplo) o que los sujetos no respondan deliberadamente a determinadas cuestiones o bien por muerte experimental

Ante los valores perdidos se deben considerar su cantidad y el grado en que afectan a la investigacioacuten En este caso no hay una respuesta clara y siacute una gran variedad de opiniones Cohen y Cohen (1983) entienden que es soportable hasta un 5 o 10 por ciento de casos perdidos En segundo lugar se ha de valorar si la estructura de los datos per-didosesaleatoriaosistemaacuteticaSiladistribucioacutendelosvaloresperdidosesaleatoriaestariacuteaindicandoquelossujetosenlosquehaypresentesvaloresperdidosdifierensolopor azar de aquellos en los que no estaacuten presentes Por tanto los resultados obtenidos en estos sujetos podriacutean ser generalizables al resto En el caso de que la distribucioacuten de datos perdidos siga un patroacuten sistemaacutetico se tratariacutea del caso contrario y por tanto no se deberiacutea ignorar esta circunstancia Es maacutes se deberiacutea hacer todo lo posible por intentar interpretar el comportamiento y naturaleza de la distribucioacuten de los valores perdidos (por queacute y coacutemo se distribuyen a lo largo de las distintas variables y de los sujetos)

223 Representaciones numeacutericas iacutendices de tendencia central de variabilidad y de posicioacuten

Enmuchoscasosunadistribucioacutende frecuenciasyuna representacioacutengraacuteficaseraacutenmaacutesquesuficientesparaentenderelcomportamientodeunavariableenungrupodesujetosSinembargocuandoelintereacutessecentraenlacomparacioacutendevariosgruposenlamismavariableoenmaacutesdeunatratarcontablasygraacuteficosymaacutestablasymaacutesgraacute-ficospuederesultarunpocoengorrosotantoparaelpropiomanejocomoparaellectorde los informes En situaciones asiacute puede ser maacutes apropiado trabajar con unos iacutendices quedescribandeformamaacutessencillalainformacioacutencontenidaenlasdistribucionesSetrata de los estadiacutesticos de una muestra iacutendices que ademaacutes de hacer manejable la in-formacioacuten contenida en los datos son la base sobre la que se sustenta la mayoriacutea de las teacutecnicas de anaacutelisis de datos

Herramientas estadiacutesticas en criminologiacutea

38

Los estadiacutesticos de tendencia central son aquellos que resumen el comportamiento de una variable en un solo valor representando asiacute al conjunto de sujetos en el que son calculados

La media aritmeacutetica es el iacutendice de tendencia central maacutes utilizado y su caacutelculo es tan simple como promediar todas las puntuaciones de un grupo en una variable tal y comoreflejansusfoacutermulasparadatosbrutosyparadatosdeunadistribucioacutendefre-cuencias

XXn

isum= X

n Xni isum

=sdot

donde Xi es la puntuacioacuten de un sujeto n es el tamantildeo de la muestra y ni la frecuencia absoluta

SeaelsiguienteejemploEnelserviciodepsiquiatriacuteadeuncentropenitenciariose ha observado que los internos drogodependientes con insomnio croacutenico muestran ciertasensibilidadinusualalruidoDebidoalasdificultadesqueconllevalaaplicacioacutende cuestionarios que midan la sonoridad subjetiva se decide evaluarlos con una prueba en la que deben interrumpir un sonido cuando les resulta molesto y se recoge el tiempo (en segundos) que tardan en pulsar el interruptor Los datos de diez pacientes son los siguientes

4 5 8 2 4 2 5 2 2 6

La media aritmeacutetica es

XXn

4 5 8 2 4 2 5 2 2 610

4010

4isum= =

+ + + + + + + + += =

Suponiendoqueenlossujetossinladolenciadescritalamediaaritmeacuteticaes8se-gundos se puede concluir que estos pacientes que han tardado en conjunto un promedio de 4 segundos en sentir el sonido como un ruido molesto presentan una sensibilidad al ruido mayor

Al agrupar los datos anteriores en una tabla (veacutease el cuadro 24) la media aritmeacute-tica que resulta es

X

n Xn

8 0 8 10 6 0 810

4010

4i isum=

sdot=

+ + + + + += =

Explorando los datos

39

cuadro 24 Caacutelculo de la media en una distribucioacuten de frecuencias

Xi ni ni Xi

2345678

4 0 2 2 1 0 1

8 0 810 6 0 8

ndash 10 40

Tal es la sencillez de la obtencioacuten de la media que se ha convertido en un estadiacutestico omnipresenteentodoinformedeinvestigacioacutenquetrateconvariablesSinembargoantes de su caacutelculo deberaacuten tenerse en cuenta las siguientes consideraciones

ndashEs muy sensible a cualquier variacioacuten en los datos Por ejemplo un error en la introduccioacuten de un valor numeacuterico puede resultar desastroso al calcularla

3 5 7 4 `X = 4753 5 7 40 `X = 1375

ndashNo se debe utilizar ante conjuntos de datos en los que hay casos extremos por-que deja de cumplir con su funcioacuten que es la de representar al conjunto

X 1 2 2 4 4 8 9 10 cuya media es`X = 5

iquestA quieacuten representa esta media si ni siquiera su valor estaacute en la distribucioacuten Porestosiempredeberaacuteiracompantildeadadeungraacuteficoobiensedebeinformarque los datos se ajustan a una distribucioacuten simeacutetrica

ndashConvariablescualitativasnotienesentidocalcularlaiquestsepuedeafirmarquelamedia aritmeacutetica del estado civil es 25 Tambieacuten hay que ser cautelosos con el resultado de algunas variables cuantitativas discretas como por ejemplo el nuacutemerodedelitosSepuededecirqueundelincuentehacometidoeldoblededelitos que otro pero iquestes pertinente hablar de un promedio de 35 delitos

La simplicidad en la obtencioacuten de la media aritmeacutetica la ha convertido en la estrella de los estadiacutesticos de tendencia central Doctos y legos la conocen y utilizan pero hay

Herramientas estadiacutesticas en criminologiacutea

40

que ser cautos porque los datos no estaacuten exentos de trampas En aquellos casos en los que no sea adecuado calcularla se puede probar con la moda o con la mediana

La moda es un iacutendice de tendencia central que representa el valor cuya frecuen-cia absoluta es la maacutes alta en la distribucioacuten Puede utilizarse con cualquier tipo de variable ya sea cualitativa o cuantitativa y su obtencioacuten es muy sencilla Los datos simplemente se ordenan y se ve cuaacutel se repite maacutes Ese valor es por tanto la moda de la distribucioacuten En el ejemplo de los pacientes con delirium por abstinencia la moda tanto con los datos brutos como agrupados en la distribucioacuten de frecuencias (cuadro 24) es 2 (y no 4 cuidado con esto) Este resultado se interpreta como que la mayoriacutea de los pacientes de este grupo tarda 2 segundos en sentir el ruido como molesto (Cabe sentildealar que la moda no coincide con la media lo que ya habla de una distribucioacuten asimeacutetrica)

Puede suceder que una distribucioacuten tenga dos valores con la maacutexima frecuencia la misma o muy similar pero que ambas se diferencien bastante del resto En estos casos se dice que la distribucioacuten presenta dos modas o que es bimodal

2 2 4 4 4 6 6 6 6 6 6 8 8 8 10 10 10 10 10 10 10

En los datos anteriores se tienen dos modas Mo1 = 6 y Mo2 = 10Cuando los valores de la moda son adyacentes algunos analistas toman como

estadiacutesticolamediadeambasSinembargoestonodebehacersepuestoqueelre-sultado puede carecer de sentido podriacutea tratarse de un valor que no existe en la dis-tribucioacuten Por otro lado iquestcuaacutel es el problema de presentar dos modas Precisamente lo anterior la obtencioacuten (o presentacioacuten) de dos modas permite ver hasta queacute punto el caacutelculo de una media es liacutecito En efecto si las dos modas son adyacentes y centra-das no seriacutea ninguacuten problema pero si no lo son esto debe advertir de que no hay que calcular la media

La mediana es un iacutendice que informa del dato de la distribucioacuten que la divide en dos partesigualesysedefineportantocomoaquelvalorquedejaporencimaypordebajoel 50 por ciento de las frecuencias Puede utilizarse con variables cualitativas cuyas mo-dalidades puedan ordenarse y con variables cuantitativas

Suobtencioacutenesenormementesencillauacutenicamentehayquelocalizarenlacolum-na de proporciones acumuladas de la tabla de la distribucioacuten el valor que comprenda el 05 y ver a queacute puntuacioacuten de la variable corresponde En el ejemplo (cuadro 25) tras obtener las proporciones acumuladas la mediana se localiza en la proporcioacuten acumulada 06 porque es la que incluye 05 (la anterior se queda en 04) por lo que la mediana es Md = 4 es decir el valor de la distribucioacuten que divide a los sujetos en dos grupos

Explorando los datos

41

cuadro 25 Localizacioacuten de la mediana

Xi ni pi pa

2345678

4 0 2 2 1 0 1

04000202010001

04040608090910

ndash 10 10

Cabe sentildealar que si su valor coincide con el de la media y el de la moda o son muy similares la distribucioacuten es simeacutetrica o muy cercana a la simetriacutea En cambio si los re-sultados para los tres iacutendices son muy diferentes hay que tener cuidado con la forma de la distribucioacuten y lo que se ha calculado Hayquerecordarqueunarepresentacioacutengraacuteficaes un complemento perfecto en los anaacutelisis para aclarar los resultados

Los iacutendices de posicioacuten son todos aquellos que permiten situar a un sujeto dentro de unadistribucioacutendefrecuenciasSunombregeneacutericoescuantiles y los maacutes utilizados en este contexto son los percentiles y los cuartiles

Los percentiles tambieacuten llamados centiles son las puntuaciones de la variable que dividen la distribucioacuten en cien partes iguales Hay por tanto 99 percentiles La nomen-clatura utilizada es Pk y su valor se interpreta como la puntuacioacuten que deja por debajo de siacute al k por ciento de los sujetos Por ejemplo si P20 = 9 se dice que 9 es el valor de la distribucioacuten que deja por debajo de siacute al 20 por ciento de los sujetos

Por su parte los cuartiles son las puntuaciones de la variable que dividen la distri-bucioacuten en cuatro partes iguales Hay por tanto tres cuartiles La nomenclatura utilizada es Qk (k = 1 2 o 3) y su valor se interpreta como la puntuacioacuten que deja por debajo de siacute al 25 k por ciento de los sujetos Por ejemplo si Q3 = 8 se dice que 8 es el valor de la distribucioacuten que deja por debajo de siacute al 75 por ciento de los sujetos

Obtener percentiles o cuartiles es tan sencillo como hacerlo con la mediana se bus-ca en la columna de las proporciones acumuladas o de los porcentajes acumulados de la distribucioacuten la proporcioacuten o porcentaje de intereacutes y se localiza la puntuacioacuten de la variable a la que pertenece

El cuadro 26 es el resultado de aplicar un test que mide conductas saacutedicas Un sujeto que por ejemplo obtiene una puntuacioacuten igual a 15 resulta que se situacutea en el percentil P77 y en el cuartil Q3 lo que lo coloca en los valores altos de la distribucioacuten Es claramente necesaria una raacutepida intervencioacuten

Herramientas estadiacutesticas en criminologiacutea

42

Los percentiles y los cuartiles permiten interpretar la situacioacuten de un sujeto en la distribucioacuten de la variable que se ha medido sin necesidad de conocer ni la puntuacioacuten directa ni el valor miacutenimo y maacuteximo de la distribucioacuten lo que resulta de gran utilidad

Por otro lado del cuadro 26 se desprende que la mediana se localiza en el percentil 50 y en el cuartil 2 siendo su valor igual a 12

En efecto en distribuciones simeacutetricas

Md = P50 = D5 = Q2

cuadro 26 Localizacioacuten de percentiles y cuartiles

Xi ni na pa Pk Qk

6 7 8 91011

12

13141516171819

8 4 8 5 710

9

11 9 7 8 4 4 6

8 12 20 25 32 42

51

62 71 78 86 90 94100

008012020025032042

051

062071078086090094100

P7P11P19P24P31P41

P50

P61P70P77P85P89P93P99

ndashndashndashndash

Q1ndash

Q2

ndashndash

Q3ndashndashndashndash

No todos somos iguales Bien es cierto que entre las personas existen ciertos com-portamientos similares pero siempre hay diferencias individuales Mientras que los procesoscomogrupovienencuantificadosconlosiacutendicesdetendenciacentral(mediamedianamodaetc)lasdiferenciasindividualesseveraacutenreflejadasenlosiacutendices de variabilidad Dicho con otras palabras estos iacutendices permitiraacuten saber cuaacutento se distan-cian los individuos del sujeto promedio En el ejemplo que se presenta se recogen las puntuaciones de cinco criminales obtenidas en egocentrismo ilimitado

X1 10 11 12 13 14

La media calculada es`X=12Sinembargolosregistrosmuestrandiferenciasentreellos por lo que cada uno se distancia de su media

Explorando los datos

43

10 ndash 12 = ndash2 11 ndash 12 = ndash1 12 ndash 12 = 0 13 ndash 12 = 1 y 14 ndash 12 = 2

Los resultados muestran alejamientos positivos y negativos (unos son maacutes ego-ceacutentricos y otros menos con respecto a la media de 12) con lo que se podriacutea plantear el caacutelculo del promedio de esas distancias como iacutendice de variabilidad En efecto esto es precisamente lo que hace el estadiacutestico desviacioacuten media

sum=

minusDM

(X X)nXi

1

Sufoacutermulaclaramentereflejacuaacutentosealejanenpromediolaspuntuacionesdesumedia Aplicaacutendola a los datos del ejemplo

sum=

minus=

minus + minus + + +=DM

(X X)n

( 2) ( 1) 0 1 25

0Xi

1

Habiendo constatado las diferencias individuales iquestcoacutemo es posible que el prome-dio de distancias sea igual a cero La razoacuten es muy sencilla las diferencias son unas positivas y otras negativas compensaacutendose las unas con las otras y siempre va a ocurrir que la suma de esas diferencias sea igual a 0 ya que son distancias a un punto central que es la media

Entonces si la desviacioacuten media siempre va a ser igual a cero hay que buscar otro iacutendice que siendo tan sencillo e informativo como este solvente el problema Una po-sibilidad seriacutea trabajar con las diferencias en valores absolutos pero estos resultan poco manejables matemaacuteticamente y por tanto poco convincentes

Otra opcioacuten es calcular las diferencias elevarlas al cuadrado y a partir de ahiacute obte-ner su promedio Un iacutendice de dispersioacuten computado asiacute se denomina varianza

sum=

minusS

(X X)nX

2 i2

Aplicaacutendolo a los datos

sum=

minus=

+ + + +=S

(X X )n

4 1 0 1 45

2X2 i 1

2

1

Una foacutermula maacutes raacutepida de obtener la varianza sobre todo cuando se manejan mu-chos datos es mediante la siguiente expresioacuten

Page 8: Herramientas estadísticas en criminología · 2019. 10. 10. · Herramientas estadísticas en criminología Concepción San Luis Costas Isabel Cañadas Osinski. Reservados todos

Herramientas estadiacutesticas en criminologiacutea

8

77 Alternativas no parameacutetricas 181771 Prueba de Mann-Whitney 181772 Prueba de Wilcoxon 184

8 el caso de maacutes de dos muestras I 187

81 Introduccioacuten 18782 Nomenclatura 18883 ANOVA de un factor para muestras independientes 190

831 Supuestos 192832 Estadiacutestico de contraste F 193

84 ANOVA de un factor de medidas repetidas 196841 Supuestos 198842 Estadiacutestico de contraste 199

85 Resultados complementarios 200851 Tamantildeo del efecto 202852 Potencia 203853 Comparaciones muacuteltiples 203

86 Alternativas no parameacutetricas 207861 Kruskal-Wallis 207862 Freedman 209863 Comparaciones a posteriori 211

9 el caso de maacutes de dos muestras II 213

91 Introduccioacuten 21392 Disentildeo de dos factores completamente aleatorizado 216

921 Supuestos del modelo 216922 El estadiacutestico de contraste 217

93 Interpretacioacuten de los efectos principales y de la interaccioacuten 22394 Efectos simples 22595 Resultados complementarios 228

951 Tamantildeo del efecto 228952 Potencia 229953 Comparaciones muacuteltiples 229

96 Alternativa no parameacutetrica 23297 Disentildeos de maacutes de dos factores 234

Iacutendice

9

10 regresIoacuten lIneal 235

101 Introduccioacuten 235102 Modelo de regresioacuten lineal 236103 El ajuste del modelo datos 240

1031 Los coeficientes semiparciales 241104 Meacutetodos de construccioacuten del modelo 243105 Anaacutelisis de variables mediadoras y moderadoras 245

1051 Efecto de mediacioacuten 2461052 Efecto de moderacioacuten 248

106 Supuestosenelanaacutelisis 251107 Inferencia en la regresioacuten muacuteltiple 254108 Fiabilidad y validez del modelo 255109 Regresioacuten logiacutestica binaria 257

referencIas bIblIograacutefIcas 261

Contenidos digitales

Anexo 1 Tablas estadiacutesticas

Anexo 2 Acceso a descarga de programas

Anexo 3 Viacutedeos

Anexo 4 Datos simulados

Anexo 5 Actividades propuestas de replicacioacuten

31

2Explorando los datos

21 Introduccioacuten

La primera cuestioacuten que debe contemplarse antes de la aplicacioacuten de cualquier teacutecnica estadiacutestica es la relativa a la descripcioacuten de la muestra (en algunos casos excepcionales de la poblacioacuten) la segunda el estudio minucioso de las caracteriacutesticas que presentan lasvariablesobjetodeestudioquehansidocuantificadasmedianteelcorrespondienteproceso de medida o asignacioacuten numeacuterica

El anaacutelisis exploratorio de los datos implica una actitud curiosa que estaacute motivada porlapremisadequecuantomejorconozcaelinvestigadorlosdatosquetienemaacutesefi-cientementesepuedenusarparadesarrollaryrefinarsuspropuestasPortantoeltrabajode detective del investigador tendraacute como principal objetivo un abordaje exploratorio de datos para maximizar lo que pueda aprender a partir de ellos y de este modo entender el conjunto de las variables y su comportamiento

22 Exploracioacuten de los datos para una variable

Realizar un anaacutelisis exploratorio de los datos permitiraacute al investigador mediante un conjunto de procedimientos sencillos

ndash Conocer la estructura de los datos es decir ver las caracteriacutesticas que presenta su dis-tribucioacuten e intuir la distribucioacuten de probabilidad que presentan visualizando la forma y sus propiedades caracteriacutesticas (normalidad simetriacutea apuntamiento o curtosis)

ndash Detectar posibles errores en el disentildeondash Detectar errores en el proceso de recogida de datosndash Identificar casos atiacutepicos frutodediversas causasquepuedenabarcardesde

errores humanos hasta la presencia de valores anoacutemalos en relacioacuten con el con-junto general de valores

Herramientas estadiacutesticas en criminologiacutea

32

ndash Evaluar y tratar datos ausentes (datos que faltan en la matriz)ndash Comprobar los supuestos subyacentes a la teacutecnica estadiacutestica que se pretende

emplear para responder a las preguntas de la investigacioacuten

Para cumplir con estos objetivos deberaacute construir una distribucioacuten de frecuencias y acu-diralasrepresentacionesgraacuteficasynumeacutericasloqueseexplicaenlassiguientespaacuteginas

221 Distribucioacuten de frecuencias

Una vez se tiene la matriz de datos es el momento de empezar a organizar variables sujetos analizar los casos etc El primer paso es la construccioacuten de una distribucioacuten de frecuencias disposicioacuten de una variable en una tabla con sus modalidades que inclu-ye el recuento de casos en cada una los porcentajes etc Hay tantas distribuciones de frecuencias como variables contenga la matriz una distribucioacuten para cada una de las variables

cuadro 21 Matriz de datos

Sujeto Creencias Motivacioacuten Empatiacutea Distorsiones Emociones Control Responsabilidad

123456789

10

110100120120 50110 60 30 40 90

51503312251118305441

20 2 822 52116 32429

123110120131150110175133120149

11249

106347

13103142556127334090

81010 9 4 9 8 5 4 7

La matriz de datos del cuadro 21 es un ejemplo de los resultados obtenidos tras un programa de intervencioacuten a hombres maltratadores en la aplicacioacuten de una bateriacutea de cuestionarios para medir sus creencias sexistas su motivacioacuten para el cambio la empatiacuteaconlasviacutectimaslasdistorsionescognitivaslaidentificacioacutendeemocioneselcontrol de la ira y la asuncioacuten de responsabilidad En la matriz de datos estaacuten los sujetos con sus puntuaciones en las variables pero la visioacuten de estas resulta un tanto confusa al no estar ordenadas sus puntuaciones

Al extraer por ejemplo las variables creencias sexistas y asuncioacuten de responsabi-lidad y organizar cada una en una distribucioacuten de frecuencias (cuadro 22) se puede

Explorando los datos

33

observar todo el rango de valores y el nuacutemero de casos (ni) de sus modalidades Ense-guida se aprecia por ejemplo que las puntuaciones en creencias se concentran maacutes en torno a los valores maacutes altos de la distribucioacuten (hay 6 sujetos con valores entre 90 y 120) casi lo mismo que la responsabilidad cuyo mayor nuacutemero de casos se encuentra en los valores maacutes altos (6 sujetos entre 8 y 10) aunque en general sus puntuaciones esteacuten maacutes repartidas

cuadro 22 Distribuciones de frecuencias

Creencias ni Responsabilidad ni

30 40 50 60 70 80 90100110120

1 1 1 1 0 0 1 1 2 2

4 5 6 7 8 910

2 1 0 1 2 2 2

10

10

La ventaja fundamental de una distribucioacuten de frecuencias es la posibilidad de ex-traer conclusiones de la variable sin realizar siquiera un anaacutelisis estadiacutestico complejo Incluso sin perder sencillez se puede complementar con otros datos

ndashFrecuencia absoluta (ni) nuacutemero de casos de cada modalidad de la variablendashFrecuencia acumulada (na) recuento de las frecuencias absolutas en orden as-

cendente seguacuten el sentido de las modalidadesndashProporcioacuten o frecuencia relativa (pi) frecuencia absoluta nuacutemero total de ca-

sos (n)ndashProporcioacuten acumulada (pa) frecuencia acumulada (na) nuacutemero total de casos (n)ndashPorcentaje (Pi) proporcioacuten (pi) x 100ndashPorcentaje acumulado (Pa) proporcioacuten acumulada (pa) x 100

En el caso de la variable creencias sexistas quedariacutea tal y como se aprecia en el cuadro 23 En general sus valores se encuentran bastante repartidos en la distribucioacuten aunque el mayor porcentaje de casos se situacutea en los valores 110 y 120 y ninguacuten sujeto ha obtenido una puntuacioacuten de 70 u 80

Herramientas estadiacutesticas en criminologiacutea

34

cuadro 23 Distribucioacuten de frecuencias de la variable creencias

Creencias ni na pi pa Pi Pa

30 40 50 60 70 80 90100110120

1111001122

1 2 3 4 4 4 5 6 810

01 01 01 01

00

01 01 02 02

01020304040405060810

10101010 0 010102020

10 20 30 40 40 40 50 60 80100

n = 10 - 10 - 100 -

Cabe decir que la frecuencia proporcioacuten y porcentaje acumulados (na pa y Pa) solo se utilizan con variables cuantitativas Pensando por ejemplo en la variable estado civil con sus modalidades y frecuencias absolutas iquestqueacute sentido tendriacutea hacer un re-cuento acumulado de sus frecuencias Aunque ahora no se aprecie la utilidad de la acumulacioacuten maacutes adelante se comprobaraacute lo praacutectico que resulta para localizar sujetos de la distribucioacuten y para interpretar su posicioacuten

222 Representaciones graacuteficas Valores perdidos y atiacutepicos

Una manera sencilla de observar el comportamiento de una variable es mediante su re-presentacioacutengraacuteficanoenvanosufuncioacutenprincipalesobtenerinformacionesglobalesmedianteunsologolpedevistaExistengraacuteficasparatodoslosgustosperonosiempresuaspectosofisticadoessinoacutenimodeclaridadyexactitudLas representacionesmaacutessencillassonlasquemejorreflejanlascaracteriacutesticasdelasvariablesyestassonlasquese van a presentar a continuacioacuten

Cuandolavariableescualitativaocuantitativadiscretaungraacuteficomuyutilizadoesel diagrama de barras En la abscisa se colocan las modalidades de la variable y en la ordenada las frecuencias o porcentajes Tambieacuten se puede representar la variable medida endosomaacutesgruposparasucomparacioacutentalycomosepuedeverenlafigura21

Eneldiagramadelafigura21secomparaporejemploelgradodeiraenungrupo de hombres y otro de mujeres Las diferencias en las modalidades baja media alta y muy alta noestaacutenmuyclarasSepodriacuteadecirqueenlastressepresentanni-veles similares de ira

Explorando los datos

35

Frec

uenc

ia

10

8

6

4

2

0Baja Media Alta Muy alta

fIgura 21 Diagrama de barras

Cuando se trata de variables cuantitativas los diagramas se denominan histogra-mascomosemuestraen lafigura22Enesteejemploseobserva laevolucioacutendeun grupo de adolescentes diagnosticados de un trastorno adaptativo antes y despueacutes de una intervencioacuten para mejorar su grado de incertidumbre en temas relacionados con la identidad (objetivos a largo plazo eleccioacuten profesional patrones de amistad orientacioacutenyconductasexualetc)Enelprimergraacuteficotodoslossujetostienenunapuntuacioacuten superior a 35 situaacutendose un gran nuacutemero de ellos entre los valores 40 y 50 delaescalaEnelsegundograacuteficoesdondeseconstatalamejoriacuteatraseltratamientopuesto que ninguacuten sujeto supera el valor de 50 en la escala de incertidumbre ubicaacuten-doseunelevadonuacutemerodeellosentrelosvalores10y30Setratadedoshistogramasbien sencillos que arrojan mucha informacioacuten Es importante sentildealar que se debe res-petarelorigendecoordenadasenambosgraacuteficossinoresultandifiacutecilesdecomparary pierden toda su funcioacuten de informar raacutepidamente de los cambios en una variable de su comportamiento en grupos distintos etc

Frec

uenc

ia

6

5

4

3

2

1

00 5 10 15 20 25 30 35 40 45 50 55 60 65 70

Grado de incertidumbre antes

Frec

uenc

ia

6

5

4

3

2

1

00 5 10 15 20 25 30 35 40 45 50 55 60 65 70

Grado de incertidumbre despueacutes

fIgura 22 Histograma de la misma variable en dos momentos distintos

Herramientas estadiacutesticas en criminologiacutea

36

Ungraacuteficodignodemencioacuteneslacurva normal que es el modelo prototipo contra el que se suelen comparar la mayoriacutea de las variables cuando se trabaja con meacutetrica cuantitativaSecaracterizaporsersimeacutetricaypresentarunaliacutenealisaosuavizadacondos colas de igual longitud lo que implica que el porcentaje de casos en ambas es ideacuten-ticoEnrealidadsetratadeunhistogramacuandosehanrecogidoinfinitosdatosdelavariable en otras palabras se trata de un modelo teoacuterico

Sinembargoypeseaseresteelmodeloporantonomasianotodaslasvariablesse acercan a esta distribucioacuten es maacutes en muchas ocasiones es extremadamente com-plicado siquiera encontrar variables que se asemejen a eacutel La situacioacuten maacutes habitual es que cada una de las variables que se haya medido presente diferencias tanto en localizacioacutencomoenformaydispersioacutenrespectoalmodelorepresentadoenlafigu-ra 23 de ahiacute la importancia de describir para cada variable estas caracteriacutesticas lo que permitiraacute evaluar el grado de semejanza con el modelo teoacuterico sobre el que descansaraacute el anaacutelisis de datos

Dispersioacuten

LocalizacioacutenCola izquierda Cola derecha

fIgura 23 Curva normal

Un aspecto que condicionaraacute en gran medida la obtencioacuten de representaciones nu-meacutericas son los casos raros o atiacutepicos Un valor raro hace referencia a un sujeto que presenta un comportamiento muy diferente del resto normalmente porque tiene pun-tuaciones extremas por encima o por debajo de la cola de la distribucioacuten lo que provoca que esta se aleje de una normal Una de las consecuencias de la presencia de outliers porejemploeseldesplazamientoartificialdelamediahaciaarribaohaciadebajocon-virtieacutendolosenobservacionesinfluyentes(Kaplan2000)

LapresenciadeestosdatospuededebersesimplementeaerroresdecodificacioacutenBajo tal circunstancia son faacutecilmente detectables mediante un anaacutelisis de frecuencias

Explorando los datos

37

quepermitaidentificarvaloresfueradelrangoadmisibleEncualquiercasolosva-lores raros son faacuteciles de identificarmediante una simple inspeccioacuten visual de larepresentacioacutengraacuteficaseobservanlossujetoscuyaspuntuacionesestaacutenmuyporen-cima o por debajo de la cola de la distribucioacuten o del intervalo establecido Una vez identificadoelsujetoenlabasededatoshabriacuteaqueeliminarloyvolverarepetirlosanaacutelisis Cuando son detectados hay que de plantearse si esos sujetos proceden de otra poblacioacuten distinta o si por el contrario perteneciendo a la poblacioacuten de referen-cia se trata de sujetos excepcionales El problema es que no siempre es faacutecil hacer esta distincioacuten

Por su parte los valores perdidos se deben a una gran variedad de circunstancias que pueden ocurrir durante una investigacioacuten y que estaacuten fuera del control del investigador Asiacuteporejemplopuedesucederquehaya fallosen losequipos (registrospsicofisio-loacutegicos por ejemplo) o que los sujetos no respondan deliberadamente a determinadas cuestiones o bien por muerte experimental

Ante los valores perdidos se deben considerar su cantidad y el grado en que afectan a la investigacioacuten En este caso no hay una respuesta clara y siacute una gran variedad de opiniones Cohen y Cohen (1983) entienden que es soportable hasta un 5 o 10 por ciento de casos perdidos En segundo lugar se ha de valorar si la estructura de los datos per-didosesaleatoriaosistemaacuteticaSiladistribucioacutendelosvaloresperdidosesaleatoriaestariacuteaindicandoquelossujetosenlosquehaypresentesvaloresperdidosdifierensolopor azar de aquellos en los que no estaacuten presentes Por tanto los resultados obtenidos en estos sujetos podriacutean ser generalizables al resto En el caso de que la distribucioacuten de datos perdidos siga un patroacuten sistemaacutetico se tratariacutea del caso contrario y por tanto no se deberiacutea ignorar esta circunstancia Es maacutes se deberiacutea hacer todo lo posible por intentar interpretar el comportamiento y naturaleza de la distribucioacuten de los valores perdidos (por queacute y coacutemo se distribuyen a lo largo de las distintas variables y de los sujetos)

223 Representaciones numeacutericas iacutendices de tendencia central de variabilidad y de posicioacuten

Enmuchoscasosunadistribucioacutende frecuenciasyuna representacioacutengraacuteficaseraacutenmaacutesquesuficientesparaentenderelcomportamientodeunavariableenungrupodesujetosSinembargocuandoelintereacutessecentraenlacomparacioacutendevariosgruposenlamismavariableoenmaacutesdeunatratarcontablasygraacuteficosymaacutestablasymaacutesgraacute-ficospuederesultarunpocoengorrosotantoparaelpropiomanejocomoparaellectorde los informes En situaciones asiacute puede ser maacutes apropiado trabajar con unos iacutendices quedescribandeformamaacutessencillalainformacioacutencontenidaenlasdistribucionesSetrata de los estadiacutesticos de una muestra iacutendices que ademaacutes de hacer manejable la in-formacioacuten contenida en los datos son la base sobre la que se sustenta la mayoriacutea de las teacutecnicas de anaacutelisis de datos

Herramientas estadiacutesticas en criminologiacutea

38

Los estadiacutesticos de tendencia central son aquellos que resumen el comportamiento de una variable en un solo valor representando asiacute al conjunto de sujetos en el que son calculados

La media aritmeacutetica es el iacutendice de tendencia central maacutes utilizado y su caacutelculo es tan simple como promediar todas las puntuaciones de un grupo en una variable tal y comoreflejansusfoacutermulasparadatosbrutosyparadatosdeunadistribucioacutendefre-cuencias

XXn

isum= X

n Xni isum

=sdot

donde Xi es la puntuacioacuten de un sujeto n es el tamantildeo de la muestra y ni la frecuencia absoluta

SeaelsiguienteejemploEnelserviciodepsiquiatriacuteadeuncentropenitenciariose ha observado que los internos drogodependientes con insomnio croacutenico muestran ciertasensibilidadinusualalruidoDebidoalasdificultadesqueconllevalaaplicacioacutende cuestionarios que midan la sonoridad subjetiva se decide evaluarlos con una prueba en la que deben interrumpir un sonido cuando les resulta molesto y se recoge el tiempo (en segundos) que tardan en pulsar el interruptor Los datos de diez pacientes son los siguientes

4 5 8 2 4 2 5 2 2 6

La media aritmeacutetica es

XXn

4 5 8 2 4 2 5 2 2 610

4010

4isum= =

+ + + + + + + + += =

Suponiendoqueenlossujetossinladolenciadescritalamediaaritmeacuteticaes8se-gundos se puede concluir que estos pacientes que han tardado en conjunto un promedio de 4 segundos en sentir el sonido como un ruido molesto presentan una sensibilidad al ruido mayor

Al agrupar los datos anteriores en una tabla (veacutease el cuadro 24) la media aritmeacute-tica que resulta es

X

n Xn

8 0 8 10 6 0 810

4010

4i isum=

sdot=

+ + + + + += =

Explorando los datos

39

cuadro 24 Caacutelculo de la media en una distribucioacuten de frecuencias

Xi ni ni Xi

2345678

4 0 2 2 1 0 1

8 0 810 6 0 8

ndash 10 40

Tal es la sencillez de la obtencioacuten de la media que se ha convertido en un estadiacutestico omnipresenteentodoinformedeinvestigacioacutenquetrateconvariablesSinembargoantes de su caacutelculo deberaacuten tenerse en cuenta las siguientes consideraciones

ndashEs muy sensible a cualquier variacioacuten en los datos Por ejemplo un error en la introduccioacuten de un valor numeacuterico puede resultar desastroso al calcularla

3 5 7 4 `X = 4753 5 7 40 `X = 1375

ndashNo se debe utilizar ante conjuntos de datos en los que hay casos extremos por-que deja de cumplir con su funcioacuten que es la de representar al conjunto

X 1 2 2 4 4 8 9 10 cuya media es`X = 5

iquestA quieacuten representa esta media si ni siquiera su valor estaacute en la distribucioacuten Porestosiempredeberaacuteiracompantildeadadeungraacuteficoobiensedebeinformarque los datos se ajustan a una distribucioacuten simeacutetrica

ndashConvariablescualitativasnotienesentidocalcularlaiquestsepuedeafirmarquelamedia aritmeacutetica del estado civil es 25 Tambieacuten hay que ser cautelosos con el resultado de algunas variables cuantitativas discretas como por ejemplo el nuacutemerodedelitosSepuededecirqueundelincuentehacometidoeldoblededelitos que otro pero iquestes pertinente hablar de un promedio de 35 delitos

La simplicidad en la obtencioacuten de la media aritmeacutetica la ha convertido en la estrella de los estadiacutesticos de tendencia central Doctos y legos la conocen y utilizan pero hay

Herramientas estadiacutesticas en criminologiacutea

40

que ser cautos porque los datos no estaacuten exentos de trampas En aquellos casos en los que no sea adecuado calcularla se puede probar con la moda o con la mediana

La moda es un iacutendice de tendencia central que representa el valor cuya frecuen-cia absoluta es la maacutes alta en la distribucioacuten Puede utilizarse con cualquier tipo de variable ya sea cualitativa o cuantitativa y su obtencioacuten es muy sencilla Los datos simplemente se ordenan y se ve cuaacutel se repite maacutes Ese valor es por tanto la moda de la distribucioacuten En el ejemplo de los pacientes con delirium por abstinencia la moda tanto con los datos brutos como agrupados en la distribucioacuten de frecuencias (cuadro 24) es 2 (y no 4 cuidado con esto) Este resultado se interpreta como que la mayoriacutea de los pacientes de este grupo tarda 2 segundos en sentir el ruido como molesto (Cabe sentildealar que la moda no coincide con la media lo que ya habla de una distribucioacuten asimeacutetrica)

Puede suceder que una distribucioacuten tenga dos valores con la maacutexima frecuencia la misma o muy similar pero que ambas se diferencien bastante del resto En estos casos se dice que la distribucioacuten presenta dos modas o que es bimodal

2 2 4 4 4 6 6 6 6 6 6 8 8 8 10 10 10 10 10 10 10

En los datos anteriores se tienen dos modas Mo1 = 6 y Mo2 = 10Cuando los valores de la moda son adyacentes algunos analistas toman como

estadiacutesticolamediadeambasSinembargoestonodebehacersepuestoqueelre-sultado puede carecer de sentido podriacutea tratarse de un valor que no existe en la dis-tribucioacuten Por otro lado iquestcuaacutel es el problema de presentar dos modas Precisamente lo anterior la obtencioacuten (o presentacioacuten) de dos modas permite ver hasta queacute punto el caacutelculo de una media es liacutecito En efecto si las dos modas son adyacentes y centra-das no seriacutea ninguacuten problema pero si no lo son esto debe advertir de que no hay que calcular la media

La mediana es un iacutendice que informa del dato de la distribucioacuten que la divide en dos partesigualesysedefineportantocomoaquelvalorquedejaporencimaypordebajoel 50 por ciento de las frecuencias Puede utilizarse con variables cualitativas cuyas mo-dalidades puedan ordenarse y con variables cuantitativas

Suobtencioacutenesenormementesencillauacutenicamentehayquelocalizarenlacolum-na de proporciones acumuladas de la tabla de la distribucioacuten el valor que comprenda el 05 y ver a queacute puntuacioacuten de la variable corresponde En el ejemplo (cuadro 25) tras obtener las proporciones acumuladas la mediana se localiza en la proporcioacuten acumulada 06 porque es la que incluye 05 (la anterior se queda en 04) por lo que la mediana es Md = 4 es decir el valor de la distribucioacuten que divide a los sujetos en dos grupos

Explorando los datos

41

cuadro 25 Localizacioacuten de la mediana

Xi ni pi pa

2345678

4 0 2 2 1 0 1

04000202010001

04040608090910

ndash 10 10

Cabe sentildealar que si su valor coincide con el de la media y el de la moda o son muy similares la distribucioacuten es simeacutetrica o muy cercana a la simetriacutea En cambio si los re-sultados para los tres iacutendices son muy diferentes hay que tener cuidado con la forma de la distribucioacuten y lo que se ha calculado Hayquerecordarqueunarepresentacioacutengraacuteficaes un complemento perfecto en los anaacutelisis para aclarar los resultados

Los iacutendices de posicioacuten son todos aquellos que permiten situar a un sujeto dentro de unadistribucioacutendefrecuenciasSunombregeneacutericoescuantiles y los maacutes utilizados en este contexto son los percentiles y los cuartiles

Los percentiles tambieacuten llamados centiles son las puntuaciones de la variable que dividen la distribucioacuten en cien partes iguales Hay por tanto 99 percentiles La nomen-clatura utilizada es Pk y su valor se interpreta como la puntuacioacuten que deja por debajo de siacute al k por ciento de los sujetos Por ejemplo si P20 = 9 se dice que 9 es el valor de la distribucioacuten que deja por debajo de siacute al 20 por ciento de los sujetos

Por su parte los cuartiles son las puntuaciones de la variable que dividen la distri-bucioacuten en cuatro partes iguales Hay por tanto tres cuartiles La nomenclatura utilizada es Qk (k = 1 2 o 3) y su valor se interpreta como la puntuacioacuten que deja por debajo de siacute al 25 k por ciento de los sujetos Por ejemplo si Q3 = 8 se dice que 8 es el valor de la distribucioacuten que deja por debajo de siacute al 75 por ciento de los sujetos

Obtener percentiles o cuartiles es tan sencillo como hacerlo con la mediana se bus-ca en la columna de las proporciones acumuladas o de los porcentajes acumulados de la distribucioacuten la proporcioacuten o porcentaje de intereacutes y se localiza la puntuacioacuten de la variable a la que pertenece

El cuadro 26 es el resultado de aplicar un test que mide conductas saacutedicas Un sujeto que por ejemplo obtiene una puntuacioacuten igual a 15 resulta que se situacutea en el percentil P77 y en el cuartil Q3 lo que lo coloca en los valores altos de la distribucioacuten Es claramente necesaria una raacutepida intervencioacuten

Herramientas estadiacutesticas en criminologiacutea

42

Los percentiles y los cuartiles permiten interpretar la situacioacuten de un sujeto en la distribucioacuten de la variable que se ha medido sin necesidad de conocer ni la puntuacioacuten directa ni el valor miacutenimo y maacuteximo de la distribucioacuten lo que resulta de gran utilidad

Por otro lado del cuadro 26 se desprende que la mediana se localiza en el percentil 50 y en el cuartil 2 siendo su valor igual a 12

En efecto en distribuciones simeacutetricas

Md = P50 = D5 = Q2

cuadro 26 Localizacioacuten de percentiles y cuartiles

Xi ni na pa Pk Qk

6 7 8 91011

12

13141516171819

8 4 8 5 710

9

11 9 7 8 4 4 6

8 12 20 25 32 42

51

62 71 78 86 90 94100

008012020025032042

051

062071078086090094100

P7P11P19P24P31P41

P50

P61P70P77P85P89P93P99

ndashndashndashndash

Q1ndash

Q2

ndashndash

Q3ndashndashndashndash

No todos somos iguales Bien es cierto que entre las personas existen ciertos com-portamientos similares pero siempre hay diferencias individuales Mientras que los procesoscomogrupovienencuantificadosconlosiacutendicesdetendenciacentral(mediamedianamodaetc)lasdiferenciasindividualesseveraacutenreflejadasenlosiacutendices de variabilidad Dicho con otras palabras estos iacutendices permitiraacuten saber cuaacutento se distan-cian los individuos del sujeto promedio En el ejemplo que se presenta se recogen las puntuaciones de cinco criminales obtenidas en egocentrismo ilimitado

X1 10 11 12 13 14

La media calculada es`X=12Sinembargolosregistrosmuestrandiferenciasentreellos por lo que cada uno se distancia de su media

Explorando los datos

43

10 ndash 12 = ndash2 11 ndash 12 = ndash1 12 ndash 12 = 0 13 ndash 12 = 1 y 14 ndash 12 = 2

Los resultados muestran alejamientos positivos y negativos (unos son maacutes ego-ceacutentricos y otros menos con respecto a la media de 12) con lo que se podriacutea plantear el caacutelculo del promedio de esas distancias como iacutendice de variabilidad En efecto esto es precisamente lo que hace el estadiacutestico desviacioacuten media

sum=

minusDM

(X X)nXi

1

Sufoacutermulaclaramentereflejacuaacutentosealejanenpromediolaspuntuacionesdesumedia Aplicaacutendola a los datos del ejemplo

sum=

minus=

minus + minus + + +=DM

(X X)n

( 2) ( 1) 0 1 25

0Xi

1

Habiendo constatado las diferencias individuales iquestcoacutemo es posible que el prome-dio de distancias sea igual a cero La razoacuten es muy sencilla las diferencias son unas positivas y otras negativas compensaacutendose las unas con las otras y siempre va a ocurrir que la suma de esas diferencias sea igual a 0 ya que son distancias a un punto central que es la media

Entonces si la desviacioacuten media siempre va a ser igual a cero hay que buscar otro iacutendice que siendo tan sencillo e informativo como este solvente el problema Una po-sibilidad seriacutea trabajar con las diferencias en valores absolutos pero estos resultan poco manejables matemaacuteticamente y por tanto poco convincentes

Otra opcioacuten es calcular las diferencias elevarlas al cuadrado y a partir de ahiacute obte-ner su promedio Un iacutendice de dispersioacuten computado asiacute se denomina varianza

sum=

minusS

(X X)nX

2 i2

Aplicaacutendolo a los datos

sum=

minus=

+ + + +=S

(X X )n

4 1 0 1 45

2X2 i 1

2

1

Una foacutermula maacutes raacutepida de obtener la varianza sobre todo cuando se manejan mu-chos datos es mediante la siguiente expresioacuten

Page 9: Herramientas estadísticas en criminología · 2019. 10. 10. · Herramientas estadísticas en criminología Concepción San Luis Costas Isabel Cañadas Osinski. Reservados todos

Iacutendice

9

10 regresIoacuten lIneal 235

101 Introduccioacuten 235102 Modelo de regresioacuten lineal 236103 El ajuste del modelo datos 240

1031 Los coeficientes semiparciales 241104 Meacutetodos de construccioacuten del modelo 243105 Anaacutelisis de variables mediadoras y moderadoras 245

1051 Efecto de mediacioacuten 2461052 Efecto de moderacioacuten 248

106 Supuestosenelanaacutelisis 251107 Inferencia en la regresioacuten muacuteltiple 254108 Fiabilidad y validez del modelo 255109 Regresioacuten logiacutestica binaria 257

referencIas bIblIograacutefIcas 261

Contenidos digitales

Anexo 1 Tablas estadiacutesticas

Anexo 2 Acceso a descarga de programas

Anexo 3 Viacutedeos

Anexo 4 Datos simulados

Anexo 5 Actividades propuestas de replicacioacuten

31

2Explorando los datos

21 Introduccioacuten

La primera cuestioacuten que debe contemplarse antes de la aplicacioacuten de cualquier teacutecnica estadiacutestica es la relativa a la descripcioacuten de la muestra (en algunos casos excepcionales de la poblacioacuten) la segunda el estudio minucioso de las caracteriacutesticas que presentan lasvariablesobjetodeestudioquehansidocuantificadasmedianteelcorrespondienteproceso de medida o asignacioacuten numeacuterica

El anaacutelisis exploratorio de los datos implica una actitud curiosa que estaacute motivada porlapremisadequecuantomejorconozcaelinvestigadorlosdatosquetienemaacutesefi-cientementesepuedenusarparadesarrollaryrefinarsuspropuestasPortantoeltrabajode detective del investigador tendraacute como principal objetivo un abordaje exploratorio de datos para maximizar lo que pueda aprender a partir de ellos y de este modo entender el conjunto de las variables y su comportamiento

22 Exploracioacuten de los datos para una variable

Realizar un anaacutelisis exploratorio de los datos permitiraacute al investigador mediante un conjunto de procedimientos sencillos

ndash Conocer la estructura de los datos es decir ver las caracteriacutesticas que presenta su dis-tribucioacuten e intuir la distribucioacuten de probabilidad que presentan visualizando la forma y sus propiedades caracteriacutesticas (normalidad simetriacutea apuntamiento o curtosis)

ndash Detectar posibles errores en el disentildeondash Detectar errores en el proceso de recogida de datosndash Identificar casos atiacutepicos frutodediversas causasquepuedenabarcardesde

errores humanos hasta la presencia de valores anoacutemalos en relacioacuten con el con-junto general de valores

Herramientas estadiacutesticas en criminologiacutea

32

ndash Evaluar y tratar datos ausentes (datos que faltan en la matriz)ndash Comprobar los supuestos subyacentes a la teacutecnica estadiacutestica que se pretende

emplear para responder a las preguntas de la investigacioacuten

Para cumplir con estos objetivos deberaacute construir una distribucioacuten de frecuencias y acu-diralasrepresentacionesgraacuteficasynumeacutericasloqueseexplicaenlassiguientespaacuteginas

221 Distribucioacuten de frecuencias

Una vez se tiene la matriz de datos es el momento de empezar a organizar variables sujetos analizar los casos etc El primer paso es la construccioacuten de una distribucioacuten de frecuencias disposicioacuten de una variable en una tabla con sus modalidades que inclu-ye el recuento de casos en cada una los porcentajes etc Hay tantas distribuciones de frecuencias como variables contenga la matriz una distribucioacuten para cada una de las variables

cuadro 21 Matriz de datos

Sujeto Creencias Motivacioacuten Empatiacutea Distorsiones Emociones Control Responsabilidad

123456789

10

110100120120 50110 60 30 40 90

51503312251118305441

20 2 822 52116 32429

123110120131150110175133120149

11249

106347

13103142556127334090

81010 9 4 9 8 5 4 7

La matriz de datos del cuadro 21 es un ejemplo de los resultados obtenidos tras un programa de intervencioacuten a hombres maltratadores en la aplicacioacuten de una bateriacutea de cuestionarios para medir sus creencias sexistas su motivacioacuten para el cambio la empatiacuteaconlasviacutectimaslasdistorsionescognitivaslaidentificacioacutendeemocioneselcontrol de la ira y la asuncioacuten de responsabilidad En la matriz de datos estaacuten los sujetos con sus puntuaciones en las variables pero la visioacuten de estas resulta un tanto confusa al no estar ordenadas sus puntuaciones

Al extraer por ejemplo las variables creencias sexistas y asuncioacuten de responsabi-lidad y organizar cada una en una distribucioacuten de frecuencias (cuadro 22) se puede

Explorando los datos

33

observar todo el rango de valores y el nuacutemero de casos (ni) de sus modalidades Ense-guida se aprecia por ejemplo que las puntuaciones en creencias se concentran maacutes en torno a los valores maacutes altos de la distribucioacuten (hay 6 sujetos con valores entre 90 y 120) casi lo mismo que la responsabilidad cuyo mayor nuacutemero de casos se encuentra en los valores maacutes altos (6 sujetos entre 8 y 10) aunque en general sus puntuaciones esteacuten maacutes repartidas

cuadro 22 Distribuciones de frecuencias

Creencias ni Responsabilidad ni

30 40 50 60 70 80 90100110120

1 1 1 1 0 0 1 1 2 2

4 5 6 7 8 910

2 1 0 1 2 2 2

10

10

La ventaja fundamental de una distribucioacuten de frecuencias es la posibilidad de ex-traer conclusiones de la variable sin realizar siquiera un anaacutelisis estadiacutestico complejo Incluso sin perder sencillez se puede complementar con otros datos

ndashFrecuencia absoluta (ni) nuacutemero de casos de cada modalidad de la variablendashFrecuencia acumulada (na) recuento de las frecuencias absolutas en orden as-

cendente seguacuten el sentido de las modalidadesndashProporcioacuten o frecuencia relativa (pi) frecuencia absoluta nuacutemero total de ca-

sos (n)ndashProporcioacuten acumulada (pa) frecuencia acumulada (na) nuacutemero total de casos (n)ndashPorcentaje (Pi) proporcioacuten (pi) x 100ndashPorcentaje acumulado (Pa) proporcioacuten acumulada (pa) x 100

En el caso de la variable creencias sexistas quedariacutea tal y como se aprecia en el cuadro 23 En general sus valores se encuentran bastante repartidos en la distribucioacuten aunque el mayor porcentaje de casos se situacutea en los valores 110 y 120 y ninguacuten sujeto ha obtenido una puntuacioacuten de 70 u 80

Herramientas estadiacutesticas en criminologiacutea

34

cuadro 23 Distribucioacuten de frecuencias de la variable creencias

Creencias ni na pi pa Pi Pa

30 40 50 60 70 80 90100110120

1111001122

1 2 3 4 4 4 5 6 810

01 01 01 01

00

01 01 02 02

01020304040405060810

10101010 0 010102020

10 20 30 40 40 40 50 60 80100

n = 10 - 10 - 100 -

Cabe decir que la frecuencia proporcioacuten y porcentaje acumulados (na pa y Pa) solo se utilizan con variables cuantitativas Pensando por ejemplo en la variable estado civil con sus modalidades y frecuencias absolutas iquestqueacute sentido tendriacutea hacer un re-cuento acumulado de sus frecuencias Aunque ahora no se aprecie la utilidad de la acumulacioacuten maacutes adelante se comprobaraacute lo praacutectico que resulta para localizar sujetos de la distribucioacuten y para interpretar su posicioacuten

222 Representaciones graacuteficas Valores perdidos y atiacutepicos

Una manera sencilla de observar el comportamiento de una variable es mediante su re-presentacioacutengraacuteficanoenvanosufuncioacutenprincipalesobtenerinformacionesglobalesmedianteunsologolpedevistaExistengraacuteficasparatodoslosgustosperonosiempresuaspectosofisticadoessinoacutenimodeclaridadyexactitudLas representacionesmaacutessencillassonlasquemejorreflejanlascaracteriacutesticasdelasvariablesyestassonlasquese van a presentar a continuacioacuten

Cuandolavariableescualitativaocuantitativadiscretaungraacuteficomuyutilizadoesel diagrama de barras En la abscisa se colocan las modalidades de la variable y en la ordenada las frecuencias o porcentajes Tambieacuten se puede representar la variable medida endosomaacutesgruposparasucomparacioacutentalycomosepuedeverenlafigura21

Eneldiagramadelafigura21secomparaporejemploelgradodeiraenungrupo de hombres y otro de mujeres Las diferencias en las modalidades baja media alta y muy alta noestaacutenmuyclarasSepodriacuteadecirqueenlastressepresentanni-veles similares de ira

Explorando los datos

35

Frec

uenc

ia

10

8

6

4

2

0Baja Media Alta Muy alta

fIgura 21 Diagrama de barras

Cuando se trata de variables cuantitativas los diagramas se denominan histogra-mascomosemuestraen lafigura22Enesteejemploseobserva laevolucioacutendeun grupo de adolescentes diagnosticados de un trastorno adaptativo antes y despueacutes de una intervencioacuten para mejorar su grado de incertidumbre en temas relacionados con la identidad (objetivos a largo plazo eleccioacuten profesional patrones de amistad orientacioacutenyconductasexualetc)Enelprimergraacuteficotodoslossujetostienenunapuntuacioacuten superior a 35 situaacutendose un gran nuacutemero de ellos entre los valores 40 y 50 delaescalaEnelsegundograacuteficoesdondeseconstatalamejoriacuteatraseltratamientopuesto que ninguacuten sujeto supera el valor de 50 en la escala de incertidumbre ubicaacuten-doseunelevadonuacutemerodeellosentrelosvalores10y30Setratadedoshistogramasbien sencillos que arrojan mucha informacioacuten Es importante sentildealar que se debe res-petarelorigendecoordenadasenambosgraacuteficossinoresultandifiacutecilesdecomparary pierden toda su funcioacuten de informar raacutepidamente de los cambios en una variable de su comportamiento en grupos distintos etc

Frec

uenc

ia

6

5

4

3

2

1

00 5 10 15 20 25 30 35 40 45 50 55 60 65 70

Grado de incertidumbre antes

Frec

uenc

ia

6

5

4

3

2

1

00 5 10 15 20 25 30 35 40 45 50 55 60 65 70

Grado de incertidumbre despueacutes

fIgura 22 Histograma de la misma variable en dos momentos distintos

Herramientas estadiacutesticas en criminologiacutea

36

Ungraacuteficodignodemencioacuteneslacurva normal que es el modelo prototipo contra el que se suelen comparar la mayoriacutea de las variables cuando se trabaja con meacutetrica cuantitativaSecaracterizaporsersimeacutetricaypresentarunaliacutenealisaosuavizadacondos colas de igual longitud lo que implica que el porcentaje de casos en ambas es ideacuten-ticoEnrealidadsetratadeunhistogramacuandosehanrecogidoinfinitosdatosdelavariable en otras palabras se trata de un modelo teoacuterico

Sinembargoypeseaseresteelmodeloporantonomasianotodaslasvariablesse acercan a esta distribucioacuten es maacutes en muchas ocasiones es extremadamente com-plicado siquiera encontrar variables que se asemejen a eacutel La situacioacuten maacutes habitual es que cada una de las variables que se haya medido presente diferencias tanto en localizacioacutencomoenformaydispersioacutenrespectoalmodelorepresentadoenlafigu-ra 23 de ahiacute la importancia de describir para cada variable estas caracteriacutesticas lo que permitiraacute evaluar el grado de semejanza con el modelo teoacuterico sobre el que descansaraacute el anaacutelisis de datos

Dispersioacuten

LocalizacioacutenCola izquierda Cola derecha

fIgura 23 Curva normal

Un aspecto que condicionaraacute en gran medida la obtencioacuten de representaciones nu-meacutericas son los casos raros o atiacutepicos Un valor raro hace referencia a un sujeto que presenta un comportamiento muy diferente del resto normalmente porque tiene pun-tuaciones extremas por encima o por debajo de la cola de la distribucioacuten lo que provoca que esta se aleje de una normal Una de las consecuencias de la presencia de outliers porejemploeseldesplazamientoartificialdelamediahaciaarribaohaciadebajocon-virtieacutendolosenobservacionesinfluyentes(Kaplan2000)

LapresenciadeestosdatospuededebersesimplementeaerroresdecodificacioacutenBajo tal circunstancia son faacutecilmente detectables mediante un anaacutelisis de frecuencias

Explorando los datos

37

quepermitaidentificarvaloresfueradelrangoadmisibleEncualquiercasolosva-lores raros son faacuteciles de identificarmediante una simple inspeccioacuten visual de larepresentacioacutengraacuteficaseobservanlossujetoscuyaspuntuacionesestaacutenmuyporen-cima o por debajo de la cola de la distribucioacuten o del intervalo establecido Una vez identificadoelsujetoenlabasededatoshabriacuteaqueeliminarloyvolverarepetirlosanaacutelisis Cuando son detectados hay que de plantearse si esos sujetos proceden de otra poblacioacuten distinta o si por el contrario perteneciendo a la poblacioacuten de referen-cia se trata de sujetos excepcionales El problema es que no siempre es faacutecil hacer esta distincioacuten

Por su parte los valores perdidos se deben a una gran variedad de circunstancias que pueden ocurrir durante una investigacioacuten y que estaacuten fuera del control del investigador Asiacuteporejemplopuedesucederquehaya fallosen losequipos (registrospsicofisio-loacutegicos por ejemplo) o que los sujetos no respondan deliberadamente a determinadas cuestiones o bien por muerte experimental

Ante los valores perdidos se deben considerar su cantidad y el grado en que afectan a la investigacioacuten En este caso no hay una respuesta clara y siacute una gran variedad de opiniones Cohen y Cohen (1983) entienden que es soportable hasta un 5 o 10 por ciento de casos perdidos En segundo lugar se ha de valorar si la estructura de los datos per-didosesaleatoriaosistemaacuteticaSiladistribucioacutendelosvaloresperdidosesaleatoriaestariacuteaindicandoquelossujetosenlosquehaypresentesvaloresperdidosdifierensolopor azar de aquellos en los que no estaacuten presentes Por tanto los resultados obtenidos en estos sujetos podriacutean ser generalizables al resto En el caso de que la distribucioacuten de datos perdidos siga un patroacuten sistemaacutetico se tratariacutea del caso contrario y por tanto no se deberiacutea ignorar esta circunstancia Es maacutes se deberiacutea hacer todo lo posible por intentar interpretar el comportamiento y naturaleza de la distribucioacuten de los valores perdidos (por queacute y coacutemo se distribuyen a lo largo de las distintas variables y de los sujetos)

223 Representaciones numeacutericas iacutendices de tendencia central de variabilidad y de posicioacuten

Enmuchoscasosunadistribucioacutende frecuenciasyuna representacioacutengraacuteficaseraacutenmaacutesquesuficientesparaentenderelcomportamientodeunavariableenungrupodesujetosSinembargocuandoelintereacutessecentraenlacomparacioacutendevariosgruposenlamismavariableoenmaacutesdeunatratarcontablasygraacuteficosymaacutestablasymaacutesgraacute-ficospuederesultarunpocoengorrosotantoparaelpropiomanejocomoparaellectorde los informes En situaciones asiacute puede ser maacutes apropiado trabajar con unos iacutendices quedescribandeformamaacutessencillalainformacioacutencontenidaenlasdistribucionesSetrata de los estadiacutesticos de una muestra iacutendices que ademaacutes de hacer manejable la in-formacioacuten contenida en los datos son la base sobre la que se sustenta la mayoriacutea de las teacutecnicas de anaacutelisis de datos

Herramientas estadiacutesticas en criminologiacutea

38

Los estadiacutesticos de tendencia central son aquellos que resumen el comportamiento de una variable en un solo valor representando asiacute al conjunto de sujetos en el que son calculados

La media aritmeacutetica es el iacutendice de tendencia central maacutes utilizado y su caacutelculo es tan simple como promediar todas las puntuaciones de un grupo en una variable tal y comoreflejansusfoacutermulasparadatosbrutosyparadatosdeunadistribucioacutendefre-cuencias

XXn

isum= X

n Xni isum

=sdot

donde Xi es la puntuacioacuten de un sujeto n es el tamantildeo de la muestra y ni la frecuencia absoluta

SeaelsiguienteejemploEnelserviciodepsiquiatriacuteadeuncentropenitenciariose ha observado que los internos drogodependientes con insomnio croacutenico muestran ciertasensibilidadinusualalruidoDebidoalasdificultadesqueconllevalaaplicacioacutende cuestionarios que midan la sonoridad subjetiva se decide evaluarlos con una prueba en la que deben interrumpir un sonido cuando les resulta molesto y se recoge el tiempo (en segundos) que tardan en pulsar el interruptor Los datos de diez pacientes son los siguientes

4 5 8 2 4 2 5 2 2 6

La media aritmeacutetica es

XXn

4 5 8 2 4 2 5 2 2 610

4010

4isum= =

+ + + + + + + + += =

Suponiendoqueenlossujetossinladolenciadescritalamediaaritmeacuteticaes8se-gundos se puede concluir que estos pacientes que han tardado en conjunto un promedio de 4 segundos en sentir el sonido como un ruido molesto presentan una sensibilidad al ruido mayor

Al agrupar los datos anteriores en una tabla (veacutease el cuadro 24) la media aritmeacute-tica que resulta es

X

n Xn

8 0 8 10 6 0 810

4010

4i isum=

sdot=

+ + + + + += =

Explorando los datos

39

cuadro 24 Caacutelculo de la media en una distribucioacuten de frecuencias

Xi ni ni Xi

2345678

4 0 2 2 1 0 1

8 0 810 6 0 8

ndash 10 40

Tal es la sencillez de la obtencioacuten de la media que se ha convertido en un estadiacutestico omnipresenteentodoinformedeinvestigacioacutenquetrateconvariablesSinembargoantes de su caacutelculo deberaacuten tenerse en cuenta las siguientes consideraciones

ndashEs muy sensible a cualquier variacioacuten en los datos Por ejemplo un error en la introduccioacuten de un valor numeacuterico puede resultar desastroso al calcularla

3 5 7 4 `X = 4753 5 7 40 `X = 1375

ndashNo se debe utilizar ante conjuntos de datos en los que hay casos extremos por-que deja de cumplir con su funcioacuten que es la de representar al conjunto

X 1 2 2 4 4 8 9 10 cuya media es`X = 5

iquestA quieacuten representa esta media si ni siquiera su valor estaacute en la distribucioacuten Porestosiempredeberaacuteiracompantildeadadeungraacuteficoobiensedebeinformarque los datos se ajustan a una distribucioacuten simeacutetrica

ndashConvariablescualitativasnotienesentidocalcularlaiquestsepuedeafirmarquelamedia aritmeacutetica del estado civil es 25 Tambieacuten hay que ser cautelosos con el resultado de algunas variables cuantitativas discretas como por ejemplo el nuacutemerodedelitosSepuededecirqueundelincuentehacometidoeldoblededelitos que otro pero iquestes pertinente hablar de un promedio de 35 delitos

La simplicidad en la obtencioacuten de la media aritmeacutetica la ha convertido en la estrella de los estadiacutesticos de tendencia central Doctos y legos la conocen y utilizan pero hay

Herramientas estadiacutesticas en criminologiacutea

40

que ser cautos porque los datos no estaacuten exentos de trampas En aquellos casos en los que no sea adecuado calcularla se puede probar con la moda o con la mediana

La moda es un iacutendice de tendencia central que representa el valor cuya frecuen-cia absoluta es la maacutes alta en la distribucioacuten Puede utilizarse con cualquier tipo de variable ya sea cualitativa o cuantitativa y su obtencioacuten es muy sencilla Los datos simplemente se ordenan y se ve cuaacutel se repite maacutes Ese valor es por tanto la moda de la distribucioacuten En el ejemplo de los pacientes con delirium por abstinencia la moda tanto con los datos brutos como agrupados en la distribucioacuten de frecuencias (cuadro 24) es 2 (y no 4 cuidado con esto) Este resultado se interpreta como que la mayoriacutea de los pacientes de este grupo tarda 2 segundos en sentir el ruido como molesto (Cabe sentildealar que la moda no coincide con la media lo que ya habla de una distribucioacuten asimeacutetrica)

Puede suceder que una distribucioacuten tenga dos valores con la maacutexima frecuencia la misma o muy similar pero que ambas se diferencien bastante del resto En estos casos se dice que la distribucioacuten presenta dos modas o que es bimodal

2 2 4 4 4 6 6 6 6 6 6 8 8 8 10 10 10 10 10 10 10

En los datos anteriores se tienen dos modas Mo1 = 6 y Mo2 = 10Cuando los valores de la moda son adyacentes algunos analistas toman como

estadiacutesticolamediadeambasSinembargoestonodebehacersepuestoqueelre-sultado puede carecer de sentido podriacutea tratarse de un valor que no existe en la dis-tribucioacuten Por otro lado iquestcuaacutel es el problema de presentar dos modas Precisamente lo anterior la obtencioacuten (o presentacioacuten) de dos modas permite ver hasta queacute punto el caacutelculo de una media es liacutecito En efecto si las dos modas son adyacentes y centra-das no seriacutea ninguacuten problema pero si no lo son esto debe advertir de que no hay que calcular la media

La mediana es un iacutendice que informa del dato de la distribucioacuten que la divide en dos partesigualesysedefineportantocomoaquelvalorquedejaporencimaypordebajoel 50 por ciento de las frecuencias Puede utilizarse con variables cualitativas cuyas mo-dalidades puedan ordenarse y con variables cuantitativas

Suobtencioacutenesenormementesencillauacutenicamentehayquelocalizarenlacolum-na de proporciones acumuladas de la tabla de la distribucioacuten el valor que comprenda el 05 y ver a queacute puntuacioacuten de la variable corresponde En el ejemplo (cuadro 25) tras obtener las proporciones acumuladas la mediana se localiza en la proporcioacuten acumulada 06 porque es la que incluye 05 (la anterior se queda en 04) por lo que la mediana es Md = 4 es decir el valor de la distribucioacuten que divide a los sujetos en dos grupos

Explorando los datos

41

cuadro 25 Localizacioacuten de la mediana

Xi ni pi pa

2345678

4 0 2 2 1 0 1

04000202010001

04040608090910

ndash 10 10

Cabe sentildealar que si su valor coincide con el de la media y el de la moda o son muy similares la distribucioacuten es simeacutetrica o muy cercana a la simetriacutea En cambio si los re-sultados para los tres iacutendices son muy diferentes hay que tener cuidado con la forma de la distribucioacuten y lo que se ha calculado Hayquerecordarqueunarepresentacioacutengraacuteficaes un complemento perfecto en los anaacutelisis para aclarar los resultados

Los iacutendices de posicioacuten son todos aquellos que permiten situar a un sujeto dentro de unadistribucioacutendefrecuenciasSunombregeneacutericoescuantiles y los maacutes utilizados en este contexto son los percentiles y los cuartiles

Los percentiles tambieacuten llamados centiles son las puntuaciones de la variable que dividen la distribucioacuten en cien partes iguales Hay por tanto 99 percentiles La nomen-clatura utilizada es Pk y su valor se interpreta como la puntuacioacuten que deja por debajo de siacute al k por ciento de los sujetos Por ejemplo si P20 = 9 se dice que 9 es el valor de la distribucioacuten que deja por debajo de siacute al 20 por ciento de los sujetos

Por su parte los cuartiles son las puntuaciones de la variable que dividen la distri-bucioacuten en cuatro partes iguales Hay por tanto tres cuartiles La nomenclatura utilizada es Qk (k = 1 2 o 3) y su valor se interpreta como la puntuacioacuten que deja por debajo de siacute al 25 k por ciento de los sujetos Por ejemplo si Q3 = 8 se dice que 8 es el valor de la distribucioacuten que deja por debajo de siacute al 75 por ciento de los sujetos

Obtener percentiles o cuartiles es tan sencillo como hacerlo con la mediana se bus-ca en la columna de las proporciones acumuladas o de los porcentajes acumulados de la distribucioacuten la proporcioacuten o porcentaje de intereacutes y se localiza la puntuacioacuten de la variable a la que pertenece

El cuadro 26 es el resultado de aplicar un test que mide conductas saacutedicas Un sujeto que por ejemplo obtiene una puntuacioacuten igual a 15 resulta que se situacutea en el percentil P77 y en el cuartil Q3 lo que lo coloca en los valores altos de la distribucioacuten Es claramente necesaria una raacutepida intervencioacuten

Herramientas estadiacutesticas en criminologiacutea

42

Los percentiles y los cuartiles permiten interpretar la situacioacuten de un sujeto en la distribucioacuten de la variable que se ha medido sin necesidad de conocer ni la puntuacioacuten directa ni el valor miacutenimo y maacuteximo de la distribucioacuten lo que resulta de gran utilidad

Por otro lado del cuadro 26 se desprende que la mediana se localiza en el percentil 50 y en el cuartil 2 siendo su valor igual a 12

En efecto en distribuciones simeacutetricas

Md = P50 = D5 = Q2

cuadro 26 Localizacioacuten de percentiles y cuartiles

Xi ni na pa Pk Qk

6 7 8 91011

12

13141516171819

8 4 8 5 710

9

11 9 7 8 4 4 6

8 12 20 25 32 42

51

62 71 78 86 90 94100

008012020025032042

051

062071078086090094100

P7P11P19P24P31P41

P50

P61P70P77P85P89P93P99

ndashndashndashndash

Q1ndash

Q2

ndashndash

Q3ndashndashndashndash

No todos somos iguales Bien es cierto que entre las personas existen ciertos com-portamientos similares pero siempre hay diferencias individuales Mientras que los procesoscomogrupovienencuantificadosconlosiacutendicesdetendenciacentral(mediamedianamodaetc)lasdiferenciasindividualesseveraacutenreflejadasenlosiacutendices de variabilidad Dicho con otras palabras estos iacutendices permitiraacuten saber cuaacutento se distan-cian los individuos del sujeto promedio En el ejemplo que se presenta se recogen las puntuaciones de cinco criminales obtenidas en egocentrismo ilimitado

X1 10 11 12 13 14

La media calculada es`X=12Sinembargolosregistrosmuestrandiferenciasentreellos por lo que cada uno se distancia de su media

Explorando los datos

43

10 ndash 12 = ndash2 11 ndash 12 = ndash1 12 ndash 12 = 0 13 ndash 12 = 1 y 14 ndash 12 = 2

Los resultados muestran alejamientos positivos y negativos (unos son maacutes ego-ceacutentricos y otros menos con respecto a la media de 12) con lo que se podriacutea plantear el caacutelculo del promedio de esas distancias como iacutendice de variabilidad En efecto esto es precisamente lo que hace el estadiacutestico desviacioacuten media

sum=

minusDM

(X X)nXi

1

Sufoacutermulaclaramentereflejacuaacutentosealejanenpromediolaspuntuacionesdesumedia Aplicaacutendola a los datos del ejemplo

sum=

minus=

minus + minus + + +=DM

(X X)n

( 2) ( 1) 0 1 25

0Xi

1

Habiendo constatado las diferencias individuales iquestcoacutemo es posible que el prome-dio de distancias sea igual a cero La razoacuten es muy sencilla las diferencias son unas positivas y otras negativas compensaacutendose las unas con las otras y siempre va a ocurrir que la suma de esas diferencias sea igual a 0 ya que son distancias a un punto central que es la media

Entonces si la desviacioacuten media siempre va a ser igual a cero hay que buscar otro iacutendice que siendo tan sencillo e informativo como este solvente el problema Una po-sibilidad seriacutea trabajar con las diferencias en valores absolutos pero estos resultan poco manejables matemaacuteticamente y por tanto poco convincentes

Otra opcioacuten es calcular las diferencias elevarlas al cuadrado y a partir de ahiacute obte-ner su promedio Un iacutendice de dispersioacuten computado asiacute se denomina varianza

sum=

minusS

(X X)nX

2 i2

Aplicaacutendolo a los datos

sum=

minus=

+ + + +=S

(X X )n

4 1 0 1 45

2X2 i 1

2

1

Una foacutermula maacutes raacutepida de obtener la varianza sobre todo cuando se manejan mu-chos datos es mediante la siguiente expresioacuten

Page 10: Herramientas estadísticas en criminología · 2019. 10. 10. · Herramientas estadísticas en criminología Concepción San Luis Costas Isabel Cañadas Osinski. Reservados todos

31

2Explorando los datos

21 Introduccioacuten

La primera cuestioacuten que debe contemplarse antes de la aplicacioacuten de cualquier teacutecnica estadiacutestica es la relativa a la descripcioacuten de la muestra (en algunos casos excepcionales de la poblacioacuten) la segunda el estudio minucioso de las caracteriacutesticas que presentan lasvariablesobjetodeestudioquehansidocuantificadasmedianteelcorrespondienteproceso de medida o asignacioacuten numeacuterica

El anaacutelisis exploratorio de los datos implica una actitud curiosa que estaacute motivada porlapremisadequecuantomejorconozcaelinvestigadorlosdatosquetienemaacutesefi-cientementesepuedenusarparadesarrollaryrefinarsuspropuestasPortantoeltrabajode detective del investigador tendraacute como principal objetivo un abordaje exploratorio de datos para maximizar lo que pueda aprender a partir de ellos y de este modo entender el conjunto de las variables y su comportamiento

22 Exploracioacuten de los datos para una variable

Realizar un anaacutelisis exploratorio de los datos permitiraacute al investigador mediante un conjunto de procedimientos sencillos

ndash Conocer la estructura de los datos es decir ver las caracteriacutesticas que presenta su dis-tribucioacuten e intuir la distribucioacuten de probabilidad que presentan visualizando la forma y sus propiedades caracteriacutesticas (normalidad simetriacutea apuntamiento o curtosis)

ndash Detectar posibles errores en el disentildeondash Detectar errores en el proceso de recogida de datosndash Identificar casos atiacutepicos frutodediversas causasquepuedenabarcardesde

errores humanos hasta la presencia de valores anoacutemalos en relacioacuten con el con-junto general de valores

Herramientas estadiacutesticas en criminologiacutea

32

ndash Evaluar y tratar datos ausentes (datos que faltan en la matriz)ndash Comprobar los supuestos subyacentes a la teacutecnica estadiacutestica que se pretende

emplear para responder a las preguntas de la investigacioacuten

Para cumplir con estos objetivos deberaacute construir una distribucioacuten de frecuencias y acu-diralasrepresentacionesgraacuteficasynumeacutericasloqueseexplicaenlassiguientespaacuteginas

221 Distribucioacuten de frecuencias

Una vez se tiene la matriz de datos es el momento de empezar a organizar variables sujetos analizar los casos etc El primer paso es la construccioacuten de una distribucioacuten de frecuencias disposicioacuten de una variable en una tabla con sus modalidades que inclu-ye el recuento de casos en cada una los porcentajes etc Hay tantas distribuciones de frecuencias como variables contenga la matriz una distribucioacuten para cada una de las variables

cuadro 21 Matriz de datos

Sujeto Creencias Motivacioacuten Empatiacutea Distorsiones Emociones Control Responsabilidad

123456789

10

110100120120 50110 60 30 40 90

51503312251118305441

20 2 822 52116 32429

123110120131150110175133120149

11249

106347

13103142556127334090

81010 9 4 9 8 5 4 7

La matriz de datos del cuadro 21 es un ejemplo de los resultados obtenidos tras un programa de intervencioacuten a hombres maltratadores en la aplicacioacuten de una bateriacutea de cuestionarios para medir sus creencias sexistas su motivacioacuten para el cambio la empatiacuteaconlasviacutectimaslasdistorsionescognitivaslaidentificacioacutendeemocioneselcontrol de la ira y la asuncioacuten de responsabilidad En la matriz de datos estaacuten los sujetos con sus puntuaciones en las variables pero la visioacuten de estas resulta un tanto confusa al no estar ordenadas sus puntuaciones

Al extraer por ejemplo las variables creencias sexistas y asuncioacuten de responsabi-lidad y organizar cada una en una distribucioacuten de frecuencias (cuadro 22) se puede

Explorando los datos

33

observar todo el rango de valores y el nuacutemero de casos (ni) de sus modalidades Ense-guida se aprecia por ejemplo que las puntuaciones en creencias se concentran maacutes en torno a los valores maacutes altos de la distribucioacuten (hay 6 sujetos con valores entre 90 y 120) casi lo mismo que la responsabilidad cuyo mayor nuacutemero de casos se encuentra en los valores maacutes altos (6 sujetos entre 8 y 10) aunque en general sus puntuaciones esteacuten maacutes repartidas

cuadro 22 Distribuciones de frecuencias

Creencias ni Responsabilidad ni

30 40 50 60 70 80 90100110120

1 1 1 1 0 0 1 1 2 2

4 5 6 7 8 910

2 1 0 1 2 2 2

10

10

La ventaja fundamental de una distribucioacuten de frecuencias es la posibilidad de ex-traer conclusiones de la variable sin realizar siquiera un anaacutelisis estadiacutestico complejo Incluso sin perder sencillez se puede complementar con otros datos

ndashFrecuencia absoluta (ni) nuacutemero de casos de cada modalidad de la variablendashFrecuencia acumulada (na) recuento de las frecuencias absolutas en orden as-

cendente seguacuten el sentido de las modalidadesndashProporcioacuten o frecuencia relativa (pi) frecuencia absoluta nuacutemero total de ca-

sos (n)ndashProporcioacuten acumulada (pa) frecuencia acumulada (na) nuacutemero total de casos (n)ndashPorcentaje (Pi) proporcioacuten (pi) x 100ndashPorcentaje acumulado (Pa) proporcioacuten acumulada (pa) x 100

En el caso de la variable creencias sexistas quedariacutea tal y como se aprecia en el cuadro 23 En general sus valores se encuentran bastante repartidos en la distribucioacuten aunque el mayor porcentaje de casos se situacutea en los valores 110 y 120 y ninguacuten sujeto ha obtenido una puntuacioacuten de 70 u 80

Herramientas estadiacutesticas en criminologiacutea

34

cuadro 23 Distribucioacuten de frecuencias de la variable creencias

Creencias ni na pi pa Pi Pa

30 40 50 60 70 80 90100110120

1111001122

1 2 3 4 4 4 5 6 810

01 01 01 01

00

01 01 02 02

01020304040405060810

10101010 0 010102020

10 20 30 40 40 40 50 60 80100

n = 10 - 10 - 100 -

Cabe decir que la frecuencia proporcioacuten y porcentaje acumulados (na pa y Pa) solo se utilizan con variables cuantitativas Pensando por ejemplo en la variable estado civil con sus modalidades y frecuencias absolutas iquestqueacute sentido tendriacutea hacer un re-cuento acumulado de sus frecuencias Aunque ahora no se aprecie la utilidad de la acumulacioacuten maacutes adelante se comprobaraacute lo praacutectico que resulta para localizar sujetos de la distribucioacuten y para interpretar su posicioacuten

222 Representaciones graacuteficas Valores perdidos y atiacutepicos

Una manera sencilla de observar el comportamiento de una variable es mediante su re-presentacioacutengraacuteficanoenvanosufuncioacutenprincipalesobtenerinformacionesglobalesmedianteunsologolpedevistaExistengraacuteficasparatodoslosgustosperonosiempresuaspectosofisticadoessinoacutenimodeclaridadyexactitudLas representacionesmaacutessencillassonlasquemejorreflejanlascaracteriacutesticasdelasvariablesyestassonlasquese van a presentar a continuacioacuten

Cuandolavariableescualitativaocuantitativadiscretaungraacuteficomuyutilizadoesel diagrama de barras En la abscisa se colocan las modalidades de la variable y en la ordenada las frecuencias o porcentajes Tambieacuten se puede representar la variable medida endosomaacutesgruposparasucomparacioacutentalycomosepuedeverenlafigura21

Eneldiagramadelafigura21secomparaporejemploelgradodeiraenungrupo de hombres y otro de mujeres Las diferencias en las modalidades baja media alta y muy alta noestaacutenmuyclarasSepodriacuteadecirqueenlastressepresentanni-veles similares de ira

Explorando los datos

35

Frec

uenc

ia

10

8

6

4

2

0Baja Media Alta Muy alta

fIgura 21 Diagrama de barras

Cuando se trata de variables cuantitativas los diagramas se denominan histogra-mascomosemuestraen lafigura22Enesteejemploseobserva laevolucioacutendeun grupo de adolescentes diagnosticados de un trastorno adaptativo antes y despueacutes de una intervencioacuten para mejorar su grado de incertidumbre en temas relacionados con la identidad (objetivos a largo plazo eleccioacuten profesional patrones de amistad orientacioacutenyconductasexualetc)Enelprimergraacuteficotodoslossujetostienenunapuntuacioacuten superior a 35 situaacutendose un gran nuacutemero de ellos entre los valores 40 y 50 delaescalaEnelsegundograacuteficoesdondeseconstatalamejoriacuteatraseltratamientopuesto que ninguacuten sujeto supera el valor de 50 en la escala de incertidumbre ubicaacuten-doseunelevadonuacutemerodeellosentrelosvalores10y30Setratadedoshistogramasbien sencillos que arrojan mucha informacioacuten Es importante sentildealar que se debe res-petarelorigendecoordenadasenambosgraacuteficossinoresultandifiacutecilesdecomparary pierden toda su funcioacuten de informar raacutepidamente de los cambios en una variable de su comportamiento en grupos distintos etc

Frec

uenc

ia

6

5

4

3

2

1

00 5 10 15 20 25 30 35 40 45 50 55 60 65 70

Grado de incertidumbre antes

Frec

uenc

ia

6

5

4

3

2

1

00 5 10 15 20 25 30 35 40 45 50 55 60 65 70

Grado de incertidumbre despueacutes

fIgura 22 Histograma de la misma variable en dos momentos distintos

Herramientas estadiacutesticas en criminologiacutea

36

Ungraacuteficodignodemencioacuteneslacurva normal que es el modelo prototipo contra el que se suelen comparar la mayoriacutea de las variables cuando se trabaja con meacutetrica cuantitativaSecaracterizaporsersimeacutetricaypresentarunaliacutenealisaosuavizadacondos colas de igual longitud lo que implica que el porcentaje de casos en ambas es ideacuten-ticoEnrealidadsetratadeunhistogramacuandosehanrecogidoinfinitosdatosdelavariable en otras palabras se trata de un modelo teoacuterico

Sinembargoypeseaseresteelmodeloporantonomasianotodaslasvariablesse acercan a esta distribucioacuten es maacutes en muchas ocasiones es extremadamente com-plicado siquiera encontrar variables que se asemejen a eacutel La situacioacuten maacutes habitual es que cada una de las variables que se haya medido presente diferencias tanto en localizacioacutencomoenformaydispersioacutenrespectoalmodelorepresentadoenlafigu-ra 23 de ahiacute la importancia de describir para cada variable estas caracteriacutesticas lo que permitiraacute evaluar el grado de semejanza con el modelo teoacuterico sobre el que descansaraacute el anaacutelisis de datos

Dispersioacuten

LocalizacioacutenCola izquierda Cola derecha

fIgura 23 Curva normal

Un aspecto que condicionaraacute en gran medida la obtencioacuten de representaciones nu-meacutericas son los casos raros o atiacutepicos Un valor raro hace referencia a un sujeto que presenta un comportamiento muy diferente del resto normalmente porque tiene pun-tuaciones extremas por encima o por debajo de la cola de la distribucioacuten lo que provoca que esta se aleje de una normal Una de las consecuencias de la presencia de outliers porejemploeseldesplazamientoartificialdelamediahaciaarribaohaciadebajocon-virtieacutendolosenobservacionesinfluyentes(Kaplan2000)

LapresenciadeestosdatospuededebersesimplementeaerroresdecodificacioacutenBajo tal circunstancia son faacutecilmente detectables mediante un anaacutelisis de frecuencias

Explorando los datos

37

quepermitaidentificarvaloresfueradelrangoadmisibleEncualquiercasolosva-lores raros son faacuteciles de identificarmediante una simple inspeccioacuten visual de larepresentacioacutengraacuteficaseobservanlossujetoscuyaspuntuacionesestaacutenmuyporen-cima o por debajo de la cola de la distribucioacuten o del intervalo establecido Una vez identificadoelsujetoenlabasededatoshabriacuteaqueeliminarloyvolverarepetirlosanaacutelisis Cuando son detectados hay que de plantearse si esos sujetos proceden de otra poblacioacuten distinta o si por el contrario perteneciendo a la poblacioacuten de referen-cia se trata de sujetos excepcionales El problema es que no siempre es faacutecil hacer esta distincioacuten

Por su parte los valores perdidos se deben a una gran variedad de circunstancias que pueden ocurrir durante una investigacioacuten y que estaacuten fuera del control del investigador Asiacuteporejemplopuedesucederquehaya fallosen losequipos (registrospsicofisio-loacutegicos por ejemplo) o que los sujetos no respondan deliberadamente a determinadas cuestiones o bien por muerte experimental

Ante los valores perdidos se deben considerar su cantidad y el grado en que afectan a la investigacioacuten En este caso no hay una respuesta clara y siacute una gran variedad de opiniones Cohen y Cohen (1983) entienden que es soportable hasta un 5 o 10 por ciento de casos perdidos En segundo lugar se ha de valorar si la estructura de los datos per-didosesaleatoriaosistemaacuteticaSiladistribucioacutendelosvaloresperdidosesaleatoriaestariacuteaindicandoquelossujetosenlosquehaypresentesvaloresperdidosdifierensolopor azar de aquellos en los que no estaacuten presentes Por tanto los resultados obtenidos en estos sujetos podriacutean ser generalizables al resto En el caso de que la distribucioacuten de datos perdidos siga un patroacuten sistemaacutetico se tratariacutea del caso contrario y por tanto no se deberiacutea ignorar esta circunstancia Es maacutes se deberiacutea hacer todo lo posible por intentar interpretar el comportamiento y naturaleza de la distribucioacuten de los valores perdidos (por queacute y coacutemo se distribuyen a lo largo de las distintas variables y de los sujetos)

223 Representaciones numeacutericas iacutendices de tendencia central de variabilidad y de posicioacuten

Enmuchoscasosunadistribucioacutende frecuenciasyuna representacioacutengraacuteficaseraacutenmaacutesquesuficientesparaentenderelcomportamientodeunavariableenungrupodesujetosSinembargocuandoelintereacutessecentraenlacomparacioacutendevariosgruposenlamismavariableoenmaacutesdeunatratarcontablasygraacuteficosymaacutestablasymaacutesgraacute-ficospuederesultarunpocoengorrosotantoparaelpropiomanejocomoparaellectorde los informes En situaciones asiacute puede ser maacutes apropiado trabajar con unos iacutendices quedescribandeformamaacutessencillalainformacioacutencontenidaenlasdistribucionesSetrata de los estadiacutesticos de una muestra iacutendices que ademaacutes de hacer manejable la in-formacioacuten contenida en los datos son la base sobre la que se sustenta la mayoriacutea de las teacutecnicas de anaacutelisis de datos

Herramientas estadiacutesticas en criminologiacutea

38

Los estadiacutesticos de tendencia central son aquellos que resumen el comportamiento de una variable en un solo valor representando asiacute al conjunto de sujetos en el que son calculados

La media aritmeacutetica es el iacutendice de tendencia central maacutes utilizado y su caacutelculo es tan simple como promediar todas las puntuaciones de un grupo en una variable tal y comoreflejansusfoacutermulasparadatosbrutosyparadatosdeunadistribucioacutendefre-cuencias

XXn

isum= X

n Xni isum

=sdot

donde Xi es la puntuacioacuten de un sujeto n es el tamantildeo de la muestra y ni la frecuencia absoluta

SeaelsiguienteejemploEnelserviciodepsiquiatriacuteadeuncentropenitenciariose ha observado que los internos drogodependientes con insomnio croacutenico muestran ciertasensibilidadinusualalruidoDebidoalasdificultadesqueconllevalaaplicacioacutende cuestionarios que midan la sonoridad subjetiva se decide evaluarlos con una prueba en la que deben interrumpir un sonido cuando les resulta molesto y se recoge el tiempo (en segundos) que tardan en pulsar el interruptor Los datos de diez pacientes son los siguientes

4 5 8 2 4 2 5 2 2 6

La media aritmeacutetica es

XXn

4 5 8 2 4 2 5 2 2 610

4010

4isum= =

+ + + + + + + + += =

Suponiendoqueenlossujetossinladolenciadescritalamediaaritmeacuteticaes8se-gundos se puede concluir que estos pacientes que han tardado en conjunto un promedio de 4 segundos en sentir el sonido como un ruido molesto presentan una sensibilidad al ruido mayor

Al agrupar los datos anteriores en una tabla (veacutease el cuadro 24) la media aritmeacute-tica que resulta es

X

n Xn

8 0 8 10 6 0 810

4010

4i isum=

sdot=

+ + + + + += =

Explorando los datos

39

cuadro 24 Caacutelculo de la media en una distribucioacuten de frecuencias

Xi ni ni Xi

2345678

4 0 2 2 1 0 1

8 0 810 6 0 8

ndash 10 40

Tal es la sencillez de la obtencioacuten de la media que se ha convertido en un estadiacutestico omnipresenteentodoinformedeinvestigacioacutenquetrateconvariablesSinembargoantes de su caacutelculo deberaacuten tenerse en cuenta las siguientes consideraciones

ndashEs muy sensible a cualquier variacioacuten en los datos Por ejemplo un error en la introduccioacuten de un valor numeacuterico puede resultar desastroso al calcularla

3 5 7 4 `X = 4753 5 7 40 `X = 1375

ndashNo se debe utilizar ante conjuntos de datos en los que hay casos extremos por-que deja de cumplir con su funcioacuten que es la de representar al conjunto

X 1 2 2 4 4 8 9 10 cuya media es`X = 5

iquestA quieacuten representa esta media si ni siquiera su valor estaacute en la distribucioacuten Porestosiempredeberaacuteiracompantildeadadeungraacuteficoobiensedebeinformarque los datos se ajustan a una distribucioacuten simeacutetrica

ndashConvariablescualitativasnotienesentidocalcularlaiquestsepuedeafirmarquelamedia aritmeacutetica del estado civil es 25 Tambieacuten hay que ser cautelosos con el resultado de algunas variables cuantitativas discretas como por ejemplo el nuacutemerodedelitosSepuededecirqueundelincuentehacometidoeldoblededelitos que otro pero iquestes pertinente hablar de un promedio de 35 delitos

La simplicidad en la obtencioacuten de la media aritmeacutetica la ha convertido en la estrella de los estadiacutesticos de tendencia central Doctos y legos la conocen y utilizan pero hay

Herramientas estadiacutesticas en criminologiacutea

40

que ser cautos porque los datos no estaacuten exentos de trampas En aquellos casos en los que no sea adecuado calcularla se puede probar con la moda o con la mediana

La moda es un iacutendice de tendencia central que representa el valor cuya frecuen-cia absoluta es la maacutes alta en la distribucioacuten Puede utilizarse con cualquier tipo de variable ya sea cualitativa o cuantitativa y su obtencioacuten es muy sencilla Los datos simplemente se ordenan y se ve cuaacutel se repite maacutes Ese valor es por tanto la moda de la distribucioacuten En el ejemplo de los pacientes con delirium por abstinencia la moda tanto con los datos brutos como agrupados en la distribucioacuten de frecuencias (cuadro 24) es 2 (y no 4 cuidado con esto) Este resultado se interpreta como que la mayoriacutea de los pacientes de este grupo tarda 2 segundos en sentir el ruido como molesto (Cabe sentildealar que la moda no coincide con la media lo que ya habla de una distribucioacuten asimeacutetrica)

Puede suceder que una distribucioacuten tenga dos valores con la maacutexima frecuencia la misma o muy similar pero que ambas se diferencien bastante del resto En estos casos se dice que la distribucioacuten presenta dos modas o que es bimodal

2 2 4 4 4 6 6 6 6 6 6 8 8 8 10 10 10 10 10 10 10

En los datos anteriores se tienen dos modas Mo1 = 6 y Mo2 = 10Cuando los valores de la moda son adyacentes algunos analistas toman como

estadiacutesticolamediadeambasSinembargoestonodebehacersepuestoqueelre-sultado puede carecer de sentido podriacutea tratarse de un valor que no existe en la dis-tribucioacuten Por otro lado iquestcuaacutel es el problema de presentar dos modas Precisamente lo anterior la obtencioacuten (o presentacioacuten) de dos modas permite ver hasta queacute punto el caacutelculo de una media es liacutecito En efecto si las dos modas son adyacentes y centra-das no seriacutea ninguacuten problema pero si no lo son esto debe advertir de que no hay que calcular la media

La mediana es un iacutendice que informa del dato de la distribucioacuten que la divide en dos partesigualesysedefineportantocomoaquelvalorquedejaporencimaypordebajoel 50 por ciento de las frecuencias Puede utilizarse con variables cualitativas cuyas mo-dalidades puedan ordenarse y con variables cuantitativas

Suobtencioacutenesenormementesencillauacutenicamentehayquelocalizarenlacolum-na de proporciones acumuladas de la tabla de la distribucioacuten el valor que comprenda el 05 y ver a queacute puntuacioacuten de la variable corresponde En el ejemplo (cuadro 25) tras obtener las proporciones acumuladas la mediana se localiza en la proporcioacuten acumulada 06 porque es la que incluye 05 (la anterior se queda en 04) por lo que la mediana es Md = 4 es decir el valor de la distribucioacuten que divide a los sujetos en dos grupos

Explorando los datos

41

cuadro 25 Localizacioacuten de la mediana

Xi ni pi pa

2345678

4 0 2 2 1 0 1

04000202010001

04040608090910

ndash 10 10

Cabe sentildealar que si su valor coincide con el de la media y el de la moda o son muy similares la distribucioacuten es simeacutetrica o muy cercana a la simetriacutea En cambio si los re-sultados para los tres iacutendices son muy diferentes hay que tener cuidado con la forma de la distribucioacuten y lo que se ha calculado Hayquerecordarqueunarepresentacioacutengraacuteficaes un complemento perfecto en los anaacutelisis para aclarar los resultados

Los iacutendices de posicioacuten son todos aquellos que permiten situar a un sujeto dentro de unadistribucioacutendefrecuenciasSunombregeneacutericoescuantiles y los maacutes utilizados en este contexto son los percentiles y los cuartiles

Los percentiles tambieacuten llamados centiles son las puntuaciones de la variable que dividen la distribucioacuten en cien partes iguales Hay por tanto 99 percentiles La nomen-clatura utilizada es Pk y su valor se interpreta como la puntuacioacuten que deja por debajo de siacute al k por ciento de los sujetos Por ejemplo si P20 = 9 se dice que 9 es el valor de la distribucioacuten que deja por debajo de siacute al 20 por ciento de los sujetos

Por su parte los cuartiles son las puntuaciones de la variable que dividen la distri-bucioacuten en cuatro partes iguales Hay por tanto tres cuartiles La nomenclatura utilizada es Qk (k = 1 2 o 3) y su valor se interpreta como la puntuacioacuten que deja por debajo de siacute al 25 k por ciento de los sujetos Por ejemplo si Q3 = 8 se dice que 8 es el valor de la distribucioacuten que deja por debajo de siacute al 75 por ciento de los sujetos

Obtener percentiles o cuartiles es tan sencillo como hacerlo con la mediana se bus-ca en la columna de las proporciones acumuladas o de los porcentajes acumulados de la distribucioacuten la proporcioacuten o porcentaje de intereacutes y se localiza la puntuacioacuten de la variable a la que pertenece

El cuadro 26 es el resultado de aplicar un test que mide conductas saacutedicas Un sujeto que por ejemplo obtiene una puntuacioacuten igual a 15 resulta que se situacutea en el percentil P77 y en el cuartil Q3 lo que lo coloca en los valores altos de la distribucioacuten Es claramente necesaria una raacutepida intervencioacuten

Herramientas estadiacutesticas en criminologiacutea

42

Los percentiles y los cuartiles permiten interpretar la situacioacuten de un sujeto en la distribucioacuten de la variable que se ha medido sin necesidad de conocer ni la puntuacioacuten directa ni el valor miacutenimo y maacuteximo de la distribucioacuten lo que resulta de gran utilidad

Por otro lado del cuadro 26 se desprende que la mediana se localiza en el percentil 50 y en el cuartil 2 siendo su valor igual a 12

En efecto en distribuciones simeacutetricas

Md = P50 = D5 = Q2

cuadro 26 Localizacioacuten de percentiles y cuartiles

Xi ni na pa Pk Qk

6 7 8 91011

12

13141516171819

8 4 8 5 710

9

11 9 7 8 4 4 6

8 12 20 25 32 42

51

62 71 78 86 90 94100

008012020025032042

051

062071078086090094100

P7P11P19P24P31P41

P50

P61P70P77P85P89P93P99

ndashndashndashndash

Q1ndash

Q2

ndashndash

Q3ndashndashndashndash

No todos somos iguales Bien es cierto que entre las personas existen ciertos com-portamientos similares pero siempre hay diferencias individuales Mientras que los procesoscomogrupovienencuantificadosconlosiacutendicesdetendenciacentral(mediamedianamodaetc)lasdiferenciasindividualesseveraacutenreflejadasenlosiacutendices de variabilidad Dicho con otras palabras estos iacutendices permitiraacuten saber cuaacutento se distan-cian los individuos del sujeto promedio En el ejemplo que se presenta se recogen las puntuaciones de cinco criminales obtenidas en egocentrismo ilimitado

X1 10 11 12 13 14

La media calculada es`X=12Sinembargolosregistrosmuestrandiferenciasentreellos por lo que cada uno se distancia de su media

Explorando los datos

43

10 ndash 12 = ndash2 11 ndash 12 = ndash1 12 ndash 12 = 0 13 ndash 12 = 1 y 14 ndash 12 = 2

Los resultados muestran alejamientos positivos y negativos (unos son maacutes ego-ceacutentricos y otros menos con respecto a la media de 12) con lo que se podriacutea plantear el caacutelculo del promedio de esas distancias como iacutendice de variabilidad En efecto esto es precisamente lo que hace el estadiacutestico desviacioacuten media

sum=

minusDM

(X X)nXi

1

Sufoacutermulaclaramentereflejacuaacutentosealejanenpromediolaspuntuacionesdesumedia Aplicaacutendola a los datos del ejemplo

sum=

minus=

minus + minus + + +=DM

(X X)n

( 2) ( 1) 0 1 25

0Xi

1

Habiendo constatado las diferencias individuales iquestcoacutemo es posible que el prome-dio de distancias sea igual a cero La razoacuten es muy sencilla las diferencias son unas positivas y otras negativas compensaacutendose las unas con las otras y siempre va a ocurrir que la suma de esas diferencias sea igual a 0 ya que son distancias a un punto central que es la media

Entonces si la desviacioacuten media siempre va a ser igual a cero hay que buscar otro iacutendice que siendo tan sencillo e informativo como este solvente el problema Una po-sibilidad seriacutea trabajar con las diferencias en valores absolutos pero estos resultan poco manejables matemaacuteticamente y por tanto poco convincentes

Otra opcioacuten es calcular las diferencias elevarlas al cuadrado y a partir de ahiacute obte-ner su promedio Un iacutendice de dispersioacuten computado asiacute se denomina varianza

sum=

minusS

(X X)nX

2 i2

Aplicaacutendolo a los datos

sum=

minus=

+ + + +=S

(X X )n

4 1 0 1 45

2X2 i 1

2

1

Una foacutermula maacutes raacutepida de obtener la varianza sobre todo cuando se manejan mu-chos datos es mediante la siguiente expresioacuten

Page 11: Herramientas estadísticas en criminología · 2019. 10. 10. · Herramientas estadísticas en criminología Concepción San Luis Costas Isabel Cañadas Osinski. Reservados todos

Herramientas estadiacutesticas en criminologiacutea

32

ndash Evaluar y tratar datos ausentes (datos que faltan en la matriz)ndash Comprobar los supuestos subyacentes a la teacutecnica estadiacutestica que se pretende

emplear para responder a las preguntas de la investigacioacuten

Para cumplir con estos objetivos deberaacute construir una distribucioacuten de frecuencias y acu-diralasrepresentacionesgraacuteficasynumeacutericasloqueseexplicaenlassiguientespaacuteginas

221 Distribucioacuten de frecuencias

Una vez se tiene la matriz de datos es el momento de empezar a organizar variables sujetos analizar los casos etc El primer paso es la construccioacuten de una distribucioacuten de frecuencias disposicioacuten de una variable en una tabla con sus modalidades que inclu-ye el recuento de casos en cada una los porcentajes etc Hay tantas distribuciones de frecuencias como variables contenga la matriz una distribucioacuten para cada una de las variables

cuadro 21 Matriz de datos

Sujeto Creencias Motivacioacuten Empatiacutea Distorsiones Emociones Control Responsabilidad

123456789

10

110100120120 50110 60 30 40 90

51503312251118305441

20 2 822 52116 32429

123110120131150110175133120149

11249

106347

13103142556127334090

81010 9 4 9 8 5 4 7

La matriz de datos del cuadro 21 es un ejemplo de los resultados obtenidos tras un programa de intervencioacuten a hombres maltratadores en la aplicacioacuten de una bateriacutea de cuestionarios para medir sus creencias sexistas su motivacioacuten para el cambio la empatiacuteaconlasviacutectimaslasdistorsionescognitivaslaidentificacioacutendeemocioneselcontrol de la ira y la asuncioacuten de responsabilidad En la matriz de datos estaacuten los sujetos con sus puntuaciones en las variables pero la visioacuten de estas resulta un tanto confusa al no estar ordenadas sus puntuaciones

Al extraer por ejemplo las variables creencias sexistas y asuncioacuten de responsabi-lidad y organizar cada una en una distribucioacuten de frecuencias (cuadro 22) se puede

Explorando los datos

33

observar todo el rango de valores y el nuacutemero de casos (ni) de sus modalidades Ense-guida se aprecia por ejemplo que las puntuaciones en creencias se concentran maacutes en torno a los valores maacutes altos de la distribucioacuten (hay 6 sujetos con valores entre 90 y 120) casi lo mismo que la responsabilidad cuyo mayor nuacutemero de casos se encuentra en los valores maacutes altos (6 sujetos entre 8 y 10) aunque en general sus puntuaciones esteacuten maacutes repartidas

cuadro 22 Distribuciones de frecuencias

Creencias ni Responsabilidad ni

30 40 50 60 70 80 90100110120

1 1 1 1 0 0 1 1 2 2

4 5 6 7 8 910

2 1 0 1 2 2 2

10

10

La ventaja fundamental de una distribucioacuten de frecuencias es la posibilidad de ex-traer conclusiones de la variable sin realizar siquiera un anaacutelisis estadiacutestico complejo Incluso sin perder sencillez se puede complementar con otros datos

ndashFrecuencia absoluta (ni) nuacutemero de casos de cada modalidad de la variablendashFrecuencia acumulada (na) recuento de las frecuencias absolutas en orden as-

cendente seguacuten el sentido de las modalidadesndashProporcioacuten o frecuencia relativa (pi) frecuencia absoluta nuacutemero total de ca-

sos (n)ndashProporcioacuten acumulada (pa) frecuencia acumulada (na) nuacutemero total de casos (n)ndashPorcentaje (Pi) proporcioacuten (pi) x 100ndashPorcentaje acumulado (Pa) proporcioacuten acumulada (pa) x 100

En el caso de la variable creencias sexistas quedariacutea tal y como se aprecia en el cuadro 23 En general sus valores se encuentran bastante repartidos en la distribucioacuten aunque el mayor porcentaje de casos se situacutea en los valores 110 y 120 y ninguacuten sujeto ha obtenido una puntuacioacuten de 70 u 80

Herramientas estadiacutesticas en criminologiacutea

34

cuadro 23 Distribucioacuten de frecuencias de la variable creencias

Creencias ni na pi pa Pi Pa

30 40 50 60 70 80 90100110120

1111001122

1 2 3 4 4 4 5 6 810

01 01 01 01

00

01 01 02 02

01020304040405060810

10101010 0 010102020

10 20 30 40 40 40 50 60 80100

n = 10 - 10 - 100 -

Cabe decir que la frecuencia proporcioacuten y porcentaje acumulados (na pa y Pa) solo se utilizan con variables cuantitativas Pensando por ejemplo en la variable estado civil con sus modalidades y frecuencias absolutas iquestqueacute sentido tendriacutea hacer un re-cuento acumulado de sus frecuencias Aunque ahora no se aprecie la utilidad de la acumulacioacuten maacutes adelante se comprobaraacute lo praacutectico que resulta para localizar sujetos de la distribucioacuten y para interpretar su posicioacuten

222 Representaciones graacuteficas Valores perdidos y atiacutepicos

Una manera sencilla de observar el comportamiento de una variable es mediante su re-presentacioacutengraacuteficanoenvanosufuncioacutenprincipalesobtenerinformacionesglobalesmedianteunsologolpedevistaExistengraacuteficasparatodoslosgustosperonosiempresuaspectosofisticadoessinoacutenimodeclaridadyexactitudLas representacionesmaacutessencillassonlasquemejorreflejanlascaracteriacutesticasdelasvariablesyestassonlasquese van a presentar a continuacioacuten

Cuandolavariableescualitativaocuantitativadiscretaungraacuteficomuyutilizadoesel diagrama de barras En la abscisa se colocan las modalidades de la variable y en la ordenada las frecuencias o porcentajes Tambieacuten se puede representar la variable medida endosomaacutesgruposparasucomparacioacutentalycomosepuedeverenlafigura21

Eneldiagramadelafigura21secomparaporejemploelgradodeiraenungrupo de hombres y otro de mujeres Las diferencias en las modalidades baja media alta y muy alta noestaacutenmuyclarasSepodriacuteadecirqueenlastressepresentanni-veles similares de ira

Explorando los datos

35

Frec

uenc

ia

10

8

6

4

2

0Baja Media Alta Muy alta

fIgura 21 Diagrama de barras

Cuando se trata de variables cuantitativas los diagramas se denominan histogra-mascomosemuestraen lafigura22Enesteejemploseobserva laevolucioacutendeun grupo de adolescentes diagnosticados de un trastorno adaptativo antes y despueacutes de una intervencioacuten para mejorar su grado de incertidumbre en temas relacionados con la identidad (objetivos a largo plazo eleccioacuten profesional patrones de amistad orientacioacutenyconductasexualetc)Enelprimergraacuteficotodoslossujetostienenunapuntuacioacuten superior a 35 situaacutendose un gran nuacutemero de ellos entre los valores 40 y 50 delaescalaEnelsegundograacuteficoesdondeseconstatalamejoriacuteatraseltratamientopuesto que ninguacuten sujeto supera el valor de 50 en la escala de incertidumbre ubicaacuten-doseunelevadonuacutemerodeellosentrelosvalores10y30Setratadedoshistogramasbien sencillos que arrojan mucha informacioacuten Es importante sentildealar que se debe res-petarelorigendecoordenadasenambosgraacuteficossinoresultandifiacutecilesdecomparary pierden toda su funcioacuten de informar raacutepidamente de los cambios en una variable de su comportamiento en grupos distintos etc

Frec

uenc

ia

6

5

4

3

2

1

00 5 10 15 20 25 30 35 40 45 50 55 60 65 70

Grado de incertidumbre antes

Frec

uenc

ia

6

5

4

3

2

1

00 5 10 15 20 25 30 35 40 45 50 55 60 65 70

Grado de incertidumbre despueacutes

fIgura 22 Histograma de la misma variable en dos momentos distintos

Herramientas estadiacutesticas en criminologiacutea

36

Ungraacuteficodignodemencioacuteneslacurva normal que es el modelo prototipo contra el que se suelen comparar la mayoriacutea de las variables cuando se trabaja con meacutetrica cuantitativaSecaracterizaporsersimeacutetricaypresentarunaliacutenealisaosuavizadacondos colas de igual longitud lo que implica que el porcentaje de casos en ambas es ideacuten-ticoEnrealidadsetratadeunhistogramacuandosehanrecogidoinfinitosdatosdelavariable en otras palabras se trata de un modelo teoacuterico

Sinembargoypeseaseresteelmodeloporantonomasianotodaslasvariablesse acercan a esta distribucioacuten es maacutes en muchas ocasiones es extremadamente com-plicado siquiera encontrar variables que se asemejen a eacutel La situacioacuten maacutes habitual es que cada una de las variables que se haya medido presente diferencias tanto en localizacioacutencomoenformaydispersioacutenrespectoalmodelorepresentadoenlafigu-ra 23 de ahiacute la importancia de describir para cada variable estas caracteriacutesticas lo que permitiraacute evaluar el grado de semejanza con el modelo teoacuterico sobre el que descansaraacute el anaacutelisis de datos

Dispersioacuten

LocalizacioacutenCola izquierda Cola derecha

fIgura 23 Curva normal

Un aspecto que condicionaraacute en gran medida la obtencioacuten de representaciones nu-meacutericas son los casos raros o atiacutepicos Un valor raro hace referencia a un sujeto que presenta un comportamiento muy diferente del resto normalmente porque tiene pun-tuaciones extremas por encima o por debajo de la cola de la distribucioacuten lo que provoca que esta se aleje de una normal Una de las consecuencias de la presencia de outliers porejemploeseldesplazamientoartificialdelamediahaciaarribaohaciadebajocon-virtieacutendolosenobservacionesinfluyentes(Kaplan2000)

LapresenciadeestosdatospuededebersesimplementeaerroresdecodificacioacutenBajo tal circunstancia son faacutecilmente detectables mediante un anaacutelisis de frecuencias

Explorando los datos

37

quepermitaidentificarvaloresfueradelrangoadmisibleEncualquiercasolosva-lores raros son faacuteciles de identificarmediante una simple inspeccioacuten visual de larepresentacioacutengraacuteficaseobservanlossujetoscuyaspuntuacionesestaacutenmuyporen-cima o por debajo de la cola de la distribucioacuten o del intervalo establecido Una vez identificadoelsujetoenlabasededatoshabriacuteaqueeliminarloyvolverarepetirlosanaacutelisis Cuando son detectados hay que de plantearse si esos sujetos proceden de otra poblacioacuten distinta o si por el contrario perteneciendo a la poblacioacuten de referen-cia se trata de sujetos excepcionales El problema es que no siempre es faacutecil hacer esta distincioacuten

Por su parte los valores perdidos se deben a una gran variedad de circunstancias que pueden ocurrir durante una investigacioacuten y que estaacuten fuera del control del investigador Asiacuteporejemplopuedesucederquehaya fallosen losequipos (registrospsicofisio-loacutegicos por ejemplo) o que los sujetos no respondan deliberadamente a determinadas cuestiones o bien por muerte experimental

Ante los valores perdidos se deben considerar su cantidad y el grado en que afectan a la investigacioacuten En este caso no hay una respuesta clara y siacute una gran variedad de opiniones Cohen y Cohen (1983) entienden que es soportable hasta un 5 o 10 por ciento de casos perdidos En segundo lugar se ha de valorar si la estructura de los datos per-didosesaleatoriaosistemaacuteticaSiladistribucioacutendelosvaloresperdidosesaleatoriaestariacuteaindicandoquelossujetosenlosquehaypresentesvaloresperdidosdifierensolopor azar de aquellos en los que no estaacuten presentes Por tanto los resultados obtenidos en estos sujetos podriacutean ser generalizables al resto En el caso de que la distribucioacuten de datos perdidos siga un patroacuten sistemaacutetico se tratariacutea del caso contrario y por tanto no se deberiacutea ignorar esta circunstancia Es maacutes se deberiacutea hacer todo lo posible por intentar interpretar el comportamiento y naturaleza de la distribucioacuten de los valores perdidos (por queacute y coacutemo se distribuyen a lo largo de las distintas variables y de los sujetos)

223 Representaciones numeacutericas iacutendices de tendencia central de variabilidad y de posicioacuten

Enmuchoscasosunadistribucioacutende frecuenciasyuna representacioacutengraacuteficaseraacutenmaacutesquesuficientesparaentenderelcomportamientodeunavariableenungrupodesujetosSinembargocuandoelintereacutessecentraenlacomparacioacutendevariosgruposenlamismavariableoenmaacutesdeunatratarcontablasygraacuteficosymaacutestablasymaacutesgraacute-ficospuederesultarunpocoengorrosotantoparaelpropiomanejocomoparaellectorde los informes En situaciones asiacute puede ser maacutes apropiado trabajar con unos iacutendices quedescribandeformamaacutessencillalainformacioacutencontenidaenlasdistribucionesSetrata de los estadiacutesticos de una muestra iacutendices que ademaacutes de hacer manejable la in-formacioacuten contenida en los datos son la base sobre la que se sustenta la mayoriacutea de las teacutecnicas de anaacutelisis de datos

Herramientas estadiacutesticas en criminologiacutea

38

Los estadiacutesticos de tendencia central son aquellos que resumen el comportamiento de una variable en un solo valor representando asiacute al conjunto de sujetos en el que son calculados

La media aritmeacutetica es el iacutendice de tendencia central maacutes utilizado y su caacutelculo es tan simple como promediar todas las puntuaciones de un grupo en una variable tal y comoreflejansusfoacutermulasparadatosbrutosyparadatosdeunadistribucioacutendefre-cuencias

XXn

isum= X

n Xni isum

=sdot

donde Xi es la puntuacioacuten de un sujeto n es el tamantildeo de la muestra y ni la frecuencia absoluta

SeaelsiguienteejemploEnelserviciodepsiquiatriacuteadeuncentropenitenciariose ha observado que los internos drogodependientes con insomnio croacutenico muestran ciertasensibilidadinusualalruidoDebidoalasdificultadesqueconllevalaaplicacioacutende cuestionarios que midan la sonoridad subjetiva se decide evaluarlos con una prueba en la que deben interrumpir un sonido cuando les resulta molesto y se recoge el tiempo (en segundos) que tardan en pulsar el interruptor Los datos de diez pacientes son los siguientes

4 5 8 2 4 2 5 2 2 6

La media aritmeacutetica es

XXn

4 5 8 2 4 2 5 2 2 610

4010

4isum= =

+ + + + + + + + += =

Suponiendoqueenlossujetossinladolenciadescritalamediaaritmeacuteticaes8se-gundos se puede concluir que estos pacientes que han tardado en conjunto un promedio de 4 segundos en sentir el sonido como un ruido molesto presentan una sensibilidad al ruido mayor

Al agrupar los datos anteriores en una tabla (veacutease el cuadro 24) la media aritmeacute-tica que resulta es

X

n Xn

8 0 8 10 6 0 810

4010

4i isum=

sdot=

+ + + + + += =

Explorando los datos

39

cuadro 24 Caacutelculo de la media en una distribucioacuten de frecuencias

Xi ni ni Xi

2345678

4 0 2 2 1 0 1

8 0 810 6 0 8

ndash 10 40

Tal es la sencillez de la obtencioacuten de la media que se ha convertido en un estadiacutestico omnipresenteentodoinformedeinvestigacioacutenquetrateconvariablesSinembargoantes de su caacutelculo deberaacuten tenerse en cuenta las siguientes consideraciones

ndashEs muy sensible a cualquier variacioacuten en los datos Por ejemplo un error en la introduccioacuten de un valor numeacuterico puede resultar desastroso al calcularla

3 5 7 4 `X = 4753 5 7 40 `X = 1375

ndashNo se debe utilizar ante conjuntos de datos en los que hay casos extremos por-que deja de cumplir con su funcioacuten que es la de representar al conjunto

X 1 2 2 4 4 8 9 10 cuya media es`X = 5

iquestA quieacuten representa esta media si ni siquiera su valor estaacute en la distribucioacuten Porestosiempredeberaacuteiracompantildeadadeungraacuteficoobiensedebeinformarque los datos se ajustan a una distribucioacuten simeacutetrica

ndashConvariablescualitativasnotienesentidocalcularlaiquestsepuedeafirmarquelamedia aritmeacutetica del estado civil es 25 Tambieacuten hay que ser cautelosos con el resultado de algunas variables cuantitativas discretas como por ejemplo el nuacutemerodedelitosSepuededecirqueundelincuentehacometidoeldoblededelitos que otro pero iquestes pertinente hablar de un promedio de 35 delitos

La simplicidad en la obtencioacuten de la media aritmeacutetica la ha convertido en la estrella de los estadiacutesticos de tendencia central Doctos y legos la conocen y utilizan pero hay

Herramientas estadiacutesticas en criminologiacutea

40

que ser cautos porque los datos no estaacuten exentos de trampas En aquellos casos en los que no sea adecuado calcularla se puede probar con la moda o con la mediana

La moda es un iacutendice de tendencia central que representa el valor cuya frecuen-cia absoluta es la maacutes alta en la distribucioacuten Puede utilizarse con cualquier tipo de variable ya sea cualitativa o cuantitativa y su obtencioacuten es muy sencilla Los datos simplemente se ordenan y se ve cuaacutel se repite maacutes Ese valor es por tanto la moda de la distribucioacuten En el ejemplo de los pacientes con delirium por abstinencia la moda tanto con los datos brutos como agrupados en la distribucioacuten de frecuencias (cuadro 24) es 2 (y no 4 cuidado con esto) Este resultado se interpreta como que la mayoriacutea de los pacientes de este grupo tarda 2 segundos en sentir el ruido como molesto (Cabe sentildealar que la moda no coincide con la media lo que ya habla de una distribucioacuten asimeacutetrica)

Puede suceder que una distribucioacuten tenga dos valores con la maacutexima frecuencia la misma o muy similar pero que ambas se diferencien bastante del resto En estos casos se dice que la distribucioacuten presenta dos modas o que es bimodal

2 2 4 4 4 6 6 6 6 6 6 8 8 8 10 10 10 10 10 10 10

En los datos anteriores se tienen dos modas Mo1 = 6 y Mo2 = 10Cuando los valores de la moda son adyacentes algunos analistas toman como

estadiacutesticolamediadeambasSinembargoestonodebehacersepuestoqueelre-sultado puede carecer de sentido podriacutea tratarse de un valor que no existe en la dis-tribucioacuten Por otro lado iquestcuaacutel es el problema de presentar dos modas Precisamente lo anterior la obtencioacuten (o presentacioacuten) de dos modas permite ver hasta queacute punto el caacutelculo de una media es liacutecito En efecto si las dos modas son adyacentes y centra-das no seriacutea ninguacuten problema pero si no lo son esto debe advertir de que no hay que calcular la media

La mediana es un iacutendice que informa del dato de la distribucioacuten que la divide en dos partesigualesysedefineportantocomoaquelvalorquedejaporencimaypordebajoel 50 por ciento de las frecuencias Puede utilizarse con variables cualitativas cuyas mo-dalidades puedan ordenarse y con variables cuantitativas

Suobtencioacutenesenormementesencillauacutenicamentehayquelocalizarenlacolum-na de proporciones acumuladas de la tabla de la distribucioacuten el valor que comprenda el 05 y ver a queacute puntuacioacuten de la variable corresponde En el ejemplo (cuadro 25) tras obtener las proporciones acumuladas la mediana se localiza en la proporcioacuten acumulada 06 porque es la que incluye 05 (la anterior se queda en 04) por lo que la mediana es Md = 4 es decir el valor de la distribucioacuten que divide a los sujetos en dos grupos

Explorando los datos

41

cuadro 25 Localizacioacuten de la mediana

Xi ni pi pa

2345678

4 0 2 2 1 0 1

04000202010001

04040608090910

ndash 10 10

Cabe sentildealar que si su valor coincide con el de la media y el de la moda o son muy similares la distribucioacuten es simeacutetrica o muy cercana a la simetriacutea En cambio si los re-sultados para los tres iacutendices son muy diferentes hay que tener cuidado con la forma de la distribucioacuten y lo que se ha calculado Hayquerecordarqueunarepresentacioacutengraacuteficaes un complemento perfecto en los anaacutelisis para aclarar los resultados

Los iacutendices de posicioacuten son todos aquellos que permiten situar a un sujeto dentro de unadistribucioacutendefrecuenciasSunombregeneacutericoescuantiles y los maacutes utilizados en este contexto son los percentiles y los cuartiles

Los percentiles tambieacuten llamados centiles son las puntuaciones de la variable que dividen la distribucioacuten en cien partes iguales Hay por tanto 99 percentiles La nomen-clatura utilizada es Pk y su valor se interpreta como la puntuacioacuten que deja por debajo de siacute al k por ciento de los sujetos Por ejemplo si P20 = 9 se dice que 9 es el valor de la distribucioacuten que deja por debajo de siacute al 20 por ciento de los sujetos

Por su parte los cuartiles son las puntuaciones de la variable que dividen la distri-bucioacuten en cuatro partes iguales Hay por tanto tres cuartiles La nomenclatura utilizada es Qk (k = 1 2 o 3) y su valor se interpreta como la puntuacioacuten que deja por debajo de siacute al 25 k por ciento de los sujetos Por ejemplo si Q3 = 8 se dice que 8 es el valor de la distribucioacuten que deja por debajo de siacute al 75 por ciento de los sujetos

Obtener percentiles o cuartiles es tan sencillo como hacerlo con la mediana se bus-ca en la columna de las proporciones acumuladas o de los porcentajes acumulados de la distribucioacuten la proporcioacuten o porcentaje de intereacutes y se localiza la puntuacioacuten de la variable a la que pertenece

El cuadro 26 es el resultado de aplicar un test que mide conductas saacutedicas Un sujeto que por ejemplo obtiene una puntuacioacuten igual a 15 resulta que se situacutea en el percentil P77 y en el cuartil Q3 lo que lo coloca en los valores altos de la distribucioacuten Es claramente necesaria una raacutepida intervencioacuten

Herramientas estadiacutesticas en criminologiacutea

42

Los percentiles y los cuartiles permiten interpretar la situacioacuten de un sujeto en la distribucioacuten de la variable que se ha medido sin necesidad de conocer ni la puntuacioacuten directa ni el valor miacutenimo y maacuteximo de la distribucioacuten lo que resulta de gran utilidad

Por otro lado del cuadro 26 se desprende que la mediana se localiza en el percentil 50 y en el cuartil 2 siendo su valor igual a 12

En efecto en distribuciones simeacutetricas

Md = P50 = D5 = Q2

cuadro 26 Localizacioacuten de percentiles y cuartiles

Xi ni na pa Pk Qk

6 7 8 91011

12

13141516171819

8 4 8 5 710

9

11 9 7 8 4 4 6

8 12 20 25 32 42

51

62 71 78 86 90 94100

008012020025032042

051

062071078086090094100

P7P11P19P24P31P41

P50

P61P70P77P85P89P93P99

ndashndashndashndash

Q1ndash

Q2

ndashndash

Q3ndashndashndashndash

No todos somos iguales Bien es cierto que entre las personas existen ciertos com-portamientos similares pero siempre hay diferencias individuales Mientras que los procesoscomogrupovienencuantificadosconlosiacutendicesdetendenciacentral(mediamedianamodaetc)lasdiferenciasindividualesseveraacutenreflejadasenlosiacutendices de variabilidad Dicho con otras palabras estos iacutendices permitiraacuten saber cuaacutento se distan-cian los individuos del sujeto promedio En el ejemplo que se presenta se recogen las puntuaciones de cinco criminales obtenidas en egocentrismo ilimitado

X1 10 11 12 13 14

La media calculada es`X=12Sinembargolosregistrosmuestrandiferenciasentreellos por lo que cada uno se distancia de su media

Explorando los datos

43

10 ndash 12 = ndash2 11 ndash 12 = ndash1 12 ndash 12 = 0 13 ndash 12 = 1 y 14 ndash 12 = 2

Los resultados muestran alejamientos positivos y negativos (unos son maacutes ego-ceacutentricos y otros menos con respecto a la media de 12) con lo que se podriacutea plantear el caacutelculo del promedio de esas distancias como iacutendice de variabilidad En efecto esto es precisamente lo que hace el estadiacutestico desviacioacuten media

sum=

minusDM

(X X)nXi

1

Sufoacutermulaclaramentereflejacuaacutentosealejanenpromediolaspuntuacionesdesumedia Aplicaacutendola a los datos del ejemplo

sum=

minus=

minus + minus + + +=DM

(X X)n

( 2) ( 1) 0 1 25

0Xi

1

Habiendo constatado las diferencias individuales iquestcoacutemo es posible que el prome-dio de distancias sea igual a cero La razoacuten es muy sencilla las diferencias son unas positivas y otras negativas compensaacutendose las unas con las otras y siempre va a ocurrir que la suma de esas diferencias sea igual a 0 ya que son distancias a un punto central que es la media

Entonces si la desviacioacuten media siempre va a ser igual a cero hay que buscar otro iacutendice que siendo tan sencillo e informativo como este solvente el problema Una po-sibilidad seriacutea trabajar con las diferencias en valores absolutos pero estos resultan poco manejables matemaacuteticamente y por tanto poco convincentes

Otra opcioacuten es calcular las diferencias elevarlas al cuadrado y a partir de ahiacute obte-ner su promedio Un iacutendice de dispersioacuten computado asiacute se denomina varianza

sum=

minusS

(X X)nX

2 i2

Aplicaacutendolo a los datos

sum=

minus=

+ + + +=S

(X X )n

4 1 0 1 45

2X2 i 1

2

1

Una foacutermula maacutes raacutepida de obtener la varianza sobre todo cuando se manejan mu-chos datos es mediante la siguiente expresioacuten

Page 12: Herramientas estadísticas en criminología · 2019. 10. 10. · Herramientas estadísticas en criminología Concepción San Luis Costas Isabel Cañadas Osinski. Reservados todos

Explorando los datos

33

observar todo el rango de valores y el nuacutemero de casos (ni) de sus modalidades Ense-guida se aprecia por ejemplo que las puntuaciones en creencias se concentran maacutes en torno a los valores maacutes altos de la distribucioacuten (hay 6 sujetos con valores entre 90 y 120) casi lo mismo que la responsabilidad cuyo mayor nuacutemero de casos se encuentra en los valores maacutes altos (6 sujetos entre 8 y 10) aunque en general sus puntuaciones esteacuten maacutes repartidas

cuadro 22 Distribuciones de frecuencias

Creencias ni Responsabilidad ni

30 40 50 60 70 80 90100110120

1 1 1 1 0 0 1 1 2 2

4 5 6 7 8 910

2 1 0 1 2 2 2

10

10

La ventaja fundamental de una distribucioacuten de frecuencias es la posibilidad de ex-traer conclusiones de la variable sin realizar siquiera un anaacutelisis estadiacutestico complejo Incluso sin perder sencillez se puede complementar con otros datos

ndashFrecuencia absoluta (ni) nuacutemero de casos de cada modalidad de la variablendashFrecuencia acumulada (na) recuento de las frecuencias absolutas en orden as-

cendente seguacuten el sentido de las modalidadesndashProporcioacuten o frecuencia relativa (pi) frecuencia absoluta nuacutemero total de ca-

sos (n)ndashProporcioacuten acumulada (pa) frecuencia acumulada (na) nuacutemero total de casos (n)ndashPorcentaje (Pi) proporcioacuten (pi) x 100ndashPorcentaje acumulado (Pa) proporcioacuten acumulada (pa) x 100

En el caso de la variable creencias sexistas quedariacutea tal y como se aprecia en el cuadro 23 En general sus valores se encuentran bastante repartidos en la distribucioacuten aunque el mayor porcentaje de casos se situacutea en los valores 110 y 120 y ninguacuten sujeto ha obtenido una puntuacioacuten de 70 u 80

Herramientas estadiacutesticas en criminologiacutea

34

cuadro 23 Distribucioacuten de frecuencias de la variable creencias

Creencias ni na pi pa Pi Pa

30 40 50 60 70 80 90100110120

1111001122

1 2 3 4 4 4 5 6 810

01 01 01 01

00

01 01 02 02

01020304040405060810

10101010 0 010102020

10 20 30 40 40 40 50 60 80100

n = 10 - 10 - 100 -

Cabe decir que la frecuencia proporcioacuten y porcentaje acumulados (na pa y Pa) solo se utilizan con variables cuantitativas Pensando por ejemplo en la variable estado civil con sus modalidades y frecuencias absolutas iquestqueacute sentido tendriacutea hacer un re-cuento acumulado de sus frecuencias Aunque ahora no se aprecie la utilidad de la acumulacioacuten maacutes adelante se comprobaraacute lo praacutectico que resulta para localizar sujetos de la distribucioacuten y para interpretar su posicioacuten

222 Representaciones graacuteficas Valores perdidos y atiacutepicos

Una manera sencilla de observar el comportamiento de una variable es mediante su re-presentacioacutengraacuteficanoenvanosufuncioacutenprincipalesobtenerinformacionesglobalesmedianteunsologolpedevistaExistengraacuteficasparatodoslosgustosperonosiempresuaspectosofisticadoessinoacutenimodeclaridadyexactitudLas representacionesmaacutessencillassonlasquemejorreflejanlascaracteriacutesticasdelasvariablesyestassonlasquese van a presentar a continuacioacuten

Cuandolavariableescualitativaocuantitativadiscretaungraacuteficomuyutilizadoesel diagrama de barras En la abscisa se colocan las modalidades de la variable y en la ordenada las frecuencias o porcentajes Tambieacuten se puede representar la variable medida endosomaacutesgruposparasucomparacioacutentalycomosepuedeverenlafigura21

Eneldiagramadelafigura21secomparaporejemploelgradodeiraenungrupo de hombres y otro de mujeres Las diferencias en las modalidades baja media alta y muy alta noestaacutenmuyclarasSepodriacuteadecirqueenlastressepresentanni-veles similares de ira

Explorando los datos

35

Frec

uenc

ia

10

8

6

4

2

0Baja Media Alta Muy alta

fIgura 21 Diagrama de barras

Cuando se trata de variables cuantitativas los diagramas se denominan histogra-mascomosemuestraen lafigura22Enesteejemploseobserva laevolucioacutendeun grupo de adolescentes diagnosticados de un trastorno adaptativo antes y despueacutes de una intervencioacuten para mejorar su grado de incertidumbre en temas relacionados con la identidad (objetivos a largo plazo eleccioacuten profesional patrones de amistad orientacioacutenyconductasexualetc)Enelprimergraacuteficotodoslossujetostienenunapuntuacioacuten superior a 35 situaacutendose un gran nuacutemero de ellos entre los valores 40 y 50 delaescalaEnelsegundograacuteficoesdondeseconstatalamejoriacuteatraseltratamientopuesto que ninguacuten sujeto supera el valor de 50 en la escala de incertidumbre ubicaacuten-doseunelevadonuacutemerodeellosentrelosvalores10y30Setratadedoshistogramasbien sencillos que arrojan mucha informacioacuten Es importante sentildealar que se debe res-petarelorigendecoordenadasenambosgraacuteficossinoresultandifiacutecilesdecomparary pierden toda su funcioacuten de informar raacutepidamente de los cambios en una variable de su comportamiento en grupos distintos etc

Frec

uenc

ia

6

5

4

3

2

1

00 5 10 15 20 25 30 35 40 45 50 55 60 65 70

Grado de incertidumbre antes

Frec

uenc

ia

6

5

4

3

2

1

00 5 10 15 20 25 30 35 40 45 50 55 60 65 70

Grado de incertidumbre despueacutes

fIgura 22 Histograma de la misma variable en dos momentos distintos

Herramientas estadiacutesticas en criminologiacutea

36

Ungraacuteficodignodemencioacuteneslacurva normal que es el modelo prototipo contra el que se suelen comparar la mayoriacutea de las variables cuando se trabaja con meacutetrica cuantitativaSecaracterizaporsersimeacutetricaypresentarunaliacutenealisaosuavizadacondos colas de igual longitud lo que implica que el porcentaje de casos en ambas es ideacuten-ticoEnrealidadsetratadeunhistogramacuandosehanrecogidoinfinitosdatosdelavariable en otras palabras se trata de un modelo teoacuterico

Sinembargoypeseaseresteelmodeloporantonomasianotodaslasvariablesse acercan a esta distribucioacuten es maacutes en muchas ocasiones es extremadamente com-plicado siquiera encontrar variables que se asemejen a eacutel La situacioacuten maacutes habitual es que cada una de las variables que se haya medido presente diferencias tanto en localizacioacutencomoenformaydispersioacutenrespectoalmodelorepresentadoenlafigu-ra 23 de ahiacute la importancia de describir para cada variable estas caracteriacutesticas lo que permitiraacute evaluar el grado de semejanza con el modelo teoacuterico sobre el que descansaraacute el anaacutelisis de datos

Dispersioacuten

LocalizacioacutenCola izquierda Cola derecha

fIgura 23 Curva normal

Un aspecto que condicionaraacute en gran medida la obtencioacuten de representaciones nu-meacutericas son los casos raros o atiacutepicos Un valor raro hace referencia a un sujeto que presenta un comportamiento muy diferente del resto normalmente porque tiene pun-tuaciones extremas por encima o por debajo de la cola de la distribucioacuten lo que provoca que esta se aleje de una normal Una de las consecuencias de la presencia de outliers porejemploeseldesplazamientoartificialdelamediahaciaarribaohaciadebajocon-virtieacutendolosenobservacionesinfluyentes(Kaplan2000)

LapresenciadeestosdatospuededebersesimplementeaerroresdecodificacioacutenBajo tal circunstancia son faacutecilmente detectables mediante un anaacutelisis de frecuencias

Explorando los datos

37

quepermitaidentificarvaloresfueradelrangoadmisibleEncualquiercasolosva-lores raros son faacuteciles de identificarmediante una simple inspeccioacuten visual de larepresentacioacutengraacuteficaseobservanlossujetoscuyaspuntuacionesestaacutenmuyporen-cima o por debajo de la cola de la distribucioacuten o del intervalo establecido Una vez identificadoelsujetoenlabasededatoshabriacuteaqueeliminarloyvolverarepetirlosanaacutelisis Cuando son detectados hay que de plantearse si esos sujetos proceden de otra poblacioacuten distinta o si por el contrario perteneciendo a la poblacioacuten de referen-cia se trata de sujetos excepcionales El problema es que no siempre es faacutecil hacer esta distincioacuten

Por su parte los valores perdidos se deben a una gran variedad de circunstancias que pueden ocurrir durante una investigacioacuten y que estaacuten fuera del control del investigador Asiacuteporejemplopuedesucederquehaya fallosen losequipos (registrospsicofisio-loacutegicos por ejemplo) o que los sujetos no respondan deliberadamente a determinadas cuestiones o bien por muerte experimental

Ante los valores perdidos se deben considerar su cantidad y el grado en que afectan a la investigacioacuten En este caso no hay una respuesta clara y siacute una gran variedad de opiniones Cohen y Cohen (1983) entienden que es soportable hasta un 5 o 10 por ciento de casos perdidos En segundo lugar se ha de valorar si la estructura de los datos per-didosesaleatoriaosistemaacuteticaSiladistribucioacutendelosvaloresperdidosesaleatoriaestariacuteaindicandoquelossujetosenlosquehaypresentesvaloresperdidosdifierensolopor azar de aquellos en los que no estaacuten presentes Por tanto los resultados obtenidos en estos sujetos podriacutean ser generalizables al resto En el caso de que la distribucioacuten de datos perdidos siga un patroacuten sistemaacutetico se tratariacutea del caso contrario y por tanto no se deberiacutea ignorar esta circunstancia Es maacutes se deberiacutea hacer todo lo posible por intentar interpretar el comportamiento y naturaleza de la distribucioacuten de los valores perdidos (por queacute y coacutemo se distribuyen a lo largo de las distintas variables y de los sujetos)

223 Representaciones numeacutericas iacutendices de tendencia central de variabilidad y de posicioacuten

Enmuchoscasosunadistribucioacutende frecuenciasyuna representacioacutengraacuteficaseraacutenmaacutesquesuficientesparaentenderelcomportamientodeunavariableenungrupodesujetosSinembargocuandoelintereacutessecentraenlacomparacioacutendevariosgruposenlamismavariableoenmaacutesdeunatratarcontablasygraacuteficosymaacutestablasymaacutesgraacute-ficospuederesultarunpocoengorrosotantoparaelpropiomanejocomoparaellectorde los informes En situaciones asiacute puede ser maacutes apropiado trabajar con unos iacutendices quedescribandeformamaacutessencillalainformacioacutencontenidaenlasdistribucionesSetrata de los estadiacutesticos de una muestra iacutendices que ademaacutes de hacer manejable la in-formacioacuten contenida en los datos son la base sobre la que se sustenta la mayoriacutea de las teacutecnicas de anaacutelisis de datos

Herramientas estadiacutesticas en criminologiacutea

38

Los estadiacutesticos de tendencia central son aquellos que resumen el comportamiento de una variable en un solo valor representando asiacute al conjunto de sujetos en el que son calculados

La media aritmeacutetica es el iacutendice de tendencia central maacutes utilizado y su caacutelculo es tan simple como promediar todas las puntuaciones de un grupo en una variable tal y comoreflejansusfoacutermulasparadatosbrutosyparadatosdeunadistribucioacutendefre-cuencias

XXn

isum= X

n Xni isum

=sdot

donde Xi es la puntuacioacuten de un sujeto n es el tamantildeo de la muestra y ni la frecuencia absoluta

SeaelsiguienteejemploEnelserviciodepsiquiatriacuteadeuncentropenitenciariose ha observado que los internos drogodependientes con insomnio croacutenico muestran ciertasensibilidadinusualalruidoDebidoalasdificultadesqueconllevalaaplicacioacutende cuestionarios que midan la sonoridad subjetiva se decide evaluarlos con una prueba en la que deben interrumpir un sonido cuando les resulta molesto y se recoge el tiempo (en segundos) que tardan en pulsar el interruptor Los datos de diez pacientes son los siguientes

4 5 8 2 4 2 5 2 2 6

La media aritmeacutetica es

XXn

4 5 8 2 4 2 5 2 2 610

4010

4isum= =

+ + + + + + + + += =

Suponiendoqueenlossujetossinladolenciadescritalamediaaritmeacuteticaes8se-gundos se puede concluir que estos pacientes que han tardado en conjunto un promedio de 4 segundos en sentir el sonido como un ruido molesto presentan una sensibilidad al ruido mayor

Al agrupar los datos anteriores en una tabla (veacutease el cuadro 24) la media aritmeacute-tica que resulta es

X

n Xn

8 0 8 10 6 0 810

4010

4i isum=

sdot=

+ + + + + += =

Explorando los datos

39

cuadro 24 Caacutelculo de la media en una distribucioacuten de frecuencias

Xi ni ni Xi

2345678

4 0 2 2 1 0 1

8 0 810 6 0 8

ndash 10 40

Tal es la sencillez de la obtencioacuten de la media que se ha convertido en un estadiacutestico omnipresenteentodoinformedeinvestigacioacutenquetrateconvariablesSinembargoantes de su caacutelculo deberaacuten tenerse en cuenta las siguientes consideraciones

ndashEs muy sensible a cualquier variacioacuten en los datos Por ejemplo un error en la introduccioacuten de un valor numeacuterico puede resultar desastroso al calcularla

3 5 7 4 `X = 4753 5 7 40 `X = 1375

ndashNo se debe utilizar ante conjuntos de datos en los que hay casos extremos por-que deja de cumplir con su funcioacuten que es la de representar al conjunto

X 1 2 2 4 4 8 9 10 cuya media es`X = 5

iquestA quieacuten representa esta media si ni siquiera su valor estaacute en la distribucioacuten Porestosiempredeberaacuteiracompantildeadadeungraacuteficoobiensedebeinformarque los datos se ajustan a una distribucioacuten simeacutetrica

ndashConvariablescualitativasnotienesentidocalcularlaiquestsepuedeafirmarquelamedia aritmeacutetica del estado civil es 25 Tambieacuten hay que ser cautelosos con el resultado de algunas variables cuantitativas discretas como por ejemplo el nuacutemerodedelitosSepuededecirqueundelincuentehacometidoeldoblededelitos que otro pero iquestes pertinente hablar de un promedio de 35 delitos

La simplicidad en la obtencioacuten de la media aritmeacutetica la ha convertido en la estrella de los estadiacutesticos de tendencia central Doctos y legos la conocen y utilizan pero hay

Herramientas estadiacutesticas en criminologiacutea

40

que ser cautos porque los datos no estaacuten exentos de trampas En aquellos casos en los que no sea adecuado calcularla se puede probar con la moda o con la mediana

La moda es un iacutendice de tendencia central que representa el valor cuya frecuen-cia absoluta es la maacutes alta en la distribucioacuten Puede utilizarse con cualquier tipo de variable ya sea cualitativa o cuantitativa y su obtencioacuten es muy sencilla Los datos simplemente se ordenan y se ve cuaacutel se repite maacutes Ese valor es por tanto la moda de la distribucioacuten En el ejemplo de los pacientes con delirium por abstinencia la moda tanto con los datos brutos como agrupados en la distribucioacuten de frecuencias (cuadro 24) es 2 (y no 4 cuidado con esto) Este resultado se interpreta como que la mayoriacutea de los pacientes de este grupo tarda 2 segundos en sentir el ruido como molesto (Cabe sentildealar que la moda no coincide con la media lo que ya habla de una distribucioacuten asimeacutetrica)

Puede suceder que una distribucioacuten tenga dos valores con la maacutexima frecuencia la misma o muy similar pero que ambas se diferencien bastante del resto En estos casos se dice que la distribucioacuten presenta dos modas o que es bimodal

2 2 4 4 4 6 6 6 6 6 6 8 8 8 10 10 10 10 10 10 10

En los datos anteriores se tienen dos modas Mo1 = 6 y Mo2 = 10Cuando los valores de la moda son adyacentes algunos analistas toman como

estadiacutesticolamediadeambasSinembargoestonodebehacersepuestoqueelre-sultado puede carecer de sentido podriacutea tratarse de un valor que no existe en la dis-tribucioacuten Por otro lado iquestcuaacutel es el problema de presentar dos modas Precisamente lo anterior la obtencioacuten (o presentacioacuten) de dos modas permite ver hasta queacute punto el caacutelculo de una media es liacutecito En efecto si las dos modas son adyacentes y centra-das no seriacutea ninguacuten problema pero si no lo son esto debe advertir de que no hay que calcular la media

La mediana es un iacutendice que informa del dato de la distribucioacuten que la divide en dos partesigualesysedefineportantocomoaquelvalorquedejaporencimaypordebajoel 50 por ciento de las frecuencias Puede utilizarse con variables cualitativas cuyas mo-dalidades puedan ordenarse y con variables cuantitativas

Suobtencioacutenesenormementesencillauacutenicamentehayquelocalizarenlacolum-na de proporciones acumuladas de la tabla de la distribucioacuten el valor que comprenda el 05 y ver a queacute puntuacioacuten de la variable corresponde En el ejemplo (cuadro 25) tras obtener las proporciones acumuladas la mediana se localiza en la proporcioacuten acumulada 06 porque es la que incluye 05 (la anterior se queda en 04) por lo que la mediana es Md = 4 es decir el valor de la distribucioacuten que divide a los sujetos en dos grupos

Explorando los datos

41

cuadro 25 Localizacioacuten de la mediana

Xi ni pi pa

2345678

4 0 2 2 1 0 1

04000202010001

04040608090910

ndash 10 10

Cabe sentildealar que si su valor coincide con el de la media y el de la moda o son muy similares la distribucioacuten es simeacutetrica o muy cercana a la simetriacutea En cambio si los re-sultados para los tres iacutendices son muy diferentes hay que tener cuidado con la forma de la distribucioacuten y lo que se ha calculado Hayquerecordarqueunarepresentacioacutengraacuteficaes un complemento perfecto en los anaacutelisis para aclarar los resultados

Los iacutendices de posicioacuten son todos aquellos que permiten situar a un sujeto dentro de unadistribucioacutendefrecuenciasSunombregeneacutericoescuantiles y los maacutes utilizados en este contexto son los percentiles y los cuartiles

Los percentiles tambieacuten llamados centiles son las puntuaciones de la variable que dividen la distribucioacuten en cien partes iguales Hay por tanto 99 percentiles La nomen-clatura utilizada es Pk y su valor se interpreta como la puntuacioacuten que deja por debajo de siacute al k por ciento de los sujetos Por ejemplo si P20 = 9 se dice que 9 es el valor de la distribucioacuten que deja por debajo de siacute al 20 por ciento de los sujetos

Por su parte los cuartiles son las puntuaciones de la variable que dividen la distri-bucioacuten en cuatro partes iguales Hay por tanto tres cuartiles La nomenclatura utilizada es Qk (k = 1 2 o 3) y su valor se interpreta como la puntuacioacuten que deja por debajo de siacute al 25 k por ciento de los sujetos Por ejemplo si Q3 = 8 se dice que 8 es el valor de la distribucioacuten que deja por debajo de siacute al 75 por ciento de los sujetos

Obtener percentiles o cuartiles es tan sencillo como hacerlo con la mediana se bus-ca en la columna de las proporciones acumuladas o de los porcentajes acumulados de la distribucioacuten la proporcioacuten o porcentaje de intereacutes y se localiza la puntuacioacuten de la variable a la que pertenece

El cuadro 26 es el resultado de aplicar un test que mide conductas saacutedicas Un sujeto que por ejemplo obtiene una puntuacioacuten igual a 15 resulta que se situacutea en el percentil P77 y en el cuartil Q3 lo que lo coloca en los valores altos de la distribucioacuten Es claramente necesaria una raacutepida intervencioacuten

Herramientas estadiacutesticas en criminologiacutea

42

Los percentiles y los cuartiles permiten interpretar la situacioacuten de un sujeto en la distribucioacuten de la variable que se ha medido sin necesidad de conocer ni la puntuacioacuten directa ni el valor miacutenimo y maacuteximo de la distribucioacuten lo que resulta de gran utilidad

Por otro lado del cuadro 26 se desprende que la mediana se localiza en el percentil 50 y en el cuartil 2 siendo su valor igual a 12

En efecto en distribuciones simeacutetricas

Md = P50 = D5 = Q2

cuadro 26 Localizacioacuten de percentiles y cuartiles

Xi ni na pa Pk Qk

6 7 8 91011

12

13141516171819

8 4 8 5 710

9

11 9 7 8 4 4 6

8 12 20 25 32 42

51

62 71 78 86 90 94100

008012020025032042

051

062071078086090094100

P7P11P19P24P31P41

P50

P61P70P77P85P89P93P99

ndashndashndashndash

Q1ndash

Q2

ndashndash

Q3ndashndashndashndash

No todos somos iguales Bien es cierto que entre las personas existen ciertos com-portamientos similares pero siempre hay diferencias individuales Mientras que los procesoscomogrupovienencuantificadosconlosiacutendicesdetendenciacentral(mediamedianamodaetc)lasdiferenciasindividualesseveraacutenreflejadasenlosiacutendices de variabilidad Dicho con otras palabras estos iacutendices permitiraacuten saber cuaacutento se distan-cian los individuos del sujeto promedio En el ejemplo que se presenta se recogen las puntuaciones de cinco criminales obtenidas en egocentrismo ilimitado

X1 10 11 12 13 14

La media calculada es`X=12Sinembargolosregistrosmuestrandiferenciasentreellos por lo que cada uno se distancia de su media

Explorando los datos

43

10 ndash 12 = ndash2 11 ndash 12 = ndash1 12 ndash 12 = 0 13 ndash 12 = 1 y 14 ndash 12 = 2

Los resultados muestran alejamientos positivos y negativos (unos son maacutes ego-ceacutentricos y otros menos con respecto a la media de 12) con lo que se podriacutea plantear el caacutelculo del promedio de esas distancias como iacutendice de variabilidad En efecto esto es precisamente lo que hace el estadiacutestico desviacioacuten media

sum=

minusDM

(X X)nXi

1

Sufoacutermulaclaramentereflejacuaacutentosealejanenpromediolaspuntuacionesdesumedia Aplicaacutendola a los datos del ejemplo

sum=

minus=

minus + minus + + +=DM

(X X)n

( 2) ( 1) 0 1 25

0Xi

1

Habiendo constatado las diferencias individuales iquestcoacutemo es posible que el prome-dio de distancias sea igual a cero La razoacuten es muy sencilla las diferencias son unas positivas y otras negativas compensaacutendose las unas con las otras y siempre va a ocurrir que la suma de esas diferencias sea igual a 0 ya que son distancias a un punto central que es la media

Entonces si la desviacioacuten media siempre va a ser igual a cero hay que buscar otro iacutendice que siendo tan sencillo e informativo como este solvente el problema Una po-sibilidad seriacutea trabajar con las diferencias en valores absolutos pero estos resultan poco manejables matemaacuteticamente y por tanto poco convincentes

Otra opcioacuten es calcular las diferencias elevarlas al cuadrado y a partir de ahiacute obte-ner su promedio Un iacutendice de dispersioacuten computado asiacute se denomina varianza

sum=

minusS

(X X)nX

2 i2

Aplicaacutendolo a los datos

sum=

minus=

+ + + +=S

(X X )n

4 1 0 1 45

2X2 i 1

2

1

Una foacutermula maacutes raacutepida de obtener la varianza sobre todo cuando se manejan mu-chos datos es mediante la siguiente expresioacuten

Page 13: Herramientas estadísticas en criminología · 2019. 10. 10. · Herramientas estadísticas en criminología Concepción San Luis Costas Isabel Cañadas Osinski. Reservados todos

Herramientas estadiacutesticas en criminologiacutea

34

cuadro 23 Distribucioacuten de frecuencias de la variable creencias

Creencias ni na pi pa Pi Pa

30 40 50 60 70 80 90100110120

1111001122

1 2 3 4 4 4 5 6 810

01 01 01 01

00

01 01 02 02

01020304040405060810

10101010 0 010102020

10 20 30 40 40 40 50 60 80100

n = 10 - 10 - 100 -

Cabe decir que la frecuencia proporcioacuten y porcentaje acumulados (na pa y Pa) solo se utilizan con variables cuantitativas Pensando por ejemplo en la variable estado civil con sus modalidades y frecuencias absolutas iquestqueacute sentido tendriacutea hacer un re-cuento acumulado de sus frecuencias Aunque ahora no se aprecie la utilidad de la acumulacioacuten maacutes adelante se comprobaraacute lo praacutectico que resulta para localizar sujetos de la distribucioacuten y para interpretar su posicioacuten

222 Representaciones graacuteficas Valores perdidos y atiacutepicos

Una manera sencilla de observar el comportamiento de una variable es mediante su re-presentacioacutengraacuteficanoenvanosufuncioacutenprincipalesobtenerinformacionesglobalesmedianteunsologolpedevistaExistengraacuteficasparatodoslosgustosperonosiempresuaspectosofisticadoessinoacutenimodeclaridadyexactitudLas representacionesmaacutessencillassonlasquemejorreflejanlascaracteriacutesticasdelasvariablesyestassonlasquese van a presentar a continuacioacuten

Cuandolavariableescualitativaocuantitativadiscretaungraacuteficomuyutilizadoesel diagrama de barras En la abscisa se colocan las modalidades de la variable y en la ordenada las frecuencias o porcentajes Tambieacuten se puede representar la variable medida endosomaacutesgruposparasucomparacioacutentalycomosepuedeverenlafigura21

Eneldiagramadelafigura21secomparaporejemploelgradodeiraenungrupo de hombres y otro de mujeres Las diferencias en las modalidades baja media alta y muy alta noestaacutenmuyclarasSepodriacuteadecirqueenlastressepresentanni-veles similares de ira

Explorando los datos

35

Frec

uenc

ia

10

8

6

4

2

0Baja Media Alta Muy alta

fIgura 21 Diagrama de barras

Cuando se trata de variables cuantitativas los diagramas se denominan histogra-mascomosemuestraen lafigura22Enesteejemploseobserva laevolucioacutendeun grupo de adolescentes diagnosticados de un trastorno adaptativo antes y despueacutes de una intervencioacuten para mejorar su grado de incertidumbre en temas relacionados con la identidad (objetivos a largo plazo eleccioacuten profesional patrones de amistad orientacioacutenyconductasexualetc)Enelprimergraacuteficotodoslossujetostienenunapuntuacioacuten superior a 35 situaacutendose un gran nuacutemero de ellos entre los valores 40 y 50 delaescalaEnelsegundograacuteficoesdondeseconstatalamejoriacuteatraseltratamientopuesto que ninguacuten sujeto supera el valor de 50 en la escala de incertidumbre ubicaacuten-doseunelevadonuacutemerodeellosentrelosvalores10y30Setratadedoshistogramasbien sencillos que arrojan mucha informacioacuten Es importante sentildealar que se debe res-petarelorigendecoordenadasenambosgraacuteficossinoresultandifiacutecilesdecomparary pierden toda su funcioacuten de informar raacutepidamente de los cambios en una variable de su comportamiento en grupos distintos etc

Frec

uenc

ia

6

5

4

3

2

1

00 5 10 15 20 25 30 35 40 45 50 55 60 65 70

Grado de incertidumbre antes

Frec

uenc

ia

6

5

4

3

2

1

00 5 10 15 20 25 30 35 40 45 50 55 60 65 70

Grado de incertidumbre despueacutes

fIgura 22 Histograma de la misma variable en dos momentos distintos

Herramientas estadiacutesticas en criminologiacutea

36

Ungraacuteficodignodemencioacuteneslacurva normal que es el modelo prototipo contra el que se suelen comparar la mayoriacutea de las variables cuando se trabaja con meacutetrica cuantitativaSecaracterizaporsersimeacutetricaypresentarunaliacutenealisaosuavizadacondos colas de igual longitud lo que implica que el porcentaje de casos en ambas es ideacuten-ticoEnrealidadsetratadeunhistogramacuandosehanrecogidoinfinitosdatosdelavariable en otras palabras se trata de un modelo teoacuterico

Sinembargoypeseaseresteelmodeloporantonomasianotodaslasvariablesse acercan a esta distribucioacuten es maacutes en muchas ocasiones es extremadamente com-plicado siquiera encontrar variables que se asemejen a eacutel La situacioacuten maacutes habitual es que cada una de las variables que se haya medido presente diferencias tanto en localizacioacutencomoenformaydispersioacutenrespectoalmodelorepresentadoenlafigu-ra 23 de ahiacute la importancia de describir para cada variable estas caracteriacutesticas lo que permitiraacute evaluar el grado de semejanza con el modelo teoacuterico sobre el que descansaraacute el anaacutelisis de datos

Dispersioacuten

LocalizacioacutenCola izquierda Cola derecha

fIgura 23 Curva normal

Un aspecto que condicionaraacute en gran medida la obtencioacuten de representaciones nu-meacutericas son los casos raros o atiacutepicos Un valor raro hace referencia a un sujeto que presenta un comportamiento muy diferente del resto normalmente porque tiene pun-tuaciones extremas por encima o por debajo de la cola de la distribucioacuten lo que provoca que esta se aleje de una normal Una de las consecuencias de la presencia de outliers porejemploeseldesplazamientoartificialdelamediahaciaarribaohaciadebajocon-virtieacutendolosenobservacionesinfluyentes(Kaplan2000)

LapresenciadeestosdatospuededebersesimplementeaerroresdecodificacioacutenBajo tal circunstancia son faacutecilmente detectables mediante un anaacutelisis de frecuencias

Explorando los datos

37

quepermitaidentificarvaloresfueradelrangoadmisibleEncualquiercasolosva-lores raros son faacuteciles de identificarmediante una simple inspeccioacuten visual de larepresentacioacutengraacuteficaseobservanlossujetoscuyaspuntuacionesestaacutenmuyporen-cima o por debajo de la cola de la distribucioacuten o del intervalo establecido Una vez identificadoelsujetoenlabasededatoshabriacuteaqueeliminarloyvolverarepetirlosanaacutelisis Cuando son detectados hay que de plantearse si esos sujetos proceden de otra poblacioacuten distinta o si por el contrario perteneciendo a la poblacioacuten de referen-cia se trata de sujetos excepcionales El problema es que no siempre es faacutecil hacer esta distincioacuten

Por su parte los valores perdidos se deben a una gran variedad de circunstancias que pueden ocurrir durante una investigacioacuten y que estaacuten fuera del control del investigador Asiacuteporejemplopuedesucederquehaya fallosen losequipos (registrospsicofisio-loacutegicos por ejemplo) o que los sujetos no respondan deliberadamente a determinadas cuestiones o bien por muerte experimental

Ante los valores perdidos se deben considerar su cantidad y el grado en que afectan a la investigacioacuten En este caso no hay una respuesta clara y siacute una gran variedad de opiniones Cohen y Cohen (1983) entienden que es soportable hasta un 5 o 10 por ciento de casos perdidos En segundo lugar se ha de valorar si la estructura de los datos per-didosesaleatoriaosistemaacuteticaSiladistribucioacutendelosvaloresperdidosesaleatoriaestariacuteaindicandoquelossujetosenlosquehaypresentesvaloresperdidosdifierensolopor azar de aquellos en los que no estaacuten presentes Por tanto los resultados obtenidos en estos sujetos podriacutean ser generalizables al resto En el caso de que la distribucioacuten de datos perdidos siga un patroacuten sistemaacutetico se tratariacutea del caso contrario y por tanto no se deberiacutea ignorar esta circunstancia Es maacutes se deberiacutea hacer todo lo posible por intentar interpretar el comportamiento y naturaleza de la distribucioacuten de los valores perdidos (por queacute y coacutemo se distribuyen a lo largo de las distintas variables y de los sujetos)

223 Representaciones numeacutericas iacutendices de tendencia central de variabilidad y de posicioacuten

Enmuchoscasosunadistribucioacutende frecuenciasyuna representacioacutengraacuteficaseraacutenmaacutesquesuficientesparaentenderelcomportamientodeunavariableenungrupodesujetosSinembargocuandoelintereacutessecentraenlacomparacioacutendevariosgruposenlamismavariableoenmaacutesdeunatratarcontablasygraacuteficosymaacutestablasymaacutesgraacute-ficospuederesultarunpocoengorrosotantoparaelpropiomanejocomoparaellectorde los informes En situaciones asiacute puede ser maacutes apropiado trabajar con unos iacutendices quedescribandeformamaacutessencillalainformacioacutencontenidaenlasdistribucionesSetrata de los estadiacutesticos de una muestra iacutendices que ademaacutes de hacer manejable la in-formacioacuten contenida en los datos son la base sobre la que se sustenta la mayoriacutea de las teacutecnicas de anaacutelisis de datos

Herramientas estadiacutesticas en criminologiacutea

38

Los estadiacutesticos de tendencia central son aquellos que resumen el comportamiento de una variable en un solo valor representando asiacute al conjunto de sujetos en el que son calculados

La media aritmeacutetica es el iacutendice de tendencia central maacutes utilizado y su caacutelculo es tan simple como promediar todas las puntuaciones de un grupo en una variable tal y comoreflejansusfoacutermulasparadatosbrutosyparadatosdeunadistribucioacutendefre-cuencias

XXn

isum= X

n Xni isum

=sdot

donde Xi es la puntuacioacuten de un sujeto n es el tamantildeo de la muestra y ni la frecuencia absoluta

SeaelsiguienteejemploEnelserviciodepsiquiatriacuteadeuncentropenitenciariose ha observado que los internos drogodependientes con insomnio croacutenico muestran ciertasensibilidadinusualalruidoDebidoalasdificultadesqueconllevalaaplicacioacutende cuestionarios que midan la sonoridad subjetiva se decide evaluarlos con una prueba en la que deben interrumpir un sonido cuando les resulta molesto y se recoge el tiempo (en segundos) que tardan en pulsar el interruptor Los datos de diez pacientes son los siguientes

4 5 8 2 4 2 5 2 2 6

La media aritmeacutetica es

XXn

4 5 8 2 4 2 5 2 2 610

4010

4isum= =

+ + + + + + + + += =

Suponiendoqueenlossujetossinladolenciadescritalamediaaritmeacuteticaes8se-gundos se puede concluir que estos pacientes que han tardado en conjunto un promedio de 4 segundos en sentir el sonido como un ruido molesto presentan una sensibilidad al ruido mayor

Al agrupar los datos anteriores en una tabla (veacutease el cuadro 24) la media aritmeacute-tica que resulta es

X

n Xn

8 0 8 10 6 0 810

4010

4i isum=

sdot=

+ + + + + += =

Explorando los datos

39

cuadro 24 Caacutelculo de la media en una distribucioacuten de frecuencias

Xi ni ni Xi

2345678

4 0 2 2 1 0 1

8 0 810 6 0 8

ndash 10 40

Tal es la sencillez de la obtencioacuten de la media que se ha convertido en un estadiacutestico omnipresenteentodoinformedeinvestigacioacutenquetrateconvariablesSinembargoantes de su caacutelculo deberaacuten tenerse en cuenta las siguientes consideraciones

ndashEs muy sensible a cualquier variacioacuten en los datos Por ejemplo un error en la introduccioacuten de un valor numeacuterico puede resultar desastroso al calcularla

3 5 7 4 `X = 4753 5 7 40 `X = 1375

ndashNo se debe utilizar ante conjuntos de datos en los que hay casos extremos por-que deja de cumplir con su funcioacuten que es la de representar al conjunto

X 1 2 2 4 4 8 9 10 cuya media es`X = 5

iquestA quieacuten representa esta media si ni siquiera su valor estaacute en la distribucioacuten Porestosiempredeberaacuteiracompantildeadadeungraacuteficoobiensedebeinformarque los datos se ajustan a una distribucioacuten simeacutetrica

ndashConvariablescualitativasnotienesentidocalcularlaiquestsepuedeafirmarquelamedia aritmeacutetica del estado civil es 25 Tambieacuten hay que ser cautelosos con el resultado de algunas variables cuantitativas discretas como por ejemplo el nuacutemerodedelitosSepuededecirqueundelincuentehacometidoeldoblededelitos que otro pero iquestes pertinente hablar de un promedio de 35 delitos

La simplicidad en la obtencioacuten de la media aritmeacutetica la ha convertido en la estrella de los estadiacutesticos de tendencia central Doctos y legos la conocen y utilizan pero hay

Herramientas estadiacutesticas en criminologiacutea

40

que ser cautos porque los datos no estaacuten exentos de trampas En aquellos casos en los que no sea adecuado calcularla se puede probar con la moda o con la mediana

La moda es un iacutendice de tendencia central que representa el valor cuya frecuen-cia absoluta es la maacutes alta en la distribucioacuten Puede utilizarse con cualquier tipo de variable ya sea cualitativa o cuantitativa y su obtencioacuten es muy sencilla Los datos simplemente se ordenan y se ve cuaacutel se repite maacutes Ese valor es por tanto la moda de la distribucioacuten En el ejemplo de los pacientes con delirium por abstinencia la moda tanto con los datos brutos como agrupados en la distribucioacuten de frecuencias (cuadro 24) es 2 (y no 4 cuidado con esto) Este resultado se interpreta como que la mayoriacutea de los pacientes de este grupo tarda 2 segundos en sentir el ruido como molesto (Cabe sentildealar que la moda no coincide con la media lo que ya habla de una distribucioacuten asimeacutetrica)

Puede suceder que una distribucioacuten tenga dos valores con la maacutexima frecuencia la misma o muy similar pero que ambas se diferencien bastante del resto En estos casos se dice que la distribucioacuten presenta dos modas o que es bimodal

2 2 4 4 4 6 6 6 6 6 6 8 8 8 10 10 10 10 10 10 10

En los datos anteriores se tienen dos modas Mo1 = 6 y Mo2 = 10Cuando los valores de la moda son adyacentes algunos analistas toman como

estadiacutesticolamediadeambasSinembargoestonodebehacersepuestoqueelre-sultado puede carecer de sentido podriacutea tratarse de un valor que no existe en la dis-tribucioacuten Por otro lado iquestcuaacutel es el problema de presentar dos modas Precisamente lo anterior la obtencioacuten (o presentacioacuten) de dos modas permite ver hasta queacute punto el caacutelculo de una media es liacutecito En efecto si las dos modas son adyacentes y centra-das no seriacutea ninguacuten problema pero si no lo son esto debe advertir de que no hay que calcular la media

La mediana es un iacutendice que informa del dato de la distribucioacuten que la divide en dos partesigualesysedefineportantocomoaquelvalorquedejaporencimaypordebajoel 50 por ciento de las frecuencias Puede utilizarse con variables cualitativas cuyas mo-dalidades puedan ordenarse y con variables cuantitativas

Suobtencioacutenesenormementesencillauacutenicamentehayquelocalizarenlacolum-na de proporciones acumuladas de la tabla de la distribucioacuten el valor que comprenda el 05 y ver a queacute puntuacioacuten de la variable corresponde En el ejemplo (cuadro 25) tras obtener las proporciones acumuladas la mediana se localiza en la proporcioacuten acumulada 06 porque es la que incluye 05 (la anterior se queda en 04) por lo que la mediana es Md = 4 es decir el valor de la distribucioacuten que divide a los sujetos en dos grupos

Explorando los datos

41

cuadro 25 Localizacioacuten de la mediana

Xi ni pi pa

2345678

4 0 2 2 1 0 1

04000202010001

04040608090910

ndash 10 10

Cabe sentildealar que si su valor coincide con el de la media y el de la moda o son muy similares la distribucioacuten es simeacutetrica o muy cercana a la simetriacutea En cambio si los re-sultados para los tres iacutendices son muy diferentes hay que tener cuidado con la forma de la distribucioacuten y lo que se ha calculado Hayquerecordarqueunarepresentacioacutengraacuteficaes un complemento perfecto en los anaacutelisis para aclarar los resultados

Los iacutendices de posicioacuten son todos aquellos que permiten situar a un sujeto dentro de unadistribucioacutendefrecuenciasSunombregeneacutericoescuantiles y los maacutes utilizados en este contexto son los percentiles y los cuartiles

Los percentiles tambieacuten llamados centiles son las puntuaciones de la variable que dividen la distribucioacuten en cien partes iguales Hay por tanto 99 percentiles La nomen-clatura utilizada es Pk y su valor se interpreta como la puntuacioacuten que deja por debajo de siacute al k por ciento de los sujetos Por ejemplo si P20 = 9 se dice que 9 es el valor de la distribucioacuten que deja por debajo de siacute al 20 por ciento de los sujetos

Por su parte los cuartiles son las puntuaciones de la variable que dividen la distri-bucioacuten en cuatro partes iguales Hay por tanto tres cuartiles La nomenclatura utilizada es Qk (k = 1 2 o 3) y su valor se interpreta como la puntuacioacuten que deja por debajo de siacute al 25 k por ciento de los sujetos Por ejemplo si Q3 = 8 se dice que 8 es el valor de la distribucioacuten que deja por debajo de siacute al 75 por ciento de los sujetos

Obtener percentiles o cuartiles es tan sencillo como hacerlo con la mediana se bus-ca en la columna de las proporciones acumuladas o de los porcentajes acumulados de la distribucioacuten la proporcioacuten o porcentaje de intereacutes y se localiza la puntuacioacuten de la variable a la que pertenece

El cuadro 26 es el resultado de aplicar un test que mide conductas saacutedicas Un sujeto que por ejemplo obtiene una puntuacioacuten igual a 15 resulta que se situacutea en el percentil P77 y en el cuartil Q3 lo que lo coloca en los valores altos de la distribucioacuten Es claramente necesaria una raacutepida intervencioacuten

Herramientas estadiacutesticas en criminologiacutea

42

Los percentiles y los cuartiles permiten interpretar la situacioacuten de un sujeto en la distribucioacuten de la variable que se ha medido sin necesidad de conocer ni la puntuacioacuten directa ni el valor miacutenimo y maacuteximo de la distribucioacuten lo que resulta de gran utilidad

Por otro lado del cuadro 26 se desprende que la mediana se localiza en el percentil 50 y en el cuartil 2 siendo su valor igual a 12

En efecto en distribuciones simeacutetricas

Md = P50 = D5 = Q2

cuadro 26 Localizacioacuten de percentiles y cuartiles

Xi ni na pa Pk Qk

6 7 8 91011

12

13141516171819

8 4 8 5 710

9

11 9 7 8 4 4 6

8 12 20 25 32 42

51

62 71 78 86 90 94100

008012020025032042

051

062071078086090094100

P7P11P19P24P31P41

P50

P61P70P77P85P89P93P99

ndashndashndashndash

Q1ndash

Q2

ndashndash

Q3ndashndashndashndash

No todos somos iguales Bien es cierto que entre las personas existen ciertos com-portamientos similares pero siempre hay diferencias individuales Mientras que los procesoscomogrupovienencuantificadosconlosiacutendicesdetendenciacentral(mediamedianamodaetc)lasdiferenciasindividualesseveraacutenreflejadasenlosiacutendices de variabilidad Dicho con otras palabras estos iacutendices permitiraacuten saber cuaacutento se distan-cian los individuos del sujeto promedio En el ejemplo que se presenta se recogen las puntuaciones de cinco criminales obtenidas en egocentrismo ilimitado

X1 10 11 12 13 14

La media calculada es`X=12Sinembargolosregistrosmuestrandiferenciasentreellos por lo que cada uno se distancia de su media

Explorando los datos

43

10 ndash 12 = ndash2 11 ndash 12 = ndash1 12 ndash 12 = 0 13 ndash 12 = 1 y 14 ndash 12 = 2

Los resultados muestran alejamientos positivos y negativos (unos son maacutes ego-ceacutentricos y otros menos con respecto a la media de 12) con lo que se podriacutea plantear el caacutelculo del promedio de esas distancias como iacutendice de variabilidad En efecto esto es precisamente lo que hace el estadiacutestico desviacioacuten media

sum=

minusDM

(X X)nXi

1

Sufoacutermulaclaramentereflejacuaacutentosealejanenpromediolaspuntuacionesdesumedia Aplicaacutendola a los datos del ejemplo

sum=

minus=

minus + minus + + +=DM

(X X)n

( 2) ( 1) 0 1 25

0Xi

1

Habiendo constatado las diferencias individuales iquestcoacutemo es posible que el prome-dio de distancias sea igual a cero La razoacuten es muy sencilla las diferencias son unas positivas y otras negativas compensaacutendose las unas con las otras y siempre va a ocurrir que la suma de esas diferencias sea igual a 0 ya que son distancias a un punto central que es la media

Entonces si la desviacioacuten media siempre va a ser igual a cero hay que buscar otro iacutendice que siendo tan sencillo e informativo como este solvente el problema Una po-sibilidad seriacutea trabajar con las diferencias en valores absolutos pero estos resultan poco manejables matemaacuteticamente y por tanto poco convincentes

Otra opcioacuten es calcular las diferencias elevarlas al cuadrado y a partir de ahiacute obte-ner su promedio Un iacutendice de dispersioacuten computado asiacute se denomina varianza

sum=

minusS

(X X)nX

2 i2

Aplicaacutendolo a los datos

sum=

minus=

+ + + +=S

(X X )n

4 1 0 1 45

2X2 i 1

2

1

Una foacutermula maacutes raacutepida de obtener la varianza sobre todo cuando se manejan mu-chos datos es mediante la siguiente expresioacuten

Page 14: Herramientas estadísticas en criminología · 2019. 10. 10. · Herramientas estadísticas en criminología Concepción San Luis Costas Isabel Cañadas Osinski. Reservados todos

Explorando los datos

35

Frec

uenc

ia

10

8

6

4

2

0Baja Media Alta Muy alta

fIgura 21 Diagrama de barras

Cuando se trata de variables cuantitativas los diagramas se denominan histogra-mascomosemuestraen lafigura22Enesteejemploseobserva laevolucioacutendeun grupo de adolescentes diagnosticados de un trastorno adaptativo antes y despueacutes de una intervencioacuten para mejorar su grado de incertidumbre en temas relacionados con la identidad (objetivos a largo plazo eleccioacuten profesional patrones de amistad orientacioacutenyconductasexualetc)Enelprimergraacuteficotodoslossujetostienenunapuntuacioacuten superior a 35 situaacutendose un gran nuacutemero de ellos entre los valores 40 y 50 delaescalaEnelsegundograacuteficoesdondeseconstatalamejoriacuteatraseltratamientopuesto que ninguacuten sujeto supera el valor de 50 en la escala de incertidumbre ubicaacuten-doseunelevadonuacutemerodeellosentrelosvalores10y30Setratadedoshistogramasbien sencillos que arrojan mucha informacioacuten Es importante sentildealar que se debe res-petarelorigendecoordenadasenambosgraacuteficossinoresultandifiacutecilesdecomparary pierden toda su funcioacuten de informar raacutepidamente de los cambios en una variable de su comportamiento en grupos distintos etc

Frec

uenc

ia

6

5

4

3

2

1

00 5 10 15 20 25 30 35 40 45 50 55 60 65 70

Grado de incertidumbre antes

Frec

uenc

ia

6

5

4

3

2

1

00 5 10 15 20 25 30 35 40 45 50 55 60 65 70

Grado de incertidumbre despueacutes

fIgura 22 Histograma de la misma variable en dos momentos distintos

Herramientas estadiacutesticas en criminologiacutea

36

Ungraacuteficodignodemencioacuteneslacurva normal que es el modelo prototipo contra el que se suelen comparar la mayoriacutea de las variables cuando se trabaja con meacutetrica cuantitativaSecaracterizaporsersimeacutetricaypresentarunaliacutenealisaosuavizadacondos colas de igual longitud lo que implica que el porcentaje de casos en ambas es ideacuten-ticoEnrealidadsetratadeunhistogramacuandosehanrecogidoinfinitosdatosdelavariable en otras palabras se trata de un modelo teoacuterico

Sinembargoypeseaseresteelmodeloporantonomasianotodaslasvariablesse acercan a esta distribucioacuten es maacutes en muchas ocasiones es extremadamente com-plicado siquiera encontrar variables que se asemejen a eacutel La situacioacuten maacutes habitual es que cada una de las variables que se haya medido presente diferencias tanto en localizacioacutencomoenformaydispersioacutenrespectoalmodelorepresentadoenlafigu-ra 23 de ahiacute la importancia de describir para cada variable estas caracteriacutesticas lo que permitiraacute evaluar el grado de semejanza con el modelo teoacuterico sobre el que descansaraacute el anaacutelisis de datos

Dispersioacuten

LocalizacioacutenCola izquierda Cola derecha

fIgura 23 Curva normal

Un aspecto que condicionaraacute en gran medida la obtencioacuten de representaciones nu-meacutericas son los casos raros o atiacutepicos Un valor raro hace referencia a un sujeto que presenta un comportamiento muy diferente del resto normalmente porque tiene pun-tuaciones extremas por encima o por debajo de la cola de la distribucioacuten lo que provoca que esta se aleje de una normal Una de las consecuencias de la presencia de outliers porejemploeseldesplazamientoartificialdelamediahaciaarribaohaciadebajocon-virtieacutendolosenobservacionesinfluyentes(Kaplan2000)

LapresenciadeestosdatospuededebersesimplementeaerroresdecodificacioacutenBajo tal circunstancia son faacutecilmente detectables mediante un anaacutelisis de frecuencias

Explorando los datos

37

quepermitaidentificarvaloresfueradelrangoadmisibleEncualquiercasolosva-lores raros son faacuteciles de identificarmediante una simple inspeccioacuten visual de larepresentacioacutengraacuteficaseobservanlossujetoscuyaspuntuacionesestaacutenmuyporen-cima o por debajo de la cola de la distribucioacuten o del intervalo establecido Una vez identificadoelsujetoenlabasededatoshabriacuteaqueeliminarloyvolverarepetirlosanaacutelisis Cuando son detectados hay que de plantearse si esos sujetos proceden de otra poblacioacuten distinta o si por el contrario perteneciendo a la poblacioacuten de referen-cia se trata de sujetos excepcionales El problema es que no siempre es faacutecil hacer esta distincioacuten

Por su parte los valores perdidos se deben a una gran variedad de circunstancias que pueden ocurrir durante una investigacioacuten y que estaacuten fuera del control del investigador Asiacuteporejemplopuedesucederquehaya fallosen losequipos (registrospsicofisio-loacutegicos por ejemplo) o que los sujetos no respondan deliberadamente a determinadas cuestiones o bien por muerte experimental

Ante los valores perdidos se deben considerar su cantidad y el grado en que afectan a la investigacioacuten En este caso no hay una respuesta clara y siacute una gran variedad de opiniones Cohen y Cohen (1983) entienden que es soportable hasta un 5 o 10 por ciento de casos perdidos En segundo lugar se ha de valorar si la estructura de los datos per-didosesaleatoriaosistemaacuteticaSiladistribucioacutendelosvaloresperdidosesaleatoriaestariacuteaindicandoquelossujetosenlosquehaypresentesvaloresperdidosdifierensolopor azar de aquellos en los que no estaacuten presentes Por tanto los resultados obtenidos en estos sujetos podriacutean ser generalizables al resto En el caso de que la distribucioacuten de datos perdidos siga un patroacuten sistemaacutetico se tratariacutea del caso contrario y por tanto no se deberiacutea ignorar esta circunstancia Es maacutes se deberiacutea hacer todo lo posible por intentar interpretar el comportamiento y naturaleza de la distribucioacuten de los valores perdidos (por queacute y coacutemo se distribuyen a lo largo de las distintas variables y de los sujetos)

223 Representaciones numeacutericas iacutendices de tendencia central de variabilidad y de posicioacuten

Enmuchoscasosunadistribucioacutende frecuenciasyuna representacioacutengraacuteficaseraacutenmaacutesquesuficientesparaentenderelcomportamientodeunavariableenungrupodesujetosSinembargocuandoelintereacutessecentraenlacomparacioacutendevariosgruposenlamismavariableoenmaacutesdeunatratarcontablasygraacuteficosymaacutestablasymaacutesgraacute-ficospuederesultarunpocoengorrosotantoparaelpropiomanejocomoparaellectorde los informes En situaciones asiacute puede ser maacutes apropiado trabajar con unos iacutendices quedescribandeformamaacutessencillalainformacioacutencontenidaenlasdistribucionesSetrata de los estadiacutesticos de una muestra iacutendices que ademaacutes de hacer manejable la in-formacioacuten contenida en los datos son la base sobre la que se sustenta la mayoriacutea de las teacutecnicas de anaacutelisis de datos

Herramientas estadiacutesticas en criminologiacutea

38

Los estadiacutesticos de tendencia central son aquellos que resumen el comportamiento de una variable en un solo valor representando asiacute al conjunto de sujetos en el que son calculados

La media aritmeacutetica es el iacutendice de tendencia central maacutes utilizado y su caacutelculo es tan simple como promediar todas las puntuaciones de un grupo en una variable tal y comoreflejansusfoacutermulasparadatosbrutosyparadatosdeunadistribucioacutendefre-cuencias

XXn

isum= X

n Xni isum

=sdot

donde Xi es la puntuacioacuten de un sujeto n es el tamantildeo de la muestra y ni la frecuencia absoluta

SeaelsiguienteejemploEnelserviciodepsiquiatriacuteadeuncentropenitenciariose ha observado que los internos drogodependientes con insomnio croacutenico muestran ciertasensibilidadinusualalruidoDebidoalasdificultadesqueconllevalaaplicacioacutende cuestionarios que midan la sonoridad subjetiva se decide evaluarlos con una prueba en la que deben interrumpir un sonido cuando les resulta molesto y se recoge el tiempo (en segundos) que tardan en pulsar el interruptor Los datos de diez pacientes son los siguientes

4 5 8 2 4 2 5 2 2 6

La media aritmeacutetica es

XXn

4 5 8 2 4 2 5 2 2 610

4010

4isum= =

+ + + + + + + + += =

Suponiendoqueenlossujetossinladolenciadescritalamediaaritmeacuteticaes8se-gundos se puede concluir que estos pacientes que han tardado en conjunto un promedio de 4 segundos en sentir el sonido como un ruido molesto presentan una sensibilidad al ruido mayor

Al agrupar los datos anteriores en una tabla (veacutease el cuadro 24) la media aritmeacute-tica que resulta es

X

n Xn

8 0 8 10 6 0 810

4010

4i isum=

sdot=

+ + + + + += =

Explorando los datos

39

cuadro 24 Caacutelculo de la media en una distribucioacuten de frecuencias

Xi ni ni Xi

2345678

4 0 2 2 1 0 1

8 0 810 6 0 8

ndash 10 40

Tal es la sencillez de la obtencioacuten de la media que se ha convertido en un estadiacutestico omnipresenteentodoinformedeinvestigacioacutenquetrateconvariablesSinembargoantes de su caacutelculo deberaacuten tenerse en cuenta las siguientes consideraciones

ndashEs muy sensible a cualquier variacioacuten en los datos Por ejemplo un error en la introduccioacuten de un valor numeacuterico puede resultar desastroso al calcularla

3 5 7 4 `X = 4753 5 7 40 `X = 1375

ndashNo se debe utilizar ante conjuntos de datos en los que hay casos extremos por-que deja de cumplir con su funcioacuten que es la de representar al conjunto

X 1 2 2 4 4 8 9 10 cuya media es`X = 5

iquestA quieacuten representa esta media si ni siquiera su valor estaacute en la distribucioacuten Porestosiempredeberaacuteiracompantildeadadeungraacuteficoobiensedebeinformarque los datos se ajustan a una distribucioacuten simeacutetrica

ndashConvariablescualitativasnotienesentidocalcularlaiquestsepuedeafirmarquelamedia aritmeacutetica del estado civil es 25 Tambieacuten hay que ser cautelosos con el resultado de algunas variables cuantitativas discretas como por ejemplo el nuacutemerodedelitosSepuededecirqueundelincuentehacometidoeldoblededelitos que otro pero iquestes pertinente hablar de un promedio de 35 delitos

La simplicidad en la obtencioacuten de la media aritmeacutetica la ha convertido en la estrella de los estadiacutesticos de tendencia central Doctos y legos la conocen y utilizan pero hay

Herramientas estadiacutesticas en criminologiacutea

40

que ser cautos porque los datos no estaacuten exentos de trampas En aquellos casos en los que no sea adecuado calcularla se puede probar con la moda o con la mediana

La moda es un iacutendice de tendencia central que representa el valor cuya frecuen-cia absoluta es la maacutes alta en la distribucioacuten Puede utilizarse con cualquier tipo de variable ya sea cualitativa o cuantitativa y su obtencioacuten es muy sencilla Los datos simplemente se ordenan y se ve cuaacutel se repite maacutes Ese valor es por tanto la moda de la distribucioacuten En el ejemplo de los pacientes con delirium por abstinencia la moda tanto con los datos brutos como agrupados en la distribucioacuten de frecuencias (cuadro 24) es 2 (y no 4 cuidado con esto) Este resultado se interpreta como que la mayoriacutea de los pacientes de este grupo tarda 2 segundos en sentir el ruido como molesto (Cabe sentildealar que la moda no coincide con la media lo que ya habla de una distribucioacuten asimeacutetrica)

Puede suceder que una distribucioacuten tenga dos valores con la maacutexima frecuencia la misma o muy similar pero que ambas se diferencien bastante del resto En estos casos se dice que la distribucioacuten presenta dos modas o que es bimodal

2 2 4 4 4 6 6 6 6 6 6 8 8 8 10 10 10 10 10 10 10

En los datos anteriores se tienen dos modas Mo1 = 6 y Mo2 = 10Cuando los valores de la moda son adyacentes algunos analistas toman como

estadiacutesticolamediadeambasSinembargoestonodebehacersepuestoqueelre-sultado puede carecer de sentido podriacutea tratarse de un valor que no existe en la dis-tribucioacuten Por otro lado iquestcuaacutel es el problema de presentar dos modas Precisamente lo anterior la obtencioacuten (o presentacioacuten) de dos modas permite ver hasta queacute punto el caacutelculo de una media es liacutecito En efecto si las dos modas son adyacentes y centra-das no seriacutea ninguacuten problema pero si no lo son esto debe advertir de que no hay que calcular la media

La mediana es un iacutendice que informa del dato de la distribucioacuten que la divide en dos partesigualesysedefineportantocomoaquelvalorquedejaporencimaypordebajoel 50 por ciento de las frecuencias Puede utilizarse con variables cualitativas cuyas mo-dalidades puedan ordenarse y con variables cuantitativas

Suobtencioacutenesenormementesencillauacutenicamentehayquelocalizarenlacolum-na de proporciones acumuladas de la tabla de la distribucioacuten el valor que comprenda el 05 y ver a queacute puntuacioacuten de la variable corresponde En el ejemplo (cuadro 25) tras obtener las proporciones acumuladas la mediana se localiza en la proporcioacuten acumulada 06 porque es la que incluye 05 (la anterior se queda en 04) por lo que la mediana es Md = 4 es decir el valor de la distribucioacuten que divide a los sujetos en dos grupos

Explorando los datos

41

cuadro 25 Localizacioacuten de la mediana

Xi ni pi pa

2345678

4 0 2 2 1 0 1

04000202010001

04040608090910

ndash 10 10

Cabe sentildealar que si su valor coincide con el de la media y el de la moda o son muy similares la distribucioacuten es simeacutetrica o muy cercana a la simetriacutea En cambio si los re-sultados para los tres iacutendices son muy diferentes hay que tener cuidado con la forma de la distribucioacuten y lo que se ha calculado Hayquerecordarqueunarepresentacioacutengraacuteficaes un complemento perfecto en los anaacutelisis para aclarar los resultados

Los iacutendices de posicioacuten son todos aquellos que permiten situar a un sujeto dentro de unadistribucioacutendefrecuenciasSunombregeneacutericoescuantiles y los maacutes utilizados en este contexto son los percentiles y los cuartiles

Los percentiles tambieacuten llamados centiles son las puntuaciones de la variable que dividen la distribucioacuten en cien partes iguales Hay por tanto 99 percentiles La nomen-clatura utilizada es Pk y su valor se interpreta como la puntuacioacuten que deja por debajo de siacute al k por ciento de los sujetos Por ejemplo si P20 = 9 se dice que 9 es el valor de la distribucioacuten que deja por debajo de siacute al 20 por ciento de los sujetos

Por su parte los cuartiles son las puntuaciones de la variable que dividen la distri-bucioacuten en cuatro partes iguales Hay por tanto tres cuartiles La nomenclatura utilizada es Qk (k = 1 2 o 3) y su valor se interpreta como la puntuacioacuten que deja por debajo de siacute al 25 k por ciento de los sujetos Por ejemplo si Q3 = 8 se dice que 8 es el valor de la distribucioacuten que deja por debajo de siacute al 75 por ciento de los sujetos

Obtener percentiles o cuartiles es tan sencillo como hacerlo con la mediana se bus-ca en la columna de las proporciones acumuladas o de los porcentajes acumulados de la distribucioacuten la proporcioacuten o porcentaje de intereacutes y se localiza la puntuacioacuten de la variable a la que pertenece

El cuadro 26 es el resultado de aplicar un test que mide conductas saacutedicas Un sujeto que por ejemplo obtiene una puntuacioacuten igual a 15 resulta que se situacutea en el percentil P77 y en el cuartil Q3 lo que lo coloca en los valores altos de la distribucioacuten Es claramente necesaria una raacutepida intervencioacuten

Herramientas estadiacutesticas en criminologiacutea

42

Los percentiles y los cuartiles permiten interpretar la situacioacuten de un sujeto en la distribucioacuten de la variable que se ha medido sin necesidad de conocer ni la puntuacioacuten directa ni el valor miacutenimo y maacuteximo de la distribucioacuten lo que resulta de gran utilidad

Por otro lado del cuadro 26 se desprende que la mediana se localiza en el percentil 50 y en el cuartil 2 siendo su valor igual a 12

En efecto en distribuciones simeacutetricas

Md = P50 = D5 = Q2

cuadro 26 Localizacioacuten de percentiles y cuartiles

Xi ni na pa Pk Qk

6 7 8 91011

12

13141516171819

8 4 8 5 710

9

11 9 7 8 4 4 6

8 12 20 25 32 42

51

62 71 78 86 90 94100

008012020025032042

051

062071078086090094100

P7P11P19P24P31P41

P50

P61P70P77P85P89P93P99

ndashndashndashndash

Q1ndash

Q2

ndashndash

Q3ndashndashndashndash

No todos somos iguales Bien es cierto que entre las personas existen ciertos com-portamientos similares pero siempre hay diferencias individuales Mientras que los procesoscomogrupovienencuantificadosconlosiacutendicesdetendenciacentral(mediamedianamodaetc)lasdiferenciasindividualesseveraacutenreflejadasenlosiacutendices de variabilidad Dicho con otras palabras estos iacutendices permitiraacuten saber cuaacutento se distan-cian los individuos del sujeto promedio En el ejemplo que se presenta se recogen las puntuaciones de cinco criminales obtenidas en egocentrismo ilimitado

X1 10 11 12 13 14

La media calculada es`X=12Sinembargolosregistrosmuestrandiferenciasentreellos por lo que cada uno se distancia de su media

Explorando los datos

43

10 ndash 12 = ndash2 11 ndash 12 = ndash1 12 ndash 12 = 0 13 ndash 12 = 1 y 14 ndash 12 = 2

Los resultados muestran alejamientos positivos y negativos (unos son maacutes ego-ceacutentricos y otros menos con respecto a la media de 12) con lo que se podriacutea plantear el caacutelculo del promedio de esas distancias como iacutendice de variabilidad En efecto esto es precisamente lo que hace el estadiacutestico desviacioacuten media

sum=

minusDM

(X X)nXi

1

Sufoacutermulaclaramentereflejacuaacutentosealejanenpromediolaspuntuacionesdesumedia Aplicaacutendola a los datos del ejemplo

sum=

minus=

minus + minus + + +=DM

(X X)n

( 2) ( 1) 0 1 25

0Xi

1

Habiendo constatado las diferencias individuales iquestcoacutemo es posible que el prome-dio de distancias sea igual a cero La razoacuten es muy sencilla las diferencias son unas positivas y otras negativas compensaacutendose las unas con las otras y siempre va a ocurrir que la suma de esas diferencias sea igual a 0 ya que son distancias a un punto central que es la media

Entonces si la desviacioacuten media siempre va a ser igual a cero hay que buscar otro iacutendice que siendo tan sencillo e informativo como este solvente el problema Una po-sibilidad seriacutea trabajar con las diferencias en valores absolutos pero estos resultan poco manejables matemaacuteticamente y por tanto poco convincentes

Otra opcioacuten es calcular las diferencias elevarlas al cuadrado y a partir de ahiacute obte-ner su promedio Un iacutendice de dispersioacuten computado asiacute se denomina varianza

sum=

minusS

(X X)nX

2 i2

Aplicaacutendolo a los datos

sum=

minus=

+ + + +=S

(X X )n

4 1 0 1 45

2X2 i 1

2

1

Una foacutermula maacutes raacutepida de obtener la varianza sobre todo cuando se manejan mu-chos datos es mediante la siguiente expresioacuten

Page 15: Herramientas estadísticas en criminología · 2019. 10. 10. · Herramientas estadísticas en criminología Concepción San Luis Costas Isabel Cañadas Osinski. Reservados todos

Herramientas estadiacutesticas en criminologiacutea

36

Ungraacuteficodignodemencioacuteneslacurva normal que es el modelo prototipo contra el que se suelen comparar la mayoriacutea de las variables cuando se trabaja con meacutetrica cuantitativaSecaracterizaporsersimeacutetricaypresentarunaliacutenealisaosuavizadacondos colas de igual longitud lo que implica que el porcentaje de casos en ambas es ideacuten-ticoEnrealidadsetratadeunhistogramacuandosehanrecogidoinfinitosdatosdelavariable en otras palabras se trata de un modelo teoacuterico

Sinembargoypeseaseresteelmodeloporantonomasianotodaslasvariablesse acercan a esta distribucioacuten es maacutes en muchas ocasiones es extremadamente com-plicado siquiera encontrar variables que se asemejen a eacutel La situacioacuten maacutes habitual es que cada una de las variables que se haya medido presente diferencias tanto en localizacioacutencomoenformaydispersioacutenrespectoalmodelorepresentadoenlafigu-ra 23 de ahiacute la importancia de describir para cada variable estas caracteriacutesticas lo que permitiraacute evaluar el grado de semejanza con el modelo teoacuterico sobre el que descansaraacute el anaacutelisis de datos

Dispersioacuten

LocalizacioacutenCola izquierda Cola derecha

fIgura 23 Curva normal

Un aspecto que condicionaraacute en gran medida la obtencioacuten de representaciones nu-meacutericas son los casos raros o atiacutepicos Un valor raro hace referencia a un sujeto que presenta un comportamiento muy diferente del resto normalmente porque tiene pun-tuaciones extremas por encima o por debajo de la cola de la distribucioacuten lo que provoca que esta se aleje de una normal Una de las consecuencias de la presencia de outliers porejemploeseldesplazamientoartificialdelamediahaciaarribaohaciadebajocon-virtieacutendolosenobservacionesinfluyentes(Kaplan2000)

LapresenciadeestosdatospuededebersesimplementeaerroresdecodificacioacutenBajo tal circunstancia son faacutecilmente detectables mediante un anaacutelisis de frecuencias

Explorando los datos

37

quepermitaidentificarvaloresfueradelrangoadmisibleEncualquiercasolosva-lores raros son faacuteciles de identificarmediante una simple inspeccioacuten visual de larepresentacioacutengraacuteficaseobservanlossujetoscuyaspuntuacionesestaacutenmuyporen-cima o por debajo de la cola de la distribucioacuten o del intervalo establecido Una vez identificadoelsujetoenlabasededatoshabriacuteaqueeliminarloyvolverarepetirlosanaacutelisis Cuando son detectados hay que de plantearse si esos sujetos proceden de otra poblacioacuten distinta o si por el contrario perteneciendo a la poblacioacuten de referen-cia se trata de sujetos excepcionales El problema es que no siempre es faacutecil hacer esta distincioacuten

Por su parte los valores perdidos se deben a una gran variedad de circunstancias que pueden ocurrir durante una investigacioacuten y que estaacuten fuera del control del investigador Asiacuteporejemplopuedesucederquehaya fallosen losequipos (registrospsicofisio-loacutegicos por ejemplo) o que los sujetos no respondan deliberadamente a determinadas cuestiones o bien por muerte experimental

Ante los valores perdidos se deben considerar su cantidad y el grado en que afectan a la investigacioacuten En este caso no hay una respuesta clara y siacute una gran variedad de opiniones Cohen y Cohen (1983) entienden que es soportable hasta un 5 o 10 por ciento de casos perdidos En segundo lugar se ha de valorar si la estructura de los datos per-didosesaleatoriaosistemaacuteticaSiladistribucioacutendelosvaloresperdidosesaleatoriaestariacuteaindicandoquelossujetosenlosquehaypresentesvaloresperdidosdifierensolopor azar de aquellos en los que no estaacuten presentes Por tanto los resultados obtenidos en estos sujetos podriacutean ser generalizables al resto En el caso de que la distribucioacuten de datos perdidos siga un patroacuten sistemaacutetico se tratariacutea del caso contrario y por tanto no se deberiacutea ignorar esta circunstancia Es maacutes se deberiacutea hacer todo lo posible por intentar interpretar el comportamiento y naturaleza de la distribucioacuten de los valores perdidos (por queacute y coacutemo se distribuyen a lo largo de las distintas variables y de los sujetos)

223 Representaciones numeacutericas iacutendices de tendencia central de variabilidad y de posicioacuten

Enmuchoscasosunadistribucioacutende frecuenciasyuna representacioacutengraacuteficaseraacutenmaacutesquesuficientesparaentenderelcomportamientodeunavariableenungrupodesujetosSinembargocuandoelintereacutessecentraenlacomparacioacutendevariosgruposenlamismavariableoenmaacutesdeunatratarcontablasygraacuteficosymaacutestablasymaacutesgraacute-ficospuederesultarunpocoengorrosotantoparaelpropiomanejocomoparaellectorde los informes En situaciones asiacute puede ser maacutes apropiado trabajar con unos iacutendices quedescribandeformamaacutessencillalainformacioacutencontenidaenlasdistribucionesSetrata de los estadiacutesticos de una muestra iacutendices que ademaacutes de hacer manejable la in-formacioacuten contenida en los datos son la base sobre la que se sustenta la mayoriacutea de las teacutecnicas de anaacutelisis de datos

Herramientas estadiacutesticas en criminologiacutea

38

Los estadiacutesticos de tendencia central son aquellos que resumen el comportamiento de una variable en un solo valor representando asiacute al conjunto de sujetos en el que son calculados

La media aritmeacutetica es el iacutendice de tendencia central maacutes utilizado y su caacutelculo es tan simple como promediar todas las puntuaciones de un grupo en una variable tal y comoreflejansusfoacutermulasparadatosbrutosyparadatosdeunadistribucioacutendefre-cuencias

XXn

isum= X

n Xni isum

=sdot

donde Xi es la puntuacioacuten de un sujeto n es el tamantildeo de la muestra y ni la frecuencia absoluta

SeaelsiguienteejemploEnelserviciodepsiquiatriacuteadeuncentropenitenciariose ha observado que los internos drogodependientes con insomnio croacutenico muestran ciertasensibilidadinusualalruidoDebidoalasdificultadesqueconllevalaaplicacioacutende cuestionarios que midan la sonoridad subjetiva se decide evaluarlos con una prueba en la que deben interrumpir un sonido cuando les resulta molesto y se recoge el tiempo (en segundos) que tardan en pulsar el interruptor Los datos de diez pacientes son los siguientes

4 5 8 2 4 2 5 2 2 6

La media aritmeacutetica es

XXn

4 5 8 2 4 2 5 2 2 610

4010

4isum= =

+ + + + + + + + += =

Suponiendoqueenlossujetossinladolenciadescritalamediaaritmeacuteticaes8se-gundos se puede concluir que estos pacientes que han tardado en conjunto un promedio de 4 segundos en sentir el sonido como un ruido molesto presentan una sensibilidad al ruido mayor

Al agrupar los datos anteriores en una tabla (veacutease el cuadro 24) la media aritmeacute-tica que resulta es

X

n Xn

8 0 8 10 6 0 810

4010

4i isum=

sdot=

+ + + + + += =

Explorando los datos

39

cuadro 24 Caacutelculo de la media en una distribucioacuten de frecuencias

Xi ni ni Xi

2345678

4 0 2 2 1 0 1

8 0 810 6 0 8

ndash 10 40

Tal es la sencillez de la obtencioacuten de la media que se ha convertido en un estadiacutestico omnipresenteentodoinformedeinvestigacioacutenquetrateconvariablesSinembargoantes de su caacutelculo deberaacuten tenerse en cuenta las siguientes consideraciones

ndashEs muy sensible a cualquier variacioacuten en los datos Por ejemplo un error en la introduccioacuten de un valor numeacuterico puede resultar desastroso al calcularla

3 5 7 4 `X = 4753 5 7 40 `X = 1375

ndashNo se debe utilizar ante conjuntos de datos en los que hay casos extremos por-que deja de cumplir con su funcioacuten que es la de representar al conjunto

X 1 2 2 4 4 8 9 10 cuya media es`X = 5

iquestA quieacuten representa esta media si ni siquiera su valor estaacute en la distribucioacuten Porestosiempredeberaacuteiracompantildeadadeungraacuteficoobiensedebeinformarque los datos se ajustan a una distribucioacuten simeacutetrica

ndashConvariablescualitativasnotienesentidocalcularlaiquestsepuedeafirmarquelamedia aritmeacutetica del estado civil es 25 Tambieacuten hay que ser cautelosos con el resultado de algunas variables cuantitativas discretas como por ejemplo el nuacutemerodedelitosSepuededecirqueundelincuentehacometidoeldoblededelitos que otro pero iquestes pertinente hablar de un promedio de 35 delitos

La simplicidad en la obtencioacuten de la media aritmeacutetica la ha convertido en la estrella de los estadiacutesticos de tendencia central Doctos y legos la conocen y utilizan pero hay

Herramientas estadiacutesticas en criminologiacutea

40

que ser cautos porque los datos no estaacuten exentos de trampas En aquellos casos en los que no sea adecuado calcularla se puede probar con la moda o con la mediana

La moda es un iacutendice de tendencia central que representa el valor cuya frecuen-cia absoluta es la maacutes alta en la distribucioacuten Puede utilizarse con cualquier tipo de variable ya sea cualitativa o cuantitativa y su obtencioacuten es muy sencilla Los datos simplemente se ordenan y se ve cuaacutel se repite maacutes Ese valor es por tanto la moda de la distribucioacuten En el ejemplo de los pacientes con delirium por abstinencia la moda tanto con los datos brutos como agrupados en la distribucioacuten de frecuencias (cuadro 24) es 2 (y no 4 cuidado con esto) Este resultado se interpreta como que la mayoriacutea de los pacientes de este grupo tarda 2 segundos en sentir el ruido como molesto (Cabe sentildealar que la moda no coincide con la media lo que ya habla de una distribucioacuten asimeacutetrica)

Puede suceder que una distribucioacuten tenga dos valores con la maacutexima frecuencia la misma o muy similar pero que ambas se diferencien bastante del resto En estos casos se dice que la distribucioacuten presenta dos modas o que es bimodal

2 2 4 4 4 6 6 6 6 6 6 8 8 8 10 10 10 10 10 10 10

En los datos anteriores se tienen dos modas Mo1 = 6 y Mo2 = 10Cuando los valores de la moda son adyacentes algunos analistas toman como

estadiacutesticolamediadeambasSinembargoestonodebehacersepuestoqueelre-sultado puede carecer de sentido podriacutea tratarse de un valor que no existe en la dis-tribucioacuten Por otro lado iquestcuaacutel es el problema de presentar dos modas Precisamente lo anterior la obtencioacuten (o presentacioacuten) de dos modas permite ver hasta queacute punto el caacutelculo de una media es liacutecito En efecto si las dos modas son adyacentes y centra-das no seriacutea ninguacuten problema pero si no lo son esto debe advertir de que no hay que calcular la media

La mediana es un iacutendice que informa del dato de la distribucioacuten que la divide en dos partesigualesysedefineportantocomoaquelvalorquedejaporencimaypordebajoel 50 por ciento de las frecuencias Puede utilizarse con variables cualitativas cuyas mo-dalidades puedan ordenarse y con variables cuantitativas

Suobtencioacutenesenormementesencillauacutenicamentehayquelocalizarenlacolum-na de proporciones acumuladas de la tabla de la distribucioacuten el valor que comprenda el 05 y ver a queacute puntuacioacuten de la variable corresponde En el ejemplo (cuadro 25) tras obtener las proporciones acumuladas la mediana se localiza en la proporcioacuten acumulada 06 porque es la que incluye 05 (la anterior se queda en 04) por lo que la mediana es Md = 4 es decir el valor de la distribucioacuten que divide a los sujetos en dos grupos

Explorando los datos

41

cuadro 25 Localizacioacuten de la mediana

Xi ni pi pa

2345678

4 0 2 2 1 0 1

04000202010001

04040608090910

ndash 10 10

Cabe sentildealar que si su valor coincide con el de la media y el de la moda o son muy similares la distribucioacuten es simeacutetrica o muy cercana a la simetriacutea En cambio si los re-sultados para los tres iacutendices son muy diferentes hay que tener cuidado con la forma de la distribucioacuten y lo que se ha calculado Hayquerecordarqueunarepresentacioacutengraacuteficaes un complemento perfecto en los anaacutelisis para aclarar los resultados

Los iacutendices de posicioacuten son todos aquellos que permiten situar a un sujeto dentro de unadistribucioacutendefrecuenciasSunombregeneacutericoescuantiles y los maacutes utilizados en este contexto son los percentiles y los cuartiles

Los percentiles tambieacuten llamados centiles son las puntuaciones de la variable que dividen la distribucioacuten en cien partes iguales Hay por tanto 99 percentiles La nomen-clatura utilizada es Pk y su valor se interpreta como la puntuacioacuten que deja por debajo de siacute al k por ciento de los sujetos Por ejemplo si P20 = 9 se dice que 9 es el valor de la distribucioacuten que deja por debajo de siacute al 20 por ciento de los sujetos

Por su parte los cuartiles son las puntuaciones de la variable que dividen la distri-bucioacuten en cuatro partes iguales Hay por tanto tres cuartiles La nomenclatura utilizada es Qk (k = 1 2 o 3) y su valor se interpreta como la puntuacioacuten que deja por debajo de siacute al 25 k por ciento de los sujetos Por ejemplo si Q3 = 8 se dice que 8 es el valor de la distribucioacuten que deja por debajo de siacute al 75 por ciento de los sujetos

Obtener percentiles o cuartiles es tan sencillo como hacerlo con la mediana se bus-ca en la columna de las proporciones acumuladas o de los porcentajes acumulados de la distribucioacuten la proporcioacuten o porcentaje de intereacutes y se localiza la puntuacioacuten de la variable a la que pertenece

El cuadro 26 es el resultado de aplicar un test que mide conductas saacutedicas Un sujeto que por ejemplo obtiene una puntuacioacuten igual a 15 resulta que se situacutea en el percentil P77 y en el cuartil Q3 lo que lo coloca en los valores altos de la distribucioacuten Es claramente necesaria una raacutepida intervencioacuten

Herramientas estadiacutesticas en criminologiacutea

42

Los percentiles y los cuartiles permiten interpretar la situacioacuten de un sujeto en la distribucioacuten de la variable que se ha medido sin necesidad de conocer ni la puntuacioacuten directa ni el valor miacutenimo y maacuteximo de la distribucioacuten lo que resulta de gran utilidad

Por otro lado del cuadro 26 se desprende que la mediana se localiza en el percentil 50 y en el cuartil 2 siendo su valor igual a 12

En efecto en distribuciones simeacutetricas

Md = P50 = D5 = Q2

cuadro 26 Localizacioacuten de percentiles y cuartiles

Xi ni na pa Pk Qk

6 7 8 91011

12

13141516171819

8 4 8 5 710

9

11 9 7 8 4 4 6

8 12 20 25 32 42

51

62 71 78 86 90 94100

008012020025032042

051

062071078086090094100

P7P11P19P24P31P41

P50

P61P70P77P85P89P93P99

ndashndashndashndash

Q1ndash

Q2

ndashndash

Q3ndashndashndashndash

No todos somos iguales Bien es cierto que entre las personas existen ciertos com-portamientos similares pero siempre hay diferencias individuales Mientras que los procesoscomogrupovienencuantificadosconlosiacutendicesdetendenciacentral(mediamedianamodaetc)lasdiferenciasindividualesseveraacutenreflejadasenlosiacutendices de variabilidad Dicho con otras palabras estos iacutendices permitiraacuten saber cuaacutento se distan-cian los individuos del sujeto promedio En el ejemplo que se presenta se recogen las puntuaciones de cinco criminales obtenidas en egocentrismo ilimitado

X1 10 11 12 13 14

La media calculada es`X=12Sinembargolosregistrosmuestrandiferenciasentreellos por lo que cada uno se distancia de su media

Explorando los datos

43

10 ndash 12 = ndash2 11 ndash 12 = ndash1 12 ndash 12 = 0 13 ndash 12 = 1 y 14 ndash 12 = 2

Los resultados muestran alejamientos positivos y negativos (unos son maacutes ego-ceacutentricos y otros menos con respecto a la media de 12) con lo que se podriacutea plantear el caacutelculo del promedio de esas distancias como iacutendice de variabilidad En efecto esto es precisamente lo que hace el estadiacutestico desviacioacuten media

sum=

minusDM

(X X)nXi

1

Sufoacutermulaclaramentereflejacuaacutentosealejanenpromediolaspuntuacionesdesumedia Aplicaacutendola a los datos del ejemplo

sum=

minus=

minus + minus + + +=DM

(X X)n

( 2) ( 1) 0 1 25

0Xi

1

Habiendo constatado las diferencias individuales iquestcoacutemo es posible que el prome-dio de distancias sea igual a cero La razoacuten es muy sencilla las diferencias son unas positivas y otras negativas compensaacutendose las unas con las otras y siempre va a ocurrir que la suma de esas diferencias sea igual a 0 ya que son distancias a un punto central que es la media

Entonces si la desviacioacuten media siempre va a ser igual a cero hay que buscar otro iacutendice que siendo tan sencillo e informativo como este solvente el problema Una po-sibilidad seriacutea trabajar con las diferencias en valores absolutos pero estos resultan poco manejables matemaacuteticamente y por tanto poco convincentes

Otra opcioacuten es calcular las diferencias elevarlas al cuadrado y a partir de ahiacute obte-ner su promedio Un iacutendice de dispersioacuten computado asiacute se denomina varianza

sum=

minusS

(X X)nX

2 i2

Aplicaacutendolo a los datos

sum=

minus=

+ + + +=S

(X X )n

4 1 0 1 45

2X2 i 1

2

1

Una foacutermula maacutes raacutepida de obtener la varianza sobre todo cuando se manejan mu-chos datos es mediante la siguiente expresioacuten

Page 16: Herramientas estadísticas en criminología · 2019. 10. 10. · Herramientas estadísticas en criminología Concepción San Luis Costas Isabel Cañadas Osinski. Reservados todos

Explorando los datos

37

quepermitaidentificarvaloresfueradelrangoadmisibleEncualquiercasolosva-lores raros son faacuteciles de identificarmediante una simple inspeccioacuten visual de larepresentacioacutengraacuteficaseobservanlossujetoscuyaspuntuacionesestaacutenmuyporen-cima o por debajo de la cola de la distribucioacuten o del intervalo establecido Una vez identificadoelsujetoenlabasededatoshabriacuteaqueeliminarloyvolverarepetirlosanaacutelisis Cuando son detectados hay que de plantearse si esos sujetos proceden de otra poblacioacuten distinta o si por el contrario perteneciendo a la poblacioacuten de referen-cia se trata de sujetos excepcionales El problema es que no siempre es faacutecil hacer esta distincioacuten

Por su parte los valores perdidos se deben a una gran variedad de circunstancias que pueden ocurrir durante una investigacioacuten y que estaacuten fuera del control del investigador Asiacuteporejemplopuedesucederquehaya fallosen losequipos (registrospsicofisio-loacutegicos por ejemplo) o que los sujetos no respondan deliberadamente a determinadas cuestiones o bien por muerte experimental

Ante los valores perdidos se deben considerar su cantidad y el grado en que afectan a la investigacioacuten En este caso no hay una respuesta clara y siacute una gran variedad de opiniones Cohen y Cohen (1983) entienden que es soportable hasta un 5 o 10 por ciento de casos perdidos En segundo lugar se ha de valorar si la estructura de los datos per-didosesaleatoriaosistemaacuteticaSiladistribucioacutendelosvaloresperdidosesaleatoriaestariacuteaindicandoquelossujetosenlosquehaypresentesvaloresperdidosdifierensolopor azar de aquellos en los que no estaacuten presentes Por tanto los resultados obtenidos en estos sujetos podriacutean ser generalizables al resto En el caso de que la distribucioacuten de datos perdidos siga un patroacuten sistemaacutetico se tratariacutea del caso contrario y por tanto no se deberiacutea ignorar esta circunstancia Es maacutes se deberiacutea hacer todo lo posible por intentar interpretar el comportamiento y naturaleza de la distribucioacuten de los valores perdidos (por queacute y coacutemo se distribuyen a lo largo de las distintas variables y de los sujetos)

223 Representaciones numeacutericas iacutendices de tendencia central de variabilidad y de posicioacuten

Enmuchoscasosunadistribucioacutende frecuenciasyuna representacioacutengraacuteficaseraacutenmaacutesquesuficientesparaentenderelcomportamientodeunavariableenungrupodesujetosSinembargocuandoelintereacutessecentraenlacomparacioacutendevariosgruposenlamismavariableoenmaacutesdeunatratarcontablasygraacuteficosymaacutestablasymaacutesgraacute-ficospuederesultarunpocoengorrosotantoparaelpropiomanejocomoparaellectorde los informes En situaciones asiacute puede ser maacutes apropiado trabajar con unos iacutendices quedescribandeformamaacutessencillalainformacioacutencontenidaenlasdistribucionesSetrata de los estadiacutesticos de una muestra iacutendices que ademaacutes de hacer manejable la in-formacioacuten contenida en los datos son la base sobre la que se sustenta la mayoriacutea de las teacutecnicas de anaacutelisis de datos

Herramientas estadiacutesticas en criminologiacutea

38

Los estadiacutesticos de tendencia central son aquellos que resumen el comportamiento de una variable en un solo valor representando asiacute al conjunto de sujetos en el que son calculados

La media aritmeacutetica es el iacutendice de tendencia central maacutes utilizado y su caacutelculo es tan simple como promediar todas las puntuaciones de un grupo en una variable tal y comoreflejansusfoacutermulasparadatosbrutosyparadatosdeunadistribucioacutendefre-cuencias

XXn

isum= X

n Xni isum

=sdot

donde Xi es la puntuacioacuten de un sujeto n es el tamantildeo de la muestra y ni la frecuencia absoluta

SeaelsiguienteejemploEnelserviciodepsiquiatriacuteadeuncentropenitenciariose ha observado que los internos drogodependientes con insomnio croacutenico muestran ciertasensibilidadinusualalruidoDebidoalasdificultadesqueconllevalaaplicacioacutende cuestionarios que midan la sonoridad subjetiva se decide evaluarlos con una prueba en la que deben interrumpir un sonido cuando les resulta molesto y se recoge el tiempo (en segundos) que tardan en pulsar el interruptor Los datos de diez pacientes son los siguientes

4 5 8 2 4 2 5 2 2 6

La media aritmeacutetica es

XXn

4 5 8 2 4 2 5 2 2 610

4010

4isum= =

+ + + + + + + + += =

Suponiendoqueenlossujetossinladolenciadescritalamediaaritmeacuteticaes8se-gundos se puede concluir que estos pacientes que han tardado en conjunto un promedio de 4 segundos en sentir el sonido como un ruido molesto presentan una sensibilidad al ruido mayor

Al agrupar los datos anteriores en una tabla (veacutease el cuadro 24) la media aritmeacute-tica que resulta es

X

n Xn

8 0 8 10 6 0 810

4010

4i isum=

sdot=

+ + + + + += =

Explorando los datos

39

cuadro 24 Caacutelculo de la media en una distribucioacuten de frecuencias

Xi ni ni Xi

2345678

4 0 2 2 1 0 1

8 0 810 6 0 8

ndash 10 40

Tal es la sencillez de la obtencioacuten de la media que se ha convertido en un estadiacutestico omnipresenteentodoinformedeinvestigacioacutenquetrateconvariablesSinembargoantes de su caacutelculo deberaacuten tenerse en cuenta las siguientes consideraciones

ndashEs muy sensible a cualquier variacioacuten en los datos Por ejemplo un error en la introduccioacuten de un valor numeacuterico puede resultar desastroso al calcularla

3 5 7 4 `X = 4753 5 7 40 `X = 1375

ndashNo se debe utilizar ante conjuntos de datos en los que hay casos extremos por-que deja de cumplir con su funcioacuten que es la de representar al conjunto

X 1 2 2 4 4 8 9 10 cuya media es`X = 5

iquestA quieacuten representa esta media si ni siquiera su valor estaacute en la distribucioacuten Porestosiempredeberaacuteiracompantildeadadeungraacuteficoobiensedebeinformarque los datos se ajustan a una distribucioacuten simeacutetrica

ndashConvariablescualitativasnotienesentidocalcularlaiquestsepuedeafirmarquelamedia aritmeacutetica del estado civil es 25 Tambieacuten hay que ser cautelosos con el resultado de algunas variables cuantitativas discretas como por ejemplo el nuacutemerodedelitosSepuededecirqueundelincuentehacometidoeldoblededelitos que otro pero iquestes pertinente hablar de un promedio de 35 delitos

La simplicidad en la obtencioacuten de la media aritmeacutetica la ha convertido en la estrella de los estadiacutesticos de tendencia central Doctos y legos la conocen y utilizan pero hay

Herramientas estadiacutesticas en criminologiacutea

40

que ser cautos porque los datos no estaacuten exentos de trampas En aquellos casos en los que no sea adecuado calcularla se puede probar con la moda o con la mediana

La moda es un iacutendice de tendencia central que representa el valor cuya frecuen-cia absoluta es la maacutes alta en la distribucioacuten Puede utilizarse con cualquier tipo de variable ya sea cualitativa o cuantitativa y su obtencioacuten es muy sencilla Los datos simplemente se ordenan y se ve cuaacutel se repite maacutes Ese valor es por tanto la moda de la distribucioacuten En el ejemplo de los pacientes con delirium por abstinencia la moda tanto con los datos brutos como agrupados en la distribucioacuten de frecuencias (cuadro 24) es 2 (y no 4 cuidado con esto) Este resultado se interpreta como que la mayoriacutea de los pacientes de este grupo tarda 2 segundos en sentir el ruido como molesto (Cabe sentildealar que la moda no coincide con la media lo que ya habla de una distribucioacuten asimeacutetrica)

Puede suceder que una distribucioacuten tenga dos valores con la maacutexima frecuencia la misma o muy similar pero que ambas se diferencien bastante del resto En estos casos se dice que la distribucioacuten presenta dos modas o que es bimodal

2 2 4 4 4 6 6 6 6 6 6 8 8 8 10 10 10 10 10 10 10

En los datos anteriores se tienen dos modas Mo1 = 6 y Mo2 = 10Cuando los valores de la moda son adyacentes algunos analistas toman como

estadiacutesticolamediadeambasSinembargoestonodebehacersepuestoqueelre-sultado puede carecer de sentido podriacutea tratarse de un valor que no existe en la dis-tribucioacuten Por otro lado iquestcuaacutel es el problema de presentar dos modas Precisamente lo anterior la obtencioacuten (o presentacioacuten) de dos modas permite ver hasta queacute punto el caacutelculo de una media es liacutecito En efecto si las dos modas son adyacentes y centra-das no seriacutea ninguacuten problema pero si no lo son esto debe advertir de que no hay que calcular la media

La mediana es un iacutendice que informa del dato de la distribucioacuten que la divide en dos partesigualesysedefineportantocomoaquelvalorquedejaporencimaypordebajoel 50 por ciento de las frecuencias Puede utilizarse con variables cualitativas cuyas mo-dalidades puedan ordenarse y con variables cuantitativas

Suobtencioacutenesenormementesencillauacutenicamentehayquelocalizarenlacolum-na de proporciones acumuladas de la tabla de la distribucioacuten el valor que comprenda el 05 y ver a queacute puntuacioacuten de la variable corresponde En el ejemplo (cuadro 25) tras obtener las proporciones acumuladas la mediana se localiza en la proporcioacuten acumulada 06 porque es la que incluye 05 (la anterior se queda en 04) por lo que la mediana es Md = 4 es decir el valor de la distribucioacuten que divide a los sujetos en dos grupos

Explorando los datos

41

cuadro 25 Localizacioacuten de la mediana

Xi ni pi pa

2345678

4 0 2 2 1 0 1

04000202010001

04040608090910

ndash 10 10

Cabe sentildealar que si su valor coincide con el de la media y el de la moda o son muy similares la distribucioacuten es simeacutetrica o muy cercana a la simetriacutea En cambio si los re-sultados para los tres iacutendices son muy diferentes hay que tener cuidado con la forma de la distribucioacuten y lo que se ha calculado Hayquerecordarqueunarepresentacioacutengraacuteficaes un complemento perfecto en los anaacutelisis para aclarar los resultados

Los iacutendices de posicioacuten son todos aquellos que permiten situar a un sujeto dentro de unadistribucioacutendefrecuenciasSunombregeneacutericoescuantiles y los maacutes utilizados en este contexto son los percentiles y los cuartiles

Los percentiles tambieacuten llamados centiles son las puntuaciones de la variable que dividen la distribucioacuten en cien partes iguales Hay por tanto 99 percentiles La nomen-clatura utilizada es Pk y su valor se interpreta como la puntuacioacuten que deja por debajo de siacute al k por ciento de los sujetos Por ejemplo si P20 = 9 se dice que 9 es el valor de la distribucioacuten que deja por debajo de siacute al 20 por ciento de los sujetos

Por su parte los cuartiles son las puntuaciones de la variable que dividen la distri-bucioacuten en cuatro partes iguales Hay por tanto tres cuartiles La nomenclatura utilizada es Qk (k = 1 2 o 3) y su valor se interpreta como la puntuacioacuten que deja por debajo de siacute al 25 k por ciento de los sujetos Por ejemplo si Q3 = 8 se dice que 8 es el valor de la distribucioacuten que deja por debajo de siacute al 75 por ciento de los sujetos

Obtener percentiles o cuartiles es tan sencillo como hacerlo con la mediana se bus-ca en la columna de las proporciones acumuladas o de los porcentajes acumulados de la distribucioacuten la proporcioacuten o porcentaje de intereacutes y se localiza la puntuacioacuten de la variable a la que pertenece

El cuadro 26 es el resultado de aplicar un test que mide conductas saacutedicas Un sujeto que por ejemplo obtiene una puntuacioacuten igual a 15 resulta que se situacutea en el percentil P77 y en el cuartil Q3 lo que lo coloca en los valores altos de la distribucioacuten Es claramente necesaria una raacutepida intervencioacuten

Herramientas estadiacutesticas en criminologiacutea

42

Los percentiles y los cuartiles permiten interpretar la situacioacuten de un sujeto en la distribucioacuten de la variable que se ha medido sin necesidad de conocer ni la puntuacioacuten directa ni el valor miacutenimo y maacuteximo de la distribucioacuten lo que resulta de gran utilidad

Por otro lado del cuadro 26 se desprende que la mediana se localiza en el percentil 50 y en el cuartil 2 siendo su valor igual a 12

En efecto en distribuciones simeacutetricas

Md = P50 = D5 = Q2

cuadro 26 Localizacioacuten de percentiles y cuartiles

Xi ni na pa Pk Qk

6 7 8 91011

12

13141516171819

8 4 8 5 710

9

11 9 7 8 4 4 6

8 12 20 25 32 42

51

62 71 78 86 90 94100

008012020025032042

051

062071078086090094100

P7P11P19P24P31P41

P50

P61P70P77P85P89P93P99

ndashndashndashndash

Q1ndash

Q2

ndashndash

Q3ndashndashndashndash

No todos somos iguales Bien es cierto que entre las personas existen ciertos com-portamientos similares pero siempre hay diferencias individuales Mientras que los procesoscomogrupovienencuantificadosconlosiacutendicesdetendenciacentral(mediamedianamodaetc)lasdiferenciasindividualesseveraacutenreflejadasenlosiacutendices de variabilidad Dicho con otras palabras estos iacutendices permitiraacuten saber cuaacutento se distan-cian los individuos del sujeto promedio En el ejemplo que se presenta se recogen las puntuaciones de cinco criminales obtenidas en egocentrismo ilimitado

X1 10 11 12 13 14

La media calculada es`X=12Sinembargolosregistrosmuestrandiferenciasentreellos por lo que cada uno se distancia de su media

Explorando los datos

43

10 ndash 12 = ndash2 11 ndash 12 = ndash1 12 ndash 12 = 0 13 ndash 12 = 1 y 14 ndash 12 = 2

Los resultados muestran alejamientos positivos y negativos (unos son maacutes ego-ceacutentricos y otros menos con respecto a la media de 12) con lo que se podriacutea plantear el caacutelculo del promedio de esas distancias como iacutendice de variabilidad En efecto esto es precisamente lo que hace el estadiacutestico desviacioacuten media

sum=

minusDM

(X X)nXi

1

Sufoacutermulaclaramentereflejacuaacutentosealejanenpromediolaspuntuacionesdesumedia Aplicaacutendola a los datos del ejemplo

sum=

minus=

minus + minus + + +=DM

(X X)n

( 2) ( 1) 0 1 25

0Xi

1

Habiendo constatado las diferencias individuales iquestcoacutemo es posible que el prome-dio de distancias sea igual a cero La razoacuten es muy sencilla las diferencias son unas positivas y otras negativas compensaacutendose las unas con las otras y siempre va a ocurrir que la suma de esas diferencias sea igual a 0 ya que son distancias a un punto central que es la media

Entonces si la desviacioacuten media siempre va a ser igual a cero hay que buscar otro iacutendice que siendo tan sencillo e informativo como este solvente el problema Una po-sibilidad seriacutea trabajar con las diferencias en valores absolutos pero estos resultan poco manejables matemaacuteticamente y por tanto poco convincentes

Otra opcioacuten es calcular las diferencias elevarlas al cuadrado y a partir de ahiacute obte-ner su promedio Un iacutendice de dispersioacuten computado asiacute se denomina varianza

sum=

minusS

(X X)nX

2 i2

Aplicaacutendolo a los datos

sum=

minus=

+ + + +=S

(X X )n

4 1 0 1 45

2X2 i 1

2

1

Una foacutermula maacutes raacutepida de obtener la varianza sobre todo cuando se manejan mu-chos datos es mediante la siguiente expresioacuten

Page 17: Herramientas estadísticas en criminología · 2019. 10. 10. · Herramientas estadísticas en criminología Concepción San Luis Costas Isabel Cañadas Osinski. Reservados todos

Herramientas estadiacutesticas en criminologiacutea

38

Los estadiacutesticos de tendencia central son aquellos que resumen el comportamiento de una variable en un solo valor representando asiacute al conjunto de sujetos en el que son calculados

La media aritmeacutetica es el iacutendice de tendencia central maacutes utilizado y su caacutelculo es tan simple como promediar todas las puntuaciones de un grupo en una variable tal y comoreflejansusfoacutermulasparadatosbrutosyparadatosdeunadistribucioacutendefre-cuencias

XXn

isum= X

n Xni isum

=sdot

donde Xi es la puntuacioacuten de un sujeto n es el tamantildeo de la muestra y ni la frecuencia absoluta

SeaelsiguienteejemploEnelserviciodepsiquiatriacuteadeuncentropenitenciariose ha observado que los internos drogodependientes con insomnio croacutenico muestran ciertasensibilidadinusualalruidoDebidoalasdificultadesqueconllevalaaplicacioacutende cuestionarios que midan la sonoridad subjetiva se decide evaluarlos con una prueba en la que deben interrumpir un sonido cuando les resulta molesto y se recoge el tiempo (en segundos) que tardan en pulsar el interruptor Los datos de diez pacientes son los siguientes

4 5 8 2 4 2 5 2 2 6

La media aritmeacutetica es

XXn

4 5 8 2 4 2 5 2 2 610

4010

4isum= =

+ + + + + + + + += =

Suponiendoqueenlossujetossinladolenciadescritalamediaaritmeacuteticaes8se-gundos se puede concluir que estos pacientes que han tardado en conjunto un promedio de 4 segundos en sentir el sonido como un ruido molesto presentan una sensibilidad al ruido mayor

Al agrupar los datos anteriores en una tabla (veacutease el cuadro 24) la media aritmeacute-tica que resulta es

X

n Xn

8 0 8 10 6 0 810

4010

4i isum=

sdot=

+ + + + + += =

Explorando los datos

39

cuadro 24 Caacutelculo de la media en una distribucioacuten de frecuencias

Xi ni ni Xi

2345678

4 0 2 2 1 0 1

8 0 810 6 0 8

ndash 10 40

Tal es la sencillez de la obtencioacuten de la media que se ha convertido en un estadiacutestico omnipresenteentodoinformedeinvestigacioacutenquetrateconvariablesSinembargoantes de su caacutelculo deberaacuten tenerse en cuenta las siguientes consideraciones

ndashEs muy sensible a cualquier variacioacuten en los datos Por ejemplo un error en la introduccioacuten de un valor numeacuterico puede resultar desastroso al calcularla

3 5 7 4 `X = 4753 5 7 40 `X = 1375

ndashNo se debe utilizar ante conjuntos de datos en los que hay casos extremos por-que deja de cumplir con su funcioacuten que es la de representar al conjunto

X 1 2 2 4 4 8 9 10 cuya media es`X = 5

iquestA quieacuten representa esta media si ni siquiera su valor estaacute en la distribucioacuten Porestosiempredeberaacuteiracompantildeadadeungraacuteficoobiensedebeinformarque los datos se ajustan a una distribucioacuten simeacutetrica

ndashConvariablescualitativasnotienesentidocalcularlaiquestsepuedeafirmarquelamedia aritmeacutetica del estado civil es 25 Tambieacuten hay que ser cautelosos con el resultado de algunas variables cuantitativas discretas como por ejemplo el nuacutemerodedelitosSepuededecirqueundelincuentehacometidoeldoblededelitos que otro pero iquestes pertinente hablar de un promedio de 35 delitos

La simplicidad en la obtencioacuten de la media aritmeacutetica la ha convertido en la estrella de los estadiacutesticos de tendencia central Doctos y legos la conocen y utilizan pero hay

Herramientas estadiacutesticas en criminologiacutea

40

que ser cautos porque los datos no estaacuten exentos de trampas En aquellos casos en los que no sea adecuado calcularla se puede probar con la moda o con la mediana

La moda es un iacutendice de tendencia central que representa el valor cuya frecuen-cia absoluta es la maacutes alta en la distribucioacuten Puede utilizarse con cualquier tipo de variable ya sea cualitativa o cuantitativa y su obtencioacuten es muy sencilla Los datos simplemente se ordenan y se ve cuaacutel se repite maacutes Ese valor es por tanto la moda de la distribucioacuten En el ejemplo de los pacientes con delirium por abstinencia la moda tanto con los datos brutos como agrupados en la distribucioacuten de frecuencias (cuadro 24) es 2 (y no 4 cuidado con esto) Este resultado se interpreta como que la mayoriacutea de los pacientes de este grupo tarda 2 segundos en sentir el ruido como molesto (Cabe sentildealar que la moda no coincide con la media lo que ya habla de una distribucioacuten asimeacutetrica)

Puede suceder que una distribucioacuten tenga dos valores con la maacutexima frecuencia la misma o muy similar pero que ambas se diferencien bastante del resto En estos casos se dice que la distribucioacuten presenta dos modas o que es bimodal

2 2 4 4 4 6 6 6 6 6 6 8 8 8 10 10 10 10 10 10 10

En los datos anteriores se tienen dos modas Mo1 = 6 y Mo2 = 10Cuando los valores de la moda son adyacentes algunos analistas toman como

estadiacutesticolamediadeambasSinembargoestonodebehacersepuestoqueelre-sultado puede carecer de sentido podriacutea tratarse de un valor que no existe en la dis-tribucioacuten Por otro lado iquestcuaacutel es el problema de presentar dos modas Precisamente lo anterior la obtencioacuten (o presentacioacuten) de dos modas permite ver hasta queacute punto el caacutelculo de una media es liacutecito En efecto si las dos modas son adyacentes y centra-das no seriacutea ninguacuten problema pero si no lo son esto debe advertir de que no hay que calcular la media

La mediana es un iacutendice que informa del dato de la distribucioacuten que la divide en dos partesigualesysedefineportantocomoaquelvalorquedejaporencimaypordebajoel 50 por ciento de las frecuencias Puede utilizarse con variables cualitativas cuyas mo-dalidades puedan ordenarse y con variables cuantitativas

Suobtencioacutenesenormementesencillauacutenicamentehayquelocalizarenlacolum-na de proporciones acumuladas de la tabla de la distribucioacuten el valor que comprenda el 05 y ver a queacute puntuacioacuten de la variable corresponde En el ejemplo (cuadro 25) tras obtener las proporciones acumuladas la mediana se localiza en la proporcioacuten acumulada 06 porque es la que incluye 05 (la anterior se queda en 04) por lo que la mediana es Md = 4 es decir el valor de la distribucioacuten que divide a los sujetos en dos grupos

Explorando los datos

41

cuadro 25 Localizacioacuten de la mediana

Xi ni pi pa

2345678

4 0 2 2 1 0 1

04000202010001

04040608090910

ndash 10 10

Cabe sentildealar que si su valor coincide con el de la media y el de la moda o son muy similares la distribucioacuten es simeacutetrica o muy cercana a la simetriacutea En cambio si los re-sultados para los tres iacutendices son muy diferentes hay que tener cuidado con la forma de la distribucioacuten y lo que se ha calculado Hayquerecordarqueunarepresentacioacutengraacuteficaes un complemento perfecto en los anaacutelisis para aclarar los resultados

Los iacutendices de posicioacuten son todos aquellos que permiten situar a un sujeto dentro de unadistribucioacutendefrecuenciasSunombregeneacutericoescuantiles y los maacutes utilizados en este contexto son los percentiles y los cuartiles

Los percentiles tambieacuten llamados centiles son las puntuaciones de la variable que dividen la distribucioacuten en cien partes iguales Hay por tanto 99 percentiles La nomen-clatura utilizada es Pk y su valor se interpreta como la puntuacioacuten que deja por debajo de siacute al k por ciento de los sujetos Por ejemplo si P20 = 9 se dice que 9 es el valor de la distribucioacuten que deja por debajo de siacute al 20 por ciento de los sujetos

Por su parte los cuartiles son las puntuaciones de la variable que dividen la distri-bucioacuten en cuatro partes iguales Hay por tanto tres cuartiles La nomenclatura utilizada es Qk (k = 1 2 o 3) y su valor se interpreta como la puntuacioacuten que deja por debajo de siacute al 25 k por ciento de los sujetos Por ejemplo si Q3 = 8 se dice que 8 es el valor de la distribucioacuten que deja por debajo de siacute al 75 por ciento de los sujetos

Obtener percentiles o cuartiles es tan sencillo como hacerlo con la mediana se bus-ca en la columna de las proporciones acumuladas o de los porcentajes acumulados de la distribucioacuten la proporcioacuten o porcentaje de intereacutes y se localiza la puntuacioacuten de la variable a la que pertenece

El cuadro 26 es el resultado de aplicar un test que mide conductas saacutedicas Un sujeto que por ejemplo obtiene una puntuacioacuten igual a 15 resulta que se situacutea en el percentil P77 y en el cuartil Q3 lo que lo coloca en los valores altos de la distribucioacuten Es claramente necesaria una raacutepida intervencioacuten

Herramientas estadiacutesticas en criminologiacutea

42

Los percentiles y los cuartiles permiten interpretar la situacioacuten de un sujeto en la distribucioacuten de la variable que se ha medido sin necesidad de conocer ni la puntuacioacuten directa ni el valor miacutenimo y maacuteximo de la distribucioacuten lo que resulta de gran utilidad

Por otro lado del cuadro 26 se desprende que la mediana se localiza en el percentil 50 y en el cuartil 2 siendo su valor igual a 12

En efecto en distribuciones simeacutetricas

Md = P50 = D5 = Q2

cuadro 26 Localizacioacuten de percentiles y cuartiles

Xi ni na pa Pk Qk

6 7 8 91011

12

13141516171819

8 4 8 5 710

9

11 9 7 8 4 4 6

8 12 20 25 32 42

51

62 71 78 86 90 94100

008012020025032042

051

062071078086090094100

P7P11P19P24P31P41

P50

P61P70P77P85P89P93P99

ndashndashndashndash

Q1ndash

Q2

ndashndash

Q3ndashndashndashndash

No todos somos iguales Bien es cierto que entre las personas existen ciertos com-portamientos similares pero siempre hay diferencias individuales Mientras que los procesoscomogrupovienencuantificadosconlosiacutendicesdetendenciacentral(mediamedianamodaetc)lasdiferenciasindividualesseveraacutenreflejadasenlosiacutendices de variabilidad Dicho con otras palabras estos iacutendices permitiraacuten saber cuaacutento se distan-cian los individuos del sujeto promedio En el ejemplo que se presenta se recogen las puntuaciones de cinco criminales obtenidas en egocentrismo ilimitado

X1 10 11 12 13 14

La media calculada es`X=12Sinembargolosregistrosmuestrandiferenciasentreellos por lo que cada uno se distancia de su media

Explorando los datos

43

10 ndash 12 = ndash2 11 ndash 12 = ndash1 12 ndash 12 = 0 13 ndash 12 = 1 y 14 ndash 12 = 2

Los resultados muestran alejamientos positivos y negativos (unos son maacutes ego-ceacutentricos y otros menos con respecto a la media de 12) con lo que se podriacutea plantear el caacutelculo del promedio de esas distancias como iacutendice de variabilidad En efecto esto es precisamente lo que hace el estadiacutestico desviacioacuten media

sum=

minusDM

(X X)nXi

1

Sufoacutermulaclaramentereflejacuaacutentosealejanenpromediolaspuntuacionesdesumedia Aplicaacutendola a los datos del ejemplo

sum=

minus=

minus + minus + + +=DM

(X X)n

( 2) ( 1) 0 1 25

0Xi

1

Habiendo constatado las diferencias individuales iquestcoacutemo es posible que el prome-dio de distancias sea igual a cero La razoacuten es muy sencilla las diferencias son unas positivas y otras negativas compensaacutendose las unas con las otras y siempre va a ocurrir que la suma de esas diferencias sea igual a 0 ya que son distancias a un punto central que es la media

Entonces si la desviacioacuten media siempre va a ser igual a cero hay que buscar otro iacutendice que siendo tan sencillo e informativo como este solvente el problema Una po-sibilidad seriacutea trabajar con las diferencias en valores absolutos pero estos resultan poco manejables matemaacuteticamente y por tanto poco convincentes

Otra opcioacuten es calcular las diferencias elevarlas al cuadrado y a partir de ahiacute obte-ner su promedio Un iacutendice de dispersioacuten computado asiacute se denomina varianza

sum=

minusS

(X X)nX

2 i2

Aplicaacutendolo a los datos

sum=

minus=

+ + + +=S

(X X )n

4 1 0 1 45

2X2 i 1

2

1

Una foacutermula maacutes raacutepida de obtener la varianza sobre todo cuando se manejan mu-chos datos es mediante la siguiente expresioacuten

Page 18: Herramientas estadísticas en criminología · 2019. 10. 10. · Herramientas estadísticas en criminología Concepción San Luis Costas Isabel Cañadas Osinski. Reservados todos

Explorando los datos

39

cuadro 24 Caacutelculo de la media en una distribucioacuten de frecuencias

Xi ni ni Xi

2345678

4 0 2 2 1 0 1

8 0 810 6 0 8

ndash 10 40

Tal es la sencillez de la obtencioacuten de la media que se ha convertido en un estadiacutestico omnipresenteentodoinformedeinvestigacioacutenquetrateconvariablesSinembargoantes de su caacutelculo deberaacuten tenerse en cuenta las siguientes consideraciones

ndashEs muy sensible a cualquier variacioacuten en los datos Por ejemplo un error en la introduccioacuten de un valor numeacuterico puede resultar desastroso al calcularla

3 5 7 4 `X = 4753 5 7 40 `X = 1375

ndashNo se debe utilizar ante conjuntos de datos en los que hay casos extremos por-que deja de cumplir con su funcioacuten que es la de representar al conjunto

X 1 2 2 4 4 8 9 10 cuya media es`X = 5

iquestA quieacuten representa esta media si ni siquiera su valor estaacute en la distribucioacuten Porestosiempredeberaacuteiracompantildeadadeungraacuteficoobiensedebeinformarque los datos se ajustan a una distribucioacuten simeacutetrica

ndashConvariablescualitativasnotienesentidocalcularlaiquestsepuedeafirmarquelamedia aritmeacutetica del estado civil es 25 Tambieacuten hay que ser cautelosos con el resultado de algunas variables cuantitativas discretas como por ejemplo el nuacutemerodedelitosSepuededecirqueundelincuentehacometidoeldoblededelitos que otro pero iquestes pertinente hablar de un promedio de 35 delitos

La simplicidad en la obtencioacuten de la media aritmeacutetica la ha convertido en la estrella de los estadiacutesticos de tendencia central Doctos y legos la conocen y utilizan pero hay

Herramientas estadiacutesticas en criminologiacutea

40

que ser cautos porque los datos no estaacuten exentos de trampas En aquellos casos en los que no sea adecuado calcularla se puede probar con la moda o con la mediana

La moda es un iacutendice de tendencia central que representa el valor cuya frecuen-cia absoluta es la maacutes alta en la distribucioacuten Puede utilizarse con cualquier tipo de variable ya sea cualitativa o cuantitativa y su obtencioacuten es muy sencilla Los datos simplemente se ordenan y se ve cuaacutel se repite maacutes Ese valor es por tanto la moda de la distribucioacuten En el ejemplo de los pacientes con delirium por abstinencia la moda tanto con los datos brutos como agrupados en la distribucioacuten de frecuencias (cuadro 24) es 2 (y no 4 cuidado con esto) Este resultado se interpreta como que la mayoriacutea de los pacientes de este grupo tarda 2 segundos en sentir el ruido como molesto (Cabe sentildealar que la moda no coincide con la media lo que ya habla de una distribucioacuten asimeacutetrica)

Puede suceder que una distribucioacuten tenga dos valores con la maacutexima frecuencia la misma o muy similar pero que ambas se diferencien bastante del resto En estos casos se dice que la distribucioacuten presenta dos modas o que es bimodal

2 2 4 4 4 6 6 6 6 6 6 8 8 8 10 10 10 10 10 10 10

En los datos anteriores se tienen dos modas Mo1 = 6 y Mo2 = 10Cuando los valores de la moda son adyacentes algunos analistas toman como

estadiacutesticolamediadeambasSinembargoestonodebehacersepuestoqueelre-sultado puede carecer de sentido podriacutea tratarse de un valor que no existe en la dis-tribucioacuten Por otro lado iquestcuaacutel es el problema de presentar dos modas Precisamente lo anterior la obtencioacuten (o presentacioacuten) de dos modas permite ver hasta queacute punto el caacutelculo de una media es liacutecito En efecto si las dos modas son adyacentes y centra-das no seriacutea ninguacuten problema pero si no lo son esto debe advertir de que no hay que calcular la media

La mediana es un iacutendice que informa del dato de la distribucioacuten que la divide en dos partesigualesysedefineportantocomoaquelvalorquedejaporencimaypordebajoel 50 por ciento de las frecuencias Puede utilizarse con variables cualitativas cuyas mo-dalidades puedan ordenarse y con variables cuantitativas

Suobtencioacutenesenormementesencillauacutenicamentehayquelocalizarenlacolum-na de proporciones acumuladas de la tabla de la distribucioacuten el valor que comprenda el 05 y ver a queacute puntuacioacuten de la variable corresponde En el ejemplo (cuadro 25) tras obtener las proporciones acumuladas la mediana se localiza en la proporcioacuten acumulada 06 porque es la que incluye 05 (la anterior se queda en 04) por lo que la mediana es Md = 4 es decir el valor de la distribucioacuten que divide a los sujetos en dos grupos

Explorando los datos

41

cuadro 25 Localizacioacuten de la mediana

Xi ni pi pa

2345678

4 0 2 2 1 0 1

04000202010001

04040608090910

ndash 10 10

Cabe sentildealar que si su valor coincide con el de la media y el de la moda o son muy similares la distribucioacuten es simeacutetrica o muy cercana a la simetriacutea En cambio si los re-sultados para los tres iacutendices son muy diferentes hay que tener cuidado con la forma de la distribucioacuten y lo que se ha calculado Hayquerecordarqueunarepresentacioacutengraacuteficaes un complemento perfecto en los anaacutelisis para aclarar los resultados

Los iacutendices de posicioacuten son todos aquellos que permiten situar a un sujeto dentro de unadistribucioacutendefrecuenciasSunombregeneacutericoescuantiles y los maacutes utilizados en este contexto son los percentiles y los cuartiles

Los percentiles tambieacuten llamados centiles son las puntuaciones de la variable que dividen la distribucioacuten en cien partes iguales Hay por tanto 99 percentiles La nomen-clatura utilizada es Pk y su valor se interpreta como la puntuacioacuten que deja por debajo de siacute al k por ciento de los sujetos Por ejemplo si P20 = 9 se dice que 9 es el valor de la distribucioacuten que deja por debajo de siacute al 20 por ciento de los sujetos

Por su parte los cuartiles son las puntuaciones de la variable que dividen la distri-bucioacuten en cuatro partes iguales Hay por tanto tres cuartiles La nomenclatura utilizada es Qk (k = 1 2 o 3) y su valor se interpreta como la puntuacioacuten que deja por debajo de siacute al 25 k por ciento de los sujetos Por ejemplo si Q3 = 8 se dice que 8 es el valor de la distribucioacuten que deja por debajo de siacute al 75 por ciento de los sujetos

Obtener percentiles o cuartiles es tan sencillo como hacerlo con la mediana se bus-ca en la columna de las proporciones acumuladas o de los porcentajes acumulados de la distribucioacuten la proporcioacuten o porcentaje de intereacutes y se localiza la puntuacioacuten de la variable a la que pertenece

El cuadro 26 es el resultado de aplicar un test que mide conductas saacutedicas Un sujeto que por ejemplo obtiene una puntuacioacuten igual a 15 resulta que se situacutea en el percentil P77 y en el cuartil Q3 lo que lo coloca en los valores altos de la distribucioacuten Es claramente necesaria una raacutepida intervencioacuten

Herramientas estadiacutesticas en criminologiacutea

42

Los percentiles y los cuartiles permiten interpretar la situacioacuten de un sujeto en la distribucioacuten de la variable que se ha medido sin necesidad de conocer ni la puntuacioacuten directa ni el valor miacutenimo y maacuteximo de la distribucioacuten lo que resulta de gran utilidad

Por otro lado del cuadro 26 se desprende que la mediana se localiza en el percentil 50 y en el cuartil 2 siendo su valor igual a 12

En efecto en distribuciones simeacutetricas

Md = P50 = D5 = Q2

cuadro 26 Localizacioacuten de percentiles y cuartiles

Xi ni na pa Pk Qk

6 7 8 91011

12

13141516171819

8 4 8 5 710

9

11 9 7 8 4 4 6

8 12 20 25 32 42

51

62 71 78 86 90 94100

008012020025032042

051

062071078086090094100

P7P11P19P24P31P41

P50

P61P70P77P85P89P93P99

ndashndashndashndash

Q1ndash

Q2

ndashndash

Q3ndashndashndashndash

No todos somos iguales Bien es cierto que entre las personas existen ciertos com-portamientos similares pero siempre hay diferencias individuales Mientras que los procesoscomogrupovienencuantificadosconlosiacutendicesdetendenciacentral(mediamedianamodaetc)lasdiferenciasindividualesseveraacutenreflejadasenlosiacutendices de variabilidad Dicho con otras palabras estos iacutendices permitiraacuten saber cuaacutento se distan-cian los individuos del sujeto promedio En el ejemplo que se presenta se recogen las puntuaciones de cinco criminales obtenidas en egocentrismo ilimitado

X1 10 11 12 13 14

La media calculada es`X=12Sinembargolosregistrosmuestrandiferenciasentreellos por lo que cada uno se distancia de su media

Explorando los datos

43

10 ndash 12 = ndash2 11 ndash 12 = ndash1 12 ndash 12 = 0 13 ndash 12 = 1 y 14 ndash 12 = 2

Los resultados muestran alejamientos positivos y negativos (unos son maacutes ego-ceacutentricos y otros menos con respecto a la media de 12) con lo que se podriacutea plantear el caacutelculo del promedio de esas distancias como iacutendice de variabilidad En efecto esto es precisamente lo que hace el estadiacutestico desviacioacuten media

sum=

minusDM

(X X)nXi

1

Sufoacutermulaclaramentereflejacuaacutentosealejanenpromediolaspuntuacionesdesumedia Aplicaacutendola a los datos del ejemplo

sum=

minus=

minus + minus + + +=DM

(X X)n

( 2) ( 1) 0 1 25

0Xi

1

Habiendo constatado las diferencias individuales iquestcoacutemo es posible que el prome-dio de distancias sea igual a cero La razoacuten es muy sencilla las diferencias son unas positivas y otras negativas compensaacutendose las unas con las otras y siempre va a ocurrir que la suma de esas diferencias sea igual a 0 ya que son distancias a un punto central que es la media

Entonces si la desviacioacuten media siempre va a ser igual a cero hay que buscar otro iacutendice que siendo tan sencillo e informativo como este solvente el problema Una po-sibilidad seriacutea trabajar con las diferencias en valores absolutos pero estos resultan poco manejables matemaacuteticamente y por tanto poco convincentes

Otra opcioacuten es calcular las diferencias elevarlas al cuadrado y a partir de ahiacute obte-ner su promedio Un iacutendice de dispersioacuten computado asiacute se denomina varianza

sum=

minusS

(X X)nX

2 i2

Aplicaacutendolo a los datos

sum=

minus=

+ + + +=S

(X X )n

4 1 0 1 45

2X2 i 1

2

1

Una foacutermula maacutes raacutepida de obtener la varianza sobre todo cuando se manejan mu-chos datos es mediante la siguiente expresioacuten

Page 19: Herramientas estadísticas en criminología · 2019. 10. 10. · Herramientas estadísticas en criminología Concepción San Luis Costas Isabel Cañadas Osinski. Reservados todos

Herramientas estadiacutesticas en criminologiacutea

40

que ser cautos porque los datos no estaacuten exentos de trampas En aquellos casos en los que no sea adecuado calcularla se puede probar con la moda o con la mediana

La moda es un iacutendice de tendencia central que representa el valor cuya frecuen-cia absoluta es la maacutes alta en la distribucioacuten Puede utilizarse con cualquier tipo de variable ya sea cualitativa o cuantitativa y su obtencioacuten es muy sencilla Los datos simplemente se ordenan y se ve cuaacutel se repite maacutes Ese valor es por tanto la moda de la distribucioacuten En el ejemplo de los pacientes con delirium por abstinencia la moda tanto con los datos brutos como agrupados en la distribucioacuten de frecuencias (cuadro 24) es 2 (y no 4 cuidado con esto) Este resultado se interpreta como que la mayoriacutea de los pacientes de este grupo tarda 2 segundos en sentir el ruido como molesto (Cabe sentildealar que la moda no coincide con la media lo que ya habla de una distribucioacuten asimeacutetrica)

Puede suceder que una distribucioacuten tenga dos valores con la maacutexima frecuencia la misma o muy similar pero que ambas se diferencien bastante del resto En estos casos se dice que la distribucioacuten presenta dos modas o que es bimodal

2 2 4 4 4 6 6 6 6 6 6 8 8 8 10 10 10 10 10 10 10

En los datos anteriores se tienen dos modas Mo1 = 6 y Mo2 = 10Cuando los valores de la moda son adyacentes algunos analistas toman como

estadiacutesticolamediadeambasSinembargoestonodebehacersepuestoqueelre-sultado puede carecer de sentido podriacutea tratarse de un valor que no existe en la dis-tribucioacuten Por otro lado iquestcuaacutel es el problema de presentar dos modas Precisamente lo anterior la obtencioacuten (o presentacioacuten) de dos modas permite ver hasta queacute punto el caacutelculo de una media es liacutecito En efecto si las dos modas son adyacentes y centra-das no seriacutea ninguacuten problema pero si no lo son esto debe advertir de que no hay que calcular la media

La mediana es un iacutendice que informa del dato de la distribucioacuten que la divide en dos partesigualesysedefineportantocomoaquelvalorquedejaporencimaypordebajoel 50 por ciento de las frecuencias Puede utilizarse con variables cualitativas cuyas mo-dalidades puedan ordenarse y con variables cuantitativas

Suobtencioacutenesenormementesencillauacutenicamentehayquelocalizarenlacolum-na de proporciones acumuladas de la tabla de la distribucioacuten el valor que comprenda el 05 y ver a queacute puntuacioacuten de la variable corresponde En el ejemplo (cuadro 25) tras obtener las proporciones acumuladas la mediana se localiza en la proporcioacuten acumulada 06 porque es la que incluye 05 (la anterior se queda en 04) por lo que la mediana es Md = 4 es decir el valor de la distribucioacuten que divide a los sujetos en dos grupos

Explorando los datos

41

cuadro 25 Localizacioacuten de la mediana

Xi ni pi pa

2345678

4 0 2 2 1 0 1

04000202010001

04040608090910

ndash 10 10

Cabe sentildealar que si su valor coincide con el de la media y el de la moda o son muy similares la distribucioacuten es simeacutetrica o muy cercana a la simetriacutea En cambio si los re-sultados para los tres iacutendices son muy diferentes hay que tener cuidado con la forma de la distribucioacuten y lo que se ha calculado Hayquerecordarqueunarepresentacioacutengraacuteficaes un complemento perfecto en los anaacutelisis para aclarar los resultados

Los iacutendices de posicioacuten son todos aquellos que permiten situar a un sujeto dentro de unadistribucioacutendefrecuenciasSunombregeneacutericoescuantiles y los maacutes utilizados en este contexto son los percentiles y los cuartiles

Los percentiles tambieacuten llamados centiles son las puntuaciones de la variable que dividen la distribucioacuten en cien partes iguales Hay por tanto 99 percentiles La nomen-clatura utilizada es Pk y su valor se interpreta como la puntuacioacuten que deja por debajo de siacute al k por ciento de los sujetos Por ejemplo si P20 = 9 se dice que 9 es el valor de la distribucioacuten que deja por debajo de siacute al 20 por ciento de los sujetos

Por su parte los cuartiles son las puntuaciones de la variable que dividen la distri-bucioacuten en cuatro partes iguales Hay por tanto tres cuartiles La nomenclatura utilizada es Qk (k = 1 2 o 3) y su valor se interpreta como la puntuacioacuten que deja por debajo de siacute al 25 k por ciento de los sujetos Por ejemplo si Q3 = 8 se dice que 8 es el valor de la distribucioacuten que deja por debajo de siacute al 75 por ciento de los sujetos

Obtener percentiles o cuartiles es tan sencillo como hacerlo con la mediana se bus-ca en la columna de las proporciones acumuladas o de los porcentajes acumulados de la distribucioacuten la proporcioacuten o porcentaje de intereacutes y se localiza la puntuacioacuten de la variable a la que pertenece

El cuadro 26 es el resultado de aplicar un test que mide conductas saacutedicas Un sujeto que por ejemplo obtiene una puntuacioacuten igual a 15 resulta que se situacutea en el percentil P77 y en el cuartil Q3 lo que lo coloca en los valores altos de la distribucioacuten Es claramente necesaria una raacutepida intervencioacuten

Herramientas estadiacutesticas en criminologiacutea

42

Los percentiles y los cuartiles permiten interpretar la situacioacuten de un sujeto en la distribucioacuten de la variable que se ha medido sin necesidad de conocer ni la puntuacioacuten directa ni el valor miacutenimo y maacuteximo de la distribucioacuten lo que resulta de gran utilidad

Por otro lado del cuadro 26 se desprende que la mediana se localiza en el percentil 50 y en el cuartil 2 siendo su valor igual a 12

En efecto en distribuciones simeacutetricas

Md = P50 = D5 = Q2

cuadro 26 Localizacioacuten de percentiles y cuartiles

Xi ni na pa Pk Qk

6 7 8 91011

12

13141516171819

8 4 8 5 710

9

11 9 7 8 4 4 6

8 12 20 25 32 42

51

62 71 78 86 90 94100

008012020025032042

051

062071078086090094100

P7P11P19P24P31P41

P50

P61P70P77P85P89P93P99

ndashndashndashndash

Q1ndash

Q2

ndashndash

Q3ndashndashndashndash

No todos somos iguales Bien es cierto que entre las personas existen ciertos com-portamientos similares pero siempre hay diferencias individuales Mientras que los procesoscomogrupovienencuantificadosconlosiacutendicesdetendenciacentral(mediamedianamodaetc)lasdiferenciasindividualesseveraacutenreflejadasenlosiacutendices de variabilidad Dicho con otras palabras estos iacutendices permitiraacuten saber cuaacutento se distan-cian los individuos del sujeto promedio En el ejemplo que se presenta se recogen las puntuaciones de cinco criminales obtenidas en egocentrismo ilimitado

X1 10 11 12 13 14

La media calculada es`X=12Sinembargolosregistrosmuestrandiferenciasentreellos por lo que cada uno se distancia de su media

Explorando los datos

43

10 ndash 12 = ndash2 11 ndash 12 = ndash1 12 ndash 12 = 0 13 ndash 12 = 1 y 14 ndash 12 = 2

Los resultados muestran alejamientos positivos y negativos (unos son maacutes ego-ceacutentricos y otros menos con respecto a la media de 12) con lo que se podriacutea plantear el caacutelculo del promedio de esas distancias como iacutendice de variabilidad En efecto esto es precisamente lo que hace el estadiacutestico desviacioacuten media

sum=

minusDM

(X X)nXi

1

Sufoacutermulaclaramentereflejacuaacutentosealejanenpromediolaspuntuacionesdesumedia Aplicaacutendola a los datos del ejemplo

sum=

minus=

minus + minus + + +=DM

(X X)n

( 2) ( 1) 0 1 25

0Xi

1

Habiendo constatado las diferencias individuales iquestcoacutemo es posible que el prome-dio de distancias sea igual a cero La razoacuten es muy sencilla las diferencias son unas positivas y otras negativas compensaacutendose las unas con las otras y siempre va a ocurrir que la suma de esas diferencias sea igual a 0 ya que son distancias a un punto central que es la media

Entonces si la desviacioacuten media siempre va a ser igual a cero hay que buscar otro iacutendice que siendo tan sencillo e informativo como este solvente el problema Una po-sibilidad seriacutea trabajar con las diferencias en valores absolutos pero estos resultan poco manejables matemaacuteticamente y por tanto poco convincentes

Otra opcioacuten es calcular las diferencias elevarlas al cuadrado y a partir de ahiacute obte-ner su promedio Un iacutendice de dispersioacuten computado asiacute se denomina varianza

sum=

minusS

(X X)nX

2 i2

Aplicaacutendolo a los datos

sum=

minus=

+ + + +=S

(X X )n

4 1 0 1 45

2X2 i 1

2

1

Una foacutermula maacutes raacutepida de obtener la varianza sobre todo cuando se manejan mu-chos datos es mediante la siguiente expresioacuten

Page 20: Herramientas estadísticas en criminología · 2019. 10. 10. · Herramientas estadísticas en criminología Concepción San Luis Costas Isabel Cañadas Osinski. Reservados todos

Explorando los datos

41

cuadro 25 Localizacioacuten de la mediana

Xi ni pi pa

2345678

4 0 2 2 1 0 1

04000202010001

04040608090910

ndash 10 10

Cabe sentildealar que si su valor coincide con el de la media y el de la moda o son muy similares la distribucioacuten es simeacutetrica o muy cercana a la simetriacutea En cambio si los re-sultados para los tres iacutendices son muy diferentes hay que tener cuidado con la forma de la distribucioacuten y lo que se ha calculado Hayquerecordarqueunarepresentacioacutengraacuteficaes un complemento perfecto en los anaacutelisis para aclarar los resultados

Los iacutendices de posicioacuten son todos aquellos que permiten situar a un sujeto dentro de unadistribucioacutendefrecuenciasSunombregeneacutericoescuantiles y los maacutes utilizados en este contexto son los percentiles y los cuartiles

Los percentiles tambieacuten llamados centiles son las puntuaciones de la variable que dividen la distribucioacuten en cien partes iguales Hay por tanto 99 percentiles La nomen-clatura utilizada es Pk y su valor se interpreta como la puntuacioacuten que deja por debajo de siacute al k por ciento de los sujetos Por ejemplo si P20 = 9 se dice que 9 es el valor de la distribucioacuten que deja por debajo de siacute al 20 por ciento de los sujetos

Por su parte los cuartiles son las puntuaciones de la variable que dividen la distri-bucioacuten en cuatro partes iguales Hay por tanto tres cuartiles La nomenclatura utilizada es Qk (k = 1 2 o 3) y su valor se interpreta como la puntuacioacuten que deja por debajo de siacute al 25 k por ciento de los sujetos Por ejemplo si Q3 = 8 se dice que 8 es el valor de la distribucioacuten que deja por debajo de siacute al 75 por ciento de los sujetos

Obtener percentiles o cuartiles es tan sencillo como hacerlo con la mediana se bus-ca en la columna de las proporciones acumuladas o de los porcentajes acumulados de la distribucioacuten la proporcioacuten o porcentaje de intereacutes y se localiza la puntuacioacuten de la variable a la que pertenece

El cuadro 26 es el resultado de aplicar un test que mide conductas saacutedicas Un sujeto que por ejemplo obtiene una puntuacioacuten igual a 15 resulta que se situacutea en el percentil P77 y en el cuartil Q3 lo que lo coloca en los valores altos de la distribucioacuten Es claramente necesaria una raacutepida intervencioacuten

Herramientas estadiacutesticas en criminologiacutea

42

Los percentiles y los cuartiles permiten interpretar la situacioacuten de un sujeto en la distribucioacuten de la variable que se ha medido sin necesidad de conocer ni la puntuacioacuten directa ni el valor miacutenimo y maacuteximo de la distribucioacuten lo que resulta de gran utilidad

Por otro lado del cuadro 26 se desprende que la mediana se localiza en el percentil 50 y en el cuartil 2 siendo su valor igual a 12

En efecto en distribuciones simeacutetricas

Md = P50 = D5 = Q2

cuadro 26 Localizacioacuten de percentiles y cuartiles

Xi ni na pa Pk Qk

6 7 8 91011

12

13141516171819

8 4 8 5 710

9

11 9 7 8 4 4 6

8 12 20 25 32 42

51

62 71 78 86 90 94100

008012020025032042

051

062071078086090094100

P7P11P19P24P31P41

P50

P61P70P77P85P89P93P99

ndashndashndashndash

Q1ndash

Q2

ndashndash

Q3ndashndashndashndash

No todos somos iguales Bien es cierto que entre las personas existen ciertos com-portamientos similares pero siempre hay diferencias individuales Mientras que los procesoscomogrupovienencuantificadosconlosiacutendicesdetendenciacentral(mediamedianamodaetc)lasdiferenciasindividualesseveraacutenreflejadasenlosiacutendices de variabilidad Dicho con otras palabras estos iacutendices permitiraacuten saber cuaacutento se distan-cian los individuos del sujeto promedio En el ejemplo que se presenta se recogen las puntuaciones de cinco criminales obtenidas en egocentrismo ilimitado

X1 10 11 12 13 14

La media calculada es`X=12Sinembargolosregistrosmuestrandiferenciasentreellos por lo que cada uno se distancia de su media

Explorando los datos

43

10 ndash 12 = ndash2 11 ndash 12 = ndash1 12 ndash 12 = 0 13 ndash 12 = 1 y 14 ndash 12 = 2

Los resultados muestran alejamientos positivos y negativos (unos son maacutes ego-ceacutentricos y otros menos con respecto a la media de 12) con lo que se podriacutea plantear el caacutelculo del promedio de esas distancias como iacutendice de variabilidad En efecto esto es precisamente lo que hace el estadiacutestico desviacioacuten media

sum=

minusDM

(X X)nXi

1

Sufoacutermulaclaramentereflejacuaacutentosealejanenpromediolaspuntuacionesdesumedia Aplicaacutendola a los datos del ejemplo

sum=

minus=

minus + minus + + +=DM

(X X)n

( 2) ( 1) 0 1 25

0Xi

1

Habiendo constatado las diferencias individuales iquestcoacutemo es posible que el prome-dio de distancias sea igual a cero La razoacuten es muy sencilla las diferencias son unas positivas y otras negativas compensaacutendose las unas con las otras y siempre va a ocurrir que la suma de esas diferencias sea igual a 0 ya que son distancias a un punto central que es la media

Entonces si la desviacioacuten media siempre va a ser igual a cero hay que buscar otro iacutendice que siendo tan sencillo e informativo como este solvente el problema Una po-sibilidad seriacutea trabajar con las diferencias en valores absolutos pero estos resultan poco manejables matemaacuteticamente y por tanto poco convincentes

Otra opcioacuten es calcular las diferencias elevarlas al cuadrado y a partir de ahiacute obte-ner su promedio Un iacutendice de dispersioacuten computado asiacute se denomina varianza

sum=

minusS

(X X)nX

2 i2

Aplicaacutendolo a los datos

sum=

minus=

+ + + +=S

(X X )n

4 1 0 1 45

2X2 i 1

2

1

Una foacutermula maacutes raacutepida de obtener la varianza sobre todo cuando se manejan mu-chos datos es mediante la siguiente expresioacuten

Page 21: Herramientas estadísticas en criminología · 2019. 10. 10. · Herramientas estadísticas en criminología Concepción San Luis Costas Isabel Cañadas Osinski. Reservados todos

Herramientas estadiacutesticas en criminologiacutea

42

Los percentiles y los cuartiles permiten interpretar la situacioacuten de un sujeto en la distribucioacuten de la variable que se ha medido sin necesidad de conocer ni la puntuacioacuten directa ni el valor miacutenimo y maacuteximo de la distribucioacuten lo que resulta de gran utilidad

Por otro lado del cuadro 26 se desprende que la mediana se localiza en el percentil 50 y en el cuartil 2 siendo su valor igual a 12

En efecto en distribuciones simeacutetricas

Md = P50 = D5 = Q2

cuadro 26 Localizacioacuten de percentiles y cuartiles

Xi ni na pa Pk Qk

6 7 8 91011

12

13141516171819

8 4 8 5 710

9

11 9 7 8 4 4 6

8 12 20 25 32 42

51

62 71 78 86 90 94100

008012020025032042

051

062071078086090094100

P7P11P19P24P31P41

P50

P61P70P77P85P89P93P99

ndashndashndashndash

Q1ndash

Q2

ndashndash

Q3ndashndashndashndash

No todos somos iguales Bien es cierto que entre las personas existen ciertos com-portamientos similares pero siempre hay diferencias individuales Mientras que los procesoscomogrupovienencuantificadosconlosiacutendicesdetendenciacentral(mediamedianamodaetc)lasdiferenciasindividualesseveraacutenreflejadasenlosiacutendices de variabilidad Dicho con otras palabras estos iacutendices permitiraacuten saber cuaacutento se distan-cian los individuos del sujeto promedio En el ejemplo que se presenta se recogen las puntuaciones de cinco criminales obtenidas en egocentrismo ilimitado

X1 10 11 12 13 14

La media calculada es`X=12Sinembargolosregistrosmuestrandiferenciasentreellos por lo que cada uno se distancia de su media

Explorando los datos

43

10 ndash 12 = ndash2 11 ndash 12 = ndash1 12 ndash 12 = 0 13 ndash 12 = 1 y 14 ndash 12 = 2

Los resultados muestran alejamientos positivos y negativos (unos son maacutes ego-ceacutentricos y otros menos con respecto a la media de 12) con lo que se podriacutea plantear el caacutelculo del promedio de esas distancias como iacutendice de variabilidad En efecto esto es precisamente lo que hace el estadiacutestico desviacioacuten media

sum=

minusDM

(X X)nXi

1

Sufoacutermulaclaramentereflejacuaacutentosealejanenpromediolaspuntuacionesdesumedia Aplicaacutendola a los datos del ejemplo

sum=

minus=

minus + minus + + +=DM

(X X)n

( 2) ( 1) 0 1 25

0Xi

1

Habiendo constatado las diferencias individuales iquestcoacutemo es posible que el prome-dio de distancias sea igual a cero La razoacuten es muy sencilla las diferencias son unas positivas y otras negativas compensaacutendose las unas con las otras y siempre va a ocurrir que la suma de esas diferencias sea igual a 0 ya que son distancias a un punto central que es la media

Entonces si la desviacioacuten media siempre va a ser igual a cero hay que buscar otro iacutendice que siendo tan sencillo e informativo como este solvente el problema Una po-sibilidad seriacutea trabajar con las diferencias en valores absolutos pero estos resultan poco manejables matemaacuteticamente y por tanto poco convincentes

Otra opcioacuten es calcular las diferencias elevarlas al cuadrado y a partir de ahiacute obte-ner su promedio Un iacutendice de dispersioacuten computado asiacute se denomina varianza

sum=

minusS

(X X)nX

2 i2

Aplicaacutendolo a los datos

sum=

minus=

+ + + +=S

(X X )n

4 1 0 1 45

2X2 i 1

2

1

Una foacutermula maacutes raacutepida de obtener la varianza sobre todo cuando se manejan mu-chos datos es mediante la siguiente expresioacuten

Page 22: Herramientas estadísticas en criminología · 2019. 10. 10. · Herramientas estadísticas en criminología Concepción San Luis Costas Isabel Cañadas Osinski. Reservados todos

Explorando los datos

43

10 ndash 12 = ndash2 11 ndash 12 = ndash1 12 ndash 12 = 0 13 ndash 12 = 1 y 14 ndash 12 = 2

Los resultados muestran alejamientos positivos y negativos (unos son maacutes ego-ceacutentricos y otros menos con respecto a la media de 12) con lo que se podriacutea plantear el caacutelculo del promedio de esas distancias como iacutendice de variabilidad En efecto esto es precisamente lo que hace el estadiacutestico desviacioacuten media

sum=

minusDM

(X X)nXi

1

Sufoacutermulaclaramentereflejacuaacutentosealejanenpromediolaspuntuacionesdesumedia Aplicaacutendola a los datos del ejemplo

sum=

minus=

minus + minus + + +=DM

(X X)n

( 2) ( 1) 0 1 25

0Xi

1

Habiendo constatado las diferencias individuales iquestcoacutemo es posible que el prome-dio de distancias sea igual a cero La razoacuten es muy sencilla las diferencias son unas positivas y otras negativas compensaacutendose las unas con las otras y siempre va a ocurrir que la suma de esas diferencias sea igual a 0 ya que son distancias a un punto central que es la media

Entonces si la desviacioacuten media siempre va a ser igual a cero hay que buscar otro iacutendice que siendo tan sencillo e informativo como este solvente el problema Una po-sibilidad seriacutea trabajar con las diferencias en valores absolutos pero estos resultan poco manejables matemaacuteticamente y por tanto poco convincentes

Otra opcioacuten es calcular las diferencias elevarlas al cuadrado y a partir de ahiacute obte-ner su promedio Un iacutendice de dispersioacuten computado asiacute se denomina varianza

sum=

minusS

(X X)nX

2 i2

Aplicaacutendolo a los datos

sum=

minus=

+ + + +=S

(X X )n

4 1 0 1 45

2X2 i 1

2

1

Una foacutermula maacutes raacutepida de obtener la varianza sobre todo cuando se manejan mu-chos datos es mediante la siguiente expresioacuten