View
1
Download
0
Category
Preview:
Citation preview
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
MÉTODOS ESTADÍSTICOS ROBUSTOS EN EL CONTEXTO DE
APLICACIONES DE CALIDAD
ALLASIA, MARÍA BELÉN 1, MÉNDEZ, FERNANDA2 y QUAGLINO, MARTA3
1 Instituto de Investigaciones Teóricas y Aplicadas en Estadística - Escuela de Estadística,
Facultad de Ciencias Económicas y Estadística, Universidad Nacional de Rosario
mballasia@gmail.com
2 Instituto de Investigaciones Teóricas y Aplicadas en Estadística - Escuela de Estadística,
Facultad de Ciencias Económicas y Estadística, Universidad Nacional de Rosario
nandixx@hotmail.com
3 Instituto de Investigaciones Teóricas y Aplicadas en Estadística - Escuela de Estadística,
Facultad de Ciencias Económicas y Estadística, Universidad Nacional de Rosario
mquaglino@fcecon.unr.edu.ar
RESUMEN
En este trabajo se presentan algunos enfoques de la teoría de estimación robusta, particu-
larmente en el área de actividades de mejora continua y productividad, espacio en el que son
potencialmente útiles. Se introducen conceptos claves: entorno de contaminación de un mode-
lo paramétrico, curva de sensibilidad, función de influencia; y varios números que se derivan:
sensibilidad a errores groseros, variancia asintótica, punto de ruptura. Se describen y compa-
ran algunos estimadores de posición clásicos y robustos, mediante simulación de diversos
escenarios teóricos y en una aplicación práctica del contexto de calidad. Además, se evalúan
las ventajas del uso de métodos robustos frente a alejamientos de los supuestos clásicos.
PALABRAS CLAVE: Métodos Robustos, Inferencia Estadística, Calidad.
1. INTRODUCCIÓN Todos los métodos estadísticos se basan en parte en las observaciones y, explícita o implí-
citamente, en una serie de supuestos sobre la situación subyacente.
Generalmente, esas suposiciones apuntan a la formalización de lo que el estadístico sabe o
conjetura sobre el análisis de datos o el problema de modelización con el que se enfrenta y, al
mismo tiempo, tienen como objetivo hacer manejable el modelo resultante desde el punto de
vista teórico y computacional. Sin embargo, es sabido que los modelos formales resultantes
son simplificaciones de la realidad y que su validez es, en el mejor de los casos, aproximada.
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
Incluso en los casos más simples, hay supuestos sobre el azar y la independencia, acerca de
la distribución de las observaciones o, quizás, sobre las distribuciones previas de algunos
parámetros desconocidos. Por ejemplo, es muy común suponer que los datos tienen distribu-
ción Normal.
El supuesto de normalidad de las observaciones ha estado presente en la estadística por dos
siglos, y ha sido el marco para los métodos clásicos de regresión, el análisis de la variancia y
el análisis multivariado. La principal razón por la que se asume dicha distribución para ajustar
conjuntos de datos es que, para muchas situaciones reales, ésta da una representación aproxi-
mada y, al mismo tiempo, es absolutamente conveniente teóricamente porque permite derivar
fórmulas explícitas para métodos estadísticos óptimos - máxima verosimilitud, test de razón
de verosimilitud, distribución muestral de estimadores (estadísticas �)-. Tales métodos se refe-
rencian como métodos estadísticos clásicos, y se basan en que “el supuesto de normalidad se
cumple exactamente”.
En la práctica, frecuentemente ocurre que, mientras que en el comportamiento del conjunto
de datos aparece “algo” normal, esto se sostiene sólo aproximadamente. La discrepancia prin-
cipal puede ser provocada por una pequeña proporción de observaciones que se alejan de la
concentración de los datos. Dichos datos atípicos se denominan outliers y pueden deberse a
distintas razones, como por ejemplo:
• errores en los instrumentos de medición,
• variación en las condiciones bajo las cuales se obtuvieron los datos,
• errores en la transmisión de datos o de transcripción.
Los procedimientos estándares, no siempre ofrecen una herramienta adecuada ya que los
mismos son óptimos sólo cuando los supuestos se cumplen exactamente e incluso una peque-
ña desviación en la distribución de los datos puede distorsionar las conclusiones obtenidas.
El enfoque de la estadística robusta propone el desarrollo de procedimientos que son muy
poco afectados por la presencia de observaciones que se alejan de la concentración de los da-
tos. Se emplean modelos paramétricos sobre los cuales se construyen procedimientos que no
dependen fundamentalmente de las hipótesis inherentes a ellos, es decir, emplea modelos pa-
ramétricos pero la inferencia es realizada para un entorno del modelo asumido. Este enfoque
tiene como objetivo derivar métodos que produzcan estimaciones de parámetros, tests e inter-
valos de confianza confiables no sólo cuando los datos siguen exactamente una distribución
dada, sino también cuando esto sucede sólo aproximadamente. En palabras de Hampel et al
(1986) "Estadística robusta, (…) es la estadística de los modelos aproximados":
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
Mientras que en el enfoque clásico se apunta al cálculo de estadísticas que tengan ciertas
propiedades deseables bajo un modelo completamente especificado, el objetivo de los méto-
dos robustos es, en términos generales, desarrollar estimaciones que tengan un “buen” com-
portamiento en un entorno de un modelo.
En la mayoría de las aplicaciones prácticas, sólo puede determinarse “aproximadamente”
la distribución subyacente de las observaciones. Una forma de determinar distribuciones
aproximadas es considerando entornos de contaminación de la función de distribución:
ℱ�� = �� ∈ ℱ � = 1 − � �� + ��, � ∈ �⁄ � ∈ �0,1�� (1) donde � es un conjunto de distribuciones conveniente, generalmente el conjunto de todas las
distribuciones.
La idea de robustez está asociada a “insensibilidad a pequeñas desviaciones de los supues-
tos”, pero garantizando la misma eficiencia de los métodos clásicos en el caso en que los
mismos se satisfagan en los datos. En este sentido, se supera a los métodos no paramétricos
que, si bien son muy flexibles, pueden perder mucha eficiencia si los datos no presentan pro-
blemas.
Los métodos estadísticos robustos tienen una larga historia que se remonta al menos hasta
el final del siglo XIX. El avance más importante en esta área se produjo en la década de 1960
y principios de 1970 con los trabajos fundamentales de John Tukey (1960; 1962), Peter Huber
(1964; 1967) y Frank Hampel (1971; 1974).
Este tema ha comenzado a tener algún impacto fuera del dominio de los especialistas en
robustez, y pareciera haber una creciente conciencia general de los peligros planteados por la
presencia de valores atípicos y de la falta de fiabilidad de las hipótesis de los modelos estadís-
ticos clásicos. Al mismo tiempo, los métodos de detección de outliers son actualmente abor-
dados en muchos libros de texto de estadística clásica e implementados en varios paquetes de
software estadístico. No obstante, los métodos robustos siguen siendo poco utilizados y des-
conocidos, incluso por la mayoría de los estadísticos aplicados, los analistas de datos, y los
científicos que podrían beneficiarse de su uso.
El presente trabajo está orientado hacia el avance en el estudio de los métodos estadísticos
robustos, potencialmente útiles en distintos escenarios de actividades de mejora continua.
Además, tiene entre sus objetivos, profundizar el estudio de propiedades de métodos estadísti-
cos de Control de Calidad On-Line y Off-Line, con el propósito de analizar su performance en
situaciones no convencionales como la no normalidad de los datos o la presencia de observa-
ciones atípicas, situaciones que surgen frecuentemente en el área de las aplicaciones industria-
les.
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
2. METODOLOGÍA Algunos conceptos claves que caracterizan la robustez son:
- Curva de Sensibilidad -��-: mide el efecto de un sólo outlier en el estimador. Siendo ���
un estimador que se calcula a partir de las � observaciones muestrales, la variación que se
produce en el estimador al agregar una nueva observación �� resulta:
��� !�!, �", … , ��, �� − ����!, �", … , �� (2)
Si se divide por la proporción que representa �� en la muestra ampliada $ !� !%, se define la
curva de sensibilidad como:
����� = ��� !�!, �", … , ��, �� − ����!, �", … , �� 1 � + 1 & (3)
- Función de Influencia -'�-: es la versión asintótica de su curva de sensibilidad. Es una
aproximación del comportamiento del valor asintótico del estimador (��∞) cuando la muestra
contiene una pequeña proporción � de outliers idénticos y se define como:
'���, (, � = lim�↓���∞ $1 − � � + �-./% − ��∞� � = 0 11� ��∞ $1 − � � + �-./%2�↓� (4)
donde -./ es la distribución que asigna probabilidad 1 al punto ��, “ ” significa “tiende al
límite por derecha” y la cantidad ��∞ $1 − � � + �-./% es el valor asintótico del estimador
cuando la distribución subyacente es � con una fracción � de outliers iguales a ��.
Una de las ventajas de esta medida es que calcula la variación relativa a la cantidad de con-
taminación y no depende de un conjunto de datos específico.
Existen también varios números que se derivan, tales como:
- Sensibilidad a errores groseros: mide la robustez local, es decir: si el estimador funciona
correctamente cuando existen observaciones atípicas y se calcula como el supremo de la fun-
ción de influencia en los valores de � en que está definida:
3∗ = 3∗(, � = sup. |'��, (, � | (5)
Entonces, 3∗ mide la peor influencia que una pequeña contaminación puede tener sobre el
valor asintótico del estimador.
- Punto de ruptura: mide cuál es la mayor proporción arbitraria de outliers que el estima-
dor tolera antes de "quebrarse" y volverse totalmente inestable.
Existen dos versiones de esta medida: una asintótica -definida por Hampel (1968), que mi-
de la robustez del estimador para muestras grandes- y otra para muestras finitas.
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
El punto de ruptura de contaminación asintótica del estimador �� en �, denotado por
�∗9��. �;, es el máximo �∗ ∈ 0,1 tal que para � < �∗, se tiene que ��∞91 − � � + ��; per-
manece acotado lejos de la frontera de para toda función �.
Siendo ��� = ���= un estimador definido para la muestra = = ��!, �", … , ���. El punto de
ruptura para muestras finitas por reemplazo de ��� en = es la mayor proporción ��∗ 9���, =; de
observaciones que pueden ser reemplazadas arbitrariamente por outliers sin que el estimador
salga de un conjunto acotado y alejado de la frontera de >.
- Sesgo Asintótico Máximo: estudia el peor comportamiento del estimador, para diferentes
contaminaciones que no lleguen a quebrar el estimador. El sesgo asintótico del estimador para
cualquier � ∈ ℱ��, fijado �, es ?�@�, � = ��∞� − � y el máximo sesgo asintótico se define
como: AB�@�, � = maxEF?�@�, � F ∶ � ∈ ℱ��H, que es función de la cantidad de contamina-
ción �, para � < �∗. 2.1. ESTIMADORES DE POSICIÓN
2.1.1. Media muestral Si en el modelo paramétrico de posición
�I = J + KI L = 1, … , � (6)
�!, �", … , �� ~IIN � OP� � ∈ QR = E�R �R� = ��� − J ⁄ H (7)
se supone �� = S0, T" -con T" conocido-, y si se utiliza el método clásico de máxima vero-
similitud
J� = arg maxR X�!, �", … , ��; J = arg maxR Z [R�I �I\! (8)
se obtiene como estimador J� = !� ∑ �I = ��, la media muestral.
Este estimador es IMVU (insesgado de mínima variancia uniformemente) con
_�� = J ` abc�� = T"� dL � ∈ QR (9)
Sin embargo, en la mayoría de las aplicaciones prácticas a lo sumo puede asegurarse que
los errores de medición tienen distribución aproximadamente normal. Por lo tanto, interesa el
comportamiento del estimador �� bajo esta situación.
Una forma de determinar distribuciones aproximadamente normales es considerando en-
tornos de contaminación como los definidos en (1), considerando que las observaciones pro-
vienen de una distribución normal con probabilidad 1 − � , y de un mecanismo desconocido � con probabilidad �:
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
� = 1 − � �R + �� (10)
donde �R = SJ, T" y � puede ser cualquier distribución. Por ejemplo, si � es otra normal
con mayor variancia o media diferente, se dice que � es una mezcla de normales.
Si �R y � tienen densidades [R y e respectivamente, la densidad de � resulta:
[ = 1 − � [R + �e (11)
entonces
_f� = g �[� h� iji = g �k1 − � [R� + �e� lh� i
ji
= 1 − � g �[R� h� iji + � g �e� h� i
ji
= 1 − � _fm� + �_n�
(12)
Además, si _n� = _fm� = J, se tiene
abcf� = g � − J "[� h� ∞j∞ = g � − J "k1 − � [R� + �e� lh� ∞
j∞
= 1 − � g � − J "[R� h� ∞j∞ + � g � − J "e� h� ∞
j∞
= 1 − � abcfm� + �abcn� = 1 − � T" + �abcn� (13)
Considerando el cálculo del estimador media muestral en una muestra generada por (6),
donde las �I tengan distribución dada por (10) y la _n� = J. Luego,
abcf�� = abcf� � = 1 − � T" + �abcn� �
Esto refleja la extrema sensibilidad de � a una contaminación de tamaño �, ya que la mis-
ma puede producir un aumento de variancia ilimitado (abcn� puede ser ilimitada, incluso
infinita).
2.1.2. Mediana Muestral Considerando las observaciones muestrales ordenadas, �! ≤ �" ≤ ⋯ ≤ �� , la mediana
muestral �q está dada por:
�q� = r �s dL � td Luvbc�s + �s ! 2 dL � td vbc 0 (14)
donde x = y� !" z 1. Conceptualmente, la mediana es el valor de la variable que deja por debajo de sí al 50% de
las observaciones, es decir: Q� ≤ �q = ��q = 0.50. Por lo tanto, puede representarse me-
diante el funcional (� = �j!0.5 .
1Observación: �∙� es la función parte entera, es decir: el mayor entero menor o igual a ∙
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
2.1.3. Media Recortada Es un estimador de posición que consiste en eliminar una proporción de las menores y ma-
yores observaciones de la muestra. Sea } ∈ y00; !"%0 y u = �� − 1 }�, luego la media }-
recortada o podada se define como
�~ = 1� − 2u � �I �j�
I\� ! (15)
es decir, se descartan las primeras y las últimas u observaciones ordenadas de la muestra. En
los extremos, } = 0 y } → 0.5, este estimador coincide con la media y mediana respectiva-
mente.
Es importante destacar que la media podada es función de todas las observaciones (incluso
aquellas no incluidas en la suma) y que no se realizan elecciones subjetivas al descartar datos.
En consecuencia, las observaciones suprimidas no necesariamente son valores atípicos.
Si una variable aleatoria tiene distribución �, la media }-recortada se calcula
J~ = 11 − 2} g �h�f��!j~ f��~ = 11 − 2} g �[� h�f��!j~
f��~ (16)
y luego del cambio de variable � = �� , se puede expresar
J~ = (� = 11 − 2} g �j!� h�!j~~ (17)
2.1.4. M-Estimadores Considerando el modelo de posición (6) y asumiendo que �R -la función de distribución de
�I- tiene densidad [R = �R�, la función de verosimilitud resulta
X�!, �", … , ��; J = Z [R�I �I\! = Z [��I − J �
I\! (18)
donde [� es la función de densidad de las KI. El estimador máximo-verosímil _Aa de J es el valor que, dependiendo de la muestra,
maximiza (18):
J�� = J�!, �", … , �� = arg maxR X�!, �", … , ��; J (19)
Si [� es siempre positiva, puede tomarse el logaritmo, por lo que (19) es equivalente a:
J�� = arg maxR Z [��I − J �I\! = arg minR � log [��I − J �
I\! (20)
Considerando
� = − log [�K + log [�0 (21)
la ecuación a resolver sería:
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
J� = arg minR � ��I − J �I\! (22)
Si se conoce la distribución exacta, puede utilizarse el estimador de máxima verosimilitud,
el cual resulta “óptimo” en el sentido de que tiene variancia asintótica mínima entre una clase
de estimadores razonable. Como en general se conoce aproximadamente ��, el objetivo es
encontrar un estimador que sea “bueno” cuando la distribución sea exactamente �� y también
cuando esté en un entorno de la misma. Huber (1964) definió los M-estimadores para el mo-
delo de posición como
J� = arg minR � ��I − J �I\! (23)
donde la función � es elegida independientemente de [� y de tal manera que tenga las siguien-
tes propiedades:
1. � es derivable y se denomina � = �′. 2. � es una función par, o sea �K = �−K
3. �K es monótona no decreciente en |K|. 4. �0 = 0
Teniendo en cuenta la primera propiedad, el valor mínimo de �J = ∑ ��I − J �I\! en
(23) puede hallarse a través de sus puntos críticos (valores en los que la derivada es igual a
cero), es decir: J� es una de las raíces de
eJ = � ��I − J �I\! = 0 (24)
Por otra parte, como consecuencia de la segunda propiedad, � es impar.
Un M-estimador de posición puede ser visto como un promedio pesado. En la mayoría de
los casos de interés �0 = 0 y existe �′0 , por lo que � es aproximadamente lineal en el
origen. Sea
�� = ��� ��′0 dL � ≠ 0dL � = 00 (25)
Luego, la ecuación (24) puede ser escrita como:
� ��I − J �I\! = � ��I − J �I − J
�I\!
�I − J = � ��I − J �I\!
�I − J = 0 (26)
o, equivalentemente
J = ∑ �I�I�I\!∑ �I�I\! con �I = ��I − J (27)
lo cual expresa a la estimación como un promedio ponderado.
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
Como, en general, �� es una función no creciente en |�|, las observaciones periféricas
reciben pesos más pequeños. Cabe destacar que, aunque (27) pareciera ser una expresión
explícita para J, en realidad los pesos en el lado derecho también dependen de J.
Si la función � es diferenciable en todo punto y la función � es monótona, las ecuaciones
(23) y (24) son equivalentes -tienen solución única-, y aquellos estimadores que se definen
como solución de éstas son llamados M-estimadores monótonos. Por otra parte, si la función � no es monótona, algunas de las soluciones de (24) -habitualmente llamadas “soluciones
malas”- no se corresponden con el criterio de mínimo absoluto con el cual se define a los M-
estimadores, por lo que esta clase de estimadores se definen por (23) y son conocidos como
M-estimadores redescendientes.
Un tipo de funciones � y � con propiedades importantes es la familia de funciones de
Huber:
�s� = � �" 2x|�| − x"
dL |�| ≤ xdL |�| > x0 con derivada �s� � = 2�s� , donde �s� = � � dL |�| ≤ x
sgn� x dL |�| > x 0 Como puede verse en los gráficos 1 y 2, las funciones � de Huber son cuadráticas en la re-
gión central, pero sólo crecen linealmente hacia infinito. Además, en los casos límites: x → ∞
y x → 0, los M-estimadores definidos mediante dicha función coinciden con la media y me-
diana muestral respectivamente. Por otra parte, las funciones � de la familia de Huber son
monótonas, por lo que el estimador que se obtenga a partir de la misma tendrá solución única.
El valor de x se elige con el objeto de garantizar cierta variancia asintótica -o bien cierta
eficiencia asintótica- bajo la distribución normal. Un valor grande de x brinda un estimador
más eficiente pero menos robusto y se presenta la situación contraria cuando x es pequeño.
Gráfico 1. Función � de Huber x = 1.345
Gráfico 2.Función � de Huber x = 1.345
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
La función de pesos correspondiente a la � de Huber es
�s� = min �1, x|�|� Gráficamente, puede notarse que las observaciones reciben distintos pesos según su magni-
tud, de manera simétrica, con una cota superior en 1. A medida que éstas se alejan del valor
cero, reciben un peso inferior, lo cual refleja que los datos más extremos tienen menor in-
fluencia en la construcción del estimador de posición:
Gráfico 3.Función de peso �s� de Huber x = 1.345
En cuanto a los M-estimadores redescendientes, una de las opciones más utilizadas es la
familia de funciones bicuadrada, dada por:
�s� = �1 − �1 − $.s%"�� dL |�| ≤ x 1 dL |�| > x0 con derivada �s� � = 6 �s� x"⁄ donde �s� = � y1 − 9��;"z" '|�| ≤ x
En el Gráfico 5 puede apreciarse que la función � es diferenciable en todo punto y se des-
vanece fuera del intervalo �−x; x�, es decir toma el valor cero para cualquier |�| > x.
Gráfico 4. Función � para el estimador
bicuadradox = 4.68
Gráfico 5. Función � para el estimador
bicuadradox = 4.68
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
La función de peso (25) para esta familia es:
�s� = �1 − $.s%"�" '|�| ≤ x
Nuevamente, en la representación gráfica de la función de peso (Gráfico 6) se nota que las
observaciones reciben, simétricamente, menor peso a medida que se alejan de cero y, particu-
larmente, aquellas observaciones cuya magnitud supera -en valor absoluto- el valor x, reciben
peso nulo en la construcción del M-estimador bicuadrado.
Gráfico 6.Función de peso �s� para el estimador bicuadrado x = 4.68
Las funciones presentadas son las que se utilizan habitualmente en la práctica, pero existen
otras funciones alternativas tanto para calcular M-estimadores monótonos como redescen-
dientes.
3. RESULTADOS Y DISCUSIÓN
3.1. SIMULACIONES
Con el objetivo de comparar el comportamiento y las propiedades de los métodos de esti-
mación robustos con los clásicos, se estudian los estimadores definidos mediante simulación.
El proceso de simulación utilizado en este trabajo consiste en generar, mediante programa-
ción, conjuntos de valores aleatorios que respondan a un modelo teórico específico, contem-
plando diferentes escenarios: el cumplimiento exacto del supuesto de normalidad, la presencia
de outliers -de diferentes magnitudes-, la contaminación de la distribución (mezcla de norma-
les), y una distribución que presente asimetría (distribución gamma).
En todos los casos, se generan 500 muestras de tamaño 20. En cada una de ellas, se calcu-
lan los diferentes estimadores de posición de interés:
• Media Muestral • Media Recortada } = 0.10
• M-estimador de Huber x = 1.345
• Mediana Muestral • M-estimador Bicuadrado x = 4.68
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
3.1.1. Distribución Normal Estándar Se considera el cumplimiento exacto del supuesto de normalidad, para lo cual se simulan
500 muestras provenientes de una distribución normal estándar 9S0,1 ;. Los siguientes box-
plots reflejan la distribución en el muestreo de los cinco estimadores estudiados.
Tabla 1. Medidas resumen de estimadores
Promedio Desvío
Media 0.01574 0.2350775
Mediana 0.001697 0.2822037 Media Recortada
0.01373 0.2456638
M-estimador de Huber
0.01278 0.2456566
M-estimador Bicuadrado
0.01221 0.2491608
Gráfico 7. Box-plots - Comparación de
estimadores
Como puede notarse, y tal como era de esperarse en el escenario de cumplimiento exacto
del supuesto de normalidad, todos los estimadores calculados tienen un comportamiento simi-
lar. Esto muestra que se cumple con el objetivo planteado a la hora de definir conceptualmen-
te a los estimadores robustos, con respecto a que sean estimadores tan buenos como los clási-
cos en el caso que se cumplan los supuestos.
Tomando como base las muestras obtenidas bajo esta distribución se realiza un cambio
arbitrario de la última observación simulada con el objeto de convertirla en un outlier bajo la
distribución S0,1 . Se consideran dos situaciones: �� ,! = 10 y �� ," = 100, a fin de
mostrar cómo afecta a cada estimador el hecho de que la muestra presente observaciones
atípicas de distinta magnitud.
Las Tablas 3 y 4 presentan las medidas descriptivas calculadas sobre las 500 muestras
simuladas, estableciendo una observación atípica constante en cada una de ellas.
Tabla 2. Medidas resumen de estimadores �� ,! = 10
Promedio Desvío
Media 0.51567 0.2260781
Mediana 0.06712 0.2920125
Media Recortada
0.10027 0.2465544
M-estimador de Huber
0.10020 0.2482949
M-estimador Bicuadrado
0.014581 0.2509013
Gráfico 8. Box-plots - Comparación de
estimadores �� ,! = 10
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
Tabla 3. Medidas resumen de estimadores �� ," = 100
Promedio Desvío
Media 5.016 0.2260781
Mediana 0.06712 0.2920125 Media Recortada
0.10027 0.2465544
M-estimador de Huber
0.10020 0.2482949
M-estimador Bicuadrado
0.016251 0.2509008
Gráfico 9. Box-plots - Comparación de
estimadores - �� ," = 100
Como puede notarse, al incluir outliers el estimador clásico -media muestral-, se ve afecta-
do en relación a la magnitud de la observación atípica, mientras que los estimadores robustos
proveen los mismos resultados en ambos escenarios (con excepción del M-estimador bicua-
drado que presenta una muy leve variación de valores en un escenario y otro). A partir de es-
tos resultados, se observa que los estimadores robustos considerados cumplen con la noción
de presentar “insensibilidad a pequeñas desviaciones de los supuestos”; concentrándose, en
este caso, en el comportamiento de la mayoría de las observaciones. Además, las distribucio-
nes de los estimadores calculados son aproximadamente simétricas.
3.1.2. Distribución Normal Contaminada – Mezcla de Normales Para formalizar la definición de distribución normal contaminada, la cual denominaremos �, se consideran tres variables aleatorias independientes: � con distribuciónΦ, a con distribu-
ción � y � con distribución Bernoulli -Bt� -. Sea la variable � definida de la siguiente ma-
nera
� = � � dL � = 0 a dL � = 10 (28)
Por lo tanto, resulta: ��K = Q� ≤ K = Q� ≤ K, � = 0 + Q� ≤ K, � = 1 = Q� ≤ K � = 0⁄ Q� = 0 + Q� ≤ K � = 1⁄ Q� = 1 = 1 − � ΦK + ��K
Si � es pequeño significa que la mayoría de las observaciones se obtienen de la distribu-
ción Φ, es decir, serán normales. Entonces, si � ∈ ℱR�, significa que es aproximadamente
normal y se tiene que:
_fK = 1 − � _ΦK + �_nK (29)
En esta simulación, la distribución � que se considera es también normal, pero con pará-
metros diferentes de la normal estándar, consiguiendo lo que se conoce como: “mezcla de
normales”. Los parámetros de la distribución que contamina serán: _nK = 2 ` � nK =0.01.
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
En consecuencia, el valor esperado de esta distribución es: _fK = 0.80 ∙ 0 + 0.20 ∙ 2 = 0.40
Gráfico 10. Función de Densidad. Mezcla de Normales: 0.80S0,1 + 0.20S5,0.5 Tabla 4 presenta las medidas resumen para los estimadores calculados bajo la mezcla de
normales. Como podemos notar, los M-estimadores (de Huber y Bicuadrado) son los que
brindan, en promedio, el valor posición central que más se aproxima al valor esperado bajo la
distribución planteada. Si bien el estimador media muestral pareciera ser un poco más preciso
que los restantes, es decir: presenta menor dispersión, es menos exacto. Bajo este escenario, el
estimador menos recomendable sería la mediana muestral, debido a que resulta ser el estima-
dor más sesgado y menos preciso entre los cinco estudiados.
Tabla 4. Medidas resumen de estimadores
Promedio Desvío
Media 0.3866 0.2728296
Mediana 0.33119 0.3708316 Media Recortada
0.4171 0.3085880
M-estimador de Huber
0.3915 0.3003123
M-estimador Bicuadrado
0.3914 0.3003302
Gráfico 11. Box-plots - Comparación de
estimadores
3.1.3. Distribución Gamma La distribución Gamma es adecuada para modelar el comportamiento de variables aleato-
rias continuas con asimetría positiva, es decir, variables que presentan una mayor densidad de
sucesos a la izquierda de la media que a la derecha. La misma se caracteriza por dos paráme-
tros, siempre positivos, } y ¡ de los que depende su forma y escala respectivamente. Su fun-
ción de densidad es:
[� = r 1¡~Γ} tj.¢�~j! si � > 0 0 en otro caso
0 (30)
donde Γ es la función Gamma: Γ} = ¤ tj.�~j!i� h�.
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
Específicamente, en este escenario de simulación se han tomado para los parámetros de la
distribución los valores: } = 2 y ¡ = !", con los cuales se obtiene un caso particular de la dis-
tribución Gamma, la distribución Chi-cuadrado con un grado de libertad ¥!" . El valor espe-
rado bajo esta resulta entonces: _� = }¡ = 1
Tabla 5. Medidas resumen de estimadores
Promedio Desvío
Media 0.9986 0.1576495
Mediana 0.8571 0.1745566
Media Recortada
0.9227 0.1526526
M-estimador de Huber
0.9199 0.1556359
M-estimador Bicuadrado
0.9198 0.1556376
Gráfico 12. Box-plots - Comparación de
estimadores
Como podemos observar a partir de los resultados de la simulación, el estimador que, en
promedio, más se acerca al valor esperado de la distribución es la media muestral. Cabe des-
tacar que al observar el rango de valores que toman las medias muestrales calculadas en cada
una de las 500 muestras, se refleja cierta asimetría hacia la derecha, por lo cual, notamos que
el estimador se ve afectado por la propia asimetría de la distribución teórica de la cual provie-
nen los datos. Entre los estimadores estudiados, la mediana muestral sería el menos recomen-
dable ya que no es insesgado y es el que presenta menor precisión. Y los restantes estimadores
proseen distribuciones muy similares, más simétricas que las de la mediana y la media mues-
trales y, en promedio, se acercan al valor esperado de la distribución chi-cuadrado.
3.2. EJEMPLO DE APLICACIÓN CON DATOS REALES
3.2.1. Descripción del conjunto de datos
Se cuenta con un conjunto de datos correspondientes a aplicaciones de calidad, de una em-
presa metalúrgica del Gran Rosario, con la cual la Facultad de Ciencias Económicas y Es-
tadística de la UNR estableció, durante el año 2006, un Convenio de Cooperación con el obje-
tivo de implementar procesos de mejora de calidad, basados en la incorporación de Métodos
Estadísticos Aplicados en la Industria.
Los datos que se analizan, se han obtenido en el marco del proyecto de investigación vin-
culado al tema: Métodos Estadísticos para el Control y la Mejora de la Calidad y de la Pro-
ductividad, desarrollado en el Instituto de Investigaciones Teóricas y Aplicadas de la Escuela
de Estadística (IITAE) de la Facultad de Ciencias Económicas y Estadística de la UNR. La
información corresponde a una empresa metalúrgica del Gran Rosario, con la cual la Facultad
estableció, durante el año 2006, un Convenio de Cooperación con el objetivo de implementar
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
procesos de mejora de calidad, basados en la incorporación de Métodos Estadísticos Aplica-
dos en la Industria.
Uno de los problemas planteados por la empresa fue la necesidad de obtener una estima-
ción precisa del tiempo de entrega de los pedidos que realizan los clientes, lo cual se abarcó a
través del estudio de tiempos insumidos por los múltiples subprocesos que constituyen la ela-
boración de las diferentes piezas.
Cada artículo requiere de distinto número y tipo de operaciones y, para elaborar cualquiera
de las piezas, las tareas necesarias combinan el uso automático de maquinarias y la interven-
ción de operarios especializados, por lo que ninguna es producto de un proceso completamen-
te automatizado. En consecuencia, en el proceso total intervienen varias tareas que dependen
del trabajo de un operario, de la disponibilidad de una máquina, de la disponibilidad del mate-
rial, entre otros factores; por lo que, la variabilidad a la que está sujeto el tiempo total de fa-
bricación, es mucha. Por tanto, surgió como prioridad el determinar una forma conveniente de
representar el tiempo de producción. En la base original se registraron los tiempos insumidos
en procesar cierta cantidad de piezas y se decidió transformar este dato a una medida compa-
rable: “tiempo para realizar el proceso por pieza”. Es decir, se trabajó con tiempos unitarios
invertidos en cada subproceso.
Si bien se cuenta con la información de varios artículos, en este trabajo se analizan los da-
tos referidos a sólo uno de ellos, llámese a este artículo “Pieza A”. Para esta pieza, los sub-
procesos que se realizan son seis:
• Corte
• Hidrocopiado
• Rebabado de la cabeza
• Forjado de la cabeza según plano, con logo del cliente.
• Rebabado en el streparava
• Laminado
Cabe destacar que durante el proceso de relevamiento de los datos se pusieron de manifies-
to varias imprecisiones con las que se registran los mismos, tales como el no registro de los
datos por parte de algunos operarios, la omisión de parte de la información (se encontraban
completas solo algunas de las columnas relevantes), la falta de claridad en el registro (letras y
números ilegibles), y la no aclaración de las unidades de medición (no se podía deducir si el
tiempo había sido registrado en horas o minutos). Esto motivó a la gerencia de la empresa a
iniciar una campaña de concientización acerca del valor que tiene la fidelidad del dato para
poder reflejar de manera real el funcionamiento de los procesos con el objetivo final de poder
plantear mejoras. Por otra parte, estas tareas serían de gran ayuda para lograr la política ini-
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
ciada por la gerencia de adherir a los criterios de calidad establecidos por Normas Estándares
de Calidad.
3.2.2. Análisis Descriptivo
A modo ilustrativo de utilización de los estimadores de posición estudiados, se analizan los
datos correspondientes a los subprocesos de corte con serrucho y de forjado de la cabeza. Se
cuenta con 78 observaciones completas en cuanto a cantidad de piezas y tiempos de trabajos,
correctamente registradas en el período estudiado.
Gráfico 13. Cantidad de minutos invertidos por
pieza en el subproceso de corte con serrucho.
Gráfico 14. Distribución de frecuencias de los mi-
nutos invertidos por pieza en el subproceso de corte
con serrucho.
Gráfico 15. Gráfico de Probabilidad Normal
Minutos invertidos por pieza en el subproceso de corte con serrucho.
Tal como puede observarse, este conjunto de datos no cumple con los supuestos necesarios
para un análisis estadístico clásico. Los gráficos anteriores revelan que la distribución de los
tiempos invertidos bajo el subproceso de corte por pieza, presentan asimetría hacia la derecha,
con lo que no podría suponerse que los mismos provienen de una distribución normal. Los
valores de los cuantiles de la distribución que se presentan en la Tabla 6, corroboran lo ante-
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
dicho y, particularmente en el box-plot modificado (Gráfico 13) se revela que existen dos va-
lores que son potenciales outliers.
Tabla 6. Cuantiles de la distribución de minutos insumidos por pieza en el subproceso de corte con serrucho
Min 25% 50% 75% Max 0.432690 0.752975 0.820480 1.000000 2.195120
La siguiente tabla muestra los estimadores de posición calculados y sus respectivos inter-
valos de confianza del 95%:
Tabla 7. Estimadores de posición
¦§ §¦§ ©ª«¬%¦
Media 0.8773883 0.0007791146 0.8218072 0.9329695
Media Recortada 0.8612152 0.06542544 0.8135772 0.9088531
M-estimador de Huber 0.85670341 0.02752016 0.8258072 0.8875996
M-estimador Bicuadrado 0.8493695 0.02158893 0.8220045 0.8767345
En cuanto a la estimación puntual del parámetro de posición, se revela la sensibilidad del
estimador clásico ante la presencia de valores extremos positivos. Como puede notarse, el
mismo da un valor de 0.8773883 minutos por pieza, el cual es superior a los valores obtenidos
para los restantes estimadores (incluso mayor que el límite superior del intervalo de confianza
del 95% del M-estimador bicuadrado). Por otra parte, la magnitud de los intervalos de con-
fianza de los M-estimadores es considerablemente menor, lo que demuestra que son estimado-
res más precisos en este escenario de producción industrial.
Al estudiar los minutos insumidos por pieza durante el subproceso de forjado de la cabeza
según plano con logo del cliente, nuevamente se revela que los tiempos no podrían ajustarse a
los supuestos clásicos. El rango de ésta es de 1.2619 minutos por pieza, mientras que el 50%
central se halla concentrado en un rango de sólo 0.09 minutos por pieza, lo cual evidencia
(Gráfico 16) la existencia de observaciones atípicas tanto a la derecha como a la izquierda de
la distribución. Particularmente se observa que existe un outlier hacia la derecha de la distri-
bución con una magnitud muy superior a los restantes, por lo cual se prevé que el estimador
clásico, afectado por esta observación, dará un valor superior a los restantes estimadores. El
histograma (Gráfico 17) permite apreciar cómo los frecuencias se concentran particularmente
sobre uno de los intervalos. Dadas estas características de la variable, y teniendo en cuenta el
Gráfico de Probabilidad Normal (Gráfico 18) se concluye que la misma no responde a los
supuestos de normalidad necesarios para un análisis clásico.
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
Gráfico 16. Cantidad de minutos invertidos por
pieza en el subproceso de forjado de la cabeza, según
plano, con logo del cliente.
Gráfico 17. Distribución de frecuencias de minu-
tos invertidos por pieza en el subproceso de forjado de
la cabeza, según plano, con logo del cliente.
Gráfico 18. Gráfico de Probabilidad Normal - Minutos invertidos por pieza en el subproceso de forjado de
la cabeza, según plano, con logo del cliente.
Tabla 8. Cuantiles de la distribución de minutos insumidos por pieza para el forjado de la cabeza según plano,
con logo del cliente
Min 25% 50% 75% Max 0.2381000 0.6402575 0.6796200 0.7306000 1.5000000
Al calcular los estimadores de posición y compararlos, se repiten las observaciones reali-
zadas para el subproceso estudiado previamente. El estimador media muestral se ve afectado
por la magnitud de las observaciones atípicas y el intervalo de confianza que se obtiene para
el mismo es más amplio que los intervalos de los restantes estimadores, en consecuencia, es
un estimador menos preciso.
Tabla 9. Estimadores de posición
¦§ §¦§ ©ª«¬%¦
Media 0.693095 0.0002415546 0.6621469 0.7240431
Media Recortada 0.6855369 0.02264365 0.6575114 0.7135624
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
M-estimador de Huber 0.6843667 0.004365593 0.6720612 0.6966723
M-estimador Bicuadrado 0.6848016 0.003324724 0.6740627 0.6955404
Las observaciones anteriores conducen a pensar que no sería adecuado llevar a cabo un
control estadístico de procesos basado en la media muestral como estimador de posición, ya
que la misma no resulta adecuada para describir la posición central de los datos en los escena-
rios estudiados. Se recomienda el uso de estimadores robustos que brindan una noción más
adecuada del comportamiento habitual de los tiempos insumidos por unidad en los distintos
subprocesos estudiados de elaboración de la pieza y se propone evaluar futuras observaciones
de productividad en una cartilla de control en la que los límites de alerta y acción sean deter-
minados según los cuantiles de una distribución normal que cuente con los parámetros estu-
diados para los M-estimadores.
4. CONCLUSIONES
Los diferentes escenarios simulados han permitido evaluar y comparar las propiedades de
los estimadores clásicos y robustos, evidenciando que los últimos cumplen con los objetivos a
partir de los cuales se han desarrollado. En el escenario de cumplimiento exacto del supuesto
de normalidad, se ha demostrado que todos los estimadores calculados tienen un comporta-
miento similar. Por lo tanto, queda en evidencia que el objetivo de que los estimadores robus-
tos sean tan buenos como los clásicos si se verifican los supuestos, se cumple. Por otra parte,
al incluir outliers en la muestra, se nota cómo el estimador clásico -media muestral-, se ve
afectado por observaciones atípicas, mientras que los estimadores robustos proveen resultados
similares sin verse perturbados por la presencia ni la magnitud de dichas observaciones. Estos
resultados, evidencian que se cumple con la noción de presentar “insensibilidad a pequeñas
desviaciones de los supuestos”; concentrándose, en este caso, en el comportamiento de la ma-
yoría de las observaciones.
En el escenario de mezcla de normales (distribución normal contaminada), los M-
estimadores son los que brindan, en promedio, el valor posición central más cercano al verda-
dero valor esperado bajo la distribución planteada. Y, en el caso de distribuciones asimétricas,
a partir de los resultados de la simulación de una distribución Chi-cuadrado, se observa que, si
bien en promedio el estimador que más se acerca al valor esperado de la distribución es la
media muestral, el mismo refleja cierta asimetría hacia la derecha, es decir: se ve afectado por
la propia asimetría de la distribución teórica de la cual provienen los datos. Además, bajo esta
distribución, la mediana muestral resulta el menos recomendable ya que no es insesgado y es
el que presenta menor precisión. Por otra parte los M-estimadores y la media recortada poseen
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
distribuciones muy similares, simétricas y que, en promedio, se acercan al verdadero valor
esperado de la distribución chi-cuadrado.
En el ejemplo de aplicación de calidad, se ha conseguido mostrar, a través del estudio de
dos subprocesos de producción de una pieza particular de una empresa metalúrgica del Gran
Rosario, que los resultados obtenidos en variables que reflejan el tiempo insumido por pieza
para su fabricación no suelen presentar un comportamiento que pueda adecuarse a los supues-
tos clásicos de normalidad y esto se refleja notablemente en el momento de calcular estimado-
res de posición si se desea evaluar la exactitud del proceso de producción. Como puede notar-
se, en el primero de los subprocesos estudiados, el estimador media muestral es aproximada-
mente igual al límite de alerta superior conseguido al calcular el intervalo de confianza del
95% a partir de los M-estimadores de Huber y Bicuadrado. Además, los intervalos consegui-
dos en ambos subprocesos para la media muestral son más amplios, por lo cual, si se realiza a
posteriori un estudio de control de calidad en el que se consideren dichos límites, se estaría
siendo mucho más liberal en cuanto a la precisión del método empleado, corriendo el riesgo
de no detectar observaciones que podrían estar sugiriendo algún tipo de evidencia de que el
proceso ha dejado de estar bajo control.
En estas situaciones, se recomienda el uso de estimadores robustos, ya que brindan una no-
ción más adecuada del comportamiento habitual de los tiempos insumidos por unidad en los
distintos subprocesos estudiados y se propone evaluar futuras observaciones de productividad
en una cartilla de control en la que los límites de alerta y acción sean determinados según los
cuantiles de una distribución normal que cuente con los parámetros estudiados para cualquiera
de los M-estimadores que se han propuesto.
5. REFERENCIAS
Alqallaf, F. K. (2002). Scalable robust covariance and correlation estimates for data
mining. Proceedings of the Seventh ACM SIGKDD International Conference on Knowledge
Discovery and Data Mining, (págs. 14-23). Edmonton,Alberta, Canada.
Cantoni, E. a. (2001). Robust inference for generalized linear models. Journal of the
American Statistical Association , 96, 1022–1030.
Castaño Vélez, E. (1987). Robustez Estadística. Lecturas de Economía (24), 85-99.
Foglia, V. (6 de Abril de 2008). Robustez. Recuperado el 10 de Agosto de 2011, de
http://ifoglia.com/otr/robustez.pdf
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
Hampel, F. (1971). A general definition of qualitative robustness. The Annals of
Mathematical Statistics , 42, 1887–1896.
Hampel, F. (1968). Contributions to the theory of robust estimation. PhD. Thesys,
University of California, Berkeley.
Hampel, F. R., Ronchetti, E. M., Rousseeuw, P. J., & Stahel, W. A. (1986). Robust
Statistics: The Approach Based on Influence Functions. New York: John Wiley & Sons.
Hampel, F. (1974). The influence curve and its role in robust estimation. The Annals of
Statistics , 69, 383–393.
Hastie, T. T. (2009). The Elements of Statistical Learning: Data Mining, Inference and
Prediction (Second ed.). New York: Springer-Verlag.
Huber, P. (1964). Robust estimation of a location parameter. The Annals of Mathematical
Statistics , 35, 73–101.
Huber, P. (1967). The behavior of maximum likelihood estimates under nonstandard
conditions. Proceedings of the Fifth Berkeley Symposium on Mathematics and Statistics
Probability. 1, págs. 221–233. University of California Press.
Huber, P., & Ronchetti, E. (2009). Robust Statistics (Second ed.). Hoboken, New Jersey:
John Wiley & Sons, Inc.
Jureckova, J., & Picek, J. (2006). Robust Statistical Methods with R. Boca Raton, Florida:
Chapman & Hall/CRC.
Maronna, R., & Yohai, V. (2008). Robust Low-Rank Approximation of Data Matrices
With Elementwise Contamination. Technometrics , 50, 295-304.
Maronna, R., & Zamar, R. (2002). Robust estimation of location and dispersion for high-
dimensional data sets. Technometrics , 44, 307–317.
Maronna, R., Martin, R., & Yohai, V. (2006). Robust Statistics: Theory and Methods.
Chichester, West Sussex, England: John Wiley and Sons, Ltd.
Martinez C., J. (1983). Estimadores de Escala: Estudio Comparativo. Revista Colombiana
de Estadística , 7, 17-38.
Montgomery, D. (2005). Introduction to Statistical Quality Control (Fifth ed.). John Wiley
& Sons, Inc.
Pizarro Quiroz, L. H. (2003). Estimación Robusta de Parámetros en Distribuciones con
Datos SAR. Universidad Técnica Federico Santa María, Departamento de Informática,
Valparaíso, Chile.
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
Prat Bartés, A., Tort Martorell Llabrés, X., Grima Cintas, P., & Pozueta Fernández, L.
(2000). Métodos estadísticos. Control y mejora de la calidad. México: Alfaomega Grupo
Editor.
R Development Core Team. (2011). R: A Language and Environment for Statistical
Computing. Obtenido de R Foundation for Statistical Computing: http://www.R-project.org
SAS Institute Inc. (2008). SAS/STAT® 9.2 User’s Guide. Cary, NC: SAS Institute Inc.
Tuckey, J. (1970). Exploratory Data Analysis. Mimeographed Preliminary Edition.
Tukey, J. (1960). A survey of sampling from contaminated distributions. En I. Olkin (Ed.),
Contributions to Probability and Statistics Essays in Honor of Harold Hotelling (págs. 448-
485). Stanford, CA: Stanford University Press.
Tukey, J. (1962). The future of data analysis. The Annals of Mathematical Statistics , 33,
1–67.
Recommended