MÉTODOS ESTADÍSTICOS ROBUSTOS EN EL CONTEXTO DE

X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA

CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012

APLICACIONES DE CALIDAD

ALLASIA, MARÍA BELÉN 1, MÉNDEZ, FERNANDA2 y QUAGLINO, MARTA3

1 Instituto de Investigaciones Teóricas y Aplicadas en Estadística - Escuela de Estadística,

Facultad de Ciencias Económicas y Estadística, Universidad Nacional de Rosario

mballasia@gmail.com

nandixx@hotmail.com

mquaglino@fcecon.unr.edu.ar

RESUMEN

En este trabajo se presentan algunos enfoques de la teoría de estimación robusta, particu-

larmente en el área de actividades de mejora continua y productividad, espacio en el que son

potencialmente útiles. Se introducen conceptos claves: entorno de contaminación de un mode-

lo paramétrico, curva de sensibilidad, función de influencia; y varios números que se derivan:

sensibilidad a errores groseros, variancia asintótica, punto de ruptura. Se describen y compa-

ran algunos estimadores de posición clásicos y robustos, mediante simulación de diversos

escenarios teóricos y en una aplicación práctica del contexto de calidad. Además, se evalúan

las ventajas del uso de métodos robustos frente a alejamientos de los supuestos clásicos.

PALABRAS CLAVE: Métodos Robustos, Inferencia Estadística, Calidad.

1. INTRODUCCIÓN Todos los métodos estadísticos se basan en parte en las observaciones y, explícita o implí-

citamente, en una serie de supuestos sobre la situación subyacente.

Generalmente, esas suposiciones apuntan a la formalización de lo que el estadístico sabe o

conjetura sobre el análisis de datos o el problema de modelización con el que se enfrenta y, al

mismo tiempo, tienen como objetivo hacer manejable el modelo resultante desde el punto de

vista teórico y computacional. Sin embargo, es sabido que los modelos formales resultantes

son simplificaciones de la realidad y que su validez es, en el mejor de los casos, aproximada.

Incluso en los casos más simples, hay supuestos sobre el azar y la independencia, acerca de

la distribución de las observaciones o, quizás, sobre las distribuciones previas de algunos

parámetros desconocidos. Por ejemplo, es muy común suponer que los datos tienen distribu-

ción Normal.

El supuesto de normalidad de las observaciones ha estado presente en la estadística por dos

siglos, y ha sido el marco para los métodos clásicos de regresión, el análisis de la variancia y

el análisis multivariado. La principal razón por la que se asume dicha distribución para ajustar

conjuntos de datos es que, para muchas situaciones reales, ésta da una representación aproxi-

mada y, al mismo tiempo, es absolutamente conveniente teóricamente porque permite derivar

fórmulas explícitas para métodos estadísticos óptimos - máxima verosimilitud, test de razón

de verosimilitud, distribución muestral de estimadores (estadísticas �)-. Tales métodos se refe-

rencian como métodos estadísticos clásicos, y se basan en que “el supuesto de normalidad se

cumple exactamente”.

En la práctica, frecuentemente ocurre que, mientras que en el comportamiento del conjunto

de datos aparece “algo” normal, esto se sostiene sólo aproximadamente. La discrepancia prin-

cipal puede ser provocada por una pequeña proporción de observaciones que se alejan de la

concentración de los datos. Dichos datos atípicos se denominan outliers y pueden deberse a

distintas razones, como por ejemplo:

• errores en los instrumentos de medición,

• variación en las condiciones bajo las cuales se obtuvieron los datos,

• errores en la transmisión de datos o de transcripción.

Los procedimientos estándares, no siempre ofrecen una herramienta adecuada ya que los

mismos son óptimos sólo cuando los supuestos se cumplen exactamente e incluso una peque-

ña desviación en la distribución de los datos puede distorsionar las conclusiones obtenidas.

El enfoque de la estadística robusta propone el desarrollo de procedimientos que son muy

poco afectados por la presencia de observaciones que se alejan de la concentración de los da-

tos. Se emplean modelos paramétricos sobre los cuales se construyen procedimientos que no

dependen fundamentalmente de las hipótesis inherentes a ellos, es decir, emplea modelos pa-

ramétricos pero la inferencia es realizada para un entorno del modelo asumido. Este enfoque

tiene como objetivo derivar métodos que produzcan estimaciones de parámetros, tests e inter-

valos de confianza confiables no sólo cuando los datos siguen exactamente una distribución

dada, sino también cuando esto sucede sólo aproximadamente. En palabras de Hampel et al

(1986) "Estadística robusta, (…) es la estadística de los modelos aproximados":

Mientras que en el enfoque clásico se apunta al cálculo de estadísticas que tengan ciertas

propiedades deseables bajo un modelo completamente especificado, el objetivo de los méto-

dos robustos es, en términos generales, desarrollar estimaciones que tengan un “buen” com-

portamiento en un entorno de un modelo.

En la mayoría de las aplicaciones prácticas, sólo puede determinarse “aproximadamente”

la distribución subyacente de las observaciones. Una forma de determinar distribuciones

aproximadas es considerando entornos de contaminación de la función de distribución:

ℱ�� = �� ∈ ℱ � = 1 − � �� + ��, � ∈ �⁄ � ∈ �0,1�� (1) donde � es un conjunto de distribuciones conveniente, generalmente el conjunto de todas las

distribuciones.

La idea de robustez está asociada a “insensibilidad a pequeñas desviaciones de los supues-

tos”, pero garantizando la misma eficiencia de los métodos clásicos en el caso en que los

mismos se satisfagan en los datos. En este sentido, se supera a los métodos no paramétricos

que, si bien son muy flexibles, pueden perder mucha eficiencia si los datos no presentan pro-

blemas.

Los métodos estadísticos robustos tienen una larga historia que se remonta al menos hasta

el final del siglo XIX. El avance más importante en esta área se produjo en la década de 1960

y principios de 1970 con los trabajos fundamentales de John Tukey (1960; 1962), Peter Huber

(1964; 1967) y Frank Hampel (1971; 1974).

Este tema ha comenzado a tener algún impacto fuera del dominio de los especialistas en

robustez, y pareciera haber una creciente conciencia general de los peligros planteados por la

presencia de valores atípicos y de la falta de fiabilidad de las hipótesis de los modelos estadís-

ticos clásicos. Al mismo tiempo, los métodos de detección de outliers son actualmente abor-

dados en muchos libros de texto de estadística clásica e implementados en varios paquetes de

software estadístico. No obstante, los métodos robustos siguen siendo poco utilizados y des-

conocidos, incluso por la mayoría de los estadísticos aplicados, los analistas de datos, y los

científicos que podrían beneficiarse de su uso.

El presente trabajo está orientado hacia el avance en el estudio de los métodos estadísticos

robustos, potencialmente útiles en distintos escenarios de actividades de mejora continua.

Además, tiene entre sus objetivos, profundizar el estudio de propiedades de métodos estadísti-

cos de Control de Calidad On-Line y Off-Line, con el propósito de analizar su performance en

situaciones no convencionales como la no normalidad de los datos o la presencia de observa-

ciones atípicas, situaciones que surgen frecuentemente en el área de las aplicaciones industria-

2. METODOLOGÍA Algunos conceptos claves que caracterizan la robustez son:

- Curva de Sensibilidad -��-: mide el efecto de un sólo outlier en el estimador. Siendo ��

un estimador que se calcula a partir de las � observaciones muestrales, la variación que se

produce en el estimador al agregar una nueva observación �� resulta:

�� !�!, �", … , ��, �� − ��!, �", … , �� (2)

Si se divide por la proporción que representa �� en la muestra ampliada $ !� !%, se define la

curva de sensibilidad como:

�� = �� !�!, �", … , ��, �� − ��!, �", … , �� 1 � + 1 & (3)

- Función de Influencia -'�-: es la versión asintótica de su curva de sensibilidad. Es una

aproximación del comportamiento del valor asintótico del estimador (��∞) cuando la muestra

contiene una pequeña proporción � de outliers idénticos y se define como:

'��, (, � = lim�↓��∞ $1 − � � + �-./% − ��∞� � = 0 11� ��∞ $1 − � � + �-./%2�↓� (4)

donde -./ es la distribución que asigna probabilidad 1 al punto ��, “ ” significa “tiende al

límite por derecha” y la cantidad ��∞ $1 − � � + �-./% es el valor asintótico del estimador

cuando la distribución subyacente es � con una fracción � de outliers iguales a ��.

Una de las ventajas de esta medida es que calcula la variación relativa a la cantidad de con-

taminación y no depende de un conjunto de datos específico.

Existen también varios números que se derivan, tales como:

- Sensibilidad a errores groseros: mide la robustez local, es decir: si el estimador funciona

correctamente cuando existen observaciones atípicas y se calcula como el supremo de la fun-

ción de influencia en los valores de � en que está definida:

3∗ = 3∗(, � = sup. |'��, (, � | (5)

Entonces, 3∗ mide la peor influencia que una pequeña contaminación puede tener sobre el

valor asintótico del estimador.

- Punto de ruptura: mide cuál es la mayor proporción arbitraria de outliers que el estima-

dor tolera antes de "quebrarse" y volverse totalmente inestable.

Existen dos versiones de esta medida: una asintótica -definida por Hampel (1968), que mi-

de la robustez del estimador para muestras grandes- y otra para muestras finitas.

El punto de ruptura de contaminación asintótica del estimador �� en �, denotado por

�∗9��. �;, es el máximo �∗ ∈ 0,1 tal que para � < �∗, se tiene que ��∞91 − � � + ��; per-

manece acotado lejos de la frontera de para toda función �.

Siendo �� = ��= un estimador definido para la muestra = = ��!, �", … , ��. El punto de

ruptura para muestras finitas por reemplazo de �� en = es la mayor proporción ��∗ 9��, =; de

observaciones que pueden ser reemplazadas arbitrariamente por outliers sin que el estimador

salga de un conjunto acotado y alejado de la frontera de >.

- Sesgo Asintótico Máximo: estudia el peor comportamiento del estimador, para diferentes

contaminaciones que no lleguen a quebrar el estimador. El sesgo asintótico del estimador para

cualquier � ∈ ℱ��, fijado �, es ?�@�, � = ��∞� − � y el máximo sesgo asintótico se define

como: AB�@�, � = maxEF?�@�, � F ∶ � ∈ ℱ��H, que es función de la cantidad de contamina-

ción �, para � < �∗. 2.1. ESTIMADORES DE POSICIÓN

2.1.1. Media muestral Si en el modelo paramétrico de posición

�I = J + KI L = 1, … , � (6)

�!, �", … , �� ~IIN � OP� � ∈ QR = E�R �R� = �� − J ⁄ H (7)

se supone �� = S0, T" -con T" conocido-, y si se utiliza el método clásico de máxima vero-

similitud

J� = arg maxR X�!, �", … , ��; J = arg maxR Z [R�I �I\! (8)

se obtiene como estimador J� = !� ∑ �I = ��, la media muestral.

Este estimador es IMVU (insesgado de mínima variancia uniformemente) con

_�� = J ` abc�� = T"� dL � ∈ QR (9)

Sin embargo, en la mayoría de las aplicaciones prácticas a lo sumo puede asegurarse que

los errores de medición tienen distribución aproximadamente normal. Por lo tanto, interesa el

comportamiento del estimador �� bajo esta situación.

Una forma de determinar distribuciones aproximadamente normales es considerando en-

tornos de contaminación como los definidos en (1), considerando que las observaciones pro-

vienen de una distribución normal con probabilidad 1 − � , y de un mecanismo desconocido � con probabilidad �:

� = 1 − � �R + �� (10)

donde �R = SJ, T" y � puede ser cualquier distribución. Por ejemplo, si � es otra normal

con mayor variancia o media diferente, se dice que � es una mezcla de normales.

Si �R y � tienen densidades [R y e respectivamente, la densidad de � resulta:

[ = 1 − � [R + �e (11)

entonces

_f� = g �[� h� iji = g �k1 − � [R� + �e� lh� i

= 1 − � g �[R� h� iji + � g �e� h� i

= 1 − � _fm� + �_n�

Además, si _n� = _fm� = J, se tiene

abcf� = g � − J "[� h� ∞j∞ = g � − J "k1 − � [R� + �e� lh� ∞

= 1 − � g � − J "[R� h� ∞j∞ + � g � − J "e� h� ∞

= 1 − � abcfm� + �abcn� = 1 − � T" + �abcn� (13)

Considerando el cálculo del estimador media muestral en una muestra generada por (6),

donde las �I tengan distribución dada por (10) y la _n� = J. Luego,

abcf�� = abcf� � = 1 − � T" + �abcn� �

Esto refleja la extrema sensibilidad de � a una contaminación de tamaño �, ya que la mis-

ma puede producir un aumento de variancia ilimitado (abcn� puede ser ilimitada, incluso

infinita).

2.1.2. Mediana Muestral Considerando las observaciones muestrales ordenadas, �! ≤ �" ≤ ⋯ ≤ �� , la mediana

muestral �q está dada por:

�q� = r �s dL � td Luvbc�s + �s ! 2 dL � td vbc 0 (14)

donde x = y� !" z 1. Conceptualmente, la mediana es el valor de la variable que deja por debajo de sí al 50% de

las observaciones, es decir: Q� ≤ �q = ��q = 0.50. Por lo tanto, puede representarse me-

diante el funcional (� = �j!0.5 .

1Observación: �∙� es la función parte entera, es decir: el mayor entero menor o igual a ∙

2.1.3. Media Recortada Es un estimador de posición que consiste en eliminar una proporción de las menores y ma-

yores observaciones de la muestra. Sea } ∈ y00; !"%0 y u = �� − 1 }�, luego la media }-

recortada o podada se define como

�~ = 1� − 2u � �I �j�

I\� ! (15)

es decir, se descartan las primeras y las últimas u observaciones ordenadas de la muestra. En

los extremos, } = 0 y } → 0.5, este estimador coincide con la media y mediana respectiva-

mente.

Es importante destacar que la media podada es función de todas las observaciones (incluso

aquellas no incluidas en la suma) y que no se realizan elecciones subjetivas al descartar datos.

En consecuencia, las observaciones suprimidas no necesariamente son valores atípicos.

Si una variable aleatoria tiene distribución �, la media }-recortada se calcula

J~ = 11 − 2} g �h�f��!j~ f��~ = 11 − 2} g �[� h�f��!j~

f��~ (16)

y luego del cambio de variable � = �� , se puede expresar

J~ = (� = 11 − 2} g �j!� h�!j~~ (17)

2.1.4. M-Estimadores Considerando el modelo de posición (6) y asumiendo que �R -la función de distribución de

�I- tiene densidad [R = �R�, la función de verosimilitud resulta

X�!, �", … , ��; J = Z [R�I �I\! = Z [��I − J �

I\! (18)

donde [� es la función de densidad de las KI. El estimador máximo-verosímil _Aa de J es el valor que, dependiendo de la muestra,

maximiza (18):

J�� = J�!, �", … , �� = arg maxR X�!, �", … , ��; J (19)

Si [� es siempre positiva, puede tomarse el logaritmo, por lo que (19) es equivalente a:

J�� = arg maxR Z [��I − J �I\! = arg minR � log [��I − J �

I\! (20)

Considerando

� = − log [�K + log [�0 (21)

la ecuación a resolver sería:

J� = arg minR � ��I − J �I\! (22)

Si se conoce la distribución exacta, puede utilizarse el estimador de máxima verosimilitud,

el cual resulta “óptimo” en el sentido de que tiene variancia asintótica mínima entre una clase

de estimadores razonable. Como en general se conoce aproximadamente ��, el objetivo es

encontrar un estimador que sea “bueno” cuando la distribución sea exactamente �� y también

cuando esté en un entorno de la misma. Huber (1964) definió los M-estimadores para el mo-

delo de posición como

J� = arg minR � ��I − J �I\! (23)

donde la función � es elegida independientemente de [� y de tal manera que tenga las siguien-

tes propiedades:

1. � es derivable y se denomina � = �′. 2. � es una función par, o sea �K = �−K

3. �K es monótona no decreciente en |K|. 4. �0 = 0

Teniendo en cuenta la primera propiedad, el valor mínimo de �J = ∑ ��I − J �I\! en

(23) puede hallarse a través de sus puntos críticos (valores en los que la derivada es igual a

cero), es decir: J� es una de las raíces de

eJ = � ��I − J �I\! = 0 (24)

Por otra parte, como consecuencia de la segunda propiedad, � es impar.

Un M-estimador de posición puede ser visto como un promedio pesado. En la mayoría de

los casos de interés �0 = 0 y existe �′0 , por lo que � es aproximadamente lineal en el

origen. Sea

�� = �� ′0 dL � ≠ 0dL � = 00 (25)

Luego, la ecuación (24) puede ser escrita como:

� ��I − J �I\! = � ��I − J �I − J

�I\!

�I − J = � ��I − J �I\!

�I − J = 0 (26)

o, equivalentemente

J = ∑ �I�I�I\!∑ �I�I\! con �I = ��I − J (27)

lo cual expresa a la estimación como un promedio ponderado.

Como, en general, �� es una función no creciente en |�|, las observaciones periféricas

reciben pesos más pequeños. Cabe destacar que, aunque (27) pareciera ser una expresión

explícita para J, en realidad los pesos en el lado derecho también dependen de J.

Si la función � es diferenciable en todo punto y la función � es monótona, las ecuaciones

(23) y (24) son equivalentes -tienen solución única-, y aquellos estimadores que se definen

como solución de éstas son llamados M-estimadores monótonos. Por otra parte, si la función � no es monótona, algunas de las soluciones de (24) -habitualmente llamadas “soluciones

malas”- no se corresponden con el criterio de mínimo absoluto con el cual se define a los M-

estimadores, por lo que esta clase de estimadores se definen por (23) y son conocidos como

M-estimadores redescendientes.

Un tipo de funciones � y � con propiedades importantes es la familia de funciones de

Huber:

�s� = � �" 2x|�| − x"

dL |�| ≤ xdL |�| > x0 con derivada �s� � = 2�s� , donde �s� = � � dL |�| ≤ x

sgn� x dL |�| > x 0 Como puede verse en los gráficos 1 y 2, las funciones � de Huber son cuadráticas en la re-

gión central, pero sólo crecen linealmente hacia infinito. Además, en los casos límites: x → ∞

y x → 0, los M-estimadores definidos mediante dicha función coinciden con la media y me-

diana muestral respectivamente. Por otra parte, las funciones � de la familia de Huber son

monótonas, por lo que el estimador que se obtenga a partir de la misma tendrá solución única.

El valor de x se elige con el objeto de garantizar cierta variancia asintótica -o bien cierta

eficiencia asintótica- bajo la distribución normal. Un valor grande de x brinda un estimador

más eficiente pero menos robusto y se presenta la situación contraria cuando x es pequeño.

Gráfico 1. Función � de Huber x = 1.345

Gráfico 2.Función � de Huber x = 1.345

La función de pesos correspondiente a la � de Huber es

�s� = min �1, x|�|� Gráficamente, puede notarse que las observaciones reciben distintos pesos según su magni-

tud, de manera simétrica, con una cota superior en 1. A medida que éstas se alejan del valor

cero, reciben un peso inferior, lo cual refleja que los datos más extremos tienen menor in-

fluencia en la construcción del estimador de posición:

Gráfico 3.Función de peso �s� de Huber x = 1.345

En cuanto a los M-estimadores redescendientes, una de las opciones más utilizadas es la

familia de funciones bicuadrada, dada por:

�s� = �1 − �1 − $.s%"�� dL |�| ≤ x 1 dL |�| > x0 con derivada �s� � = 6 �s� x"⁄ donde �s� = � y1 − 9��;"z" '|�| ≤ x

En el Gráfico 5 puede apreciarse que la función � es diferenciable en todo punto y se des-

vanece fuera del intervalo �−x; x�, es decir toma el valor cero para cualquier |�| > x.

Gráfico 4. Función � para el estimador

bicuadradox = 4.68

Gráfico 5. Función � para el estimador

bicuadradox = 4.68

La función de peso (25) para esta familia es:

�s� = �1 − $.s%"�" '|�| ≤ x

Nuevamente, en la representación gráfica de la función de peso (Gráfico 6) se nota que las

observaciones reciben, simétricamente, menor peso a medida que se alejan de cero y, particu-

larmente, aquellas observaciones cuya magnitud supera -en valor absoluto- el valor x, reciben

peso nulo en la construcción del M-estimador bicuadrado.

Gráfico 6.Función de peso �s� para el estimador bicuadrado x = 4.68

Las funciones presentadas son las que se utilizan habitualmente en la práctica, pero existen

otras funciones alternativas tanto para calcular M-estimadores monótonos como redescen-

dientes.

3. RESULTADOS Y DISCUSIÓN

3.1. SIMULACIONES

Con el objetivo de comparar el comportamiento y las propiedades de los métodos de esti-

mación robustos con los clásicos, se estudian los estimadores definidos mediante simulación.

El proceso de simulación utilizado en este trabajo consiste en generar, mediante programa-

ción, conjuntos de valores aleatorios que respondan a un modelo teórico específico, contem-

plando diferentes escenarios: el cumplimiento exacto del supuesto de normalidad, la presencia

de outliers -de diferentes magnitudes-, la contaminación de la distribución (mezcla de norma-

les), y una distribución que presente asimetría (distribución gamma).

En todos los casos, se generan 500 muestras de tamaño 20. En cada una de ellas, se calcu-

lan los diferentes estimadores de posición de interés:

• Media Muestral • Media Recortada } = 0.10

• M-estimador de Huber x = 1.345

• Mediana Muestral • M-estimador Bicuadrado x = 4.68

3.1.1. Distribución Normal Estándar Se considera el cumplimiento exacto del supuesto de normalidad, para lo cual se simulan

500 muestras provenientes de una distribución normal estándar 9S0,1 ;. Los siguientes box-

plots reflejan la distribución en el muestreo de los cinco estimadores estudiados.

Tabla 1. Medidas resumen de estimadores

Promedio Desvío

Media 0.01574 0.2350775

Mediana 0.001697 0.2822037 Media Recortada

0.01373 0.2456638

M-estimador de Huber

0.01278 0.2456566

M-estimador Bicuadrado

0.01221 0.2491608

Gráfico 7. Box-plots - Comparación de

estimadores

Como puede notarse, y tal como era de esperarse en el escenario de cumplimiento exacto

del supuesto de normalidad, todos los estimadores calculados tienen un comportamiento simi-

lar. Esto muestra que se cumple con el objetivo planteado a la hora de definir conceptualmen-

te a los estimadores robustos, con respecto a que sean estimadores tan buenos como los clási-

cos en el caso que se cumplan los supuestos.

Tomando como base las muestras obtenidas bajo esta distribución se realiza un cambio

arbitrario de la última observación simulada con el objeto de convertirla en un outlier bajo la

distribución S0,1 . Se consideran dos situaciones: �� ,! = 10 y �� ," = 100, a fin de

mostrar cómo afecta a cada estimador el hecho de que la muestra presente observaciones

atípicas de distinta magnitud.

Las Tablas 3 y 4 presentan las medidas descriptivas calculadas sobre las 500 muestras

simuladas, estableciendo una observación atípica constante en cada una de ellas.

Tabla 2. Medidas resumen de estimadores �� ,! = 10

Promedio Desvío

Media 0.51567 0.2260781

Mediana 0.06712 0.2920125

Media Recortada

0.10027 0.2465544

0.10020 0.2482949

0.014581 0.2509013

estimadores �� ,! = 10

Tabla 3. Medidas resumen de estimadores �� ," = 100

Promedio Desvío

Media 5.016 0.2260781

0.10027 0.2465544

0.10020 0.2482949

0.016251 0.2509008

estimadores - �� ," = 100

Como puede notarse, al incluir outliers el estimador clásico -media muestral-, se ve afecta-

do en relación a la magnitud de la observación atípica, mientras que los estimadores robustos

proveen los mismos resultados en ambos escenarios (con excepción del M-estimador bicua-

drado que presenta una muy leve variación de valores en un escenario y otro). A partir de es-

tos resultados, se observa que los estimadores robustos considerados cumplen con la noción

de presentar “insensibilidad a pequeñas desviaciones de los supuestos”; concentrándose, en

este caso, en el comportamiento de la mayoría de las observaciones. Además, las distribucio-

nes de los estimadores calculados son aproximadamente simétricas.

3.1.2. Distribución Normal Contaminada – Mezcla de Normales Para formalizar la definición de distribución normal contaminada, la cual denominaremos �, se consideran tres variables aleatorias independientes: � con distribuciónΦ, a con distribu-

ción � y � con distribución Bernoulli -Bt� -. Sea la variable � definida de la siguiente ma-

� = � � dL � = 0 a dL � = 10 (28)

Por lo tanto, resulta: ��K = Q� ≤ K = Q� ≤ K, � = 0 + Q� ≤ K, � = 1 = Q� ≤ K � = 0⁄ Q� = 0 + Q� ≤ K � = 1⁄ Q� = 1 = 1 − � ΦK + ��K

Si � es pequeño significa que la mayoría de las observaciones se obtienen de la distribu-

ción Φ, es decir, serán normales. Entonces, si � ∈ ℱR�, significa que es aproximadamente

normal y se tiene que:

_fK = 1 − � _ΦK + �_nK (29)

En esta simulación, la distribución � que se considera es también normal, pero con pará-

metros diferentes de la normal estándar, consiguiendo lo que se conoce como: “mezcla de

normales”. Los parámetros de la distribución que contamina serán: _nK = 2 ` � nK =0.01.

En consecuencia, el valor esperado de esta distribución es: _fK = 0.80 ∙ 0 + 0.20 ∙ 2 = 0.40

Gráfico 10. Función de Densidad. Mezcla de Normales: 0.80S0,1 + 0.20S5,0.5 Tabla 4 presenta las medidas resumen para los estimadores calculados bajo la mezcla de

normales. Como podemos notar, los M-estimadores (de Huber y Bicuadrado) son los que

brindan, en promedio, el valor posición central que más se aproxima al valor esperado bajo la

distribución planteada. Si bien el estimador media muestral pareciera ser un poco más preciso

que los restantes, es decir: presenta menor dispersión, es menos exacto. Bajo este escenario, el

estimador menos recomendable sería la mediana muestral, debido a que resulta ser el estima-

dor más sesgado y menos preciso entre los cinco estudiados.

Promedio Desvío

Media 0.3866 0.2728296

0.4171 0.3085880

0.3915 0.3003123

0.3914 0.3003302

estimadores

3.1.3. Distribución Gamma La distribución Gamma es adecuada para modelar el comportamiento de variables aleato-

rias continuas con asimetría positiva, es decir, variables que presentan una mayor densidad de

sucesos a la izquierda de la media que a la derecha. La misma se caracteriza por dos paráme-

tros, siempre positivos, } y ¡ de los que depende su forma y escala respectivamente. Su fun-

ción de densidad es:

[� = r 1¡~Γ} tj.¢�~j! si � > 0 0 en otro caso

0 (30)

donde Γ es la función Gamma: Γ} = ¤ tj.�~j!i� h�.

Específicamente, en este escenario de simulación se han tomado para los parámetros de la

distribución los valores: } = 2 y ¡ = !", con los cuales se obtiene un caso particular de la dis-

tribución Gamma, la distribución Chi-cuadrado con un grado de libertad ¥!" . El valor espe-

rado bajo esta resulta entonces: _� = }¡ = 1

Promedio Desvío

Media 0.9986 0.1576495

Mediana 0.8571 0.1745566

Media Recortada

0.9227 0.1526526

0.9199 0.1556359

0.9198 0.1556376

estimadores

Como podemos observar a partir de los resultados de la simulación, el estimador que, en

promedio, más se acerca al valor esperado de la distribución es la media muestral. Cabe des-

tacar que al observar el rango de valores que toman las medias muestrales calculadas en cada

una de las 500 muestras, se refleja cierta asimetría hacia la derecha, por lo cual, notamos que

el estimador se ve afectado por la propia asimetría de la distribución teórica de la cual provie-

nen los datos. Entre los estimadores estudiados, la mediana muestral sería el menos recomen-

dable ya que no es insesgado y es el que presenta menor precisión. Y los restantes estimadores

proseen distribuciones muy similares, más simétricas que las de la mediana y la media mues-

trales y, en promedio, se acercan al valor esperado de la distribución chi-cuadrado.

3.2. EJEMPLO DE APLICACIÓN CON DATOS REALES

3.2.1. Descripción del conjunto de datos

Se cuenta con un conjunto de datos correspondientes a aplicaciones de calidad, de una em-

presa metalúrgica del Gran Rosario, con la cual la Facultad de Ciencias Económicas y Es-

tadística de la UNR estableció, durante el año 2006, un Convenio de Cooperación con el obje-

tivo de implementar procesos de mejora de calidad, basados en la incorporación de Métodos

Estadísticos Aplicados en la Industria.

Los datos que se analizan, se han obtenido en el marco del proyecto de investigación vin-

culado al tema: Métodos Estadísticos para el Control y la Mejora de la Calidad y de la Pro-

ductividad, desarrollado en el Instituto de Investigaciones Teóricas y Aplicadas de la Escuela

de Estadística (IITAE) de la Facultad de Ciencias Económicas y Estadística de la UNR. La

información corresponde a una empresa metalúrgica del Gran Rosario, con la cual la Facultad

estableció, durante el año 2006, un Convenio de Cooperación con el objetivo de implementar

procesos de mejora de calidad, basados en la incorporación de Métodos Estadísticos Aplica-

dos en la Industria.

Uno de los problemas planteados por la empresa fue la necesidad de obtener una estima-

ción precisa del tiempo de entrega de los pedidos que realizan los clientes, lo cual se abarcó a

través del estudio de tiempos insumidos por los múltiples subprocesos que constituyen la ela-

boración de las diferentes piezas.

Cada artículo requiere de distinto número y tipo de operaciones y, para elaborar cualquiera

de las piezas, las tareas necesarias combinan el uso automático de maquinarias y la interven-

ción de operarios especializados, por lo que ninguna es producto de un proceso completamen-

te automatizado. En consecuencia, en el proceso total intervienen varias tareas que dependen

del trabajo de un operario, de la disponibilidad de una máquina, de la disponibilidad del mate-

rial, entre otros factores; por lo que, la variabilidad a la que está sujeto el tiempo total de fa-

bricación, es mucha. Por tanto, surgió como prioridad el determinar una forma conveniente de

representar el tiempo de producción. En la base original se registraron los tiempos insumidos

en procesar cierta cantidad de piezas y se decidió transformar este dato a una medida compa-

rable: “tiempo para realizar el proceso por pieza”. Es decir, se trabajó con tiempos unitarios

invertidos en cada subproceso.

Si bien se cuenta con la información de varios artículos, en este trabajo se analizan los da-

tos referidos a sólo uno de ellos, llámese a este artículo “Pieza A”. Para esta pieza, los sub-

procesos que se realizan son seis:

• Corte

• Hidrocopiado

• Rebabado de la cabeza

• Forjado de la cabeza según plano, con logo del cliente.

• Rebabado en el streparava

• Laminado

Cabe destacar que durante el proceso de relevamiento de los datos se pusieron de manifies-

to varias imprecisiones con las que se registran los mismos, tales como el no registro de los

datos por parte de algunos operarios, la omisión de parte de la información (se encontraban

completas solo algunas de las columnas relevantes), la falta de claridad en el registro (letras y

números ilegibles), y la no aclaración de las unidades de medición (no se podía deducir si el

tiempo había sido registrado en horas o minutos). Esto motivó a la gerencia de la empresa a

iniciar una campaña de concientización acerca del valor que tiene la fidelidad del dato para

poder reflejar de manera real el funcionamiento de los procesos con el objetivo final de poder

plantear mejoras. Por otra parte, estas tareas serían de gran ayuda para lograr la política ini-

ciada por la gerencia de adherir a los criterios de calidad establecidos por Normas Estándares

de Calidad.

3.2.2. Análisis Descriptivo

A modo ilustrativo de utilización de los estimadores de posición estudiados, se analizan los

datos correspondientes a los subprocesos de corte con serrucho y de forjado de la cabeza. Se

cuenta con 78 observaciones completas en cuanto a cantidad de piezas y tiempos de trabajos,

correctamente registradas en el período estudiado.

Gráfico 13. Cantidad de minutos invertidos por

pieza en el subproceso de corte con serrucho.

Gráfico 14. Distribución de frecuencias de los mi-

nutos invertidos por pieza en el subproceso de corte

con serrucho.

Gráfico 15. Gráfico de Probabilidad Normal

Minutos invertidos por pieza en el subproceso de corte con serrucho.

Tal como puede observarse, este conjunto de datos no cumple con los supuestos necesarios

para un análisis estadístico clásico. Los gráficos anteriores revelan que la distribución de los

tiempos invertidos bajo el subproceso de corte por pieza, presentan asimetría hacia la derecha,

con lo que no podría suponerse que los mismos provienen de una distribución normal. Los

valores de los cuantiles de la distribución que se presentan en la Tabla 6, corroboran lo ante-

dicho y, particularmente en el box-plot modificado (Gráfico 13) se revela que existen dos va-

lores que son potenciales outliers.

Tabla 6. Cuantiles de la distribución de minutos insumidos por pieza en el subproceso de corte con serrucho

Min 25% 50% 75% Max 0.432690 0.752975 0.820480 1.000000 2.195120

La siguiente tabla muestra los estimadores de posición calculados y sus respectivos inter-

valos de confianza del 95%:

Tabla 7. Estimadores de posición

¦§ §¦§ ©ª«¬%¦

Media 0.8773883 0.0007791146 0.8218072 0.9329695

Media Recortada 0.8612152 0.06542544 0.8135772 0.9088531

M-estimador de Huber 0.85670341 0.02752016 0.8258072 0.8875996

M-estimador Bicuadrado 0.8493695 0.02158893 0.8220045 0.8767345

En cuanto a la estimación puntual del parámetro de posición, se revela la sensibilidad del

estimador clásico ante la presencia de valores extremos positivos. Como puede notarse, el

mismo da un valor de 0.8773883 minutos por pieza, el cual es superior a los valores obtenidos

para los restantes estimadores (incluso mayor que el límite superior del intervalo de confianza

del 95% del M-estimador bicuadrado). Por otra parte, la magnitud de los intervalos de con-

fianza de los M-estimadores es considerablemente menor, lo que demuestra que son estimado-

res más precisos en este escenario de producción industrial.

Al estudiar los minutos insumidos por pieza durante el subproceso de forjado de la cabeza

según plano con logo del cliente, nuevamente se revela que los tiempos no podrían ajustarse a

los supuestos clásicos. El rango de ésta es de 1.2619 minutos por pieza, mientras que el 50%

central se halla concentrado en un rango de sólo 0.09 minutos por pieza, lo cual evidencia

(Gráfico 16) la existencia de observaciones atípicas tanto a la derecha como a la izquierda de

la distribución. Particularmente se observa que existe un outlier hacia la derecha de la distri-

bución con una magnitud muy superior a los restantes, por lo cual se prevé que el estimador

clásico, afectado por esta observación, dará un valor superior a los restantes estimadores. El

histograma (Gráfico 17) permite apreciar cómo los frecuencias se concentran particularmente

sobre uno de los intervalos. Dadas estas características de la variable, y teniendo en cuenta el

Gráfico de Probabilidad Normal (Gráfico 18) se concluye que la misma no responde a los

supuestos de normalidad necesarios para un análisis clásico.

Gráfico 16. Cantidad de minutos invertidos por

pieza en el subproceso de forjado de la cabeza, según

plano, con logo del cliente.

Gráfico 17. Distribución de frecuencias de minu-

tos invertidos por pieza en el subproceso de forjado de

la cabeza, según plano, con logo del cliente.

Gráfico 18. Gráfico de Probabilidad Normal - Minutos invertidos por pieza en el subproceso de forjado de

la cabeza, según plano, con logo del cliente.

Tabla 8. Cuantiles de la distribución de minutos insumidos por pieza para el forjado de la cabeza según plano,

con logo del cliente

Min 25% 50% 75% Max 0.2381000 0.6402575 0.6796200 0.7306000 1.5000000

Al calcular los estimadores de posición y compararlos, se repiten las observaciones reali-

zadas para el subproceso estudiado previamente. El estimador media muestral se ve afectado

por la magnitud de las observaciones atípicas y el intervalo de confianza que se obtiene para

el mismo es más amplio que los intervalos de los restantes estimadores, en consecuencia, es

un estimador menos preciso.

Tabla 9. Estimadores de posición

¦§ §¦§ ©ª«¬%¦

Media 0.693095 0.0002415546 0.6621469 0.7240431

Media Recortada 0.6855369 0.02264365 0.6575114 0.7135624

M-estimador de Huber 0.6843667 0.004365593 0.6720612 0.6966723

M-estimador Bicuadrado 0.6848016 0.003324724 0.6740627 0.6955404

Las observaciones anteriores conducen a pensar que no sería adecuado llevar a cabo un

control estadístico de procesos basado en la media muestral como estimador de posición, ya

que la misma no resulta adecuada para describir la posición central de los datos en los escena-

rios estudiados. Se recomienda el uso de estimadores robustos que brindan una noción más

adecuada del comportamiento habitual de los tiempos insumidos por unidad en los distintos

subprocesos estudiados de elaboración de la pieza y se propone evaluar futuras observaciones

de productividad en una cartilla de control en la que los límites de alerta y acción sean deter-

minados según los cuantiles de una distribución normal que cuente con los parámetros estu-

diados para los M-estimadores.

4. CONCLUSIONES

Los diferentes escenarios simulados han permitido evaluar y comparar las propiedades de

los estimadores clásicos y robustos, evidenciando que los últimos cumplen con los objetivos a

partir de los cuales se han desarrollado. En el escenario de cumplimiento exacto del supuesto

de normalidad, se ha demostrado que todos los estimadores calculados tienen un comporta-

miento similar. Por lo tanto, queda en evidencia que el objetivo de que los estimadores robus-

tos sean tan buenos como los clásicos si se verifican los supuestos, se cumple. Por otra parte,

al incluir outliers en la muestra, se nota cómo el estimador clásico -media muestral-, se ve

afectado por observaciones atípicas, mientras que los estimadores robustos proveen resultados

similares sin verse perturbados por la presencia ni la magnitud de dichas observaciones. Estos

resultados, evidencian que se cumple con la noción de presentar “insensibilidad a pequeñas

desviaciones de los supuestos”; concentrándose, en este caso, en el comportamiento de la ma-

yoría de las observaciones.

En el escenario de mezcla de normales (distribución normal contaminada), los M-

estimadores son los que brindan, en promedio, el valor posición central más cercano al verda-

dero valor esperado bajo la distribución planteada. Y, en el caso de distribuciones asimétricas,

a partir de los resultados de la simulación de una distribución Chi-cuadrado, se observa que, si

bien en promedio el estimador que más se acerca al valor esperado de la distribución es la

media muestral, el mismo refleja cierta asimetría hacia la derecha, es decir: se ve afectado por

la propia asimetría de la distribución teórica de la cual provienen los datos. Además, bajo esta

distribución, la mediana muestral resulta el menos recomendable ya que no es insesgado y es

el que presenta menor precisión. Por otra parte los M-estimadores y la media recortada poseen

distribuciones muy similares, simétricas y que, en promedio, se acercan al verdadero valor

esperado de la distribución chi-cuadrado.

En el ejemplo de aplicación de calidad, se ha conseguido mostrar, a través del estudio de

dos subprocesos de producción de una pieza particular de una empresa metalúrgica del Gran

Rosario, que los resultados obtenidos en variables que reflejan el tiempo insumido por pieza

para su fabricación no suelen presentar un comportamiento que pueda adecuarse a los supues-

tos clásicos de normalidad y esto se refleja notablemente en el momento de calcular estimado-

res de posición si se desea evaluar la exactitud del proceso de producción. Como puede notar-

se, en el primero de los subprocesos estudiados, el estimador media muestral es aproximada-

mente igual al límite de alerta superior conseguido al calcular el intervalo de confianza del

95% a partir de los M-estimadores de Huber y Bicuadrado. Además, los intervalos consegui-

dos en ambos subprocesos para la media muestral son más amplios, por lo cual, si se realiza a

posteriori un estudio de control de calidad en el que se consideren dichos límites, se estaría

siendo mucho más liberal en cuanto a la precisión del método empleado, corriendo el riesgo

de no detectar observaciones que podrían estar sugiriendo algún tipo de evidencia de que el

proceso ha dejado de estar bajo control.

En estas situaciones, se recomienda el uso de estimadores robustos, ya que brindan una no-

ción más adecuada del comportamiento habitual de los tiempos insumidos por unidad en los

distintos subprocesos estudiados y se propone evaluar futuras observaciones de productividad

en una cartilla de control en la que los límites de alerta y acción sean determinados según los

cuantiles de una distribución normal que cuente con los parámetros estudiados para cualquiera

de los M-estimadores que se han propuesto.

5. REFERENCIAS

Alqallaf, F. K. (2002). Scalable robust covariance and correlation estimates for data

mining. Proceedings of the Seventh ACM SIGKDD International Conference on Knowledge

Discovery and Data Mining, (págs. 14-23). Edmonton,Alberta, Canada.

Cantoni, E. a. (2001). Robust inference for generalized linear models. Journal of the

American Statistical Association , 96, 1022–1030.

Castaño Vélez, E. (1987). Robustez Estadística. Lecturas de Economía (24), 85-99.

Foglia, V. (6 de Abril de 2008). Robustez. Recuperado el 10 de Agosto de 2011, de

http://ifoglia.com/otr/robustez.pdf

Hampel, F. (1971). A general definition of qualitative robustness. The Annals of

Mathematical Statistics , 42, 1887–1896.

Hampel, F. (1968). Contributions to the theory of robust estimation. PhD. Thesys,

University of California, Berkeley.

Hampel, F. R., Ronchetti, E. M., Rousseeuw, P. J., & Stahel, W. A. (1986). Robust

Statistics: The Approach Based on Influence Functions. New York: John Wiley & Sons.

Hampel, F. (1974). The influence curve and its role in robust estimation. The Annals of

Statistics , 69, 383–393.

Hastie, T. T. (2009). The Elements of Statistical Learning: Data Mining, Inference and

Prediction (Second ed.). New York: Springer-Verlag.

Huber, P. (1964). Robust estimation of a location parameter. The Annals of Mathematical

Statistics , 35, 73–101.

Huber, P. (1967). The behavior of maximum likelihood estimates under nonstandard

conditions. Proceedings of the Fifth Berkeley Symposium on Mathematics and Statistics

Probability. 1, págs. 221–233. University of California Press.

Huber, P., & Ronchetti, E. (2009). Robust Statistics (Second ed.). Hoboken, New Jersey:

John Wiley & Sons, Inc.

Jureckova, J., & Picek, J. (2006). Robust Statistical Methods with R. Boca Raton, Florida:

Chapman & Hall/CRC.

Maronna, R., & Yohai, V. (2008). Robust Low-Rank Approximation of Data Matrices

With Elementwise Contamination. Technometrics , 50, 295-304.

Maronna, R., & Zamar, R. (2002). Robust estimation of location and dispersion for high-

dimensional data sets. Technometrics , 44, 307–317.

Maronna, R., Martin, R., & Yohai, V. (2006). Robust Statistics: Theory and Methods.

Chichester, West Sussex, England: John Wiley and Sons, Ltd.

Martinez C., J. (1983). Estimadores de Escala: Estudio Comparativo. Revista Colombiana

de Estadística , 7, 17-38.

Montgomery, D. (2005). Introduction to Statistical Quality Control (Fifth ed.). John Wiley

& Sons, Inc.

Pizarro Quiroz, L. H. (2003). Estimación Robusta de Parámetros en Distribuciones con

Datos SAR. Universidad Técnica Federico Santa María, Departamento de Informática,

Valparaíso, Chile.

Prat Bartés, A., Tort Martorell Llabrés, X., Grima Cintas, P., & Pozueta Fernández, L.

(2000). Métodos estadísticos. Control y mejora de la calidad. México: Alfaomega Grupo

Editor.

R Development Core Team. (2011). R: A Language and Environment for Statistical

Computing. Obtenido de R Foundation for Statistical Computing: http://www.R-project.org

SAS Institute Inc. (2008). SAS/STAT® 9.2 User’s Guide. Cary, NC: SAS Institute Inc.

Tuckey, J. (1970). Exploratory Data Analysis. Mimeographed Preliminary Edition.

Tukey, J. (1960). A survey of sampling from contaminated distributions. En I. Olkin (Ed.),

Contributions to Probability and Statistics Essays in Honor of Harold Hotelling (págs. 448-

485). Stanford, CA: Stanford University Press.

Tukey, J. (1962). The future of data analysis. The Annals of Mathematical Statistics , 33,

1–67.

MÉTODOS ESTADÍSTICOS ROBUSTOS EN EL CONTEXTO DE

Documents

Métodos estadísticos multivariados para el análisis de

Métodos Estadísticos de Ventas Finanzas II

-Aplicación de métodos estadísticos multivariantes para

métodos estadísticos en investigación

MÉTODOS ESTADÍSTICOS PARA EVALUAR LA CAUSALIDAD EN

Métodos estadísticos aplicados a problemas ambientales

MÉTODOS NUMÉRICOS Y ESTADÍSTICOS DE …

Desarrollo de Métodos LC robustos: la combinación …©2015 Waters Corporation 2 " Desarrollo de Métodos LC robustos: la combinación óptima columna-plataforma instrumental HPLC/UHPLC/UPLC

Guía métodos estadísticos

ESPECIALIDAD EN MÉTODOS ESTADÍSTICOS FACULTAD DE

Métodos Estadísticos-Félix Míguez Marín [2012]

Seis Sigma Métodos Estadísticos y Sus Aplicaciones

Seis Sigma Métodos Estadísticos y Sus Aplicacionesbiblioteca.utec.edu.sv/siab/virtual/elibros_internet/55821.pdf · Seis Sigma Métodos Estadísticos y Sus Aplicaciones Seis Sigma

MÉTODOS ESTADÍSTICOS PARA EVALUAR LA CAUSALIDAD EN ... · MÉTODOS ESTADÍSTICOS PARA EVALUAR LA CAUSALIDAD EN ESTUDIOS OBSERVACIONALES Claudia Coscia Requena - 6 - Resumen Antecedentes:

Métodos Estadísticos - probabilidades

Métodos Estadísticos aplicados a las Ciencias Sociales

MÉTODOS ESTADÍSTICOS PARA LA INVESTIGACIÓN AGRONÓMICA

El Valor Objetivo en los métodos estadísticos de

TAV-02-Métodos Estadísticos .pptx

Medición y Métodos Estadísticos en Ciencias Sociales