Tamaño de muestra revisado

Por Ing. M. Sc. Francisco Martínez Solaris

Mgs. En Educación Superior

Octubre 2013

Tamaño de Muestra

Por Ing. M.Sc. Francisco Martínez Solaris

1. Introducción

Cuando se habla de diseños de investigación se mencionan una serie de éstos como

observacionales, descriptivos, transversales, longitudinales, cuasiexperimentales,

experimentales, etc. Todo lo anterior se puede resumir en dos tipos de diseños de

investigación: Diseños no Experimentales y Diseños Experimentales.

Los diseños no experimentales se dan cuando no existe una manipulación intencionada por

parte del investigador de las variables independientes, es decir, que el investigador solo

toma la información sin afectar el comportamiento de la población. En estos estudios la

información se puede hacer de dos formas los cuales son a través de un censo o bien a

través de muestreo.

Se entiende por censo a la enumeración de todas las unidades de análisis que conforman la

población que es objeto de estudio y éste se puede hacer siempre y cuando la verificación

de la información no perjudique o deteriore la unidad de análisis.

En el caso de que sea por muestreo puede ser de dos tipos: Muestreo Arbitrario o No

Probabilístico y por Muestreo Aleatorio o Muestreo Probabilístico.

Cuando los estudios se realizan usando muestreos probabilísticos una de las primeras

interrogantes que hay que responder es ¿cuál es el tamaño de muestra que se tiene que

tomar?

Es por esta razón que el presente documento pretende orientar al investigador, si este es el

caso, qué muestreo utilizar y cómo determinar el tamaño de muestra en cada caso, para ello

se hace una revisión de los principales muestreos probabilísticos como son el Muestreo

Aleatorio Simple, Muestreo Aleatorio Proporcional y el Muestreo Aleatorio Estratificado,

base esencial para cualquier muestreo probabilístico.

2. Fuente Teórica Documental

Para la realización del presente documento se han revisado obras como Elementary Survey

Sampling de Mendenhall et al (1971), Mendenhall y Scheaffer (1973), Mendenhall y

Reinmuth (1978), Rendón (1992), Córdoba (2000), Martínez (2005) entre otros, más la

experiencia del autor como profesor en diferentes ramas de la estadística en distintas

universidades bolivianas.

Para la derivación de las ecuaciones de tamaño de muestra se tomó en cuenta tanto las

distribuciones probabilística de variables aleatorias como las describen, entre otros, Infante

y Zárate (2000) y Walpole et al (1998), como también estimación interválica (1-α)*100

como la describen ampliamente los autores antes mencionado.

3. Resultados y Discusión

Si se toma en cuenta que el diseño de investigación es la estrategia que el investigador

adopta para tomar la información de las variables que se han derivado de la hipótesis de



Octubre 2013

investigación, esta información se puede obtener de uno de dos escenarios, en la población

que es objeto de estudio o bien en una parte de ella que se llama muestra, entendiéndose

ésta última como un subconjunto de la población que se supone la representa.

En el primer caso, cuando se estudia toda la población, se dice que se utiliza censo

entendiéndose éste como la enumeración total de las unidades de análisis que conforman la

población objeto de estudio. Esto no siempre se puede hacer ya sea porque los recursos

tantos económicos, de tiempo y otros son limitantes, pero principalmente no se puede hacer

cuando la verificación de la información conlleva a un deterioro de la unidad de análisis. Es

en estos casos, entre otros, que el uso del muestreo es imprescindible.

Por muestreo se entiende al proceso a través del cual se deduce un tamaño de muestra de la

población que es objeto de estudio, esta deducción se puede hacer de dos maneras: de

forma arbitraria o no aleatoria conocido también como muestreo de expertos y de forma

aleatoria o muestreo probabilístico, es decir, aquel que utiliza el azar, entendiendo por azar

la misma probabilidad que tienen las unidades de análisis que conforman a la población

objeto de estudio (las que cumple con los criterios de inclusión del estudio llamado por

algunos autores como Rendón (1992) marco de muestreo), de ser parte de la muestra.

Indistintamente del muestreo que se utilice, éstos se hacen con el propósito de estimar el

comportamiento de los parámetros en la población, característica propia de una población

que sirve para describirla, por medio de la información que proporcionan los estadísticos o

estadígrafos determinados en la muestra, de aquí que se cuestiona cuánto debe ser el

tamaño de muestra que permita que se pueda estimar un parámetro con la información del

estadístico determinado en la muestra.

La Figura 1 resume los dos escenarios antes expuestos donde se puede tomar la

información. La población (censo) o bien la muestra (censo).

La pregunta obligada es la siguiente, ¿cuál muestreo utilizar?, el no probabilístico o el

probabilístico. Esta es

una decisión que el

investigador debe

tomar y con ello las

consecuencias de la

misma, por ejemplo,

cuando se utiliza un

muestreo no

probabilístico se dice

que los estudios

tienen poca o nula

validez externa, en el

sentido que no se usó

el azar para

seleccionar las

unidades de análisis que conformarán la muestra ya que el uso del azar permite establecer

una estructura probabilística y además, permite la significancia de ciertas pruebas

estadísticas y por otro lado, permite aproximarse más al parámetro que se desea estimar. De

hecho lo recomendable es usar un muestreo probabilístico pero no siempre se puede lograr

principalmente en aquellos casos donde las unidades de análisis puedan verse en

situaciones delicadas o censuradas por la sociedad, en estos casos de hecho que el muestreo

no probabilístico es el indicado, reduciéndose las investigaciones a estudios de casos.



Octubre 2013

Dejando establecido que el más indicado, si se puede, es el muestreo probabilístico, a

continuación se desarrollan los tres principales muestreos probabilístico que vienen a ser las

bases para cualquier muestreo probabilístico.

3.1. Muestreo Aleatorio Simple (MAS)

Este muestreo consiste en revisar una a una las unidades de análisis del marco de muestreo

de la población que es objeto de estudio (entiéndase como marco de muestreo parte de la

población que cumple con las exigencias del estudio), esto lo convierte en un esquema de

muestreo sin reemplazo y que es utilizado para variables cuantitativas en poblaciones

homogéneas. Se usa para estimar totales pero comúnmente para estimar promedio o

medias.

Cuando se habla de poblaciones homogéneas se refiere aquellas unidades de análisis que

cumplen el mismo criterio de homogeneidad impuesto por el investigador, por ejemplo:

procedencia, profesión, carrera que estudia, etc.

Para determinar la ecuación del tamaño de muestra en este esquema de muestreo se parte de

la ecuación de intervalo de confianza (1-α)*100 para estimar “µ”. Para estimar a “µ” se

parte de su estimador muestral que la media aritmética ( la cual cumple con los cuatros

criterios de un buen estimador y como consecuencia del teorema del Límite Central, se

tienen la siguiente expresión para estimar a “µ”:

⌈

√

√ ⌉ ( ; donde:

= promedio muestral de la variable estudiada

= Valor de la normal estándar que deja un área a la derecha y a la izquierda igual a α/2

√ = Desviación típica del promedio muestral

µ = Promedio poblacional

( = Confiabilidad

En la Figura 2 se muestra la lógica

de la estimación, en este caso para

“µ”.

Como se observa, la distancia que

separa al parámetro del estadístico

tanto por la izquierda como por la

derecha, es equidistante de “µ” por

la simetría de la normal estándar, es

√ , la cual está identificada

como “Precisión” en la Figura 2.

Por precisión, Rendón (1992) la define como la máxima distancia que separa el estimador

del parámetro por ambos lados de la curva. Otros autores como Córdoba (2000) le

denominan Máximo Error de Estimación (E). Es por ello que la expresión (1 – α)*100 tiene

dos interpretaciones:

La confiabilidad de encontrar al parámetro dentro del intervalo estimado

Figura 2 Intervalo de confianza para “µ”



Octubre 2013

La probabilidad de que el estadístico o estimador no se separe del parámetro más

que

√ , por ambos lados

Lo anterior implica entonces que el investigador puede fijar dicha precisión asumiendo las

consecuencias de la misma. Si la precisión es pequeña (desea que se separe poco el

estimador del parámetro), entonces el tamaño de muestra se aumenta lo cual coincide con el

criterio de robustez o consistencia de un estimador.

3.1.1. Tamaño de muestra en Muestreo Aleatorio Simple

Partiendo de la precisión o máximo error de muestreo se tiene lo siguiente:

√ , lo cual es lo mismo decir que:

√ ; Despejando “n” se tiene lo

siguiente:

√

, luego que

, lo cual se convierte en la primera ecuación para

determinar el tamaño de muestra en Muestreo Aleatorio Simple. Este tamaño de muestra se

usa cuando el tamaño de la población se desconoce o bien se considera infinito y la

varianza poblacional se conoce. Puede ser ahora que la varianza poblacional se desconozca

entonces de acuerdo al teorema del Límite Central se puede usar su estimador muestral (S²)

siempre y cuando el estimador sea obtenido de una muestra aleatoria mayor a 30 (para

buscar normalidad), si este es el caso la expresión anterior quedaría de la siguiente forma:

, en este caso sería para población infinita o desconocida y varianza poblacional

desconocida.

Lo expuesto anteriormente es lo más usado, pero hay autores que utilizan S2 en muestras

menores o iguales a 30, entonces, en estos casos, la distribución normal no ajusta muestra

pequeña, por lo que en lugar de “ ; se utiliza la distribución de las muestras pequeñas o

“t” de Student, quedando el tamaño de muestra de la siguiente forma: (

; que

sería usada cuando el tamaño de la población es desconocido o se considera infinito, la

varianza poblacional es desconocida y en su lugar se usa S2, y ésta se obtuvo de muestras

pequeñas.

En caso de que el tamaño de la población sea conocido y la varianza poblacional se

conozca, el tamaño de muestra se determina de la siguiente forma:

(

, donde:

n = tamaño de muestra

N = tamaño de la población objeto de estudio

= valor de la normal estándar α/2

= varianza poblacional

E = precisión o máximo error de muestreo propuesta por el investigador



Octubre 2013

En caso de que la varianza poblacional se desconozca se puede utilizar su estimador

muestral S2, quedando la expresión anterior de la siguiente forma:

(

;

siempre y cuando este estimador se haya obtenido de muestras grandes (n > 30). Si S2 es

obtenida de muestras pequeñas, entonces se usa “t” de student, en lugar de “Z”, quedando

la ecuación anterior de la siguiente forma:

(

( (

Todo lo anterior indica que en el MAS existen seis situaciones posibles para determinar

tamaño de muestra, por otra parte, además de que jugar con la precisión puede aumentar o

reducir el tamaño de muestra, también la significancia (α) hace variar el tamaño de muestra

ya que mientras más pequeño es, mayor es el valor de “Z” o bien de “t”, por lo tanto es una

decisión que el investigador debe tomar y asumir las consecuencias ya que si se aumenta el

tamaño de muestra, si bien es cierto se aproxima más al parámetro, pero existe un aumento

en el tiempo de toma de información, en uso de otros recursos y, algunos autores

mencionan que existe más posibilidades de cometer error.

3.2. Muestreo Aleatorio Proporcional (MAP)

Este muestreo se desarrolla bajo el mismo esquema del Muestreo Aleatorio Simple, es

decir, revisión una a una de las unidades de análisis lo cual lo hace un muestreo sin

reemplazo. Está sugerido para variables cualitativas con distribuciones probabilísticas

Binomial, Poisson, Multinomial, Hipergeométrica, etc., y se usa para estimar proporción

poblacional “p”.

Al igual que en el MAS, la derivación de las ecuaciones del tamaño de muestra se las hace

a partir de la estimación interválica (1 – α)*100 para “p” la cual es la siguiente:

⌈

√

√

⌉ ( ; donde:

= proporción muestral (

)

= valor de la normal estándar α/2

√

= desviación típica de la proporción muestral

Es importante señalar que para la estimación de “p” se toman en cuenta los estimadores

muestrales ya que es ilógico usar cualquiera de los parámetros “p” o “q” porque conociendo

a uno de ellos, por complemento se conoce el otro.

Esto no ocurre para la determinación del tamaño de muestra, ya que en este caso sí se

toman en cuenta los parámetros “p” y “q”.



Octubre 2013

La Figura 3 muestra la lógica de la

estimación y que por consecuencia del

teorema del Límite Central, la

distribución Binomial bajo ciertas

condiciones se aproxima a la normal. Es

por ello que el concepto de Máximo

Error de Estimación o Precisión es el

mismo que se manejó en el MAS y

además es equidistante a “p” por la

simetría de la curva normal estándar.

3.2.1. Tamaño de Muestra en el

Muestreo Aleatorio Proporcional

Para determinar el tamaño de muestra se parte de lo siguiente:

√

, despejando “n” se tienen lo siguiente:

, donde:

n = tamaño de muestra

= valor de la normal estándar a un α/2

p = probabilidad de éxito

q = probabilidad de fracaso

= precisión o error máximo de estimación

La expresión antes expuesta define el tamaño de muestra cuando la población es infinita o

desconocida y los parámetros “p” y “q” se conocen.

Si los parámetros se desconocen se puede usar los estimadores muestrales siempre y

cuando sean obtenidos de muestras mayores o iguales a 30. La expresión anterior queda de

la siguiente forma:

; donde:

En caso de que se desconozca los parámetros y el tamaño de la población sea desconocido

o se considere infinito, se puede utilizar la distribución teórica de “p” y “q” que es de 0.5. A

este criterio se le conoce como “Criterio de Varianza Máxima”, tiene como consecuencia

que aumenta el tamaño de muestra lo cual hace que el estimador sea más consistente o

robusto. La estimación del tamaño de muestra queda establecida como sigue:

. Si el tamaño de la población se conoce y los parámetros “p” y “q” también,

el tamaño de muestra se determina de la siguiente manera:

(

Si el tamaño de la población se conoce y los parámetros “p” y “q” se desconocen se puede

usar sus estimadores muestrales con las mismas consideraciones antes mencionada. El

tamaño de muestra, si este es el caso, se determina de la siguiente manera:

(



Octubre 2013

En caso de que solo se conozca el tamaño de la población, es decir, que tanto los

parámetros como los estimadores se desconocen se puede usar el criterio de varianza

máxima quedando el tamaño de muestra como se muestra a continuación:

(

Ahora bien, hay que considerar que una investigación no siempre es totalmente cuantitativa

o cualitativa, puede ser cuanticualitativa o bien cualicuantitativa (Eid Ayala, 2011;

comunicación personal), pero esto no es el problema, éste resulta al momento de definir el

tipo de muestreo a utilizar y por ende su tamaño de muestra. En este caso el autor

recomienda definir cuál es la variable clave que define al estudio y en función del tipo que

sea ésta, se define el muestreo. Por ejemplo, un estudiante de ingeniería industrial está

interesado en estimar la atención que presta una empresa que comercializa harina a sus

expendedores en un mercado. Si se tuviera que diseñar un instrumento para los puestos que

vende este tipo de producto la primer pregunta debería ser si expende la harina de dicha

empresa, su respuesta puede ser “sí” o “no” inclusive podría reservarse la respuesta y no

contestar, esta variables es de carácter cualitativo y por lo tanto se definiría el tipo de

muestreo a usar. De la respuesta a esta variable dependen todas las demás preguntas del

instrumento.

Qué pasaría ahora si la población objeto de estudio no es homogénea lo cual hace que no se

deba aplicar los muestreos antes mencionado. En los casos en la población objeto de

estudio se divida o se agrupe en subgrupo y esta forma de organización puede afectar la

investigación, se recomienda en Muestreo Aleatorio Estratificado.

3.3. Muestreo Aleatorio Estratificado

El muestreo aleatorio estratificado es un método que, en muchas ocasiones, puede dar lugar

a un incremento en la precisión de las estimaciones, de las características o parámetros de

una población.

El método consiste, primeramente, en dividir a la población de tamaño N conocido, en un

número K de subpoblaciones, llamadas estratos. Más que dividir, se requiere reconocer los

subgrupos o subpoblaciones de la población objeto de estudio con la condición que estas

subpoblaciones estratos no se traslapan, es decir, que la probabilidad de intersección entre

éstos sea “0”. Ejemplo, supóngase que se desea realizar una investigación en una población

que se divide en cuatros subgrupos o estratos: k1, k2, k3 y k4. El tamaño de la población “N”

es igual a la suma de los estratos de manera que N = k1+ k2+ k3+ k4, como se muestra en la

Figura 4.

Figura 4. Estratificación de una población



Octubre 2013

Cuando se estratifica se minimiza la variabilidad interna de cada estrato, ya que son iguales

de acuerdo al criterio de estratificación y se maximiza la variabilidad externa entre estrato.

3.3.1. Tamaño de Muestra en el Muestreo Aleatorio Estratificado

Dado que a lo interno de cada estrato las unidades de análisis son homogéneas y además,

son de tamaño conocido, entonces se puede determinar tamaño de muestra por cada estrato

ya sea por MAS ó MAP de acuerdo a los criterios antes expuestos y la muestra total

llamada muestra estratificada “nk” viene a ser la suma de las muestras de cada estrato, es

decir, nk = nk1+nk2 + ..nki. De aquí se habla de Muestreo Aleatorio Simple Estratificado

y de Muestreo Aleatorio Proporcional Estratificado según sea el caso.

Otra forma de determinar tamaño de muestra en muestreo estratificado sería tomar una

muestra general tomando en cuenta el tipo de variable que define al estudio y después

asignar muestra por cada estrato. A esto se le llama Asignación Proporcional y se la hace de

la siguiente forma:

Estratos Nki fr fr*n

K1 Nk1 Nk1/N (Nk1/N)*n



. . . .

. . . .

. . . .

Ki Nki Nki/N (Nki/N)*n

Total N 1 nk

Donde:

Ki = I-ésimo estrato

Nki = Tamaño del i-ésimo estrato

La asignación proporcional toma en cuenta el tamaño del estrato y en función de su tamaño

existe la asignación del tamaño de muestra, es decir, que a mayor tamaño del estrato mayor

es el tamaño de muestra que se le asigna

Existe otra forma para determinar tamaño de muestra la cual considera la varianza de cada

estrato, esta es la Asignación de Neyman. Previo hay que hacer lo siguiente:



Octubre 2013

Estratos Nk Wki S2ki S WkiSki

2 WkiSki

K1 Nk1 Nk1/N S2k1 Sk1 Wk1S

21 Wk1S1

K2 Nk2 Nk2/N S2K2 Sk2 Wk2S

22 Wk2S2

K3 Nk3 Nk3/N S2K3 Sk3 Wk3S

23 Wk3S3

. . . . . . .

. . . . . . .

. . . . . . .

Ki Nki Nki/N S2k Ski WkiS

2i WkiSki

Total N 1 ΣWkiS2i ΣWkiSki

Donde:

Ki = K-ésimo estrato

Nki = Tamaño del k-ésimo estrato

Wki = Peso de cada estrato dentro de la población que pertenece (Nki/N)

S2ki = Varianza del k-ésimo estrato

Ski = Desviación estándar del k-ésimo estrato

En este caso el tamaño de muestra se determina por la siguiente expresión:

(∑

(∑ , donde:

ne = tamaño de la muestra estratificada

N = tamaño de la población

= valor de la normal estándar a un α/2

(∑ = sumatoria de los pesos de cada estrato multiplicada por su desviación estándar

= precisión

(∑ = peso de cada estrato multiplicada por la varianza de cada estrato

Una vez que se ha determinado el tamaño de muestra estratificada el siguiente paso consiste

en asignar el tamaño de muestra por estrato, en otras palabras, hay que aplicar la asignación

de Neyman la cual es la siguiente:

*

∑ + , donde:



Octubre 2013

nk = tamaño de muestra para el k-ésimo estrato

= peso del k-estrato por su desviación estándar

∑ = suma de los pesos de cada estrato por su desviación estándar

ne = tamaño de la muestra estratificada

Como se puede observar, la asignación de Neyman toma en cuenta la varianza de cada

estrato, por lo tanto, al momento de la asignación del tamaño de muestra por estrato, el que

tenga mayor varianza, le corresponde mayor tamaño de muestra aun sea el más pequeño de

todos los estratos.

Resumiendo lo referente al Muestreo Aleatorio Estratificado (MAE), el tamaño de muestra

se puede determinar de tres maneras como se ha mostrado anteriormente, todo va a

depender de los insumos que disponga el investigador al momento de hacer el trabajo.

Documento revisado por Raúl Gustavo Eid Ayala, Ph.D.

Education

Tamaño de muestra revisado