Карпенко М.Н.2013г.
НАИБОЛЕЕ РАСПРОСТРАНЕННЫЕ ОШИБКИ СТАТИСТИЧЕСКОГО АНАЛИЗА ДАННЫХ
В КВАЛИФИКАЦИОННЫХ РАБОТАХ БИОЛОГИЧЕСКОГО ПРОФИЛЯ
«Как блестящие идеи, так и научные нелепости одинаковым образом можно
облечь во впечатляющий мундир формул и теорем».
В.В. Налимов
Большинство ошибок возникает при использовании простейших статистических методов!
Специфика научного исследования заключается в том, что использование автором неадекватного метода даже на одном из этапов работы лишает его выводы достоверности.
Выход: соблюдать несколько простейших правил!
George S.L. Statistics in medical journals: a survey of current policies and proposal for editors. Med Pediat Oncol. 1985;13:10912.�
Lang T., Secic M. How to report statistics in medicine: annotatedguideline for authors, editors, and reviewers. Philadelphia (PA):American Colleje of Physicians;1997.
ОШИБКИ СТАТИСТИЧЕСКОГО АНАЛИЗА ДАННЫХ
Ошибки в описании результатов
Ошибки в выборе статистического критерия
Ошибки в представлении данных
Количественные
Ранговые(качественные, но могут быть упорядочены;
размер интервалов на шкале неодинаковый)
Качественные(их нельзя выстроить в последовательность)
Дискретные Непрерывные
Потеря информации и точности
ДАННЫЕ
Шкала интервалов
Шкала порядка
Шкала наименований
Мощность шкалы
Шкала отношений
ШКАЛЫ ИЗМЕРЕНИЙ
- Замена количественных данных качественными;- Качественные данные анализируются как количественные.
ОШИБКА ПЕРВАЯ: ПОДМЕНА ТИПОВ ДАННЫХ
унимодальное
бимодальное
мультимодальное
обычно возникают, если популяция имеет естественные обособленные подгруппы
РАЗБИЕНИЕ ДАННЫХ НА ПОДГРУППЫ НА ОСНОВАНИИ МОДАЛЬНОСТИ РАСПРЕДЕЛЕНИЯ
ОСНОВНЫЕ ТИПЫ ЗАДАЧ, РЕШАЕМЫХ С ПОМОЩЬЮ МЕТОДА СТАТИСТИЧЕСКОЙ ГРУППИРОВКИ:
Задачи Принцип группировки
выделение типов явлений; типологический – по атрибутивным признакам;
изучение структуры явления и структурных сдвигов, происходящих в явлении;
структурный -разделение совокупности по какому-либоодному признаку ;
выявление взаимосвязей и взаимозависимостей между явлениями и признаками, характеризующими эти явления.
аналитический - характеризует взаимосвязь между признаками один из которых является факторным другой результативным.
Количественные данные представляются с излишней точностью.ПРАВИЛО: числовое значение результата измерений представляется так, чтобы оно оканчивалось десятичным знаком того же разряда, какой имеет погрешность этого результата.
Погрешности измерения сами определяются с некоторой погрешностью.
«Погрешность погрешности» обычно такова, что в окончательном результате погрешность приводят с одной-двумя значащими цифрами.
ОШИБКА ВТОРАЯ: ОКРУГЛЕНИЕ
1. Задаем n и доверительную вероятность, например, α=0,95; проводим эксперимент;
2. Вычисляем среднее выборочное;3. Вычисляем ошибку среднего;4. Для заданных n и α находим tnα,5. По паспорту прибора определяем инструментальную
погрешность Δин. В паспорте, если не указано иное, приведена погрешность для α=0,997, поэтому при заданной α=0,95 Δин учитываем с коэффициентом 2/3.
6. Находим абсолютную погрешность по формуле:
7. Находим относительную погрешность по формуле:
ОКРУГЛЕНИЕ: АЛГОРИТМ ДЕЙСТВИЙ
8. Округляем абсолютную и относительную погрешность до двух значащих цифр (если первая из них меньше или равна 3) и до одной (если первая из них больше 3).
9. Округляем результат измерения. Число значащих цифр результата измерений должно быть ограничено поом величины абсолютной.
10. Записываем результат.
Качественный номинальный признак – мода;
Ранговый признак – мода и медиана;
Количественный признак – мода, медиана, среднее.
Средняя температура по больнице с учетом гнойного отделения и морга составила 36,60С.
ОШИБКА ТРЕТЬЯ: НЕПРАВИЛЬНОЕ ИСПОЛЬЗОВАНИЕ СТАТИСТИЧЕСКИХ ОЦЕНОК
Пример. Средняя зарплата: мода показывает какова зарплата «среднего» работника, а среднее – отражает среднюю зарплату на предприятии.
Среднее выборочное вычисляется только для признаков, измеряемых в шкале отношений и исключительно для выборки, подчиняющейся нормальному закону распределения!
СРЕДНЕЕ ИЛИ ВСЕ ЖЕ МЕДИАНА?
• Среднее – описывает центральную тенденцию;• СКО - вариабельность данных;• СОС – показатель точности оценки среднего.
Пример: измеряем массу тела у N=100 мужчин, среднее м=72 кг, СКО=8кг, тогда СОС=0,8.
Вывод 1: примерно в 68% случаев результат измерений будет лежать в диапазоне (64; 80)кг.
Вывод 2: примерно в 68% случаев средняя масса тела составит (71,2;72,8)кг.
ОШИБКА ЧЕТВЕРТАЯ: СТАНДАРТНАЯ ОШИБКА СРЕДНЕГО
• использование параметрических критериев для анализа данных, не подчиняющихся нормальному распределению;
• использование критериев для независимых выборок при анализе парных данных.
• использование t-критерия (критерия Манна-Уитни) для сравнения трех и более групп, а также для сравнения долей.
ОШИБКА ПЯТАЯ: АНАЛИЗИРУЕМЫЕ ДАННЫЕ НЕ СООТВЕТСТВУЮТ УСЛОВИЯМ КРИТЕРИЯ
1. Формулируем Н0 и Н1. Строим распределения такие, как будто Н0 верна:
• распределение исследуемой переменной;• распределение параметра выборки;• распределение статистики критерия.
2. Устанавливаем условия, при которых мы отвергнем Н0 – Определяем:
• уровень значимости;• односторонний или двусторонний будет тест;• критическое значение статистики критерия.
3. Считаем параметр выборки и статистику критерия для реальной выборки, сравниваем их с критическими значениями.
4. Интерпретируем результаты:• Можем ли мы отвергнуть Н0? Т.е., достоверны ли результаты
статистически?• Если да, достоверны ли они ПРАКТИЧЕСКИ?
ЭТО ДЕЛАЕТ ЧЕЛОВЕК,
А НЕ КОМПЬЮТЕР
ОБЩАЯ СХЕМА ПРОЦЕДУРЫ ПРОВЕРКИ ГИПОТЕЗЫ:
Заметим: ошибку 1-го рода можно сделать только отвергая Н0, а ошибку 2-го рода – только «принимая» Н0 (нельзя сделать одновременно обе ошибки).
Истинное (но неизвестное нам) положение дел
Верна H0 Верна H1
Мы «приняли» H0ПРАВИЛЬНО!
(чувствительность критерия)
ОШИБКА 2-го рода
Мы отвергли H0ОШИБКА 1-го рода
(уровень значимости)ПРАВИЛЬНО!
(мощность критерия)
ВОЗМОЖНЫЕ ОШИБКИ
самка
самец
Различаются ли по массепо массе тигры-самцы и тигры-самки в зоопарке?Сравниваем средние массы наших зверьков.
Мы анализируем влияние полапола на массу тигровмассу тигров.Зависимая переменнаяЗависимая переменная – масса.Независимая (группирующая) Независимая (группирующая) – пол (группы: 1. самцы; 2. самки)
ДВУХВЫБОРОЧНЫЕ КРИТЕРИИ
1.1. РазмерыРазмеры выборок могут отличаться2. Выборки должны иметь нормальное распределениенормальное распределение и их дисперсии дисперсии
должны быть равны равны.3. Критерий может быть односторонним и двусторонним
210 : H
Общий вопрос: получены ли выборки из одной популяции?Частный вопрос: равныравны ли средние средние значения между собой?
211 : H
ДВУХВЫБОРОЧНЫЕ КРИТЕРИИ.КРИТЕРИЙ СТЬЮДЕНТА ДЛЯ НЕЗАВИСИМЫХ ВЫБОРОК
Статистика = параметр выборки – параметр популяции
стандартная ошибка параметра выборки
210 : H 0: 210 H
2121
212121 )()(
XXXXs
XX
s
XXt
221 nndf
разность выборочных средних
ошибка
Ошибка считается из средних квадратов
стандартных отклонений в выборках
Основное распределение - t-распределение (Стьюдента)
* Это статистика для двустороннего критерия
211 : H
ДВУХВЫБОРОЧНЫЕ КРИТЕРИИ
Соответствует ли распределение мотыльков на дереве НОРМАЛЬНОМУ РАСПРЕДЕЛЕНИЮ?Переменная – высота от земли в метрах
Тест Колмогорова-Смирнова (Kolmogorov-Smirnov test) (если известны дисперсия и среднее в популяции) D-статистика.
Lilliefors test – если НЕизвестны дисперсия и среднее в популяции – «улучшенный К-С тест»
Shapiro-Wilk’s W test (самый мощный, размер выборки до 5000) – наиболее предпочтительный.
ДВУХВЫБОРОЧНЫЕ КРИТЕРИИ. ПРОВЕРКА ГИПОТЕЗЫ О ЗАКОНЕ РАСПРЕДЕЛЕНИЯ
К тиграм-самцам пришёл новый служитель, и возможно, они стали по-другому питаться. Мы хотим узнать, не изменилась ли их масса.
Мы анализируем влияние служителяслужителя на массу тигров-самцовмассу тигров-самцов.Зависимая переменнаяЗависимая переменная – масса.НезависимаяНезависимая – группы: 1. до нового служителя; 2. после)
ДВУХВЫБОРОЧНЫЕ КРИТЕРИИ. КРИТЕРИЙ СТЪЮДЕНТА ДЛЯ СВЯЗАННЫХ ВЫБОРОК
0:0 DH
Каждый тигр два раза участвует в наблюдениях: он входит в обе группы.
21 iii XXD ДО ПОСЛЕ1 тигр 356 3632 тигр 351 3613 тигр 353 3584 тигр 355 3565 тигр 354 3596 тигр 355 355
Таких D столько, сколько пар.У них есть среднее.
D
D
s
Dt
0:1 DH
Статистика:
Ds
Dt 1ndf
Тест может быть односторонним и двусторонним
Идентично одновыборочному t-критерию!
ДВУХВЫБОРОЧНЫЕ КРИТЕРИИ. КРИТЕРИЙ СТЪЮДЕНТА ДЛЯ СВЯЗАННЫХ ВЫБОРОК
В случае t-критериев Стьюдента:выборки случайные из популяций с нормальным распределением, равными дисперсиями, N≥10, лучше всего – от 30. НО:1. небольшие отклонения от нормального распределения допустимы, если:
распределение симметрично; тест двусторонний (односторонний НЕ рекомендуется) размеры выборок одинаковы
2. Для двухвыборочных тестов несоблюдение требования равенства дисперсий (приводит к увеличению ошибки 1-го рода) допустимо, если:
распределения соответствуют нормальному;выборки отличаются по размеру не больше, чем на 10%
3. Двухвыборочные тесты Стьюдента и пр. не просто так названы двухвыборочными – они не подходят для 3-х и более выборок!!.
ФОРМИРОВАНИЕ ВЫБОРОК ДЛЯ ПАРАМЕТРИЧЕСКИХ КРИТЕРИЕВ
вставлена в Статистике в блоки с соответствующими параметрическими тестами (t-тест, ANOVA)
Проверка равенства дисперсийПроверка равенства дисперсий
F-test – для двух групп; Levene’s test – более надёжный, подходит для двух и более групп; Brown & Forsythe's test – подходит для выборок разного размера Barlett’s test – для трёх и более групп
/Если выборки гетерогенны, есть способы сделать их гомогенными./
ПРОВЕРКА РАВЕНСТВА ДИСПЕРСИЙ:
27
Предположим, у нас 4 группы тигров, которых кормят по-разному. Различается ли средняя масса тигра в этих группах?
МНОЖЕСТВЕННЫЕ СРАВНЕНИЯ ИЛИ КОШМАР БОНФЕРРОНИ
28
Формулируем гипотезу Н0:
Тигров кормили:
1. овощами;2. фруктами;3. рыбой;4. мясом.
Одна зависимая переменная (variable): масса;Одна независимая (группирующая, factor) – тип еды.
43210 : HЭто сложная гипотеза (omnibus hypothesis). Она включает в себя много маленьких гипотез (для 3-х групп – 3, для 4-х – 12 …):
2101 : H
3204 : H3103 : H4102 : H
4205 : H
4306 : H
22: 4321
07
H
3: 432
108
H
...
Парные (pairwise) нулевые гипотезы
Комплексные (complex) нулевые гипотезы
One-way ANOVA
ANOVA
29
Если у нас 3 и более групп:Если у нас 3 и более групп:
1. Сначала сравнить ВСЕ группы между собой с помощью ANOVA
2. Если различия есть, использовать методы множественного сравнения (группы сравнивают попарно, но вводят поправки)
3. Если различий нет, мы НЕ ИМЕЕМ ПРАВА ПРЕДПРИНИМАТЬ ДАЛЬНЕЙШИЙ АНАЛИЗ!
Двухвыборочный t-критерий для сравнения групп попарно после проведения ANOVA тоже не годится!Например, если мы сравним две крайние группы, это уже будут не случайные выборки из генеральной совокупности, и уже будет не 0.05!
ANOVA POST HOC TESTS
Свойства распределения неизвестны, и параметры распределения (среднее, дисперсию и т. п.) мы использовать не можемиспользовать не можем
Основной подход – ранжированиеранжирование (ranking) наблюдений (выстраиваем их по порядку от самого маленького значения к наибольшему).
подразумевается, что сравниваемые распределения имеют одинаковую форму и дисперсию.
НЕПАРАМЕТРИЧЕСКИЕ МЕТОДЫ
1:3 ??
Родились:84 розовых мыши и 16 зелёных.
HH00: выборка получена из популяции, где соотношение розовых и зелёных – 3:1.HH11: выборка получена из популяции, где соотношение розовых и зелёных не равно 3:1
Заметим, что речь идёт только о частотах, но не о параметрах распределения.
АНАЛИЗ ЧАСТОТ
розовые зелёные всего
Oi 84
75
16
25
100
Ei
320.4240.3080.1
25
2516
75
7584 22
1
22
k
i i
ii
E
EO
χ2cv = 3.841<4.320
H0 отвергаем – соотношение мышей не соответствует ожидаемому
Чем больше значение χ2,тем хуже наши данные соответствуют теоретическому распределению – тем меньше рp=0.038
df = k-1=1
♀♀♂♂
♀♀
Сравниваем независимые выборки, причём все переменные (≥2) категориальные.
♂♂
♂♂ ♀♀
Связаны ли пол и цвет у коз?
♂♂♀♀
Критерий χ2 (χ2 analysis of contingency tables = χ2 test of independence)
Tests of independence – проверяют, зависит ли форма распределения одной переменной от значений другой переменной (переменных).
АНАЛИЗ ЧАСТОТ
HH00: цвет меха не зависит от пола в популяции коз;HH11: цвет меха зависит от пола в популяции коз.
пол белые красные жёлтые серые Всего
самцысамки
3255
4365
1664
916
100200
всего 87 108 80 25 300
Таблицы вида a × b. Общая Н0 гипотеза: частоты в строчках не зависят от частот в столбцах.
Мы для каждой ячейки рассчитываем ожидаемую частоту (на основе общих частот для столбцов и строк).
k
i i
ii
E
EO
1
22
«Смутно пишут о том, о чем смутно представляют»
М.В. Ломоносов
ОШИБКИ ПРИ ОПИСАНИИ РЕЗУЛЬТАТОВ
1. Что такое «граница нормального распределения»? Зачем ее находили?
2. С помощью какого критерия проверялась гипотеза о виде распределения?
3. Что такое «неправильное распределение»?
4. Данные описаны с помощью среднего и стандартного отклонения.
5. ANOVA – параметрический критерий.
ПРИМЕР1
1. Гипотеза о виде распределения не проверялась.
2. Что такое «достоверность параметров»?
3. Гипотеза о равенстве дисперсий не проверяется.
4. Уровень значимости не указан.
ПРИМЕР 2
Цитаты из статьи Наш комментарий
"Полученные данные обработаны статистически с использованием t критерия Стьюдента." Далее в тексте приведены выражения вида (M±m)" и результаты сравнения отдельных групп между собой. Для конкретных сравниваемых пар гурпп не сообщается объем выборок, однако в тексте статьи сказано, что объем выборок изменялся в интервале от 8 до 16.
В работе не сообщается о проверке условий необходимых и достаточных для использования t-критерия Стьюдента - нормальности распределения и равенства генеральных дисперсий (для всех признаков и во всех группах). Используя данные таблицы, проведем проверку гипотез о равенстве дисперсийдля нескольких случайно выбранных пар. Поскольку для каждой конкретной группы сравнения в статье не указан объем выборки, то используем минимально возможное в данное случае значение, равное 8.
Для пары 2,4±0,1 и 6,0±0,3 значение критерия Фишера F = 9,719 (р=0,0048). Для пары 2,3±0,1 и 3,8±0,2 значение критерия Фишера F = 4 (р=0,044). Для пары 1,6±0,1 и 3,0±0,2 значение критерия Фишера F = 4 (р=0,044). Для пары 17,6±0,1 и 26,0±0,2 значение критерия Фишера F = 4 (р=0,044). Для пары 17,2±0,1 и 22,7±0,4 значение критерия Фишера F = 16 (р=0,0008). Для пары 8,6±0,2 и 13,1±0,4 значение критерия Фишера F = 4 (р=0,044).
Итак, поскольку достигнутый уровень значимости гораздо меньше 5%, то гипотеза о равенстве дисперсий для этих случаев отвергается! Вывод: если даже предположить, что во всех сравниваемых группах наблюдалось нормальное распределение, что само по себе весьма маловероятно, тем не менее, критерий Стьюдента не может быть использован в данных условиях вследствие неравенства генеральных дисперсий (см. проблему Беренса-Фишера). . Из чего следует, что выводы авторов не могут быть признаны корректно обоснованными методами статистики, а стало быть надежность их весьма сомнительна.
Статья "Влияние гиперлипидемии на чувствительность тимоцитов к апоптозу у мышей линии CBA и C57BI/C."Киселева Е.П., Пузырева В.П., Огурцова Р.П., Ковалева И.Г.Институт экспериментальной медицины РАМН, Санкт-Петербург.Бюллетень экспериментальной биологии и медицины, вып. 8, 2000, стр. 200-202.
ПРИМЕР 3
ПРИЗНАКИССЛЕДОВАНИЕ
Двегруппы
Более двух групп
Группа дои послелечения
Одна группанесколько
видов лечения
Связь признаков
Количественный(нормальное
распределение*)
Критерий Стьюдента
ANOVA Парный критерий Стьюдента
Дисперсион-ный анализ повторныхизмерений
Линейная регрессия,
корреляция, или метод
Блэнда-Алтмана
Качественный
Критерий 2
Z-критерийКритерий 2 Критерий
Мак-Нимара
КритерийКокрена
Коэффициетсопряжен-
ности
Порядковый КритерийМаннаУитни
КритерийКрускалаУоллиса
КритерийУилкок-
сона
Критерий Фридмана
Коэффици-ент
ранговой корреляцииСпирмена
ЗАКЛЮЧЕНИЕ
http://www.biometrica.tomsk.ru/