Transcript
Page 1: Карпенко М.Н. 2013г

Карпенко М.Н.2013г.

НАИБОЛЕЕ РАСПРОСТРАНЕННЫЕ ОШИБКИ СТАТИСТИЧЕСКОГО АНАЛИЗА ДАННЫХ

В КВАЛИФИКАЦИОННЫХ РАБОТАХ БИОЛОГИЧЕСКОГО ПРОФИЛЯ

Page 2: Карпенко М.Н. 2013г

«Как блестящие идеи, так и научные нелепости одинаковым образом можно

облечь во впечатляющий мундир формул и теорем».

В.В. Налимов

Page 3: Карпенко М.Н. 2013г

Большинство ошибок возникает при использовании простейших статистических методов!

Специфика научного исследования заключается в том, что использование автором неадекватного метода даже на одном из этапов работы лишает его выводы достоверности.

Выход: соблюдать несколько простейших правил!

George S.L. Statistics in medical journals: a survey of current policies and proposal for editors. Med Pediat Oncol. 1985;13:10912.�

Lang T., Secic M. How to report statistics in medicine: annotatedguideline for authors, editors, and reviewers. Philadelphia (PA):American Colleje of Physicians;1997.

Page 4: Карпенко М.Н. 2013г

ОШИБКИ СТАТИСТИЧЕСКОГО АНАЛИЗА ДАННЫХ

Ошибки в описании результатов

Ошибки в выборе статистического критерия

Ошибки в представлении данных

Page 5: Карпенко М.Н. 2013г

Количественные

Ранговые(качественные, но могут быть упорядочены;

размер интервалов на шкале неодинаковый)

Качественные(их нельзя выстроить в последовательность)

Дискретные Непрерывные

Потеря информации и точности

ДАННЫЕ

Page 6: Карпенко М.Н. 2013г

Шкала интервалов

Шкала порядка

Шкала наименований

Мощность шкалы

Шкала отношений

ШКАЛЫ ИЗМЕРЕНИЙ

Page 7: Карпенко М.Н. 2013г

- Замена количественных данных качественными;- Качественные данные анализируются как количественные.

ОШИБКА ПЕРВАЯ: ПОДМЕНА ТИПОВ ДАННЫХ

Page 8: Карпенко М.Н. 2013г

унимодальное

бимодальное

мультимодальное

обычно возникают, если популяция имеет естественные обособленные подгруппы

РАЗБИЕНИЕ ДАННЫХ НА ПОДГРУППЫ НА ОСНОВАНИИ МОДАЛЬНОСТИ РАСПРЕДЕЛЕНИЯ

Page 9: Карпенко М.Н. 2013г

ОСНОВНЫЕ ТИПЫ ЗАДАЧ, РЕШАЕМЫХ С ПОМОЩЬЮ МЕТОДА СТАТИСТИЧЕСКОЙ ГРУППИРОВКИ:

Задачи Принцип группировки

выделение типов явлений; типологический – по атрибутивным признакам;

изучение структуры явления и структурных сдвигов, происходящих в явлении;

структурный -разделение совокупности по какому-либоодному признаку ;

выявление взаимосвязей и взаимозависимостей между явлениями и признаками, характеризующими эти явления.

аналитический - характеризует взаимосвязь между признаками один из которых является факторным другой результативным.

Page 10: Карпенко М.Н. 2013г

Количественные данные представляются с излишней точностью.ПРАВИЛО: числовое значение результата измерений представляется так, чтобы оно оканчивалось десятичным знаком того же разряда, какой имеет погрешность этого результата.

Погрешности измерения сами определяются с некоторой погрешностью.

«Погрешность погрешности» обычно такова, что в окончательном результате погрешность приводят с одной-двумя значащими цифрами.

ОШИБКА ВТОРАЯ: ОКРУГЛЕНИЕ

Page 11: Карпенко М.Н. 2013г

1. Задаем n и доверительную вероятность, например, α=0,95; проводим эксперимент;

2. Вычисляем среднее выборочное;3. Вычисляем ошибку среднего;4. Для заданных n и α находим tnα,5. По паспорту прибора определяем инструментальную

погрешность Δин. В паспорте, если не указано иное, приведена погрешность для α=0,997, поэтому при заданной α=0,95 Δин учитываем с коэффициентом 2/3.

6. Находим абсолютную погрешность по формуле:

7. Находим относительную погрешность по формуле:

ОКРУГЛЕНИЕ: АЛГОРИТМ ДЕЙСТВИЙ

Page 12: Карпенко М.Н. 2013г

8. Округляем абсолютную и относительную погрешность до двух значащих цифр (если первая из них меньше или равна 3) и до одной (если первая из них больше 3).

9. Округляем результат измерения. Число значащих цифр результата измерений должно быть ограничено поом величины абсолютной.

10. Записываем результат.

Page 13: Карпенко М.Н. 2013г

Качественный номинальный признак – мода;

Ранговый признак – мода и медиана;

Количественный признак – мода, медиана, среднее.

Средняя температура по больнице с учетом гнойного отделения и морга составила 36,60С.

ОШИБКА ТРЕТЬЯ: НЕПРАВИЛЬНОЕ ИСПОЛЬЗОВАНИЕ СТАТИСТИЧЕСКИХ ОЦЕНОК

Page 14: Карпенко М.Н. 2013г

Пример. Средняя зарплата: мода показывает какова зарплата «среднего» работника, а среднее – отражает среднюю зарплату на предприятии.

Среднее выборочное вычисляется только для признаков, измеряемых в шкале отношений и исключительно для выборки, подчиняющейся нормальному закону распределения!

СРЕДНЕЕ ИЛИ ВСЕ ЖЕ МЕДИАНА?

Page 15: Карпенко М.Н. 2013г

• Среднее – описывает центральную тенденцию;• СКО - вариабельность данных;• СОС – показатель точности оценки среднего.

Пример: измеряем массу тела у N=100 мужчин, среднее м=72 кг, СКО=8кг, тогда СОС=0,8.

Вывод 1: примерно в 68% случаев результат измерений будет лежать в диапазоне (64; 80)кг.

Вывод 2: примерно в 68% случаев средняя масса тела составит (71,2;72,8)кг.

ОШИБКА ЧЕТВЕРТАЯ: СТАНДАРТНАЯ ОШИБКА СРЕДНЕГО

Page 16: Карпенко М.Н. 2013г

• использование параметрических критериев для анализа данных, не подчиняющихся нормальному распределению;

• использование критериев для независимых выборок при анализе парных данных.

• использование t-критерия (критерия Манна-Уитни) для сравнения трех и более групп, а также для сравнения долей.

ОШИБКА ПЯТАЯ: АНАЛИЗИРУЕМЫЕ ДАННЫЕ НЕ СООТВЕТСТВУЮТ УСЛОВИЯМ КРИТЕРИЯ

Page 17: Карпенко М.Н. 2013г

1. Формулируем Н0 и Н1. Строим распределения такие, как будто Н0 верна:

• распределение исследуемой переменной;• распределение параметра выборки;• распределение статистики критерия.

2. Устанавливаем условия, при которых мы отвергнем Н0 – Определяем:

• уровень значимости;• односторонний или двусторонний будет тест;• критическое значение статистики критерия.

3. Считаем параметр выборки и статистику критерия для реальной выборки, сравниваем их с критическими значениями.

4. Интерпретируем результаты:• Можем ли мы отвергнуть Н0? Т.е., достоверны ли результаты

статистически?• Если да, достоверны ли они ПРАКТИЧЕСКИ?

ЭТО ДЕЛАЕТ ЧЕЛОВЕК,

А НЕ КОМПЬЮТЕР

ОБЩАЯ СХЕМА ПРОЦЕДУРЫ ПРОВЕРКИ ГИПОТЕЗЫ:

Page 18: Карпенко М.Н. 2013г

Заметим: ошибку 1-го рода можно сделать только отвергая Н0, а ошибку 2-го рода – только «принимая» Н0 (нельзя сделать одновременно обе ошибки).

 

Истинное (но неизвестное нам) положение дел

Верна H0 Верна H1

Мы «приняли» H0ПРАВИЛЬНО!

(чувствительность критерия)

ОШИБКА 2-го рода

Мы отвергли H0ОШИБКА 1-го рода

(уровень значимости)ПРАВИЛЬНО!

(мощность критерия)

ВОЗМОЖНЫЕ ОШИБКИ

Page 19: Карпенко М.Н. 2013г

самка

самец

Различаются ли по массепо массе тигры-самцы и тигры-самки в зоопарке?Сравниваем средние массы наших зверьков.

Мы анализируем влияние полапола на массу тигровмассу тигров.Зависимая переменнаяЗависимая переменная – масса.Независимая (группирующая) Независимая (группирующая) – пол (группы: 1. самцы; 2. самки)

ДВУХВЫБОРОЧНЫЕ КРИТЕРИИ

Page 20: Карпенко М.Н. 2013г

1.1. РазмерыРазмеры выборок могут отличаться2. Выборки должны иметь нормальное распределениенормальное распределение и их дисперсии дисперсии

должны быть равны равны.3. Критерий может быть односторонним и двусторонним

210 : H

Общий вопрос: получены ли выборки из одной популяции?Частный вопрос: равныравны ли средние средние значения между собой?

211 : H

ДВУХВЫБОРОЧНЫЕ КРИТЕРИИ.КРИТЕРИЙ СТЬЮДЕНТА ДЛЯ НЕЗАВИСИМЫХ ВЫБОРОК

Page 21: Карпенко М.Н. 2013г

Статистика = параметр выборки – параметр популяции

стандартная ошибка параметра выборки

210 : H 0: 210 H

2121

212121 )()(

XXXXs

XX

s

XXt

221 nndf

разность выборочных средних

ошибка

Ошибка считается из средних квадратов

стандартных отклонений в выборках

Основное распределение - t-распределение (Стьюдента)

* Это статистика для двустороннего критерия

211 : H

ДВУХВЫБОРОЧНЫЕ КРИТЕРИИ

Page 22: Карпенко М.Н. 2013г

Соответствует ли распределение мотыльков на дереве НОРМАЛЬНОМУ РАСПРЕДЕЛЕНИЮ?Переменная – высота от земли в метрах

Тест Колмогорова-Смирнова (Kolmogorov-Smirnov test) (если известны дисперсия и среднее в популяции) D-статистика.

Lilliefors test – если НЕизвестны дисперсия и среднее в популяции – «улучшенный К-С тест»

Shapiro-Wilk’s W test (самый мощный, размер выборки до 5000) – наиболее предпочтительный.

ДВУХВЫБОРОЧНЫЕ КРИТЕРИИ. ПРОВЕРКА ГИПОТЕЗЫ О ЗАКОНЕ РАСПРЕДЕЛЕНИЯ

Page 23: Карпенко М.Н. 2013г

К тиграм-самцам пришёл новый служитель, и возможно, они стали по-другому питаться. Мы хотим узнать, не изменилась ли их масса.

Мы анализируем влияние служителяслужителя на массу тигров-самцовмассу тигров-самцов.Зависимая переменнаяЗависимая переменная – масса.НезависимаяНезависимая – группы: 1. до нового служителя; 2. после)

ДВУХВЫБОРОЧНЫЕ КРИТЕРИИ. КРИТЕРИЙ СТЪЮДЕНТА ДЛЯ СВЯЗАННЫХ ВЫБОРОК

Page 24: Карпенко М.Н. 2013г

0:0 DH

Каждый тигр два раза участвует в наблюдениях: он входит в обе группы.

21 iii XXD ДО ПОСЛЕ1 тигр 356 3632 тигр 351 3613 тигр 353 3584 тигр 355 3565 тигр 354 3596 тигр 355 355

Таких D столько, сколько пар.У них есть среднее.

D

D

s

Dt

0:1 DH

Статистика:

Ds

Dt 1ndf

Тест может быть односторонним и двусторонним

Идентично одновыборочному t-критерию!

ДВУХВЫБОРОЧНЫЕ КРИТЕРИИ. КРИТЕРИЙ СТЪЮДЕНТА ДЛЯ СВЯЗАННЫХ ВЫБОРОК

Page 25: Карпенко М.Н. 2013г

В случае t-критериев Стьюдента:выборки случайные из популяций с нормальным распределением, равными дисперсиями, N≥10, лучше всего – от 30. НО:1. небольшие отклонения от нормального распределения допустимы, если:

распределение симметрично; тест двусторонний (односторонний НЕ рекомендуется) размеры выборок одинаковы

2. Для двухвыборочных тестов несоблюдение требования равенства дисперсий (приводит к увеличению ошибки 1-го рода) допустимо, если:

распределения соответствуют нормальному;выборки отличаются по размеру не больше, чем на 10%

3. Двухвыборочные тесты Стьюдента и пр. не просто так названы двухвыборочными – они не подходят для 3-х и более выборок!!.

ФОРМИРОВАНИЕ ВЫБОРОК ДЛЯ ПАРАМЕТРИЧЕСКИХ КРИТЕРИЕВ

Page 26: Карпенко М.Н. 2013г

вставлена в Статистике в блоки с соответствующими параметрическими тестами (t-тест, ANOVA)

Проверка равенства дисперсийПроверка равенства дисперсий

F-test – для двух групп; Levene’s test – более надёжный, подходит для двух и более групп; Brown & Forsythe's test – подходит для выборок разного размера Barlett’s test – для трёх и более групп

/Если выборки гетерогенны, есть способы сделать их гомогенными./

ПРОВЕРКА РАВЕНСТВА ДИСПЕРСИЙ:

Page 27: Карпенко М.Н. 2013г

27

Предположим, у нас 4 группы тигров, которых кормят по-разному. Различается ли средняя масса тигра в этих группах?

МНОЖЕСТВЕННЫЕ СРАВНЕНИЯ ИЛИ КОШМАР БОНФЕРРОНИ

Page 28: Карпенко М.Н. 2013г

28

Формулируем гипотезу Н0:

Тигров кормили:

1. овощами;2. фруктами;3. рыбой;4. мясом.

Одна зависимая переменная (variable): масса;Одна независимая (группирующая, factor) – тип еды.

43210 : HЭто сложная гипотеза (omnibus hypothesis). Она включает в себя много маленьких гипотез (для 3-х групп – 3, для 4-х – 12 …):

2101 : H

3204 : H3103 : H4102 : H

4205 : H

4306 : H

22: 4321

07

H

3: 432

108

H

...

Парные (pairwise) нулевые гипотезы

Комплексные (complex) нулевые гипотезы

One-way ANOVA

ANOVA

Page 29: Карпенко М.Н. 2013г

29

Если у нас 3 и более групп:Если у нас 3 и более групп:

1. Сначала сравнить ВСЕ группы между собой с помощью ANOVA

2. Если различия есть, использовать методы множественного сравнения (группы сравнивают попарно, но вводят поправки)

3. Если различий нет, мы НЕ ИМЕЕМ ПРАВА ПРЕДПРИНИМАТЬ ДАЛЬНЕЙШИЙ АНАЛИЗ!

Двухвыборочный t-критерий для сравнения групп попарно после проведения ANOVA тоже не годится!Например, если мы сравним две крайние группы, это уже будут не случайные выборки из генеральной совокупности, и уже будет не 0.05!

ANOVA POST HOC TESTS

Page 30: Карпенко М.Н. 2013г

Свойства распределения неизвестны, и параметры распределения (среднее, дисперсию и т. п.) мы использовать не можемиспользовать не можем

Основной подход – ранжированиеранжирование (ranking) наблюдений (выстраиваем их по порядку от самого маленького значения к наибольшему).

подразумевается, что сравниваемые распределения имеют одинаковую форму и дисперсию.

НЕПАРАМЕТРИЧЕСКИЕ МЕТОДЫ

Page 31: Карпенко М.Н. 2013г

1:3 ??

Родились:84 розовых мыши и 16 зелёных.

HH00: выборка получена из популяции, где соотношение розовых и зелёных – 3:1.HH11: выборка получена из популяции, где соотношение розовых и зелёных не равно 3:1

Заметим, что речь идёт только о частотах, но не о параметрах распределения.

АНАЛИЗ ЧАСТОТ

Page 32: Карпенко М.Н. 2013г

розовые зелёные всего

Oi 84

75

16

25

100

Ei

320.4240.3080.1

25

2516

75

7584 22

1

22

k

i i

ii

E

EO

χ2cv = 3.841<4.320

H0 отвергаем – соотношение мышей не соответствует ожидаемому

Чем больше значение χ2,тем хуже наши данные соответствуют теоретическому распределению – тем меньше рp=0.038

df = k-1=1

Page 33: Карпенко М.Н. 2013г

♀♀♂♂

♀♀

Сравниваем независимые выборки, причём все переменные (≥2) категориальные.

♂♂

♂♂ ♀♀

Связаны ли пол и цвет у коз?

♂♂♀♀

Критерий χ2 (χ2 analysis of contingency tables = χ2 test of independence)

Tests of independence – проверяют, зависит ли форма распределения одной переменной от значений другой переменной (переменных).

АНАЛИЗ ЧАСТОТ

Page 34: Карпенко М.Н. 2013г

HH00: цвет меха не зависит от пола в популяции коз;HH11: цвет меха зависит от пола в популяции коз.

пол белые красные жёлтые серые Всего

самцысамки

3255

4365

1664

916

100200

всего 87 108 80 25 300

Таблицы вида a × b. Общая Н0 гипотеза: частоты в строчках не зависят от частот в столбцах.

Мы для каждой ячейки рассчитываем ожидаемую частоту (на основе общих частот для столбцов и строк).

k

i i

ii

E

EO

1

22

Page 35: Карпенко М.Н. 2013г

«Смутно пишут о том, о чем смутно представляют»

М.В. Ломоносов

ОШИБКИ ПРИ ОПИСАНИИ РЕЗУЛЬТАТОВ

Page 36: Карпенко М.Н. 2013г

1. Что такое «граница нормального распределения»? Зачем ее находили?

2. С помощью какого критерия проверялась гипотеза о виде распределения?

3. Что такое «неправильное распределение»?

4. Данные описаны с помощью среднего и стандартного отклонения.

5. ANOVA – параметрический критерий.

ПРИМЕР1

Page 37: Карпенко М.Н. 2013г

1. Гипотеза о виде распределения не проверялась.

2. Что такое «достоверность параметров»?

3. Гипотеза о равенстве дисперсий не проверяется.

4. Уровень значимости не указан.

ПРИМЕР 2

Page 38: Карпенко М.Н. 2013г

Цитаты из статьи Наш комментарий

"Полученные данные обработаны статистически с использованием t критерия Стьюдента."  Далее в тексте приведены выражения вида (M±m)" и результаты сравнения отдельных групп между собой. Для конкретных сравниваемых пар гурпп не сообщается объем выборок, однако в тексте статьи сказано, что объем выборок изменялся в интервале от 8 до 16.

В работе не сообщается о проверке условий необходимых и достаточных для использования t-критерия Стьюдента - нормальности распределения и равенства генеральных дисперсий (для всех признаков и во всех группах). Используя данные таблицы, проведем проверку гипотез о равенстве дисперсийдля нескольких случайно выбранных  пар. Поскольку для каждой конкретной группы сравнения в статье не указан объем выборки, то используем минимально возможное в данное случае значение, равное 8. 

Для пары 2,4±0,1 и 6,0±0,3  значение критерия Фишера F = 9,719 (р=0,0048).  Для пары 2,3±0,1 и 3,8±0,2  значение критерия Фишера F = 4 (р=0,044).  Для пары  1,6±0,1 и 3,0±0,2 значение критерия Фишера F = 4 (р=0,044).  Для пары  17,6±0,1 и 26,0±0,2  значение критерия Фишера F = 4 (р=0,044).  Для пары  17,2±0,1 и 22,7±0,4 значение критерия Фишера F = 16 (р=0,0008).  Для пары  8,6±0,2 и 13,1±0,4 значение критерия Фишера F = 4 (р=0,044). 

Итак, поскольку достигнутый уровень значимости гораздо меньше 5%, то гипотеза о равенстве дисперсий для этих случаев отвергается!  Вывод: если даже предположить, что во всех сравниваемых группах наблюдалось нормальное распределение, что само по себе весьма маловероятно,  тем не менее, критерий Стьюдента не может быть использован в данных условиях вследствие неравенства генеральных дисперсий (см. проблему Беренса-Фишера). . Из чего следует, что выводы авторов не могут быть признаны корректно обоснованными методами статистики, а стало быть надежность их весьма сомнительна.

Статья "Влияние гиперлипидемии на чувствительность тимоцитов к апоптозу у мышей линии CBA и C57BI/C."Киселева Е.П., Пузырева В.П., Огурцова Р.П., Ковалева И.Г.Институт экспериментальной медицины РАМН, Санкт-Петербург.Бюллетень экспериментальной биологии и медицины, вып. 8, 2000, стр. 200-202.

ПРИМЕР 3

Page 39: Карпенко М.Н. 2013г

ПРИЗНАКИССЛЕДОВАНИЕ

Двегруппы

Более двух групп

Группа дои послелечения

Одна группанесколько

видов лечения

Связь признаков

Количественный(нормальное

распределение*)

Критерий Стьюдента

ANOVA Парный критерий Стьюдента

Дисперсион-ный анализ повторныхизмерений

Линейная регрессия,

корреляция, или метод

Блэнда-Алтмана

Качественный

Критерий 2

Z-критерийКритерий 2 Критерий

Мак-Нимара

КритерийКокрена

Коэффициетсопряжен-

ности

Порядковый КритерийМаннаУитни

КритерийКрускалаУоллиса

КритерийУилкок-

сона

Критерий Фридмана

Коэффици-ент

ранговой корреляцииСпирмена

ЗАКЛЮЧЕНИЕ

Page 40: Карпенко М.Н. 2013г

http://www.biometrica.tomsk.ru/