It med.conf региональный мастер-индекс пациентов

Региональный мастер-индекс пациентов на платформе InterSystems HealthShare

Сергей Кудинов

InterSystems Russia

Хабаровск 2015

Региональный сегмент ЕГИСЗ

Что дает внедрение мастер-индекса пациентов?

• Решение проблемы разрозненности медицинской

информации в региональных информационных системах,

аккумулирующих данные из разнородных источников

– Экономия средств ОМС за счет сокращения количества

повторных исследований, уже проведенных данному пациенту в

других медицинских организациях

– Повышение качества оказания медицинской помощи благодаря

снижению числа ошибочных назначений

• Доступ к информации о хронических заболеваниях и аллергиях

пациента, ранее диагностированных в других организациях

– Уменьшение количества повторных госпитализаций

• Доступ врачей СМП к данным о назначениях пациенту и о результатах

анализов во время недавно проведенной госпитализации

Проблемы идентификации пациентов

• Неполные данные

• Ошибки ввода

– Орфография, опечатки, латинские буквы

– Специфические ошибки при вводе номеров документов

– Перестановки полей, например, имени и фамилии

• Использование фиктивных значений в обязательных полях

– СНИЛСы: 123-456-789 00,111-111-111 45, …

• Ввод чужих данных

– Номер паспорта матери в данных новорожденного ребенка

• Смена фамилии, имени, паспорта, полиса, …

• Варианты написания отчеств

– Равшанович / Равшан-оглы

• Использование сокращений и аббревиатур

Способы идентификации пациентов

• Детерминированные алгоритмы

– Идентификация пациентов путем применения правил вида

• «Идентифицировать пациента по первому непустому значению

реквизита из списка [СНИЛС, номер полиса ОМС, номер паспорта, …]»

– Требуется абсолютная уверенность в полноте и «чистоте»

заполнения ключевых реквизитов

• Вероятностные модели

– Идентификация пациентов с применением вероятностных

моделей, фонетических алгоритмов, алгоритмов нестрогого

сопоставления

– Корректная идентификация даже при наличии ошибок и

пробелов в данных

– Низкая производительность по сравнению с

детерминированными алгоритмами

Способы идентификации пациентов [продолжение]

• Комбинированный подход

– Поддержка кросс-таблицы «локальных» идентификаторов

пациентов, применяемых в системах-источниках данных

• Использование вероятностных моделей только в случае отсутствия

локального идентификатора в кросс-таблице

– Использование детерминированных правил для обработки

особых случаев

РМП-ID ЛПУ Локальный иденти-

фикатор пациента

ФИО

1 A A0815 Безухов Петр Кириллович

2 A A1234 Ростова Н.И.

1 A A4711 П.К. Безухов

1 B B987 Безухий П.К.

2 B B911 Растова Н.И.

2 C C22334 Безухова Н.И.

3 C C22335 Безухов Андрей

3 C C22336 Безухов А.П.

Региональный мастер-индекс пациентов (РМП)

• РМП на платформе InterSystems HealthShare – это…

– Единый регистр демографической

информации

– Сервисы идентификации пациентов,

в том числе по неточным или неполным

демографическим данным

– Интерфейс предметного

администратора: список задач на

принятие решений о связывании

записей

– Интеграция с внешними системами

• Возможность использования для

вычистки дублей из унаследованных

массивов демографических данных

Вероятностная модель

• Используется модель, впервые описанная в статье Fellegi и

Sunter “The Theory for Record Linkage” в 1969 году

• Наивный байесовский классификатор (Naїve Bayes) - простой

вероятностный классификатор, основанный на применении

теоремы Байеса со строгими (наивными) предположениями о

независимости

– Пример: если фрукт красный, круглый и размером около 7см, то

есть вероятность, что это яблоко. Применяя наивный

байесовский классификатор, мы предполагаем, что эти три

свойства фрукта не зависят друг от друга, и наличие каждого из

них вносит независимый вклад в вероятность того, что фрукт

является яблоком.

• http://en.wikipedia.org/wiki/Naive_Bayes_classifier

• http://en.wikipedia.org/wiki/Record_linkage

http://en.wikipedia.org/wiki/Naive_Bayes_classifier

http://en.wikipedia.org/wiki/Record_linkage

Этапы идентификации

Нормализация

Индексирование

Классифицирование

Валидация

Нормализация

• Простые преобразования

• Замена латинских букв, а также буквы ё

• Приведение к единому регистру, удаление концевых пробелов

• Удаление null-значений

• Для каждого из реквизитов может быть настроен собственный список

таких значений, например, «111-111-111 45» для СНИЛС

• Специфическая функция нормализации для каждого реквизита

• Для СНИЛС, например, учитывается наличие контрольной суммы

• Римские цифры в серии свидетельства о рождении

• Использование словарей нормализации

• Юля => Юлия

Индексирование

• Быстрый отбор пар потенциально совпадающих записей при

помощи набора индексов

– Пример правила отбора, реализуемого при помощи индекса:

• «Если два из трех следующих утверждений истинны для пары записей,

то пометить ее для дальнейшей обработки:

– Значения в поле ИМЯ фонетически близки

– Значения в поле ФАМИЛИЯ фонетически близки

– Значения в поле ДАТА РОЖДЕНИЯ совпадают»

– Применение фонетических алгоритмов позволяет нивелировать

влияние опечаток

Фонетические алгоритмы

• Фонетические алгоритмы генерируют одинаковые ключи (хэши)

для фонетически близких слов

– Soundex

• Все гласные отбрасываются кроме первой буквы слова

• Генерирует ключи заданной длины (или короче)

– Metaphone

• Генерирует ключи переменной длины

• Был разработан в 1990 году в качестве альтернативы алгоритму Soundex,

обладающему рядом недостатков

USER>write ##class(isc.mprl.util.Phonic).metaphoneru("семак")

СИМАК

Классифицирование пар записей

• Вычисление весов пар потенциальных совпадений

– Вес пары записей равен сумме весов, полученных при сравнении

ключевых реквизитов с учетом их специфики с использованием

– алгоритмов нестрогого сопоставления

– фонетических алгоритмов

– частотных словарей

Вес “A”: +10

Вес “D”: -5

Вес “A”: +8

Вес “D”: -8

Вес “A”: +15

Вес “D”: -9

Вес “A”: +6

Вес “D”: -1

Вес “A”: +14

Вес “D”: -9

ФИО ДР СНИЛС Адрес Полис ОМС

Источник A Иванов

Дмитрий

Иванович

10/12/1956 123-456-789

64

г. Москва, ул.

Харьковская

д.1, кв. 23

6175512171

234567

Источник В Иванов Д.И. нет данных 123-456-789

64

Москва,

Харьковская

1-23

2343552356

213232

+8 0 +15 +5.5 -9

Вес пары: 19.5

Алгоритмы нестрогого сопоставления

• jaroSimilarity – мера близости Джаро (Jaro similarity measure)

• winklerSimilarity – мера близости Джаро-Винклера

• editDistance – расстояние Дамерау-Левенштейна

– Разновидность «расстояния редактирования»

– Подсчитывается минимальная стоимость набора операций,

необходимых для превращения одной строки в другую

– Рассматривается четыре типа операций: вставка одного символа,

удаление одного символа, замена одного символа на другой,

транспозиция - перестановка двух соседних символов

– В рамках HealthShare реализован алгоритм Вагнера-Фишера.

Стоимость одной операции любого типа принимается за единицу.

Описание алгоритма на Хабре - http://habrahabr.ru/post/114997/

USER>write ##class(%MPRL.Utils.Compare).editDistance("привет",

"привте")

1

http://habrahabr.ru/post/114997/

Классифицирование: вес пары и пороговые значения

Классифицирование: правила для особых случаев

• Детерминированные правила для обработки особых случаев

без учета вычисленных весов:

– Двойняшки

– Идентификационные данные матери, указанные для

новорожденной дочери

– Связывание записей при совпадении набора идентификаторов

(применение утвержденных региональных регламентов)

• Правила программируются в классах, унаследованных от

библиотечных

Валидация: интерфейс администратора РМП

Автоматическая калибровка весов: алгоритм MLE

• “Maximum likelihood estimation” - Метод максимального

правдоподобия (http://en.wikipedia.org/wiki/Maximum_likelihood)

– Выполняется для случайно отобранных пар

• Ограниченное число сравнений или пока колебания весов не станут

незначительными

• Обработка 1 млн. пар ~½ часа на ноутбуке

– После завершения калибровки необходимо:

• Заново запустить процесс идентификации дублей

• Провести валидацию результатов

• Скорректировать пороговые значения

– Необходимо провести несколько итераций

http://en.wikipedia.org/wiki/Maximum_likelihood



Опыт внедрения РМП

• Итерационный процесс настройки параметров РМП:

весов, порогов, алгоритмов, словарей, …

– Тонкая настройка для каждого из источников демографической

информации

– Интеграция с внешними информационными системами для

проверки потенциальных совпадений

• Обработка унаследованных массивов данных

– Зачастую такие данные содержат большой процент дублей

• Возможность в короткие сроки получить эффект от запуска

региональной ЭМК – дать врачам доступ к истории оказания

пациенту медицинских услуг

Региональный сегмент ЕГИСЗ

• Внедрение сервисов

однозначной

идентификации –

ключ к эффективному

функционированию

региональных ИС

Вопросы и ответы

• Сергей Кудинов

[email protected]

http://www.InterSystems.ru

mailto:[email protected]

Healthcare

It med.conf региональный мастер-индекс пациентов