Upload
elena-ometova
View
27
Download
1
Embed Size (px)
Citation preview
Региональный мастер-индекс пациентов на платформе InterSystems HealthShare
Сергей Кудинов
InterSystems Russia
Хабаровск 2015
Региональный сегмент ЕГИСЗ
Что дает внедрение мастер-индекса пациентов?
• Решение проблемы разрозненности медицинской
информации в региональных информационных системах,
аккумулирующих данные из разнородных источников
– Экономия средств ОМС за счет сокращения количества
повторных исследований, уже проведенных данному пациенту в
других медицинских организациях
– Повышение качества оказания медицинской помощи благодаря
снижению числа ошибочных назначений
• Доступ к информации о хронических заболеваниях и аллергиях
пациента, ранее диагностированных в других организациях
– Уменьшение количества повторных госпитализаций
• Доступ врачей СМП к данным о назначениях пациенту и о результатах
анализов во время недавно проведенной госпитализации
Проблемы идентификации пациентов
• Неполные данные
• Ошибки ввода
– Орфография, опечатки, латинские буквы
– Специфические ошибки при вводе номеров документов
– Перестановки полей, например, имени и фамилии
• Использование фиктивных значений в обязательных полях
– СНИЛСы: 123-456-789 00,111-111-111 45, …
• Ввод чужих данных
– Номер паспорта матери в данных новорожденного ребенка
• Смена фамилии, имени, паспорта, полиса, …
• Варианты написания отчеств
– Равшанович / Равшан-оглы
• Использование сокращений и аббревиатур
Способы идентификации пациентов
• Детерминированные алгоритмы
– Идентификация пациентов путем применения правил вида
• «Идентифицировать пациента по первому непустому значению
реквизита из списка [СНИЛС, номер полиса ОМС, номер паспорта, …]»
– Требуется абсолютная уверенность в полноте и «чистоте»
заполнения ключевых реквизитов
• Вероятностные модели
– Идентификация пациентов с применением вероятностных
моделей, фонетических алгоритмов, алгоритмов нестрогого
сопоставления
– Корректная идентификация даже при наличии ошибок и
пробелов в данных
– Низкая производительность по сравнению с
детерминированными алгоритмами
Способы идентификации пациентов [продолжение]
• Комбинированный подход
– Поддержка кросс-таблицы «локальных» идентификаторов
пациентов, применяемых в системах-источниках данных
• Использование вероятностных моделей только в случае отсутствия
локального идентификатора в кросс-таблице
– Использование детерминированных правил для обработки
особых случаев
РМП-ID ЛПУ Локальный иденти-
фикатор пациента
ФИО
1 A A0815 Безухов Петр Кириллович
2 A A1234 Ростова Н.И.
1 A A4711 П.К. Безухов
1 B B987 Безухий П.К.
2 B B911 Растова Н.И.
2 C C22334 Безухова Н.И.
3 C C22335 Безухов Андрей
3 C C22336 Безухов А.П.
Региональный мастер-индекс пациентов (РМП)
• РМП на платформе InterSystems HealthShare – это…
– Единый регистр демографической
информации
– Сервисы идентификации пациентов,
в том числе по неточным или неполным
демографическим данным
– Интерфейс предметного
администратора: список задач на
принятие решений о связывании
записей
– Интеграция с внешними системами
• Возможность использования для
вычистки дублей из унаследованных
массивов демографических данных
Вероятностная модель
• Используется модель, впервые описанная в статье Fellegi и
Sunter “The Theory for Record Linkage” в 1969 году
• Наивный байесовский классификатор (Naїve Bayes) - простой
вероятностный классификатор, основанный на применении
теоремы Байеса со строгими (наивными) предположениями о
независимости
– Пример: если фрукт красный, круглый и размером около 7см, то
есть вероятность, что это яблоко. Применяя наивный
байесовский классификатор, мы предполагаем, что эти три
свойства фрукта не зависят друг от друга, и наличие каждого из
них вносит независимый вклад в вероятность того, что фрукт
является яблоком.
• http://en.wikipedia.org/wiki/Naive_Bayes_classifier
• http://en.wikipedia.org/wiki/Record_linkage
Этапы идентификации
Нормализация
Индексирование
Классифицирование
Валидация
Нормализация
• Простые преобразования
• Замена латинских букв, а также буквы ё
• Приведение к единому регистру, удаление концевых пробелов
• Удаление null-значений
• Для каждого из реквизитов может быть настроен собственный список
таких значений, например, «111-111-111 45» для СНИЛС
• Специфическая функция нормализации для каждого реквизита
• Для СНИЛС, например, учитывается наличие контрольной суммы
• Римские цифры в серии свидетельства о рождении
• Использование словарей нормализации
• Юля => Юлия
Индексирование
• Быстрый отбор пар потенциально совпадающих записей при
помощи набора индексов
– Пример правила отбора, реализуемого при помощи индекса:
• «Если два из трех следующих утверждений истинны для пары записей,
то пометить ее для дальнейшей обработки:
– Значения в поле ИМЯ фонетически близки
– Значения в поле ФАМИЛИЯ фонетически близки
– Значения в поле ДАТА РОЖДЕНИЯ совпадают»
– Применение фонетических алгоритмов позволяет нивелировать
влияние опечаток
Фонетические алгоритмы
• Фонетические алгоритмы генерируют одинаковые ключи (хэши)
для фонетически близких слов
– Soundex
• Все гласные отбрасываются кроме первой буквы слова
• Генерирует ключи заданной длины (или короче)
– Metaphone
• Генерирует ключи переменной длины
• Был разработан в 1990 году в качестве альтернативы алгоритму Soundex,
обладающему рядом недостатков
USER>write ##class(isc.mprl.util.Phonic).metaphoneru("семак")
СИМАК
Классифицирование пар записей
• Вычисление весов пар потенциальных совпадений
– Вес пары записей равен сумме весов, полученных при сравнении
ключевых реквизитов с учетом их специфики с использованием
– алгоритмов нестрогого сопоставления
– фонетических алгоритмов
– частотных словарей
Вес “A”: +10
Вес “D”: -5
Вес “A”: +8
Вес “D”: -8
Вес “A”: +15
Вес “D”: -9
Вес “A”: +6
Вес “D”: -1
Вес “A”: +14
Вес “D”: -9
ФИО ДР СНИЛС Адрес Полис ОМС
Источник A Иванов
Дмитрий
Иванович
10/12/1956 123-456-789
64
г. Москва, ул.
Харьковская
д.1, кв. 23
6175512171
234567
Источник В Иванов Д.И. нет данных 123-456-789
64
Москва,
Харьковская
1-23
2343552356
213232
+8 0 +15 +5.5 -9
Вес пары: 19.5
Алгоритмы нестрогого сопоставления
• jaroSimilarity – мера близости Джаро (Jaro similarity measure)
• winklerSimilarity – мера близости Джаро-Винклера
• editDistance – расстояние Дамерау-Левенштейна
– Разновидность «расстояния редактирования»
– Подсчитывается минимальная стоимость набора операций,
необходимых для превращения одной строки в другую
– Рассматривается четыре типа операций: вставка одного символа,
удаление одного символа, замена одного символа на другой,
транспозиция - перестановка двух соседних символов
– В рамках HealthShare реализован алгоритм Вагнера-Фишера.
Стоимость одной операции любого типа принимается за единицу.
Описание алгоритма на Хабре - http://habrahabr.ru/post/114997/
USER>write ##class(%MPRL.Utils.Compare).editDistance("привет",
"привте")
1
Классифицирование: вес пары и пороговые значения
Классифицирование: правила для особых случаев
• Детерминированные правила для обработки особых случаев
без учета вычисленных весов:
– Двойняшки
– Идентификационные данные матери, указанные для
новорожденной дочери
– Связывание записей при совпадении набора идентификаторов
(применение утвержденных региональных регламентов)
• Правила программируются в классах, унаследованных от
библиотечных
Валидация: интерфейс администратора РМП
Автоматическая калибровка весов: алгоритм MLE
• “Maximum likelihood estimation” - Метод максимального
правдоподобия (http://en.wikipedia.org/wiki/Maximum_likelihood)
– Выполняется для случайно отобранных пар
• Ограниченное число сравнений или пока колебания весов не станут
незначительными
• Обработка 1 млн. пар ~½ часа на ноутбуке
– После завершения калибровки необходимо:
• Заново запустить процесс идентификации дублей
• Провести валидацию результатов
• Скорректировать пороговые значения
– Необходимо провести несколько итераций
Опыт внедрения РМП
• Итерационный процесс настройки параметров РМП:
весов, порогов, алгоритмов, словарей, …
– Тонкая настройка для каждого из источников демографической
информации
– Интеграция с внешними информационными системами для
проверки потенциальных совпадений
• Обработка унаследованных массивов данных
– Зачастую такие данные содержат большой процент дублей
• Возможность в короткие сроки получить эффект от запуска
региональной ЭМК – дать врачам доступ к истории оказания
пациенту медицинских услуг
Региональный сегмент ЕГИСЗ
• Внедрение сервисов
однозначной
идентификации –
ключ к эффективному
функционированию
региональных ИС
Вопросы и ответы
• Сергей Кудинов
http://www.InterSystems.ru