К. Жагорина "Насколько уникально ФИО?" DUMP-2014

Preview:

DESCRIPTION

 

Citation preview

Насколько уникально ФИО?

Жагорина Ксения, СКБ Контур

Все знают, что ФИО не уникально…

Все знают, что ФИО не уникально…

Иванов Иван Иванович 1.600 чел.

Предполагаемое число людей с таким

ФИО в России

Все знают, что ФИО не уникально…

Иванов Иван Иванович 1.600 чел.

Иванов Сергей Владимирович 6.200 чел.

Кузнецов Сергей Александрович 4.600 чел.

Предполагаемое число людей с таким

ФИО в России

А на самом деле …

А на самом деле …

Статистика по базе данных ЕГРЮЛ 13.4 млн человек с ФИО и ИНН

0.999 0.96

0.68

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

1 10 100 1 000 10 000 100 000 1 000 000 10 000 000

С у

ни

кал

ьны

м Ф

ИО

Количество людей в сообществе

Доля людей с уникальным ФИО

И какая же польза?

И какая же польза?

• Поиск «клонов»

И какая же польза?

• Поиск «клонов»

• Интеграция сервисов

База данных ЕГРЮЛ

13 М человек с ИНН 21 М упоминаний

База данных ЕГРЮЛ

11 М упоминаний без ИНН

13 М человек с ИНН 21 М упоминаний

База данных ЕГРЮЛ

с

13 М человек с ИНН 21 М упоминаний

11 М упоминаний без ИНН

База данных ЕГРЮЛ

11 М упоминаний без ИНН

13 М человек с ИНН 21 М упоминаний

База данных ЕГРЮЛ

Семенов С.А.

Семенов С.А.

Рогов А.В. Копытов Д.Е. Иванов И.И.

11 М упоминаний без ИНН

13 М человек с ИНН 21 М упоминаний

База данных ЕГРЮЛ

Семенов С.А.

Рогов А.В. Копытов Д.Е. Иванов И.И.

? Семенов С.А.

11 М упоминаний без ИНН

13 М человек с ИНН 21 М упоминаний

Как?

Постановка задачи

По двум упоминаниям с одинаковым ФИО определить насколько вероятно, что они об одном и том же человеке.

Методика тестирования

Тестирование – на упоминаниях с указанным ИНН

Оценка модели – точность и полнота

Точность = |Найденные верные связи|

|Все найденные связи|

Полнота = |Найденные верные связи|

|Все верные связи|

Модель на основе независимых ФИО.

𝑃фио = 𝑃 Ф ∗ 𝑃 И ∗ 𝑃 О

Количество людей с данным ФИО – случайная величина:

𝑁фио = 𝐵𝑖𝑛 𝑛, 𝑝

𝑝 = 𝑃фио

n − количество людей в сообществе

Вероятность связи - вероятность того, что количество людей с данным ФИО в сообществе меньше единицы

𝑃 = 𝑃 𝑁фио < 1

Модель на основе независимых ФИО.

0,0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1,0

0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0

по

лн

от

а, т

оч

но

сть

в %

P(Nфио < 1)

точность

полнота

База данных ЕГРЮЛ

Семенов С.А.

Семенов С.А.

Рогов А.В. Копытов Д.Е. Иванов И.И.

11 М упоминаний без ИНН

13 М человек с ИНН 21 М упоминаний

с

База данных ЕГРЮЛ

Семенов С.А.

Семенов С.А.

Рогов А.В. Копытов Д.Е. Иванов И.И.

ООО «Рога и Копыта» Москва

ЗАО «ЗаМКАД» Московская обл.

11 М упоминаний без ИНН

13 М человек с ИНН 21 М упоминаний

Модель на основе зависимости ФИО и региона.

𝑃𝑅ФИО = 𝑃𝑅ФОИ = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О 𝑅Ф ∗ 𝑃 И 𝑅ФО

𝑃 О 𝑅Ф ≈ 𝑃 О Ф 𝑃 И 𝑅ФО ≈ 𝑃 И О

𝑃𝑅ФИО ≈ 𝑃 𝑅 ∗ 𝑃 Ф 𝑅 ∗ 𝑃 О Ф ∗ 𝑃 И О если 𝑅1 = 𝑅2 𝑃𝑅ФИО ≈ 𝑃 Ф ∗ 𝑃 О Ф ∗ 𝑃 И О если 𝑅1 ≠ 𝑅2

Вероятность связи:

𝑃 = 𝑃 𝑁фио < 1 = 𝐹𝑁фио1

Модель на основе зависимости ФИО и региона.

𝑃𝑅ФИО = 𝑃𝑅ФОИ = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О 𝑅Ф ∗ 𝑃 И 𝑅ФО

𝑃 О 𝑅Ф ≈ 𝑃 О Ф 𝑃 И 𝑅ФО ≈ 𝑃 И О

𝑃𝑅ФИО ≈ 𝑃 𝑅 ∗ 𝑃 Ф 𝑅 ∗ 𝑃 О Ф ∗ 𝑃 И О если 𝑅1 = 𝑅2 𝑃𝑅ФИО ≈ 𝑃 Ф ∗ 𝑃 О Ф ∗ 𝑃 И О если 𝑅1 ≠ 𝑅2

Вероятность связи:

𝑃 = 𝑃 𝑁фио < 1 = 𝐹𝑁фио1

Модель на основе зависимости ФИО и региона.

0,0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1,0

0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0

По

лн

от

а, т

оч

но

сть

в %

P(NRФИО < 1)

точность

полнота

Модель на основе независимых ФИО.

0,0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1,0

0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0

по

лн

от

а, т

оч

но

сть

в %

P(Nфио < 1)

точность

полнота

Модель на основе зависимости ФИО и региона. Результаты.

Рогов А.В.

Рогов А.В.

?

ООО «Рога и Копыта» Москва

R = Москва ФИО = Рогов Александр Владимирович P = P(NRФИО<1) = 0.684

P = 0.684

ЗАО «ЗаМКАД» Москва

Модель на основе зависимости ФИО и региона. Результаты.

Копытов Д.Е.

Копытов Д.Е.

?

ООО «Рога и Копыта» Москва

R = Москва ФИО = Копытов Давид Ефремович P = P(NRФИО<1) = 0.9857

P = 0.9857

ЗАО «ЗаМКАД» Москва

Модель на основе зависимости ФИО и региона. Результаты.

Семенов С.А.

Семенов С.А.

?

ООО «Рога и Копыта» Москва

R = Москва ФИО = Семёнов Сергей Андреевич P = P(NRФИО<1) = 0.396

P = 0.396

ЗАО «ЗаМКАД» Москва

Вывод

Полнота 80% при точности 95%.

150 млн. новых связей.

Конец

Конец

ksenia.zhagorina@skbkontur.ru

Recommended