20
Анализ социальных сетей в телекоме Александр Семёнов М.н.с. Международной лаборатории прикладного сетевого анализа НИУ ВШЭ

Александр Семёнов, МТС, Высшая Школа Экономики, «Анализ социальных сетей в телекоме»

Embed Size (px)

Citation preview

Page 1: Александр Семёнов, МТС, Высшая Школа Экономики, «Анализ социальных сетей в телекоме»

Анализ социальных сетей в телекоме

Александр Семёнов

М.н.с. Международной лаборатории прикладного сетевого анализа

НИУ ВШЭ

Page 2: Александр Семёнов, МТС, Высшая Школа Экономики, «Анализ социальных сетей в телекоме»

Содержание

http://insights-on-business.com/communications/telecom-analytics-the-difference-between-social-networks-and-social-media/

• Задачи;• Характеристика данных;• Архитектура и софт;• Топология графов в телекоме;• Предсказание оттока;• Предсказание мошенничества;• Выявление сообществ.

Page 3: Александр Семёнов, МТС, Высшая Школа Экономики, «Анализ социальных сетей в телекоме»

Задачи

• Предотвращение оттока (50-70 % оттока у выбранного оператора);

• Распространение товара через «лидеров мнений» (… в большинстве сетей телекома почти 90% групп имеют явно выраженных «лидеров мнений»);

• Определение мошенничества;

• Сегментация пользователей.

Page 4: Александр Семёнов, МТС, Высшая Школа Экономики, «Анализ социальных сетей в телекоме»

Данные

http://www.slideshare.net/dataspora/social-network-analysis-for-telecoms

Основной источник –CDR, Call Detail Record

Page 5: Александр Семёнов, МТС, Высшая Школа Экономики, «Анализ социальных сетей в телекоме»

Архитектура

Аналитическая платформа, вычисляющая миллионы связей из десятков миллиардов событий, находящихся в десятках терабайт данных меньше, чем за час…

http://www.slideshare.net/dataspora/social-network-analysis-for-telecoms

Page 6: Александр Семёнов, МТС, Высшая Школа Экономики, «Анализ социальных сетей в телекоме»

Топология графов в телекоме

Распределение рёбер лучше характеризует топологию графов, нежели распределение узлов;

1 день кабельнох звонков: 53 миллиона узлов и 170 миллиона рёбер

3,7 миллионов разрозненных компонентов, большинство из которых составляют пары номеров, звонящие только друг-другу.

80% узлов состоят в гигантской компоненте, диаметр которой равен 20.

Nanavati, Amit A., et al. "On the structural properties of massive telecom call graphs:

findings and implications." Proceedings of the 15th ACM international conference on Information and knowledge management. ACM, 2006.

Page 7: Александр Семёнов, МТС, Высшая Школа Экономики, «Анализ социальных сетей в телекоме»

Ассортативность

• Более 99% узлов имеют Indegree <= 100;• В телекоме регионы с высокой ассортативностью могут

быть использованы для управления эффективностью рекламных кампаний и распространения новых сервисов, т.к. там возможны техники Word-of-Mouth маркетинга;

• В регионах с низкой ассортативностью больше денег нужно тратить на традиционную рекламу.

Page 8: Александр Семёнов, МТС, Высшая Школа Экономики, «Анализ социальных сетей в телекоме»

Клики

• Максимальный размер клики – 11,

• Больше всего клик размером 3

Page 9: Александр Семёнов, МТС, Высшая Школа Экономики, «Анализ социальных сетей в телекоме»

Определение влиятельности: In-degree & PageRank

Page 10: Александр Семёнов, МТС, Высшая Школа Экономики, «Анализ социальных сетей в телекоме»

Коэффициент кластеризацииКоэффициент кластеризации сетей

телекома похож на коэффициент

кластеризации e-mail сетей

Значение = 1 он принимает в

основном в кликах размером 3.

Модель графа отличается от bow-

tie где все 3 части состоят из

равного числа узлов

Page 11: Александр Семёнов, МТС, Высшая Школа Экономики, «Анализ социальных сетей в телекоме»

Предсказание оттока

http://www.slideshare.net/dataspora/social-network-analysis-for-telecoms

Page 12: Александр Семёнов, МТС, Высшая Школа Экономики, «Анализ социальных сетей в телекоме»

Предсказание оттока: advanced

• 60 ГБ

• 3.1*10^6 узлов and 12.3*10^6 связей.

• Только реципрокные связи (2.1*10^6 узлов b 9.3*10^6 связей)

• 32.1 *10^6 звонков, длительностью 955*10^3 часов

Dasgupta, Koustuv, et al. "Social ties and their relevance to churn in mobile telecom

networks." Proceedings of the 11th international conference on Extending database technology:

Advances in database technology. ACM, 2008.

Page 13: Александр Семёнов, МТС, Высшая Школа Экономики, «Анализ социальных сетей в телекоме»

Зависимость от оттока друзей

Page 14: Александр Семёнов, МТС, Высшая Школа Экономики, «Анализ социальных сетей в телекоме»

Сила связей и устойчивость графа

Page 15: Александр Семёнов, МТС, Высшая Школа Экономики, «Анализ социальных сетей в телекоме»

SPA-алгоритм виральности оттока

Page 16: Александр Семёнов, МТС, Высшая Школа Экономики, «Анализ социальных сетей в телекоме»

Точность по сравнению с эвристиками

Page 17: Александр Семёнов, МТС, Высшая Школа Экономики, «Анализ социальных сетей в телекоме»

Определение мошенников и ботов• 100 000 наиболее активных пользователей телефона. • паттерны распределения временных промежутков

между исходящими звонками каждого абонента => кластеризация.

• Распределение Вейбулла (73%) – нормальные люди (группа 4);

• Степенное распределение (3%) – боты, продавцы и мошенники (группа 1, 2, 3)

Авторами было обнаружено два вида распределений: степенное и распределение Вейбулла.

Боты характеризуются высокой частотой исходящих звонков на небольшое число, номеров, в то время как мошенники и абоненты, занимающиеся телефонными продажами, при столь же высокой частоте исходящих звонков имеют значительно большее число адресатов, среди которых у них отсутствуют «любимые номера».

Jiang, Zhi-Qiang, et al. "Calling patterns in human communication

dynamics." Proceedings of the National Academy of Sciences 110.5 (2013): 1600-1605.

Page 18: Александр Семёнов, МТС, Высшая Школа Экономики, «Анализ социальных сетей в телекоме»

Выявление групп

Page 19: Александр Семёнов, МТС, Высшая Школа Экономики, «Анализ социальных сетей в телекоме»

Резюме

• Использование сетевых фичей повышает качество аналитики в телекоме;

• Большинство решений построены на реляционных базах данных;

• Вычисление телекомовских графов можно выполнять на R за минуты;

• Некоторые виды аналитики (кластеризация) работают даже на Windows XP Pentium 4, 3.0GHz, 2G RAM.

Page 20: Александр Семёнов, МТС, Высшая Школа Экономики, «Анализ социальных сетей в телекоме»

Спасибо. Вопросы?

[email protected]://semenoffalex.ruhttps://facebook.com/semenoffalexru.linkedin.com/in/semenoffalex/