Upload
mailru-group
View
8.751
Download
7
Embed Size (px)
Citation preview
Анализ социальных сетей в телекоме
Александр Семёнов
М.н.с. Международной лаборатории прикладного сетевого анализа
НИУ ВШЭ
Содержание
http://insights-on-business.com/communications/telecom-analytics-the-difference-between-social-networks-and-social-media/
• Задачи;• Характеристика данных;• Архитектура и софт;• Топология графов в телекоме;• Предсказание оттока;• Предсказание мошенничества;• Выявление сообществ.
Задачи
• Предотвращение оттока (50-70 % оттока у выбранного оператора);
• Распространение товара через «лидеров мнений» (… в большинстве сетей телекома почти 90% групп имеют явно выраженных «лидеров мнений»);
• Определение мошенничества;
• Сегментация пользователей.
Данные
http://www.slideshare.net/dataspora/social-network-analysis-for-telecoms
Основной источник –CDR, Call Detail Record
Архитектура
Аналитическая платформа, вычисляющая миллионы связей из десятков миллиардов событий, находящихся в десятках терабайт данных меньше, чем за час…
http://www.slideshare.net/dataspora/social-network-analysis-for-telecoms
Топология графов в телекоме
Распределение рёбер лучше характеризует топологию графов, нежели распределение узлов;
1 день кабельнох звонков: 53 миллиона узлов и 170 миллиона рёбер
3,7 миллионов разрозненных компонентов, большинство из которых составляют пары номеров, звонящие только друг-другу.
80% узлов состоят в гигантской компоненте, диаметр которой равен 20.
Nanavati, Amit A., et al. "On the structural properties of massive telecom call graphs:
findings and implications." Proceedings of the 15th ACM international conference on Information and knowledge management. ACM, 2006.
Ассортативность
• Более 99% узлов имеют Indegree <= 100;• В телекоме регионы с высокой ассортативностью могут
быть использованы для управления эффективностью рекламных кампаний и распространения новых сервисов, т.к. там возможны техники Word-of-Mouth маркетинга;
• В регионах с низкой ассортативностью больше денег нужно тратить на традиционную рекламу.
Клики
• Максимальный размер клики – 11,
• Больше всего клик размером 3
Определение влиятельности: In-degree & PageRank
Коэффициент кластеризацииКоэффициент кластеризации сетей
телекома похож на коэффициент
кластеризации e-mail сетей
Значение = 1 он принимает в
основном в кликах размером 3.
Модель графа отличается от bow-
tie где все 3 части состоят из
равного числа узлов
Предсказание оттока
http://www.slideshare.net/dataspora/social-network-analysis-for-telecoms
Предсказание оттока: advanced
• 60 ГБ
• 3.1*10^6 узлов and 12.3*10^6 связей.
• Только реципрокные связи (2.1*10^6 узлов b 9.3*10^6 связей)
• 32.1 *10^6 звонков, длительностью 955*10^3 часов
Dasgupta, Koustuv, et al. "Social ties and their relevance to churn in mobile telecom
networks." Proceedings of the 11th international conference on Extending database technology:
Advances in database technology. ACM, 2008.
Зависимость от оттока друзей
Сила связей и устойчивость графа
SPA-алгоритм виральности оттока
Точность по сравнению с эвристиками
Определение мошенников и ботов• 100 000 наиболее активных пользователей телефона. • паттерны распределения временных промежутков
между исходящими звонками каждого абонента => кластеризация.
• Распределение Вейбулла (73%) – нормальные люди (группа 4);
• Степенное распределение (3%) – боты, продавцы и мошенники (группа 1, 2, 3)
Авторами было обнаружено два вида распределений: степенное и распределение Вейбулла.
Боты характеризуются высокой частотой исходящих звонков на небольшое число, номеров, в то время как мошенники и абоненты, занимающиеся телефонными продажами, при столь же высокой частоте исходящих звонков имеют значительно большее число адресатов, среди которых у них отсутствуют «любимые номера».
Jiang, Zhi-Qiang, et al. "Calling patterns in human communication
dynamics." Proceedings of the National Academy of Sciences 110.5 (2013): 1600-1605.
Выявление групп
Резюме
• Использование сетевых фичей повышает качество аналитики в телекоме;
• Большинство решений построены на реляционных базах данных;
• Вычисление телекомовских графов можно выполнять на R за минуты;
• Некоторые виды аналитики (кластеризация) работают даже на Windows XP Pentium 4, 3.0GHz, 2G RAM.
Спасибо. Вопросы?
[email protected]://semenoffalex.ruhttps://facebook.com/semenoffalexru.linkedin.com/in/semenoffalex/