13
Какие данные собираем 1. Посты, репосты 2. Группы 3. Музыка 4. Комментарии 5. Друзья 6. Интересы (на основе методов обработки естественного языка и машинного обучения) 7.Лингвистический анализ стены Алгоритм классификации интересов 1. Select top k objects of user (for example, groups) 2. Text preprocessing (delete punctuation, stemming, etc.) 3. Bag of Words features 4. Keyword features 5. Classification algorithm’s: SVM, Naïve Bayes, our own algorithm 6. Classify all groups of user 7. A one group may have many interests 8. Associate group’s interests with its users

Борис Фадичев, Relation rate: Анализ данных социальных сетей

  • Upload
    web2win

  • View
    1.082

  • Download
    3

Embed Size (px)

Citation preview

Page 1: Борис Фадичев,  Relation rate: Анализ данных социальных сетей

Какие данные собираем

1. Посты, репосты2. Группы3. Музыка4. Комментарии5. Друзья6. Интересы (на основе методов обработки естественного языка и машинного обучения)7.Лингвистический анализ стены

Алгоритм классификации интересов

1. Select top k objects of user (for example, groups)2. Text preprocessing (delete punctuation, stemming, etc.) 3. Bag of Words features4. Keyword features5. Classification algorithm’s: SVM, Naïve Bayes, our own algorithm6. Classify all groups of user7. A one group may have many interests8. Associate group’s interests with its users

Page 2: Борис Фадичев,  Relation rate: Анализ данных социальных сетей
Page 3: Борис Фадичев,  Relation rate: Анализ данных социальных сетей
Page 4: Борис Фадичев,  Relation rate: Анализ данных социальных сетей
Page 5: Борис Фадичев,  Relation rate: Анализ данных социальных сетей
Page 6: Борис Фадичев,  Relation rate: Анализ данных социальных сетей

Согласно отчета MasterCard (ссылка) в сфере скоринга трендом является использование следующих источников “альтернативных данных”

1) Мобильные платежи2) Психометрические тесты3) Данные соц. сетей4) Данные транзакций (в т.ч. в сфере электронной торговли)

Наше предложение в части скоринга – интеграция двух подходов – психометрии и социальных сетей.

Каждый из этих подходов обладает своими достоинствами и недостатками, но их совместное использование позволяет сгладить их недостатки и усилить достоинства.

Автоматизированный банковский скоринг

Ниже представлен краткий обзор каждого подхода.

В настоящее время представлена в виде тестов, которые проходит заемщик.Согласно отчету MasterCard основными игроками в сфере психометрии являются

1) VisualDNA2) Entrepreneurial Finance Lab

В основе их методов лежат модификации методов Big Five (Таб. 1)

Психометрия

Page 7: Борис Фадичев,  Relation rate: Анализ данных социальных сетей

Анализ социальных сетей

В России скоринг на основе данных соц. сетей представлен крайне слабо – только в конце 2015 г. НБКИ запустил собственные сервисы по анализу данных соц. сетей для задачи скоринга.Из представленных на рынке игроков в России следует отметить:

Сервис Сайт Описание

НБКИ – Social Attributes http://www.nbki.ru/servicescredit/social/attributes/

Social Attributes - данные из социальных сетей, подготовленные для использования в прогнозных (скоринговых) моделях.Это не сама модель. Только данные!

НБКИ – Social Links http://www.nbki.ru/servicescredit/social/connections/

Social Link - вся информация из Интернета о вашем клиенте в едином интерфейсе за одну секундуАгрегатор разных источников.

Скориста http://scorista.ru/Сервис скоринга (для МФО) с интегрированной аналитикой соц. сетей.

Кредито24 https://www.kredito24.ru/

Российское подразделение немецкой группы Kreditech.

Сервис онлайн-займов с интегрированной аналитикой соц. сетей

Page 8: Борис Фадичев,  Relation rate: Анализ данных социальных сетей

Анализ социальных сетей

Следует отметить, что в целом, анализ данных соц. сетей является единственным количественным методом на рынке необеспеченного кредитования.

В среднем, по данным отчета MasterCard (ссылка) использование методов анализа соц. сетей приводит к уровню просроченной задолженности в 12-14%, что почти в два раза меньше чем среднероссийский показатель в ~23-26%.

Подход Достоинства Проблемы

Психометрия

1) Применима в случаях отсутствия кредитной истории2) Возможно предсказывать поведенческие особенности человека и личностные характеристики

Возможность“подгонки” ответов под результат

Анализ социальных сетей

1) Применимость в случаях отсутствия кредитной истории2) Факт анализа скрыт от заемщика3) Факт анализа скрыт от заемщика

Существующие решения предоставляют только сырые количественные данные

Текущее состояние на рынке

Page 9: Борис Фадичев,  Relation rate: Анализ данных социальных сетей

Анализ социальных сетей

Сферы применения технологии

1)Микрокредитование2)Классический скоринг3)Эффективное взаимодействие с заемщиками4)Скоринг для P2P кредитования

Важный этап для развития отрасли и выхода в «масс-маркет» это скоринг для Р2Р кредитования. На данный момент инструменты скоринга доступны и понятны только банкам и специалистам. Мы можем по согласию сторон предоставлять качественный анализ заемщика в Р2Р отрасли, что позволит снизить риски и послужить устойчивому росту отрасли.

Модификация алгоритмов работы будущей системы для задачи скоринга

Используемые методы.Основные методы анализа – это общепризнанные методики Big 5 и MMPI. Big 5 - определяет личность человека по 5 факторам: эмоциональная стабильность, социальный интеллект, добросовестность, умение человека договориться и экстраверсия (стремление человека к публичности и открытости в общении).MMPI - это самая известная методика, позволяющая провести многофакторное исследование личности человека. Сама методика включает 14 шкал, но алгоритм скоринга включает 8 шкал

Page 10: Борис Фадичев,  Relation rate: Анализ данных социальных сетей

Анализ социальных сетей

1. Близость человека к астено-невротическому типу (степень ипохондрии).2. Уровень депрессивности.3. Уровень истерии.4. Определении уровня социопатии.5. Уровень подозрительности и мнительности.6. Наличие навязчивых мыслей и фобий.7. Уровень гипомании (легкая степень мании, характеризуемая импульсивность, раздражительность и социальной активностью).8. Уровень социальной интроверсии. Для скоринга планируется проверить насколько человек закрыт от мира и насколько его легко переубедить

8 шкал алгоритма скоринга

Мы разрабатываем автоматизированный алгоритм анализа социальный сетей, благодаря которому можно составить по факторам портрет человека и отнести его в определенной категории заемщиков.По сути мы разрабатываем «безанкетный» автоматизированный сервис, который с высокой точностью (используя известные методики Big 5, HEXACO и MMPI) определяет портрет заемщика. И все это, по нажатию кнопки, на автомате, и потенциальный заемщик не знает об этом.

Page 11: Борис Фадичев,  Relation rate: Анализ данных социальных сетей

Что мы можем выявитьОсновываясь на полученных в ходе автоматизации алгоритма факторах личности, мы получаем портрет потенциального заемщика.Логично, что заемщики делятся на несколько категорий, в зависимости от цели брать кредит и отношения к процессу погашения кредита.Закономерно, что самые желательные для банков заемщики, которые платят кредит, но с некоторой просрочкой. Таким образом, они платят пени и погашают сумму долга.Нами разрабатывается автоматизированный алгоритм анализа социальный сетей, благодаря которому можно составить по факторам портрет человека и отнести его в определенной категории заемщиков.По сути мы разрабатываем «безтестовый» автоматизированный сервис, который с высокой точностью (используя известные методики Big 5 и MMPI) определяет портрет заемщика. И все это, по нажатию кнопки, на автомате, и потенциальный заемщик не знает об этом.Основные модули нашей системы скоринга

Application scoring Collection

В ходе первичного общения с клиентом и составления анкеты мы предлагаем разработку психологического интервью для следующих целей:

• выявление первичной мотивации заемщика платить или не платить кредит;

• экспресс-диагностика клиента на предмет его эмоциональной стабильности, адекватной оценки своих возможностей;

• выявление девиантных заемщиков;• составление первичного прогноза относительно

погашения кредита;• формирование мотивации у клиента выплачить кредит

без больших просрочек.

Разработка приоритетных направлений по взысканию с заемщика долгов давно считается необходимым. Однако ряд наиболее распространенных методов включают в себя всем известные агрессивные методы, которые, конечно, помогают «выбить деньги», но, закономерно, что такой клиент в этот банк больше не обратится и отговорит своих близких. Для решения этой проблемы мы предлагаем разработку поэтапного взаимодействия с клиентом, опираясь на его психологические особенности. , с целью скорейшего погашения долга и при этом предотвращение конфликтной ситуации.

Page 12: Борис Фадичев,  Relation rate: Анализ данных социальных сетей

TELEPAT V.2

Готовность проекта 40%

Краткая схема реализации

˜ Мы создадим инструмент совмещающий технологии анализа изображений и

анализа текстовой информации социальных сетей и других источников.

Мобильные устрйства (фото)

либо камеры наблюдения

Система бработки изображений

Поиск соответсвий по социальным

сетям.Min: FB, VK, OK

Max: + Instagram, Twitter

Формирование профилей по Соц сетям на основе

полученных данных

Создание коррелируещего среза данных на основе

полученной информации из всех источников

Page 13: Борис Фадичев,  Relation rate: Анализ данных социальных сетей

Маркетинг

Что получим в итоге

После того, когда мы получили изображение человека, анализируя видео с камер наблюдения или просто получив фотографию с мобильного устройства мы сможем получить:

• Срез интересов пользователя (по нашей обновленной базе)• Музыкальные предпочтения• Психологический профиль по методологии MBTI• Психометрия по методологии Big5 (состоящая из 7 шкал: уровень экстроверсии,

импульсивность, уровень открытости, уровень доброжелательности, эмоциональная нестабильность, уровень психопатии, уровень нарциссизма

• Скоринговый профиль по Big5 (для банков)• И другая статистика

На данный момент нами реализовано более 80% аналитического аппарата указанного выше. Сейчас мы занимаемся вопросом реализации нейросети для анализа видео и граф контента.