28
О О б б з з о о р р н н е е к к о о т т о о р р ы ы х х р р а а б б о о т т К К а а р р л л а а М М е е й й е е р р а а У У с с т т р р а а н н е е н н и и е е ш ш у у м м а а в в а а н н а а л л и и з з е е т т в в и и т т о о в в , , с с в в я я з з ь ь с с м м е е ж ж н н о о с с т т и и и и м м о о д д у у л л я я р р н н о о с с т т и и п п р р и и р р а а з з б б и и е е н н и и и и г г р р а а ф ф а а Дьяконов А.Г. Московский государственный университет имени М.В. Ломоносова (Москва, Россия) Выступление на семинаре Алгебра над алгоритмами и эвристический поиск закономерностей

Устранение шума в анализе твитов, связь смежности и модулярности при разбиении графа

  • Upload
    -

  • View
    1.078

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Устранение шума в анализе твитов, связь смежности и модулярности при разбиении графа

ООббззоорр ннееккооттооррыыхх ррааббоотт

ККааррллаа ММееййеерраа

УУссттррааннееннииее шшууммаа вв ааннааллииззее ттввииттоовв,,

ссввяяззьь ссммеежжннооссттии ии ммооддуулляяррннооссттии ппррии

ррааззббииееннииии ггррааффаа

ДДььяяккоонноовв АА..ГГ..

ММооссккооввссккиийй ггооссууддааррссттввеенннныыйй ууннииввееррссииттеетт

ииммееннии ММ..ВВ.. ЛЛооммооннооссоовваа ((ММоосскквваа,, РРооссссиияя))

Выступление на семинаре

Алгебра над алгоритмами и эвристический поиск закономерностей

Page 2: Устранение шума в анализе твитов, связь смежности и модулярности при разбиении графа

Карл Мейер: анализ твитов и разбиение графа 2 слайд из 28 Дьяконов А.Г. (Москва, МГУ)

Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года

ККааррлл ММееййеерр – профессор в университете Северной Каролины

Page 3: Устранение шума в анализе твитов, связь смежности и модулярности при разбиении графа

Карл Мейер: анализ твитов и разбиение графа 3 слайд из 28 Дьяконов А.Г. (Москва, МГУ)

Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года

ООббллаассттьь ииннттеерреессоовв

Линейная алгебра

PageRank, марковские цепи

Кластеризация, неотрицательные матричные разложения

Page 4: Устранение шума в анализе твитов, связь смежности и модулярности при разбиении графа

Карл Мейер: анализ твитов и разбиение графа 4 слайд из 28 Дьяконов А.Г. (Москва, МГУ)

Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года

AA CCaassee SSttuuddyy iinn TTeexxtt MMiinniinngg::

IInntteerrpprreettiinngg TTwwiitttteerr DDaattaa FFrroomm WWoorrlldd CCuupp TTwweeeettss

Daniel Godfrey, Caley Johns, Carol Sadek, Carl Meyer, Shaina Race

Page 5: Устранение шума в анализе твитов, связь смежности и модулярности при разбиении графа

Карл Мейер: анализ твитов и разбиение графа 5 слайд из 28 Дьяконов А.Г. (Москва, МГУ)

Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года

AA CCaassee SSttuuddyy iinn TTeexxtt MMiinniinngg::

IInntteerrpprreettiinngg TTwwiitttteerr DDaattaa FFrroomm WWoorrlldd CCuupp TTwweeeettss

30 000 твитов перед началом чемпионата мира

(содержат слово world cup), английские и испанские

Из них отобрано 17023 с важной информацией

(удаляем ретвиты)

Page 6: Устранение шума в анализе твитов, связь смежности и модулярности при разбиении графа

Карл Мейер: анализ твитов и разбиение графа 6 слайд из 28 Дьяконов А.Г. (Москва, МГУ)

Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года

ГГллааввннааяя ппррооббллееммаа –– шум

ККооннееччннааяя ццеелльь –– кластеризация, интерпретация

ИИззббааввллееннииее оотт шшууммаа::

DBSCAN algorithm + consensus matrix

см. дальше

Page 7: Устранение шума в анализе твитов, связь смежности и модулярности при разбиении графа

Карл Мейер: анализ твитов и разбиение графа 7 слайд из 28 Дьяконов А.Г. (Москва, МГУ)

Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года

ККллаассттееррииззаацциияя ддлляя ооппррееддееллеенниияя ттооппииккоовв

1) Tf-idf + cos + kmeans

2) Consensus clustering

consensus matrix –

ij элемент = сколько раз i и j объект попали в один кластер

(например, несколько раз k-means)

Page 8: Устранение шума в анализе твитов, связь смежности и модулярности при разбиении графа

Карл Мейер: анализ твитов и разбиение графа 8 слайд из 28 Дьяконов А.Г. (Москва, МГУ)

Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года

ККллаассттееррииззаацциияя ддлляя ооппррееддееллеенниияя ттооппииккоовв

3) неотрицательные матричные разложения

WHA

0, HW

Можно интерпретировать как топики

и степени принадлежности к ним

ММееттооддыы ппооссттррооеенниияя ННММРР

o Multiplicative Update Rule

(в теории сходится к локальному минимуму)

o Alternating Least Squares (ALS)

o Alternating Constrained Least Squares (ACLS)

Page 9: Устранение шума в анализе твитов, связь смежности и модулярности при разбиении графа

Карл Мейер: анализ твитов и разбиение графа 9 слайд из 28 Дьяконов А.Г. (Москва, МГУ)

Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года

ММееттооддыы ппооссттррооеенниияя ННММРР

Page 10: Устранение шума в анализе твитов, связь смежности и модулярности при разбиении графа

Карл Мейер: анализ твитов и разбиение графа 10 слайд из 28 Дьяконов А.Г. (Москва, МГУ)

Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года

ММееттооддыы ппооссттррооеенниияя ННММРР

Page 11: Устранение шума в анализе твитов, связь смежности и модулярности при разбиении графа

Карл Мейер: анализ твитов и разбиение графа 11 слайд из 28 Дьяконов А.Г. (Москва, МГУ)

Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года

ККллаассттееррииззаацциияя ддлляя ооппррееддееллеенниияя ттооппииккоовв

4) Density-Based Spatial Clustering of Applications with Noise (DBSCAN)

Алгоритм с маркировкой точек как шум и т.п.

для каждой точки строим круг радиуса

если в круге есть как минимум k точек – она плотная

если нет, но есть плотные точки – она граничная

иначе – шум

Page 12: Устранение шума в анализе твитов, связь смежности и модулярности при разбиении графа

Карл Мейер: анализ твитов и разбиение графа 12 слайд из 28 Дьяконов А.Г. (Москва, МГУ)

Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года

ГГллааввннааяя ппррооббллееммаа –– ууссттррааннееннииее шшууммоовв

Page 13: Устранение шума в анализе твитов, связь смежности и модулярности при разбиении графа

Карл Мейер: анализ твитов и разбиение графа 13 слайд из 28 Дьяконов А.Г. (Москва, МГУ)

Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года

44 ааллггооррииттммаа ууддааллеенниияя шшууммоовв

N*k-means (разные k)

consensus matrix

если ij-элемент <10% - зануляем

строки «с большим числом нулей» шумовые

N*DBSCAN (после первого?)

если граничная или шум в > 50% случаях

удаляем

На consensus matrix, а не матрице расстояний!

Комбинация (голосованием)

Page 14: Устранение шума в анализе твитов, связь смежности и модулярности при разбиении графа

Карл Мейер: анализ твитов и разбиение графа 14 слайд из 28 Дьяконов А.Г. (Москва, МГУ)

Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года

ВВыыббоорр ччииссллаа ттооппииккоовв

СDL

С – матрица консенсуса

Смотрим на 50 наименьших с.з. –

по принципу наибольшего зазора определяем число топиков

Page 15: Устранение шума в анализе твитов, связь смежности и модулярности при разбиении графа

Карл Мейер: анализ твитов и разбиение графа 15 слайд из 28 Дьяконов А.Г. (Москва, МГУ)

Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года

ИИттооггооввааяя ккллаассттееррииззаацциияя

1) k-means

2) NNMF – интерпретируем как степень вхождения в топик

Page 16: Устранение шума в анализе твитов, связь смежности и модулярности при разбиении графа

Карл Мейер: анализ твитов и разбиение графа 16 слайд из 28 Дьяконов А.Г. (Москва, МГУ)

Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года

Page 17: Устранение шума в анализе твитов, связь смежности и модулярности при разбиении графа

Карл Мейер: анализ твитов и разбиение графа 17 слайд из 28 Дьяконов А.Г. (Москва, МГУ)

Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года

Page 18: Устранение шума в анализе твитов, связь смежности и модулярности при разбиении графа

Карл Мейер: анализ твитов и разбиение графа 18 слайд из 28 Дьяконов А.Г. (Москва, МГУ)

Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года

ВВыыввоодд:: NMF быстрее и адекватнее k-means

Page 19: Устранение шума в анализе твитов, связь смежности и модулярности при разбиении графа

Карл Мейер: анализ твитов и разбиение графа 19 слайд из 28 Дьяконов А.Г. (Москва, МГУ)

Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года

ЛЛииттееррааттуурраа

[1] Martin Ester, Hans peter Kriegel, Jrg S, and Xiaowei Xu. A density-based algorithm for discovering

clusters in large spatial databases with noise. pages 226–231. AAAI Press, 1996.

[2] A. G. K. Janecek and W. N. Gansterer. Utilizing Nonnegative Matrix Factorization for Email Classifi-

cation Problems in Text Mining: Applications and Theory. John Wiley and Sons, 2010.

[3] Amy N. Langville, Carl D. Meyer, Russell Albright, James Cox, and David Duling. Algorithms,

initializations, and convergence for the nonnegative matrix factorization. 2014.

[4] Daniel D. Lee and H. Sebastian Seung. Algorithms for non-negative matrix factorization. 2000.

[5] Tao Li and Chris Ding. Nonnegative matrix factorizations for clustering: A survey. pages 149–179,

2013.

[6] Carl D. Meyer. Matrix Analysis and Applied Linear Algebra. SIAM, 2001.

[7] Mark EJ Newman. Modularity and community structure in networks. Proceedings of the National

Academy of Sciences, 103(23):8577–8582, 2006.

[8] Gang Qian, Shamik Sural, Yuelong Gu, and Sakti Pramanik. Similarity between euclidean and cosine

angle distance for nearest neighbor queries. 2004.

[9] Shaina L. Race. Iterative Consensus Clustering. PhD thesis, North Carolina State University, 2014.

[10] Andrey A. Shabalin. k-means animation. Web.

[11] Farial Shahnaz. Document clustering using nonnegative matrix factorization. Information

Processing and Management, 42(2):373–386, 2006.

[12] Ankita Vimal, Satyanarayana R Valluri, and Kamalakar Karlapalem. An experiment with distance

meaures for clustering. International Conference on Management of Data COMAD, 2008.

Page 20: Устранение шума в анализе твитов, связь смежности и модулярности при разбиении графа

Карл Мейер: анализ твитов и разбиение графа 20 слайд из 28 Дьяконов А.Г. (Москва, МГУ)

Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года

RREELLAATTIIOONNSS BBEETTWWEEEENN AADDJJAACCEENNCCYY AANNDD

MMOODDUULLAARRIITTYY GGRRAAPPHH PPAARRTTIITTIIOONNIINNGG

HANSI JIANG, CARL MEYER

Page 21: Устранение шума в анализе твитов, связь смежности и модулярности при разбиении графа

Карл Мейер: анализ твитов и разбиение графа 21 слайд из 28 Дьяконов А.Г. (Москва, МГУ)

Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года

ССууттьь

главный с.в. матрицы модулярности – линейная комбинация с.в.

матрицы смежности, коэффициенты определены

Предложен метод для аппроксимации ГСВММ

Получена ошибка аппроксимации

Page 22: Устранение шума в анализе твитов, связь смежности и модулярности при разбиении графа

Карл Мейер: анализ твитов и разбиение графа 22 слайд из 28 Дьяконов А.Г. (Москва, МГУ)

Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года

ННааппооммииннааннииее

Матрица Лапласа

ADL

Матрица модулярности

m

ddAB

2

т

нормированные версии:

2/12/1 LDDL , 2/12/1 BDDB

решение задачи на с.з.:

),0( e , ),0( 2/1 eD

Page 23: Устранение шума в анализе твитов, связь смежности и модулярности при разбиении графа

Карл Мейер: анализ твитов и разбиение графа 23 слайд из 28 Дьяконов А.Г. (Москва, МГУ)

Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года

ТТееооррееммаа

Пусть тUUA , iu – столбцы U , n 1 – на диагонали .

Пусть n 1 – с.в. матрицы B .

Если 211 , || 21 , тогда с.в. 1b ~ max с.з. B :

i

n

i i

i udu

dU 1 2

т

2

т )(||||

1

Page 24: Устранение шума в анализе твитов, связь смежности и модулярности при разбиении графа

Карл Мейер: анализ твитов и разбиение графа 24 слайд из 28 Дьяконов А.Г. (Москва, МГУ)

Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года

ТТееооррееммаа

Пусть при старых предположениях

2

т

1

т

||||)( dU

du

i

ii

,

и есть такое переупорядочивание

||||1iin

, тогда можно 1b аппроксимировать с помощью

jj i

p

j

i u1

с ошибкой

pj

i jb

2

21 ||||

1

Page 25: Устранение шума в анализе твитов, связь смежности и модулярности при разбиении графа

Карл Мейер: анализ твитов и разбиение графа 25 слайд из 28 Дьяконов А.Г. (Москва, МГУ)

Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года

ТТееооррееммаа

Пусть 0 – простое с.з. B,

1 – простое с.з. A, 10

тогда

BuAu ~),(~),( .

Если ещё 0 не наибольшее с.з. B, тогда с.в. соответствующий max

с.з. B и с.в. соответствующий max второму по величине с.з. A

совпадают.

ППооээттооммуу ии ссооооттввееттссттввууюющщииее ккллаассттееррииззааццииии ссооввппааддааюютт!!

Page 26: Устранение шума в анализе твитов, связь смежности и модулярности при разбиении графа

Карл Мейер: анализ твитов и разбиение графа 26 слайд из 28 Дьяконов А.Г. (Москва, МГУ)

Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года

ЭЭккссппееррииммееннттыы ннаа 33 ннааббоорраахх ддаанннныыхх

1. Wine Recognition Data Set (UCI)

178 объектов, 13 признаков, гауссова схожесть

2. Breast Cancer Wisconsin (Original) Data Set (UCI)

699 объектов, 9 признаков

3. PenDigit Data Sets from MNIST database

ДДлляя ссррааввннеенниияя ссххооддссттвваа ррааббооттыы 22хх ммееттооддоовв ккллаассттееррииззааццииии

Page 27: Устранение шума в анализе твитов, связь смежности и модулярности при разбиении графа

Карл Мейер: анализ твитов и разбиение графа 27 слайд из 28 Дьяконов А.Г. (Москва, МГУ)

Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года

ЛЛииттееррааттуурраа

[1] R. W. Abbey Stochastic clustering: Visualization and application. , PhD Thesis, North Carolina State

University, (2013).

[2] M. Bolla Penalized versions of the newman-girvan modularity and their relation to normalized cuts

and k-means clustering , Physical Review E, 84 (2011), p. 016108.

[3] J. R. Bunch, C. P. Nielsen, and D. C. Sorensen, Rank-one modification of the symmetric eigenproblem,

Numerische Mathematik, 31 (1978), pp. 31–48.

[4] R. Chitta, R. Jin, and A. K. Jain, Efficient kernel clustering using random fourier features, in Data

Mining (ICDM), 2012 IEEE 12th International Conference on, IEEE, 2012, pp. 161–170.

[5] F. R. Chung, Spectral graph theory, vol. 92, American Mathematical Soc., 1997.

[6] M. Fiedler, Algebraic connectivity of graphs, Czechoslovak Mathematical Journal, 23 (1973), pp. 298–

305.

[7] A property of eigenvectors of nonnegative symmetric matric

es and its application to graph theory, Czechoslovak Mathematical Journal, 25 (1975), pp. 619–633.

[8] J. Goldberger, G. E. Hinton, S. T. Roweis, and R. R. Salakhutdinov, Neighbourhood components

analysis, in Advances in Neural Information Processing Systems 17, L. Saul, Y. Weiss, and L. Bottou,

eds., MIT Press, 2005, pp. 513–520.

[9] T. Hertz, A. Bar-Hillel, and D. Weinshall, Boosting margin based distance functions for clustering, in

Proceedings of the twenty-first international conference on Machine learning,

ACM, 2004, p. 50.

[10] H. Ishibuchi and T. Yamamoto, Rule weight specification in fuzzy rule-based classification systems,

Fuzzy Systems, IEEE Transactions on, 13 (2005), pp. 428–435.

[11] Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner, Gradient-based learning applied to document

recognition, Proceedings of the IEEE, 86 (1998), pp. 2278–2324.

[12] M. Lichman, UCI machine learning repository, 2013.

Page 28: Устранение шума в анализе твитов, связь смежности и модулярности при разбиении графа

Карл Мейер: анализ твитов и разбиение графа 28 слайд из 28 Дьяконов А.Г. (Москва, МГУ)

Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года

[13] O. L. Mangasarian, W. N. Street, and W. H. Wolberg, Breast cancer diagnosis and prognosis via

linear programming, Operations Research, 43 (1995), pp. 570–577.

[14] C. D. Meyer, Matrix analysis and applied linear algebra, Siam, 2000.

[15] M. E. Newman, Modularity and community structure in networks, Proceedings of the National

Academy of Sciences, 103 (2006), pp. 8577–8582.

[16] M. E. Newman and M. Girvan, Finding and evaluating community structure in networks, Physical

review E, 69 (2004), p. 026113.

[17] A. Y. Ng, M. I. Jordan, Y. Weiss, et al., On spectral clustering: Analysis and an algorithm, Advances

in neural information processing systems, 2 (2002), pp. 849–856.

[18] S. L. Race, Iterative consensus clustering, PhD Thesis, North Carolina State University, (2014).

[19] S. L. Race, C. Meyer, and K. Valakuzhy, Determining the number of clusters via iterative consensus

clustering , in Proceedings of the SIAM Conference on Data Mining (SDM), SIAM, 2013, pp. 94–102.

[20] J. Shi and J. Malik, Normalized cuts and image segmentation, Pattern Analysis and Machine

Intelligence, IEEE Transactions on, 22 (2000), pp. 888–905

[21] P.-N. Tan, M. Steinbach, V. Kumar, et al., Introduction to data mining

, vol. 1, Pearson Addison Wesley Boston, 2006.

[22] U. Von Luxburg, A tutorial on spectral clustering, Statistics and computing, 17 (2007), pp. 395–416.

[23] J. H. Wilkinson, J. H. Wilkinson, and J. H. Wilkinson, The algebraic eigenvalue problem, vol. 87,

Clarendon Press Oxford, 1965.

[24] L. Yu and C. Ding, Network community discovery: solving modularity clustering via normalized cut,

in Proceedings of the Eighth Workshop on Mining and Learning with Graphs,

ACM, 2010, pp. 34–36.

[25] R. Zhang and A. I. Rudnicky, A large scale clustering scheme for kernel k-means, in Pattern

Recognition, 2002. Proceedings. 16th International Conference on, vol. 4, IEEE, 2002, pp. 289–292.