39
RuSSIR 2010 Russian Summer School in Information Retrieval 13-18 сентября 2010 Воронеж Как это было…

Russir 2010 final

Embed Size (px)

DESCRIPTION

 

Citation preview

Page 1: Russir 2010 final

RuSSIR 2010Russian Summer School in Information Retrieval

13-18 сентября 2010 Воронеж

Как это было…

Page 2: Russir 2010 final

Немного истории

• Школы проводятся совместно с РОМИП

• Школы поддерживаются и спонсируются разными компаниями

• RuSSIR 2007 Екатеринбург • RuSSIR 2008 Таганрог• RuSSIR 2009 Петрозаводск

Page 3: Russir 2010 final

Немного статистики

• Воронежский Государственный университет

• 5 курсов, 2 спонсорские лекции• Конференция молодых ученых (10 докладов)(4 лучшие получили публикацию в ВАК)

• Все курсы по-английски• 9 часов 45 минут занятий в день (с перерывами)• Всего около 110 человек • Конкурс: примерно 2 человека на место

Page 4: Russir 2010 final

Курс

• Web Data Mining (WDM)

• Ricardo Baeza-Yates, Yahoo! Research Barcelona, Spain

Page 5: Russir 2010 final

Что можно майнить? • Контент: текст и

мультимедиа• Структура: анализ ссылок и

графов• Поведение, использование:

логи, запросы• Веб в научном плане новая

среда, много перспектив, много всего неисследованного, широкое поле для деятельности…

• НО в докладе не всегда новая информация

Web Data Mining

Веб – отражение общества.Например, количество ссылок между доменами стран сильно коррелирует с объемами торговых отношений между странами.

Page 6: Russir 2010 final

Crawling

Общая задача

• Найти последовательность запросов на скачивание страниц, которая– Оптимизирует объем, качество и свежесть документов– Работает ограниченное время– Не перегружает хосты– Оптимально использует имеющуюся пропускную способность• Рассчитывается на лету

Page 7: Russir 2010 final

Crawling

Эвристики• Проход в ширину • Упорядочивание по рангу:– PageRank• Упорядочивание по размеру• Использование– Частичных данные– Временных данные• Трудно оценить качество

Page 8: Russir 2010 final

Heavy Long Tail

Удаление запросов, заданных небольшим

количеством пользователей

Query Log Mining

• Лог запросов к AOL’у (август 2006 г.)• Данные as is => личные данные• Установление личности пользователей (запросы + «желтые страницы»)

• SCANDAL

ONLINE?

Page 9: Russir 2010 final

Background: Как разделить секрет среди n человек, чтобы любые k человек могли узнать секрет, а k-1 не могли? Решение: метод полинома k-1 степени

Наивный подход (token-based hashing) восстановим по частотам

• Запрос q кодируется полиномом k-1 степени fq

• Когда пользователь ui вводит запрос q, в лог пишется (ui , fq (ui ))• Если больше, чем k пользователей ввели запрос q, запрос может быть расшифрован.

•Online фильтрация

Query Log MiningАнонимизация данных

Page 10: Russir 2010 final

Graph Mining

Реальные графы не похожи на случайныеЗаконы построения:- Степенной закон- Лог-нормальное распределение- Preferential attachment- «Деньги к деньгам» (rich get richer)

• Prestige• Centrality• Co-citation• PageRank (+ enhancements)• HITS

Page 11: Russir 2010 final

Цели борьбы с поисковым спамом:Не дать спаму влиять на ранжирование, сохранив при этом: – Релевантность – Свежесть – Полноту

What is in the Web?• Information

• Porn

Get rich now now now!!!+On-line casinos + Free movies + Cheap

software + Buy a MBA diploma +Prescription - free drugs + V!-4-gra +

Spam

Фокусироваться только на двух типах:1)Спам, который неоправданно высоко ранжируется2) Спам, на который «съедает» системные ресурсы

Supporters

Изменение масштаба анализа позволяет обнаружить спам-сеть

Page 12: Russir 2010 final

Курс

• Multimedia Information Retrieval (MMIR)

• Stefan Rüger, The Open University

Page 13: Russir 2010 final

Поиск по мультимедиа

Почему бы не заполнить все эти клеточки?

Запрос может быть любого типа

Можем исходить из – метаданных – содержимого Но лучше - объединить

Page 14: Russir 2010 final

Автоматическое аннотирование изображений

ВодаЗданиеГородЗакатАтмосфера

Можно аннотировать

– видео

– музыку

(жанр, муз. инструменты)

Page 15: Russir 2010 final

Идентификация по отпечатку

Фингерпринтинг: Быстрый Надежный Однозначный Устойчивый

Page 16: Russir 2010 final

Извлечение признаков

Изображения: – гистограмма цвета– текстура

Звук: – пики спектрограммы– тембр– ритмический рисунок

Page 17: Russir 2010 final

Реализация: признаки и расстояния

Как это работает:– запрос

– фичи запроса

– сравнение хешей с БД

– минимизация расстояния

– …

– PROFIT!БД хешей фичФункция расстоянияНепосильный объем вычислений

при росте размерности пространства

Page 18: Russir 2010 final

• Distributed Information Retrieval (DIR)

• Fabio Crestani & Ilya Markov, University of Lugano

Курс

Page 19: Russir 2010 final

Распределенный поиск

Распределенный поиск - это система, которая позволяет искать информацию, рассредоточенную по различным ресурсам.Ресурс = коллекция документов + поисковый движок.

Зачем нужен распределенный поиск?• глубинный веб: в сети много ценной информации, недоступной для обхода поисковыми роботами• сохраняются авторские права, права доступа• документы всегда актуальны• поиск оптимизирован под структуру данных (видео, картинки, блоги, новости, etc.)

Page 20: Russir 2010 final

Архитектура распределенного поиска

Общая коллекция

Распределенные индексы

Централизованный индекс

Гибрид: индексируем индексы

P2P

Обход робота

Сбор метаданныхБрокер

Общий индекс для

всех ресурсов

У каждого ресурса

свой собственный

индекс

Page 21: Russir 2010 final

Общая схема работы («брокер»)

• Поиск ресурсов: нужно найти ресурсы, подходящие для объединения (есть свой поиск, поддерживают протокол связи и т.д.).• Описание ресурсов: необходимо получить информацию о каждом ресурсе с помощью его поискового движка.• Выбор ресурсов: когда запрос задан, поисковая система выбирает подходящие ресурсы для поиска внутри них.• Синтез результатов: результаты поиска, полученные из каждого из выбранных ресурсов, объединяются в единый ранжированный список, возвращаемый пользователю. • Представление результатов: в конечном итоге результаты должны быть показаны пользователю в полном и понятном виде.

•Открытые ресурсы: предоставляют доступ к документам, индексу и отвечают на запросы•«Черные ящики»: задаем запрос и получаем ответ

• слияние результатов• «хочу ещё!»• вкладки (tabbed)• side-by-side

Page 22: Russir 2010 final

Приложения распределенного поиска

1. Вертикальный поиск: поиск по коллекциям документов из определенной области или медиафайлам разных типов: новости, путешествия, погода, картинки, музыка, видео… Можно использовать слова-маркеры для определения области.

Для выбора типа вертикального поиска можно использовать:• классификацию (показываем или нет по решению классификатора):

факторы по запросам, логам запросов, лексике;• вероятностный подход (у каждого вертикального поиска есть

вероятность).

Page 23: Russir 2010 final

2. Поиск по блогам: считаем «ресурсом» каждый блог в отдельности. Можем считать, что «блог = большой документ» или «блог = много постов». Собираем метаданные: время публикации, ссылки (посты ссылаются друг на друга их содержание связано; чем больше входящих ссылок, тем авторитетнее пост), авторство, комментарии, etc.

3. Экспертный поиск: документы имеют неравный вес в зависимости от авторства.

4. Персональный поиск: нужно найти среди личных файлов и документов пользователя наиболее релевантные запросу (возможно, документы разных типов).

Приложения распределенного поиска

Page 24: Russir 2010 final

Лекция

NLP@ Google overviewMulti-Sentence Compression

• Katja FilippovaGoogle Inc

Page 25: Russir 2010 final

По этим фразам строится граф:• вершины = токены U {Start, End}• рёбра графа обозначают соседство токенов в фразах

Сжатой фразой называется любой путь в графе от Start до End.

На вход алгоритм получает кластер сходных фраз, например:1. Hillary Clinton wanted to visit China last month but postponed her plans till Monday last week.2. Hillary Clinton paid a visit to the People’s Republic of China on Monday.3. The wife of a former U.S. president Bill Clinton Hillary Clinton visited China last Monday.4. Last week the Secretary of State Ms. Clinton visited Chinese officials.

Page 26: Russir 2010 final

Слова из фразы в граф добавляются за три шага:• однозначные не-стоп-слова – сливаются с существующей вершиной или создают новую• неоднозначные не-стоп-слова – склеиваются по максимуму покрытия• стоп-слова – склеиваются, если есть пересечение в их контекстах

Полученный граф допускает циклы, однако каждое исходное предложение в нём представлено путём без циклов.

S last

Hillary

to

week

Clinton

visited

paid

Chinese Officials

Clinton

Monday

of

wanted

Month

till

China

E

Ms

visit

the

1

2

3

4

last

on

Page 27: Russir 2010 final

U Vfreq(e)

freq(v)freq(u)

В графе строятся k кратчайших путей, при этом:• Пути короче 8 вершин отбрасываются• Пути, не проходящие через глагол, отбрасываются• Длина пути нормализуется на число вершин пути

Путь в графе, обладающий наименьшим весом – искомый!

Page 28: Russir 2010 final

System Gram-2 Gram-1 Gram-0 Avg. Len.

Baseline (EN) 21% 15% 65% 8 / 28

Shortest path (EN) 52% 16% 32% 10 / 28

Shortest path++ (EN) 64% 13% 23% 12 / 28

Baseline (ES) 12% 15% 74% 8 / 35

Shortest path (ES) 58% 21% 21% 10 / 35

Shortest path++ (ES) 50% 21% 29% 12 / 35

System Info-2 Info-1 Info-0 Avg. Len.

Baseline (EN) 18% 10% 73% 8 / 28

Shortest path (EN) 36% 33% 31% 10 / 28

Shortest path++ (EN) 52% 32% 16% 12 / 28

Baseline (ES) 9% 19% 72% 8 / 35

Shortest path (ES) 23% 26% 51% 10 / 35

Shortest path++ (ES) 40% 40% 20% 12 / 35

Использовались 80 английских и 40 испанских новостных кластеровВыбиралось первое предложение каждого документа

Результаты оценки асессорами:

Page 29: Russir 2010 final

Лекция

Расширения поисковых запросов

• Алексей Сокирко, Евгений СоловьёвЯндекс

Page 30: Russir 2010 final

• Введение: отношение «синонимии» в запросах

• Общий дизайн поисковых расширений

• Словоизменение и словообразование

• Транслитерация и акронимы

• Machine learning в поисковых расширениях

Page 31: Russir 2010 final

Популярные классы синонимии

• Словоизменение (слон → слоны, бежал → бежать)

• Словообразование (лемма → лемматизировать)

• Транслитерация (Bosch → Бош, Яндекс → Yandex)

• Акронимы (Российская Федерация → РФ)

• Орфоварианты (мильон → миллион, colour → color)

• Неточные синонимы (сотовый → мобильный телефон)

Page 32: Russir 2010 final

Лингвистическая модель Общие факторы

Дополнительные факторы

Open Source словари +Ручная разметкаРасширение запроса

Machine Learning

Page 33: Russir 2010 final

Конференция молодых ученых

Приняты без публикации:

• Разметка обучающего множества для Марковской модели максимальной энтропии, используемой в задаче извлечения собственных имен из текста. Глазова М.А., Санкт-Петербургский Государственный Университет, Санкт-Петербург, Россия

• Извлечение информации о глагольной сочетаемости на основе коллекции текстовКочеткова Н. А. Литвинов М. И., МИЭМ, Москва, Россия

• Усовершенствование метода пополнения морфологического словаря, Черненьков Д.М., Гугл / МИЭМ, Москва, Россия

• Текстовые классификаторы. Математические модели, Юрий Басов, Рамблер/МГУ, Москва, Россия

Page 34: Russir 2010 final

• Link Graph Analysis for Adult Images ClassificationEvgeny Kharitonov et al., Яндекс, МФТИ, Москва, Россия

• Unsupervised Query Segmentation Using Click Data and Dictionaries InformationJulia Kiseleva, CПбГУ, Санкт-Петербург, Россия

• Could we automatically reproduce semantic relations of an Information Retrieval thesaurus? Alexander Panchenko, Center for Natural Language Processing, Catholic University of Louvain, Лувен-ля-Нёв, Бельгия

• Tapping Into Sociological Lexicons for Sentiment Polarity ClassificationYelena Mejova, University of Iowa, Iowa City, IA, USA

• Прогнозирование Загруженности Автомобильных Дорог Пупырев Сергей, Пронченков Александр, УрГУ, Екатеринбург

• Прогнозирование пробок на улицах по известным данным о скорости автомобилей Гуда С.А., Рябов Д.С., Южный федеральный университет, Ростов-на-Дону, Россия

Page 35: Russir 2010 final
Page 36: Russir 2010 final
Page 37: Russir 2010 final
Page 38: Russir 2010 final
Page 39: Russir 2010 final

Материалы

• Видеозаписи лекций скоро появятся

• Презентации вы можете почитать уже сейчас

http://romip.ru/russir2010/program.html