Russir 2010 final

RuSSIR 2010Russian Summer School in Information Retrieval

13-18 сентября 2010 Воронеж

Как это было…

Немного истории

• Школы проводятся совместно с РОМИП

• Школы поддерживаются и спонсируются разными компаниями

• RuSSIR 2007 Екатеринбург • RuSSIR 2008 Таганрог• RuSSIR 2009 Петрозаводск

Немного статистики

• Воронежский Государственный университет

• 5 курсов, 2 спонсорские лекции• Конференция молодых ученых (10 докладов)(4 лучшие получили публикацию в ВАК)

• Все курсы по-английски• 9 часов 45 минут занятий в день (с перерывами)• Всего около 110 человек • Конкурс: примерно 2 человека на место

Курс

• Web Data Mining (WDM)

• Ricardo Baeza-Yates, Yahoo! Research Barcelona, Spain

Что можно майнить? • Контент: текст и

мультимедиа• Структура: анализ ссылок и

графов• Поведение, использование:

логи, запросы• Веб в научном плане новая

среда, много перспектив, много всего неисследованного, широкое поле для деятельности…

• НО в докладе не всегда новая информация

Web Data Mining

Веб – отражение общества.Например, количество ссылок между доменами стран сильно коррелирует с объемами торговых отношений между странами.

Crawling

Общая задача

• Найти последовательность запросов на скачивание страниц, которая– Оптимизирует объем, качество и свежесть документов– Работает ограниченное время– Не перегружает хосты– Оптимально использует имеющуюся пропускную способность• Рассчитывается на лету

Crawling

Эвристики• Проход в ширину • Упорядочивание по рангу:– PageRank• Упорядочивание по размеру• Использование– Частичных данные– Временных данные• Трудно оценить качество

Heavy Long Tail

Удаление запросов, заданных небольшим

количеством пользователей

Query Log Mining

• Лог запросов к AOL’у (август 2006 г.)• Данные as is => личные данные• Установление личности пользователей (запросы + «желтые страницы»)

• SCANDAL

ONLINE?

Background: Как разделить секрет среди n человек, чтобы любые k человек могли узнать секрет, а k-1 не могли? Решение: метод полинома k-1 степени

Наивный подход (token-based hashing) восстановим по частотам

• Запрос q кодируется полиномом k-1 степени fq

• Когда пользователь ui вводит запрос q, в лог пишется (ui , fq (ui ))• Если больше, чем k пользователей ввели запрос q, запрос может быть расшифрован.

•Online фильтрация

Query Log MiningАнонимизация данных

Graph Mining

Реальные графы не похожи на случайныеЗаконы построения:- Степенной закон- Лог-нормальное распределение- Preferential attachment- «Деньги к деньгам» (rich get richer)

• Prestige• Centrality• Co-citation• PageRank (+ enhancements)• HITS

Цели борьбы с поисковым спамом:Не дать спаму влиять на ранжирование, сохранив при этом: – Релевантность – Свежесть – Полноту

What is in the Web?• Information

• Porn

Get rich now now now!!!+On-line casinos + Free movies + Cheap

software + Buy a MBA diploma +Prescription - free drugs + V!-4-gra +

Spam

Фокусироваться только на двух типах:1)Спам, который неоправданно высоко ранжируется2) Спам, на который «съедает» системные ресурсы

Supporters

Изменение масштаба анализа позволяет обнаружить спам-сеть

Курс

• Multimedia Information Retrieval (MMIR)

• Stefan Rüger, The Open University

Поиск по мультимедиа

Почему бы не заполнить все эти клеточки?

Запрос может быть любого типа

Можем исходить из – метаданных – содержимого Но лучше - объединить

Автоматическое аннотирование изображений

ВодаЗданиеГородЗакатАтмосфера

Можно аннотировать

– видео

– музыку

(жанр, муз. инструменты)

Идентификация по отпечатку

Фингерпринтинг: Быстрый Надежный Однозначный Устойчивый

Извлечение признаков

Изображения: – гистограмма цвета– текстура

Звук: – пики спектрограммы– тембр– ритмический рисунок

Реализация: признаки и расстояния

Как это работает:– запрос

– фичи запроса

– сравнение хешей с БД

– минимизация расстояния

– …

– PROFIT!БД хешей фичФункция расстоянияНепосильный объем вычислений

при росте размерности пространства

• Distributed Information Retrieval (DIR)

• Fabio Crestani & Ilya Markov, University of Lugano

Курс

Распределенный поиск

Распределенный поиск - это система, которая позволяет искать информацию, рассредоточенную по различным ресурсам.Ресурс = коллекция документов + поисковый движок.

Зачем нужен распределенный поиск?• глубинный веб: в сети много ценной информации, недоступной для обхода поисковыми роботами• сохраняются авторские права, права доступа• документы всегда актуальны• поиск оптимизирован под структуру данных (видео, картинки, блоги, новости, etc.)

Архитектура распределенного поиска

Общая коллекция

Распределенные индексы

Централизованный индекс

Гибрид: индексируем индексы

P2P

Обход робота

Сбор метаданныхБрокер

Общий индекс для

всех ресурсов

У каждого ресурса

свой собственный

индекс

Общая схема работы («брокер»)

• Поиск ресурсов: нужно найти ресурсы, подходящие для объединения (есть свой поиск, поддерживают протокол связи и т.д.).• Описание ресурсов: необходимо получить информацию о каждом ресурсе с помощью его поискового движка.• Выбор ресурсов: когда запрос задан, поисковая система выбирает подходящие ресурсы для поиска внутри них.• Синтез результатов: результаты поиска, полученные из каждого из выбранных ресурсов, объединяются в единый ранжированный список, возвращаемый пользователю. • Представление результатов: в конечном итоге результаты должны быть показаны пользователю в полном и понятном виде.

•Открытые ресурсы: предоставляют доступ к документам, индексу и отвечают на запросы•«Черные ящики»: задаем запрос и получаем ответ

• слияние результатов• «хочу ещё!»• вкладки (tabbed)• side-by-side

Приложения распределенного поиска

1. Вертикальный поиск: поиск по коллекциям документов из определенной области или медиафайлам разных типов: новости, путешествия, погода, картинки, музыка, видео… Можно использовать слова-маркеры для определения области.

Для выбора типа вертикального поиска можно использовать:• классификацию (показываем или нет по решению классификатора):

факторы по запросам, логам запросов, лексике;• вероятностный подход (у каждого вертикального поиска есть

вероятность).

2. Поиск по блогам: считаем «ресурсом» каждый блог в отдельности. Можем считать, что «блог = большой документ» или «блог = много постов». Собираем метаданные: время публикации, ссылки (посты ссылаются друг на друга их содержание связано; чем больше входящих ссылок, тем авторитетнее пост), авторство, комментарии, etc.

3. Экспертный поиск: документы имеют неравный вес в зависимости от авторства.

4. Персональный поиск: нужно найти среди личных файлов и документов пользователя наиболее релевантные запросу (возможно, документы разных типов).

Приложения распределенного поиска

Лекция

NLP@ Google overviewMulti-Sentence Compression

• Katja FilippovaGoogle Inc

По этим фразам строится граф:• вершины = токены U {Start, End}• рёбра графа обозначают соседство токенов в фразах

Сжатой фразой называется любой путь в графе от Start до End.

На вход алгоритм получает кластер сходных фраз, например:1. Hillary Clinton wanted to visit China last month but postponed her plans till Monday last week.2. Hillary Clinton paid a visit to the People’s Republic of China on Monday.3. The wife of a former U.S. president Bill Clinton Hillary Clinton visited China last Monday.4. Last week the Secretary of State Ms. Clinton visited Chinese officials.

Слова из фразы в граф добавляются за три шага:• однозначные не-стоп-слова – сливаются с существующей вершиной или создают новую• неоднозначные не-стоп-слова – склеиваются по максимуму покрытия• стоп-слова – склеиваются, если есть пересечение в их контекстах

Полученный граф допускает циклы, однако каждое исходное предложение в нём представлено путём без циклов.

S last

Hillary

to

week

Clinton

visited

paid

Chinese Officials

Clinton

Monday

of

wanted

Month

till

China

E

Ms

visit

the

1

2

3

4

last

on

U Vfreq(e)

freq(v)freq(u)

В графе строятся k кратчайших путей, при этом:• Пути короче 8 вершин отбрасываются• Пути, не проходящие через глагол, отбрасываются• Длина пути нормализуется на число вершин пути

Путь в графе, обладающий наименьшим весом – искомый!

System Gram-2 Gram-1 Gram-0 Avg. Len.

Baseline (EN) 21% 15% 65% 8 / 28

Shortest path (EN) 52% 16% 32% 10 / 28

Shortest path++ (EN) 64% 13% 23% 12 / 28

Baseline (ES) 12% 15% 74% 8 / 35

Shortest path (ES) 58% 21% 21% 10 / 35

Shortest path++ (ES) 50% 21% 29% 12 / 35

System Info-2 Info-1 Info-0 Avg. Len.

Baseline (EN) 18% 10% 73% 8 / 28

Shortest path (EN) 36% 33% 31% 10 / 28

Shortest path++ (EN) 52% 32% 16% 12 / 28

Baseline (ES) 9% 19% 72% 8 / 35

Shortest path (ES) 23% 26% 51% 10 / 35

Shortest path++ (ES) 40% 40% 20% 12 / 35

Использовались 80 английских и 40 испанских новостных кластеровВыбиралось первое предложение каждого документа

Результаты оценки асессорами:

Лекция

Расширения поисковых запросов

• Алексей Сокирко, Евгений СоловьёвЯндекс

• Введение: отношение «синонимии» в запросах

• Общий дизайн поисковых расширений

• Словоизменение и словообразование

• Транслитерация и акронимы

• Machine learning в поисковых расширениях

Популярные классы синонимии

• Словоизменение (слон → слоны, бежал → бежать)

• Словообразование (лемма → лемматизировать)

• Транслитерация (Bosch → Бош, Яндекс → Yandex)

• Акронимы (Российская Федерация → РФ)

• Орфоварианты (мильон → миллион, colour → color)

• Неточные синонимы (сотовый → мобильный телефон)

Лингвистическая модель Общие факторы

Дополнительные факторы

Open Source словари +Ручная разметкаРасширение запроса

Machine Learning

Конференция молодых ученых

Приняты без публикации:

• Разметка обучающего множества для Марковской модели максимальной энтропии, используемой в задаче извлечения собственных имен из текста. Глазова М.А., Санкт-Петербургский Государственный Университет, Санкт-Петербург, Россия

• Извлечение информации о глагольной сочетаемости на основе коллекции текстовКочеткова Н. А. Литвинов М. И., МИЭМ, Москва, Россия

• Усовершенствование метода пополнения морфологического словаря, Черненьков Д.М., Гугл / МИЭМ, Москва, Россия

• Текстовые классификаторы. Математические модели, Юрий Басов, Рамблер/МГУ, Москва, Россия

• Link Graph Analysis for Adult Images ClassificationEvgeny Kharitonov et al., Яндекс, МФТИ, Москва, Россия

• Unsupervised Query Segmentation Using Click Data and Dictionaries InformationJulia Kiseleva, CПбГУ, Санкт-Петербург, Россия

• Could we automatically reproduce semantic relations of an Information Retrieval thesaurus? Alexander Panchenko, Center for Natural Language Processing, Catholic University of Louvain, Лувен-ля-Нёв, Бельгия

• Tapping Into Sociological Lexicons for Sentiment Polarity ClassificationYelena Mejova, University of Iowa, Iowa City, IA, USA

• Прогнозирование Загруженности Автомобильных Дорог Пупырев Сергей, Пронченков Александр, УрГУ, Екатеринбург

• Прогнозирование пробок на улицах по известным данным о скорости автомобилей Гуда С.А., Рябов Д.С., Южный федеральный университет, Ростов-на-Дону, Россия

Материалы

• Видеозаписи лекций скоро появятся

• Презентации вы можете почитать уже сейчас

http://romip.ru/russir2010/program.html

Documents

Russir 2010 final