Автоматическое распознавание юмористической составляющей в текстах

Автоматическое распознаваниеюмористической составляющей в тексте

Докладчик Владислав Лисицкий

Научный руководительБорис Викторович Добров

Москва 2010

ПроблематикаПроблема 1. Распознавание смешных текстов

Система, автоматически распознающая наличие в тексте юмористической составляющей и оценивающая качество юмора по некоторой шкале, могла бы оказаться полезной в задачах, связанных с классификацией текстов, информационным поиском и развлекательных сервисах.

Проблема 2. Генерирование смешных текстовСистема, генерирующая смешные тексты по некоторым параметрам (используемые слова, тема, длина текста, …), могла бы применяться в системах взаимодействия с пользователем, развлекательных сервисах, создании слоганов, рекламных сообщений.

Где может использоваться?

Возможные приложения• Составление списков интересных и смешных новостей и

сообщений в сети (блоги)• Информационный поиск (Жириновский + смешно)• Классификация текстов (научный/ненаучный)• Развлекательный сервис, оценивающий присылаемые

пользователями шутки и генерирующий шутки по некоторым параметрам

• Обучающие системы и системы для упрощения запоминания (мнемоника)

Основные проблемы

Работа с естественными языками Отсутствие специализированных инструментов для

работы с юмористическими текстами Субъективность понятия «смешно» Большое разнообразие различных типов шуток и

высмеиваемых тем Сложность представления критериев, выделяющих

шутки из общего потока текстов, в формальном виде

Возможные подходыПодход, основанный на понятийных

словарях и семантических сетяхСуть метода заключается в рассмотрении шутки как

текста, имеющего ''сдвинутую'' семантическую структуру («surprise-эффект»).

Основным инструментом являются семантические сети (в основном, WordNet). Подход предполагает работу с понятиями и связями между ними.

Предполагается, что этот метод симулирует умственную деятельность человека, придумывающего или оценивающего шутку.

ПримерыНАНАcronym(Istituto per la Ricerca Scientica e Tecnologica, Trento, ITALY)

Функционал:

1. Смешно расшифровывает существующие акронимы

2. По заданным концептам создаёт акронимы,

представляющие собой слово на естественном языке

Идея смешной расшифровки акронимов — создание сильного контраста между настоящей и генерируемой расшифровками.


Принцип работы: Считывание акронима и создание внутренней логической

структуры Выделение изменяемой (чаще всего прилагательные и

наречия) и константной части (всё остальное) Подбор замены, начинающейся с соответствующей буквы,

используя следующие критерии: Семантическое противопоставление (Religion vs

Technology, Religion vs Sex, …) Репродукция рифмы и звучания Антонимическая и др. кластеризации в WordNet (для

прилагательных)


Примеры работы:ACM - Association for Computing Machinery → Association for Confusing Machinery

FBI - Federal Bureau of Investigation → Fantastic Bureau of Intimidation

IJCAI - International Joint Conference on Artificial Intelligence → Irrational Joint Conference on Antenuptial Intemperance










Примеры работы:

Main concept: tutoring; Attribute: intelligentNAIVE - Negligent At-large Instruction for Vulnerable

Extracurricular-activity

Main concept: writing; Attribute: creativeCAUSTIC - Creative Activity for Unconvincingly Sporadically

Talkative Individualistic Commercials


Примеры работы:

Main concept: tutoring; Attribute: intelligentNAIVE - Negligent At-large Instruction for Vulnerable

Extracurricular-activity

Main concept: writing; Attribute: creativeCAUSTIC - Creative Activity for Unconvincingly Sporadically

Talkative Individualistic Commercials

ПримерыJAPE (Joke Analysis and Production Engine)(Department of Artificial Intelligence, University of Edinburgh, Edinburgh, Scotland)

Генерирует шутки типа «вопрос-ответ» - шутки, основанные на созвучиях и каламбурах, состоящие из вопроса и ответа на него (обычно труднопереводимы).

Пример:Q: What do short-sighted ghosts wear? A: Spooktacles.

В качестве основного приёма используется замена слова или его части на созвучное. Основные понятия — схемы и шаблоны.


Генерирует шутки типа «вопрос-ответ» - шутки, основанные на созвучиях и каламбурах, состоящие из вопроса и ответа на него (обычно труднопереводимы).

Пример:Q: What do short-sighted ghosts wear? A: Spooktacles. [Spectacles]

В качестве основного приёма используется замена слова или его части на созвучное. Основные понятия — схемы и шаблоны.


Q: What do you get when you cross a sheep and a kangaroo?A: A woolly jumper.

Template:What do you get when you cross $first and $second?


Q: What do you get when you cross a sheep and a kangaroo?A: A woolly jumper.

Template:What do you get when you cross $first and $second?


Q: What’s green and bounces?A: A spring cabbage.

Template:What’s $first and $second?


Q: What’s green and bounces?A: A spring cabbage.

Template:What’s $first and $second?


Примеры работы:Q: What do you call a perforated relic?A: A holey grail. [Holy]

Q: What kind of emotion has bits?A: A love byte.

Q: How is a nice girl like a sugary bird?A: Each is a sweet chick.

Q: What is the difference between leaves and a car? A: One you brush and rake, the other you rush and brake.





















Возможные подходы

Подход, основанный на понятийных словарях и семантических сетях

Преимущества: Получается генерировать смешные шутки Относительно простая реализация

Недостатки:● Работает для достаточно узкого типа шуток● Слабо применим к задаче распознавания шуток

Возможные подходы

Подход, основанный на сравнении текстовСуть метода заключается в сравнении текста,

поступившего на вход, с текстами из некоторого «базового» набора, все тексты из которого считаются заведомо смешными.

Предполагается, что если текст, поступивший на вход, в достаточной степени похож на другой (заведомо смешной) текст, то и текст, поступивший на вход, является смешным.

Данный подход мало изучен, работающих проектов нет.

Краткое описание первого этапа работы

На первом этапе было сформулировано предположение о повторяемости шуток (см. следующий слайд).

В случае, если это предположение оказалось бы верным, мы бы получили простой и эффективный инструмент для выявления смешных текстов на основе сравнения их с заведомо смешными текстами.

Таким образом, целью первого этапа работы было доказательство или опровержение этого предположения.

Предположение о повторяемости шуток

(ПоПШ)Суть предположения: Большая часть шуток, претендующих на новизну, на

самом деле является переделанными (актуализированными, перефразированными или такими же по структуре) старыми шутками

Доля по-настоящему новых шуток постепенно убывает

Основание — юмористические шоу, ТВ-передачи.

Примеры «второй жизни» шуток

Перефразированные шуткиВнимание, акция!!! Купи автомобиль "Ока", загляни под капот и выиграй! Под каждым десятым капотом — двигатель! В каждом пятом двигателе — масло! Каждое третье масло — моторное! Не пропустите!(http://anekdot.ru/id/441071)

Акция: покупайте автомобиль "Ока"! Под каждой третьей крышечкой капота — двигатель. В каждом десятом двигателе - масло, в каждом сотом — машинное. Торопитесь! Количество двигателей — три.(http://www.anekdot.ru/id/85962)


Актуализированные шутки:

Захотелось как-то Брежневу покататься на машине. Пересадил он водителя на пассажирское место, сам сел за руль. По дороге за превышение скорости его останавливает ГАИшник, сразу отпускает и испуганно возвращается на пост.Другой ГАИшник его спрашивает:- Это кто был?- Не знаю, но водитель у него сам Брежнев!


Актуализированные шутки:

Захотелось как-то Путину покататься на машине. Пересадил он водителя на пассажирское место, сам сел за руль. По дороге за превышение скорости его останавливает ГИБДДшник, сразу отпускает и испуганно возвращается на пост.Другой ГИБДДшник его спрашивает:- Это кто был?- Не знаю, но водитель у него сам Путин!

Идея методапроверки ПоПШ

Проверку предположения о повторяемости шуток было решено произвести следующим образом:1) Собрать достаточно объёмную базу смешных текстов и принять её за «базис» - набор текстов, которые мы считаем смешными по умолчанию


Проверку предположения о повторяемости шуток было решено произвести следующим образом:2) Собрать «рабочую» базу текстов, состоящую как из смешных, так и из не смешных текстов, не имеющую прямого пересечения с «базисным» набором (для этого достаточно использовать другие источники)


Проверку предположения о повторяемости шуток было решено произвести следующим образом:3) Для каждого текста из «рабочего» набора найти все похожие на него тексты из «базисного» набора

k11

k13

k1j


Проверку предположения о повторяемости шуток было решено произвести следующим образом:4) Изучить полученные наборы похожих текстов, оценить «порог похожести» текстов, оценить качество селекции смешных текстов

k11

k13

k1jОценка адекватности k


Проверку предположения о повторяемости шуток было решено произвести следующим образом:5) Считать ПоПШ доказанным, если:

● для подавляющего количества смешных текстов из «рабочего» набора находятся действительно похожие на них тексты из «базового» набора;

● для подавляющего количества не смешных текстов из «рабочего» набора действительно похожих на них текстов из «базового» набора не находится.

Иначе — корректировать «базовый» набор и механизм сравнения, либо считать ПоПШ опровергнутым.

«Базисный» набор

В качестве «базисного» набора была взята база анекдотов с сайта http://anekdot.ru c января 1996 года по март 2010 года.

Выбор был обусловлен тем, что перед публикацией на сайте анекдоты проходят модерацию, следовательно можно с определённой долей уверенности считать, что каждый из них так или иначе содержит какую-то юмористическую составляющую.

В итоге мощность «базисного» набора составила около 80 000 текстов.

http://anekdot.ru/

«Рабочий» наборИсточниками для составления «рабочего» набора послужили:

• Истории с сайта http://anekdot.ru (не вошедшие в «базисный» набор)

• Истории с сайта http://nefart.ru (истории о произошедших с людьми неудачах)

• Истории с сайта http://bash.org.ru (смешные истории из интернет-переписки)

• Законы Мёрфи (законы подлости, работающие в реальной жизни)

• Цитаты из популярных фильмов (оторванные от контекста)

В «рабочем» наборе было использовано по 200 текстов из каждого из вышеперечисленных источников, т.е. итоговая мощность «рабочего» набора составила 1000 текстов.

http://bash.org.ru/

Сравнение текстов

Для сравнения анекдотов использовался модуль сравнения новостных документов, разработанный в НИВЦ МГУ.

Оценка тематической близости документов основана на вычислении некоторой меры близости Sim (di , dj) — рационального числа, принадлежащего отрезку [0, 1].

Используемой мерой близости между векторами текстовых документов в пространстве их признаков является косинусная мера, вычисляющая значение косинуса между двумя векторами документов.


где — вектор учитываемых признаков i-того документа.

В свою очередь, , где для ранжирования лемм используется модификацияформулы BM25.

)(),(6,04,0 mimim widfdwtfw ⋅⋅+=

},1,{ Mmww imi ==

∑∑

∑⋅=

><⋅><

><=

ljl

jk

km

im

ik

jjii

jiji

w

w

w

wwwww

wwddSim

22,,

,),(

Формула расчёта Sim (di , dj):


Формулы расчёта tf(wm, di) и idf(wm):

)__/)(_*),(),(),(

21 dlinaLavgddlinaLkkdwfreqdwfreqdwtf

iim

imim ++

=

freq(wi,d

j) – частотность леммы w

i в документе d

j, k

1 = 0.5, k

2 = 1.5,

L_dlina(dj) – длина документа, измеряемая в разных леммах,

avg_L_dlina – «средняя» длина документа, измеряемая в разных леммах

dfL(w

i) – количество документов по коллекции L, содержащих лемму w

i,

γ =0.16 , ρ = 1.0


Формулы расчёта tf(wm, di) и idf(wm):

)__/)(_*),(),(),(

21 dlinaLavgddlinaLkkdwfreqdwfreqdwtf

iim

imim ++

=

})(lg(,max{.1)( mLm wdfwidf ργ ⋅−=

freq(wi,d

j) – частотность леммы w

i в документе d

j, k

1 = 0.5, k

2 = 1.5,

L_dlina(dj) – длина документа, измеряемая в разных леммах,

avg_L_dlina – «средняя» длина документа, измеряемая в разных леммах

dfL(w

i) – количество документов по коллекции L, содержащих лемму w

i,

γ =0.16 , ρ = 1.0


Некоторые особенности:

В качестве частотного списка dfL(w

i) используется список лемм

с частотностями по документам из коллекции Рамблер.Новости за октябрь-ноябрь 2008 года (миллион документов)

Используется словарь стандартных стоп-слов Слова с большой буквы получают немного больший вес Для некоторого количества слов важных/неважных для

обработки новостей веса модернизируются

Программа

Примеры выдачи<Throyanec> долго думали - чего котенку в организме не хватает, если оно ест полиэтилен<Throyanec> решили, что мозгов..

Коэфф. Текст

0.96 Долго думали - чего котенку в организме не хватает, если он естполиэтилен. Решили, что мозгов..

0.69 Ученые долго думали чего же не хватает в организме женщины, если она ест ногти.. решили что мозгов.

0.39 - Моя дочь ест соленые огурцы, наверно, в организме чего-нибудь не хватает...- Мозгов не хватает... раньше думать было надо!

0.30 Премьер долго думал и наконец решил, что в 2012 году Президентом опять станет его Аватар.

0.30 Если вы в чего-то верите, это еще не значит, что оно есть. Если вы в кого-то верите, это еще не значит, что он верит в себя.

Примеры выдачиТот, кто смеется последним, возможно не понял шутки.

Коэфф. Текст

0.59 Хорошо смеется тот, кто стреляет последним.

0.53 Тот, кто смеется последним,.. просто не врубился сразу.

0.44 Хорошо смеется тот, кто быстро бегает!

0.41 Петросян – шутки для тех у кого нет интернета.

0.40 ``Для тех, кому за $30``

0.38 Кто в пробках постоял, тот над мопедом не смеется!

0.36 Надежда умирает предпоследней. Последним умирает тот, кто надеется.

0.35 Шутка считается удачной - если ты смеешься последним, полуудачной — если ты смеешься первым, и неудачной - если ты не успел посмеяться.

Распределение

[0.0, 0.1] (0.1, 0.2] (0.2, 0.3] (0.3, 0.4] (0.4, 0.5] (0.5, 0.6] (0.6, 0.7] (0.7, 0.8] (0.8, 0.9] (0.9, 1.0]0

10000

20000

30000

40000

50000

60000

70000

80000

1026

66722

28750

2284158 35 11 3 3 8

Коэффициент

Коли

чест

во те

ксто

в

Коэфф. Кол-во текстов

[0.0, 0.1] 1026

(0.1, 0.2] 66722

(0.2, 0.3] 28750

(0.3, 0.4] 2284

(0.4, 0.5] 158

(0.5, 0.6] 35

(0.6, 0.7] 11

(0.7, 0.8] 3

(0.8, 0.9] 3

(0.9, 1.0] 8


[0.0, 0.1] (0.1, 0.2] (0.2, 0.3] (0.3, 0.4] (0.4, 0.5] (0.5, 0.6] (0.6, 0.7] (0.7, 0.8] (0.8, 0.9] (0.9, 1.0]0

10000

20000

30000

40000

50000

60000

70000

80000

1026

66722

28750

2284158 35 11 3 3 8

Коэффициент

Коли

чест

во те

ксто

в

Коэфф. Кол-во текстов

[0.0, 0.1] 1026

(0.1, 0.2] 66722

(0.2, 0.3] 28750

(0.3, 0.4] 2284

(0.4, 0.5] 158

(0.5, 0.6] 35

(0.6, 0.7] 11

(0.7, 0.8] 3

(0.8, 0.9] 3

(0.9, 1.0] 8


Коэфф. Похожи Не похожи % похожих

(0.4, 0.45] 20 92 17,86%

(0.45, 0.5] 20 26 43,48%

(0.5, 0.55] 14 10 58,33%

(0.55, 0.6] 9 2 81,82%

(0.6, 0.65] 4 0 100%

(0.65, 0.7] 6 1 85,71%

(0.7, 1.0] 14 0 100%

Результаты ручной обработки

Ручная обработка проводилась для текстов, коэффициент похожести которых был больше 0,4.

Цель ручной обработки — оценить «порог схожести», т.е. минимальное значение коэффициента похожести, при котором тексты оказывались действительно похожими

Результаты сравнениянаборов

В результате сравнения наборов выяснилось следующее:– Для большинства смешных текстов из «рабочего»

набора не удалось найти действительно похожих текстов из «базисного» набора

– По количеству похожих текстов и степени похожести на тексты «базисного» набора невозможно разбить «рабочий» набор на смешные и не смешные тексты

– Был определён «порог похожести» текстов — в среднем при коэффициенте схожести, большем 0.55, тексты оказываются действительно похожими

Итоги и выводыЧто было сделано:• Проверялось предположение о повторяемости шуток

(значительная часть «новых» шуток уже известна или представляет собой малое изменение известных шуток)

• Образованы тестовые коллекции текстов - «базовый» (~80 000 анекдотов с http://anekdot.ru) и «рабочий» (1 000 = 200 х 5 текстов из разных источников)

• Построена матрица близости между документами на основе косинусной меры близости

• Сформировано приложение для оценки полученных результатов

http://anekdot.ru/

Итоги и выводы

Что удалось выяснить:• При коэффициенте близости > 0.55 со степенью доверия

80% документы реально похожи• Только 1% документов имеет документы с

коэффициентов близости > 0.55

Итоги: Предположение о повторяемости шуток не

подтвердилось Возможно, даже 1% - не такой уж плохой результат,

учитывая большой поток документов

Планы на будущее• Расширить «базовый» набор

• Привлечь другие источники• Изучить пересечение наборов из разных источников• Использовать другие жанры (истории, интересные факты)

• Улучшить механизм сравнения• Выделить типы анекдотов (Вовочка, ВИЧ, …)• Использовать переменные имена героев• Синонимы, тезаурус

• Попытаться оценить уровень юмора• Испытать на реальных данных (миллион документов из

Яндекс.Блогов)

Спасибо!Ваши вопросы?