53
Автоматическое распознавание юмористической составляющей в тексте Докладчик Владислав Лисицкий Научный руководитель Борис Викторович Добров Москва 2010

Автоматическое распознавание юмористической составляющей в текстах

  • Upload
    -

  • View
    443

  • Download
    0

Embed Size (px)

DESCRIPTION

26 ноября 2010Владислав Лисицкий

Citation preview

Page 1: Автоматическое распознавание юмористической составляющей в текстах

Автоматическое распознаваниеюмористической составляющей в тексте

Докладчик Владислав Лисицкий

Научный руководительБорис Викторович Добров

Москва 2010

Page 2: Автоматическое распознавание юмористической составляющей в текстах

ПроблематикаПроблема 1. Распознавание смешных текстов

Система, автоматически распознающая наличие в тексте юмористической составляющей и оценивающая качество юмора по некоторой шкале, могла бы оказаться полезной в задачах, связанных с классификацией текстов, информационным поиском и развлекательных сервисах.

Проблема 2. Генерирование смешных текстовСистема, генерирующая смешные тексты по некоторым параметрам (используемые слова, тема, длина текста, …), могла бы применяться в системах взаимодействия с пользователем, развлекательных сервисах, создании слоганов, рекламных сообщений.

Page 3: Автоматическое распознавание юмористической составляющей в текстах

Где может использоваться?

Возможные приложения• Составление списков интересных и смешных новостей и

сообщений в сети (блоги)• Информационный поиск (Жириновский + смешно)• Классификация текстов (научный/ненаучный)• Развлекательный сервис, оценивающий присылаемые

пользователями шутки и генерирующий шутки по некоторым параметрам

• Обучающие системы и системы для упрощения запоминания (мнемоника)

Page 4: Автоматическое распознавание юмористической составляющей в текстах

Основные проблемы

Работа с естественными языками Отсутствие специализированных инструментов для

работы с юмористическими текстами Субъективность понятия «смешно» Большое разнообразие различных типов шуток и

высмеиваемых тем Сложность представления критериев, выделяющих

шутки из общего потока текстов, в формальном виде

Page 5: Автоматическое распознавание юмористической составляющей в текстах

Возможные подходыПодход, основанный на понятийных

словарях и семантических сетяхСуть метода заключается в рассмотрении шутки как

текста, имеющего ''сдвинутую'' семантическую структуру («surprise-эффект»).

Основным инструментом являются семантические сети (в основном, WordNet). Подход предполагает работу с понятиями и связями между ними.

Предполагается, что этот метод симулирует умственную деятельность человека, придумывающего или оценивающего шутку.

Page 6: Автоматическое распознавание юмористической составляющей в текстах

ПримерыНАНАcronym(Istituto per la Ricerca Scientica e Tecnologica, Trento, ITALY)

Функционал:

1. Смешно расшифровывает существующие акронимы

2. По заданным концептам создаёт акронимы,

представляющие собой слово на естественном языке

Идея смешной расшифровки акронимов — создание сильного контраста между настоящей и генерируемой расшифровками.

Page 7: Автоматическое распознавание юмористической составляющей в текстах

ПримерыНАНАcronym(Istituto per la Ricerca Scientica e Tecnologica, Trento, ITALY)

Принцип работы: Считывание акронима и создание внутренней логической

структуры Выделение изменяемой (чаще всего прилагательные и

наречия) и константной части (всё остальное) Подбор замены, начинающейся с соответствующей буквы,

используя следующие критерии: Семантическое противопоставление (Religion vs

Technology, Religion vs Sex, …) Репродукция рифмы и звучания Антонимическая и др. кластеризации в WordNet (для

прилагательных)

Page 8: Автоматическое распознавание юмористической составляющей в текстах

ПримерыНАНАcronym(Istituto per la Ricerca Scientica e Tecnologica, Trento, ITALY)

Примеры работы:ACM - Association for Computing Machinery → Association for Confusing Machinery

FBI - Federal Bureau of Investigation → Fantastic Bureau of Intimidation

IJCAI - International Joint Conference on Artificial Intelligence → Irrational Joint Conference on Antenuptial Intemperance

Page 9: Автоматическое распознавание юмористической составляющей в текстах

ПримерыНАНАcronym(Istituto per la Ricerca Scientica e Tecnologica, Trento, ITALY)

Примеры работы:ACM - Association for Computing Machinery → Association for Confusing Machinery

FBI - Federal Bureau of Investigation → Fantastic Bureau of Intimidation

IJCAI - International Joint Conference on Artificial Intelligence → Irrational Joint Conference on Antenuptial Intemperance

Page 10: Автоматическое распознавание юмористической составляющей в текстах

ПримерыНАНАcronym(Istituto per la Ricerca Scientica e Tecnologica, Trento, ITALY)

Примеры работы:ACM - Association for Computing Machinery → Association for Confusing Machinery

FBI - Federal Bureau of Investigation → Fantastic Bureau of Intimidation

IJCAI - International Joint Conference on Artificial Intelligence → Irrational Joint Conference on Antenuptial Intemperance

Page 11: Автоматическое распознавание юмористической составляющей в текстах

ПримерыНАНАcronym(Istituto per la Ricerca Scientica e Tecnologica, Trento, ITALY)

Примеры работы:

Main concept: tutoring; Attribute: intelligentNAIVE - Negligent At-large Instruction for Vulnerable

Extracurricular-activity

Main concept: writing; Attribute: creativeCAUSTIC - Creative Activity for Unconvincingly Sporadically

Talkative Individualistic Commercials

Page 12: Автоматическое распознавание юмористической составляющей в текстах

ПримерыНАНАcronym(Istituto per la Ricerca Scientica e Tecnologica, Trento, ITALY)

Примеры работы:

Main concept: tutoring; Attribute: intelligentNAIVE - Negligent At-large Instruction for Vulnerable

Extracurricular-activity

Main concept: writing; Attribute: creativeCAUSTIC - Creative Activity for Unconvincingly Sporadically

Talkative Individualistic Commercials

Page 13: Автоматическое распознавание юмористической составляющей в текстах

ПримерыJAPE (Joke Analysis and Production Engine)(Department of Artificial Intelligence, University of Edinburgh, Edinburgh, Scotland)

Генерирует шутки типа «вопрос-ответ» - шутки, основанные на созвучиях и каламбурах, состоящие из вопроса и ответа на него (обычно труднопереводимы).

Пример:Q: What do short-sighted ghosts wear? A: Spooktacles.

В качестве основного приёма используется замена слова или его части на созвучное. Основные понятия — схемы и шаблоны.

Page 14: Автоматическое распознавание юмористической составляющей в текстах

ПримерыJAPE (Joke Analysis and Production Engine)(Department of Artificial Intelligence, University of Edinburgh, Edinburgh, Scotland)

Генерирует шутки типа «вопрос-ответ» - шутки, основанные на созвучиях и каламбурах, состоящие из вопроса и ответа на него (обычно труднопереводимы).

Пример:Q: What do short-sighted ghosts wear? A: Spooktacles. [Spectacles]

В качестве основного приёма используется замена слова или его части на созвучное. Основные понятия — схемы и шаблоны.

Page 15: Автоматическое распознавание юмористической составляющей в текстах

ПримерыJAPE (Joke Analysis and Production Engine)(Department of Artificial Intelligence, University of Edinburgh, Edinburgh, Scotland)

Q: What do you get when you cross a sheep and a kangaroo?A: A woolly jumper.

Template:What do you get when you cross $first and $second?

Page 16: Автоматическое распознавание юмористической составляющей в текстах

ПримерыJAPE (Joke Analysis and Production Engine)(Department of Artificial Intelligence, University of Edinburgh, Edinburgh, Scotland)

Q: What do you get when you cross a sheep and a kangaroo?A: A woolly jumper.

Template:What do you get when you cross $first and $second?

Page 17: Автоматическое распознавание юмористической составляющей в текстах

ПримерыJAPE (Joke Analysis and Production Engine)(Department of Artificial Intelligence, University of Edinburgh, Edinburgh, Scotland)

Q: What’s green and bounces?A: A spring cabbage.

Template:What’s $first and $second?

Page 18: Автоматическое распознавание юмористической составляющей в текстах

ПримерыJAPE (Joke Analysis and Production Engine)(Department of Artificial Intelligence, University of Edinburgh, Edinburgh, Scotland)

Q: What’s green and bounces?A: A spring cabbage.

Template:What’s $first and $second?

Page 19: Автоматическое распознавание юмористической составляющей в текстах

ПримерыJAPE (Joke Analysis and Production Engine)(Department of Artificial Intelligence, University of Edinburgh, Edinburgh, Scotland)

Примеры работы:Q: What do you call a perforated relic?A: A holey grail. [Holy]

Q: What kind of emotion has bits?A: A love byte.

Q: How is a nice girl like a sugary bird?A: Each is a sweet chick.

Q: What is the difference between leaves and a car? A: One you brush and rake, the other you rush and brake.

Page 20: Автоматическое распознавание юмористической составляющей в текстах

ПримерыJAPE (Joke Analysis and Production Engine)(Department of Artificial Intelligence, University of Edinburgh, Edinburgh, Scotland)

Примеры работы:Q: What do you call a perforated relic?A: A holey grail. [Holy]

Q: What kind of emotion has bits?A: A love byte.

Q: How is a nice girl like a sugary bird?A: Each is a sweet chick.

Q: What is the difference between leaves and a car? A: One you brush and rake, the other you rush and brake.

Page 21: Автоматическое распознавание юмористической составляющей в текстах

ПримерыJAPE (Joke Analysis and Production Engine)(Department of Artificial Intelligence, University of Edinburgh, Edinburgh, Scotland)

Примеры работы:Q: What do you call a perforated relic?A: A holey grail. [Holy]

Q: What kind of emotion has bits?A: A love byte.

Q: How is a nice girl like a sugary bird?A: Each is a sweet chick.

Q: What is the difference between leaves and a car? A: One you brush and rake, the other you rush and brake.

Page 22: Автоматическое распознавание юмористической составляющей в текстах

ПримерыJAPE (Joke Analysis and Production Engine)(Department of Artificial Intelligence, University of Edinburgh, Edinburgh, Scotland)

Примеры работы:Q: What do you call a perforated relic?A: A holey grail. [Holy]

Q: What kind of emotion has bits?A: A love byte.

Q: How is a nice girl like a sugary bird?A: Each is a sweet chick.

Q: What is the difference between leaves and a car? A: One you brush and rake, the other you rush and brake.

Page 23: Автоматическое распознавание юмористической составляющей в текстах

ПримерыJAPE (Joke Analysis and Production Engine)(Department of Artificial Intelligence, University of Edinburgh, Edinburgh, Scotland)

Примеры работы:Q: What do you call a perforated relic?A: A holey grail. [Holy]

Q: What kind of emotion has bits?A: A love byte.

Q: How is a nice girl like a sugary bird?A: Each is a sweet chick.

Q: What is the difference between leaves and a car? A: One you brush and rake, the other you rush and brake.

Page 24: Автоматическое распознавание юмористической составляющей в текстах

Возможные подходы

Подход, основанный на понятийных словарях и семантических сетях

Преимущества: Получается генерировать смешные шутки Относительно простая реализация

Недостатки:● Работает для достаточно узкого типа шуток● Слабо применим к задаче распознавания шуток

Page 25: Автоматическое распознавание юмористической составляющей в текстах

Возможные подходы

Подход, основанный на сравнении текстовСуть метода заключается в сравнении текста,

поступившего на вход, с текстами из некоторого «базового» набора, все тексты из которого считаются заведомо смешными.

Предполагается, что если текст, поступивший на вход, в достаточной степени похож на другой (заведомо смешной) текст, то и текст, поступивший на вход, является смешным.

Данный подход мало изучен, работающих проектов нет.

Page 26: Автоматическое распознавание юмористической составляющей в текстах

Краткое описание первого этапа работы

На первом этапе было сформулировано предположение о повторяемости шуток (см. следующий слайд).

В случае, если это предположение оказалось бы верным, мы бы получили простой и эффективный инструмент для выявления смешных текстов на основе сравнения их с заведомо смешными текстами.

Таким образом, целью первого этапа работы было доказательство или опровержение этого предположения.

Page 27: Автоматическое распознавание юмористической составляющей в текстах

Предположение о повторяемости шуток

(ПоПШ)Суть предположения: Большая часть шуток, претендующих на новизну, на

самом деле является переделанными (актуализированными, перефразированными или такими же по структуре) старыми шутками

Доля по-настоящему новых шуток постепенно убывает

Основание — юмористические шоу, ТВ-передачи.

Page 28: Автоматическое распознавание юмористической составляющей в текстах

Примеры «второй жизни» шуток

Перефразированные шуткиВнимание, акция!!! Купи автомобиль "Ока", загляни под капот и выиграй! Под каждым десятым капотом — двигатель! В каждом пятом двигателе — масло! Каждое третье масло — моторное! Не пропустите!(http://anekdot.ru/id/441071)

Акция: покупайте автомобиль "Ока"! Под каждой третьей крышечкой капота — двигатель. В каждом десятом двигателе - масло, в каждом сотом — машинное. Торопитесь! Количество двигателей — три.(http://www.anekdot.ru/id/85962)

Page 29: Автоматическое распознавание юмористической составляющей в текстах

Примеры «второй жизни» шуток

Актуализированные шутки:

Захотелось как-то Брежневу покататься на машине. Пересадил он водителя на пассажирское место, сам сел за руль. По дороге за превышение скорости его останавливает ГАИшник, сразу отпускает и испуганно возвращается на пост.Другой ГАИшник его спрашивает:- Это кто был?- Не знаю, но водитель у него сам Брежнев!

Page 30: Автоматическое распознавание юмористической составляющей в текстах

Примеры «второй жизни» шуток

Актуализированные шутки:

Захотелось как-то Путину покататься на машине. Пересадил он водителя на пассажирское место, сам сел за руль. По дороге за превышение скорости его останавливает ГИБДДшник, сразу отпускает и испуганно возвращается на пост.Другой ГИБДДшник его спрашивает:- Это кто был?- Не знаю, но водитель у него сам Путин!

Page 31: Автоматическое распознавание юмористической составляющей в текстах

Идея методапроверки ПоПШ

Проверку предположения о повторяемости шуток было решено произвести следующим образом:1) Собрать достаточно объёмную базу смешных текстов и принять её за «базис» - набор текстов, которые мы считаем смешными по умолчанию

Page 32: Автоматическое распознавание юмористической составляющей в текстах

Идея методапроверки ПоПШ

Проверку предположения о повторяемости шуток было решено произвести следующим образом:2) Собрать «рабочую» базу текстов, состоящую как из смешных, так и из не смешных текстов, не имеющую прямого пересечения с «базисным» набором (для этого достаточно использовать другие источники)

Page 33: Автоматическое распознавание юмористической составляющей в текстах

Идея методапроверки ПоПШ

Проверку предположения о повторяемости шуток было решено произвести следующим образом:3) Для каждого текста из «рабочего» набора найти все похожие на него тексты из «базисного» набора

k11

k13

k1j

Page 34: Автоматическое распознавание юмористической составляющей в текстах

Идея методапроверки ПоПШ

Проверку предположения о повторяемости шуток было решено произвести следующим образом:4) Изучить полученные наборы похожих текстов, оценить «порог похожести» текстов, оценить качество селекции смешных текстов

k11

k13

k1jОценка адекватности k

Page 35: Автоматическое распознавание юмористической составляющей в текстах

Идея методапроверки ПоПШ

Проверку предположения о повторяемости шуток было решено произвести следующим образом:5) Считать ПоПШ доказанным, если:

● для подавляющего количества смешных текстов из «рабочего» набора находятся действительно похожие на них тексты из «базового» набора;

● для подавляющего количества не смешных текстов из «рабочего» набора действительно похожих на них текстов из «базового» набора не находится.

Иначе — корректировать «базовый» набор и механизм сравнения, либо считать ПоПШ опровергнутым.

Page 36: Автоматическое распознавание юмористической составляющей в текстах

«Базисный» набор

В качестве «базисного» набора была взята база анекдотов с сайта http://anekdot.ru c января 1996 года по март 2010 года.

Выбор был обусловлен тем, что перед публикацией на сайте анекдоты проходят модерацию, следовательно можно с определённой долей уверенности считать, что каждый из них так или иначе содержит какую-то юмористическую составляющую.

В итоге мощность «базисного» набора составила около 80 000 текстов.

Page 37: Автоматическое распознавание юмористической составляющей в текстах

«Рабочий» наборИсточниками для составления «рабочего» набора послужили:

• Истории с сайта http://anekdot.ru (не вошедшие в «базисный» набор)

• Истории с сайта http://nefart.ru (истории о произошедших с людьми неудачах)

• Истории с сайта http://bash.org.ru (смешные истории из интернет-переписки)

• Законы Мёрфи (законы подлости, работающие в реальной жизни)

• Цитаты из популярных фильмов (оторванные от контекста)

В «рабочем» наборе было использовано по 200 текстов из каждого из вышеперечисленных источников, т.е. итоговая мощность «рабочего» набора составила 1000 текстов.

Page 38: Автоматическое распознавание юмористической составляющей в текстах

Сравнение текстов

Для сравнения анекдотов использовался модуль сравнения новостных документов, разработанный в НИВЦ МГУ.

Оценка тематической близости документов основана на вычислении некоторой меры близости Sim (di , dj) — рационального числа, принадлежащего отрезку [0, 1].

Используемой мерой близости между векторами текстовых документов в пространстве их признаков является косинусная мера, вычисляющая значение косинуса между двумя векторами документов.

Page 39: Автоматическое распознавание юмористической составляющей в текстах

Сравнение текстов

где — вектор учитываемых признаков i-того документа.

В свою очередь, , где для ранжирования лемм используется модификацияформулы BM25.

)(),(6,04,0 mimim widfdwtfw ⋅⋅+=

},1,{ Mmww imi ==

∑∑

∑⋅=

><⋅><

><=

ljl

jk

km

im

ik

jjii

jiji

w

w

w

wwwww

wwddSim

22,,

,),(

Формула расчёта Sim (di , dj):

Page 40: Автоматическое распознавание юмористической составляющей в текстах

Сравнение текстов

Формулы расчёта tf(wm, di) и idf(wm):

)__/)(_*),(),(),(

21 dlinaLavgddlinaLkkdwfreqdwfreqdwtf

iim

imim ++

=

freq(wi,d

j) – частотность леммы w

i в документе d

j, k

1 = 0.5, k

2 = 1.5,

L_dlina(dj) – длина документа, измеряемая в разных леммах,

avg_L_dlina – «средняя» длина документа, измеряемая в разных леммах

dfL(w

i) – количество документов по коллекции L, содержащих лемму w

i,

γ =0.16 , ρ = 1.0

Page 41: Автоматическое распознавание юмористической составляющей в текстах

Сравнение текстов

Формулы расчёта tf(wm, di) и idf(wm):

)__/)(_*),(),(),(

21 dlinaLavgddlinaLkkdwfreqdwfreqdwtf

iim

imim ++

=

})(lg(,max{.1)( mLm wdfwidf ργ ⋅−=

freq(wi,d

j) – частотность леммы w

i в документе d

j, k

1 = 0.5, k

2 = 1.5,

L_dlina(dj) – длина документа, измеряемая в разных леммах,

avg_L_dlina – «средняя» длина документа, измеряемая в разных леммах

dfL(w

i) – количество документов по коллекции L, содержащих лемму w

i,

γ =0.16 , ρ = 1.0

Page 42: Автоматическое распознавание юмористической составляющей в текстах

Сравнение текстов

Некоторые особенности:

В качестве частотного списка dfL(w

i) используется список лемм

с частотностями по документам из коллекции Рамблер.Новости за октябрь-ноябрь 2008 года (миллион документов)

Используется словарь стандартных стоп-слов Слова с большой буквы получают немного больший вес Для некоторого количества слов важных/неважных для

обработки новостей веса модернизируются

Page 43: Автоматическое распознавание юмористической составляющей в текстах

Программа

Page 44: Автоматическое распознавание юмористической составляющей в текстах

Примеры выдачи<Throyanec> долго думали - чего котенку в организме не хватает, если оно ест полиэтилен<Throyanec> решили, что мозгов..

Коэфф. Текст

0.96 Долго думали - чего котенку в организме не хватает, если он естполиэтилен. Решили, что мозгов..

0.69 Ученые долго думали чего же не хватает в организме женщины, если она ест ногти.. решили что мозгов.

0.39 - Моя дочь ест соленые огурцы, наверно, в организме чего-нибудь не хватает...- Мозгов не хватает... раньше думать было надо!

0.30 Премьер долго думал и наконец решил, что в 2012 году Президентом опять станет его Аватар.

0.30 Если вы в чего-то верите, это еще не значит, что оно есть. Если вы в кого-то верите, это еще не значит, что он верит в себя.

Page 45: Автоматическое распознавание юмористической составляющей в текстах

Примеры выдачиТот, кто смеется последним, возможно не понял шутки.

Коэфф. Текст

0.59 Хорошо смеется тот, кто стреляет последним.

0.53 Тот, кто смеется последним,.. просто не врубился сразу.

0.44 Хорошо смеется тот, кто быстро бегает!

0.41 Петросян – шутки для тех у кого нет интернета.

0.40 ``Для тех, кому за $30``

0.38 Кто в пробках постоял, тот над мопедом не смеется!

0.36 Надежда умирает предпоследней. Последним умирает тот, кто надеется.

0.35 Шутка считается удачной - если ты смеешься последним, полуудачной — если ты смеешься первым, и неудачной - если ты не успел посмеяться.

Page 46: Автоматическое распознавание юмористической составляющей в текстах

Распределение

[0.0, 0.1] (0.1, 0.2] (0.2, 0.3] (0.3, 0.4] (0.4, 0.5] (0.5, 0.6] (0.6, 0.7] (0.7, 0.8] (0.8, 0.9] (0.9, 1.0]0

10000

20000

30000

40000

50000

60000

70000

80000

1026

66722

28750

2284158 35 11 3 3 8

Коэффициент

Коли

чест

во те

ксто

в

Коэфф. Кол-во текстов

[0.0, 0.1] 1026

(0.1, 0.2] 66722

(0.2, 0.3] 28750

(0.3, 0.4] 2284

(0.4, 0.5] 158

(0.5, 0.6] 35

(0.6, 0.7] 11

(0.7, 0.8] 3

(0.8, 0.9] 3

(0.9, 1.0] 8

Page 47: Автоматическое распознавание юмористической составляющей в текстах

Распределение

[0.0, 0.1] (0.1, 0.2] (0.2, 0.3] (0.3, 0.4] (0.4, 0.5] (0.5, 0.6] (0.6, 0.7] (0.7, 0.8] (0.8, 0.9] (0.9, 1.0]0

10000

20000

30000

40000

50000

60000

70000

80000

1026

66722

28750

2284158 35 11 3 3 8

Коэффициент

Коли

чест

во те

ксто

в

Коэфф. Кол-во текстов

[0.0, 0.1] 1026

(0.1, 0.2] 66722

(0.2, 0.3] 28750

(0.3, 0.4] 2284

(0.4, 0.5] 158

(0.5, 0.6] 35

(0.6, 0.7] 11

(0.7, 0.8] 3

(0.8, 0.9] 3

(0.9, 1.0] 8

Page 48: Автоматическое распознавание юмористической составляющей в текстах

Распределение

Коэфф. Похожи Не похожи % похожих

(0.4, 0.45] 20 92 17,86%

(0.45, 0.5] 20 26 43,48%

(0.5, 0.55] 14 10 58,33%

(0.55, 0.6] 9 2 81,82%

(0.6, 0.65] 4 0 100%

(0.65, 0.7] 6 1 85,71%

(0.7, 1.0] 14 0 100%

Результаты ручной обработки

Ручная обработка проводилась для текстов, коэффициент похожести которых был больше 0,4.

Цель ручной обработки — оценить «порог схожести», т.е. минимальное значение коэффициента похожести, при котором тексты оказывались действительно похожими

Page 49: Автоматическое распознавание юмористической составляющей в текстах

Результаты сравнениянаборов

В результате сравнения наборов выяснилось следующее:– Для большинства смешных текстов из «рабочего»

набора не удалось найти действительно похожих текстов из «базисного» набора

– По количеству похожих текстов и степени похожести на тексты «базисного» набора невозможно разбить «рабочий» набор на смешные и не смешные тексты

– Был определён «порог похожести» текстов — в среднем при коэффициенте схожести, большем 0.55, тексты оказываются действительно похожими

Page 50: Автоматическое распознавание юмористической составляющей в текстах

Итоги и выводыЧто было сделано:• Проверялось предположение о повторяемости шуток

(значительная часть «новых» шуток уже известна или представляет собой малое изменение известных шуток)

• Образованы тестовые коллекции текстов - «базовый» (~80 000 анекдотов с http://anekdot.ru) и «рабочий» (1 000 = 200 х 5 текстов из разных источников)

• Построена матрица близости между документами на основе косинусной меры близости

• Сформировано приложение для оценки полученных результатов

Page 51: Автоматическое распознавание юмористической составляющей в текстах

Итоги и выводы

Что удалось выяснить:• При коэффициенте близости > 0.55 со степенью доверия

80% документы реально похожи• Только 1% документов имеет документы с

коэффициентов близости > 0.55

Итоги: Предположение о повторяемости шуток не

подтвердилось Возможно, даже 1% - не такой уж плохой результат,

учитывая большой поток документов

Page 52: Автоматическое распознавание юмористической составляющей в текстах

Планы на будущее• Расширить «базовый» набор

• Привлечь другие источники• Изучить пересечение наборов из разных источников• Использовать другие жанры (истории, интересные факты)

• Улучшить механизм сравнения• Выделить типы анекдотов (Вовочка, ВИЧ, …)• Использовать переменные имена героев• Синонимы, тезаурус

• Попытаться оценить уровень юмора• Испытать на реальных данных (миллион документов из

Яндекс.Блогов)

Page 53: Автоматическое распознавание юмористической составляющей в текстах

Спасибо!Ваши вопросы?