77
Основы предиктивной аналитики. Часть третья Профессор Крылов Владимир Владимирович [email protected] +7 964 839 0004

!Predictive analytics part_3

Embed Size (px)

Citation preview

Page 1: !Predictive analytics part_3

Основы предиктивной аналитики

Часть третьяПрофессор Крылов Владимир Владимирович

VladimirVKrylovgmailcom+7 964 839 0004

Основы анализа текстов на естественном языке ndash Natural Language Processing (NLP)

Уровни задачи понимания текста

bull Извлечение фактов и разбивка текста ndash разметка bull Обработка на уровне слов - морфологияbull Обработка на уровне предложений - парсингbull Обработка на уровне текста

Корпус текстов

bull функции по созданию корпуса из массива данных (DataFrameSource)bull из каталога файлов каждый из которых содержит отдельный документ (DirSource)bull из вектора (VectorSource)bull из текстов доступных по URI-ссылке (URISource) bull из набора новостных сообщений агентства Reuters входящих в состав расширения tm

(ReutersSource) bull Помимо типов которые входят в библиотеку tm пользователь может оперативно

установить расширения из CRAN позволяющие импортировать тексты из веб-источников в форматах XML JSON HTML (tmpluginwebmining) из почтовых файлов eml и mbox (tmpluginmail) из файлов французской программы текстового анализа Alceste (tmpluginalceste) из файлов полученных от новостных агрегаторов Europresse (tmplugineuropresse) LexisNexis (tmpluginlexisnexis) Dow Jones Factiva (tmpluginfactiva)

Форматы текста

bull Документы могут храниться в источнике в разных форматах Библиотека tm поддерживает чтение документов в форматах простого текста (readPlain)

bull PDF (readPDF) bull Microsoft Word (readDOC) bull XML (readXML) bull табличной структуры (readTabular ndash для источников

DataFrameSource и VectorSource) bull несколько Reuters-форматов

Пакеты и функции в составе NLP package которые потребуются нам

bull library(NLP)bull library(tm) - Text Mining Packagebull library(Wordcloud) - Word Clouds buildingbull library(RColorBrewer)bull library(SnowballC)bull library(lsa)

Подготовка текста

Файлы хранятся в каталоге articlesdirpath lt- DStudy10-АСBig DataTextarticles lt- Corpus(DirSource(dirpath) readerControl = list(reader = readPlain language = ru load = T)) Текстовые файлы были сохранены в кодировке Windows Конвертируемarticles lt- tm_map(articles iconv cp1251 UTF-8)articles lt- tm_map(articles stripWhitespace)articles lt- tm_map(articles tolower)articles lt- tm_map(articles removeNumbers)articles lt- tm_map(articles removeWords stopwords(russian))articles lt- tm_map(articles removePunctuation)

articles lt- tm_map(articles PlainTextDocument)wordcloud(articles randomorder=F maxwords=80 colors=brewerpal(6Dark2))

inspect(articles)

gt stopwords(russian) [1] и в во не что он на я с со [11] как а то все она так его но да ты [21] к у же вы за бы по только ее мне [31] было вот от меня еще нет о из ему теперь [41] когда даже ну вдруг ли если уже или ни быть [51] был него до вас нибудь опять уж вам сказал ведь [61] там потом себя ничего ей может они тут где есть [71] надо ней для мы тебя их чем была сам чтоб [81] без будто человек чего раз тоже себе под жизнь будет [91] ж тогда кто этот говорил того потому этого какой совсем [101] ним здесь этом один почти мой тем чтобы нее кажется[111] сейчас были куда зачем сказать всех никогда сегодня можно при [121] наконец два об другой хоть после над больше тот через [131] эти нас про всего них какая много разве сказала три [141] эту моя впрочем хорошо свою этой перед иногда лучше чуть [151] том нельзя такой им более всегда конечно всю между

Генерирование облака слов

wordcloud(articles randomorder=F maxwords=80colors=brewerpal(6Oranges))

Стемминг ndash морфологический анализ Stemminggtlibrary( SnowballC)gt wordStem(c(молодёжный молодёжного молодёжном года году участники участников) language=ru)[1] молодёжн молодёжн молодёжн год год участник участник

Использование функции mystemexe от Яндекс

mystemexe to the catalogarticlesmystem lt- function(doc) library(stringr) sdoc lt- system(mystem -nl -e utf-8 intern=T input=doc) При получении нескольких вариантов mystem разделяет ихdirpathlt-articles вертикальной чертой Удалим черту и варианты sdoc lt- str_replace(sdoc |$ ) Если mystem сомневается в результате он добавляет знак вопроса Удаляемsummary sdoc lt- str_replace(sdoc ) sdoc lt- paste(sdoc collapse= ) attributes(sdoc) lt- attributes(doc) sdoc

LSA - Латентный семантический анализ

Сравнение текстов по смысловому содержанию

Определения

Латентно-семантический анализ отображает документы и отдельные слова в так называемое laquoсемантическое пространствоraquo в котором и производятся все дальнейшие сравнения При этом делаются следующие предположения

1) Документы это просто набор слов Порядок слов в документах игнорируется Важно только то сколько раз то или иное слово встречается в документе2) Семантическое значение документа определяется набором слов которые как правило идут вместе Например в биржевых сводках часто встречаются слова laquoфондraquo laquoакцияraquo laquoдолларraquo3) Каждое слово имеет единственное значение Это безусловно сильное упрощение но именно оно делает проблему разрешимой

Основные этапы

bull Удаление слов из laquoстоп-спискаraquobull Стеммингbull Удаление уникальных словbull Построение частотной матрицы А индексируемых слов (TF-IDF)

строки ndash словастолбцы ndash тексты

bull Сингулярное разложение (SVD) матрицыbull Определение существенной размерности (главных компонент)bull Усечение размерности семантического пространстваbull Представление слов и текстов в усеченном пространствеbull Визуализация и ассоциативная кластеризация текстов

TF-IDF анализ

TF (term frequency mdash частота слова) mdash отношение числа вхождения некоторого слова к общему количеству слов документа Таким образом оценивается важность слова t_i в пределах отдельного документа

где есть число вхождений слова в документ а в знаменателе mdash общее число слов в данном документеIDF (inverse document frequency mdash обратная частота документа) mdash инверсия частоты с которой некоторое слово встречается в документах коллекции Основоположником данной концепции является Карен ДжонсУчёт IDF уменьшает вес широкоупотребительных слов Для каждого уникального слова в пределах конкретной коллекции документов существует только одно значение IDF

D -количество документов в корпусеколичество документов в которых встречается t

Частотная матрица для двух далеких текстов

Частотная матрица для двух более близких текстов

Карта слов для двух выбранных документов

Разложение матрицы laquoслова-документыraquo

Модель векторного пространства

bull Наиболее распространенный вариант LSA основан на использовании разложения вещественнозначной матрицы по сингулярным значениям или SVD-разложения (SVD ndash Singular Value Decomposition) С помощью него любую матрицу можно разложить в множество ортогональных матриц линейная комбинация которых является достаточно точным приближением к исходной матрице Обычно используют мультипликативное разложение

bull где матрицы U и V ndash ортогональные а S ndash диагональная матрица значения на диагонали которой называются сингулярными значениями матрицы A

bull Символ Т в обозначении матрицы означает транспонирование матрицы

bull Основная идея латентно-семантического анализа состоит в следующем

bull после перемножения матриц полученная матрица Ă содержащая только k первых линейно независимых компонент исходной матрицы A отражает структуру зависимостей (в данном случае ассоциативных) латентно присутствующих в исходной матрице Структура зависимостей определяется весовыми функциями термов для каждого документа

Особенность такого разложения в том что если в матрице S оставить только k наибольших сингулярных значений то линейная комбинация получившихся матриц будет наилучшим приближением исходной матрицы A к матрице Ă ранга k

Пример

bull c1 Human machine interface for ABC computer applicationsbull c2 A survey of user opinion of computer system response timebull c3 The EPS user interface management systembull c4 System and human system engineering testing of EPSbull c5 Relation of user perceived response time to error measurementbull m1 The generation of random binary ordered treesbull m2 The intersection graph of paths in treesbull m3 Graph minors IV Widths of trees and well-quasi-orderingbull m4 Graph minors A survey

Желтым отмечены слова встречающиеся хотя бы в двух заголовках

После SVD

Семантическое пространство

Матрица расстояний между словами

Результат снижения размерности кластеризация [human interface computer user EPS response time][survey trees graph minors]

Расстояния между заголовками до и после SVD

bull Объем корпуса для построения модели должен быть большим ndash желательно около трех-пяти миллионов словоупотреблений Но метод работает и на коллекциях меньшего объема правда несколько хужеПроизвольное разбиение текста на документы обычно производят от тысячи до нескольких десятков тысяч частей примерно одинакового объема Таким образом матрица термы-на-документы получается прямоугольной и может быть сильно разраженной Например при объеме 5 млн словоформ получается матрица 30-50 тысяч документов на 200-300 тысяч а иногда и более термов В действительности низкочастотные термы можно опустить тк это заметно снизит размерность матрицы (скажем если не использовать 5 от общего объема низкочастотных термов то размерность сократиться в два раза) что приведет к снижению вычислительных ресурсов и времениВыбор сокращения сингулярных значений диагональной матрицы (размерности k) при обратном перемножении матриц достаточно произвольно При вышеуказанной размерности матрицы оставляют несколько сотен (100-300) главных компонент При этом как показывает практика зависимость количества компонент и точность меняются нелинейно например если начинать увеличивать их число то точность будет падать но при некотором значении скажем 10000 ndash опять вырастет до оптимального случая

Применение

bull сравнение двух термов между собойbull сравнение двух документов между собойbull сравнение терма и документа

Так же иногда этот метод используют для нахождения laquoближайшего соседаraquo mdash наиболее близких по весу термов ассоциативно связанных с исходным Это свойство используют для поиска близких по смыслу термов Следует уточнить что близость по смыслу ndash это контекстнозависимая величина поэтому не всякий близкий терм будет соответствовать ассоциации (это может быть и синоним и антоним и просто часто встречающееся вместе с искомым термом слово или словосочетание)

bull Достоинством метода можно считать его замечательную способность выявлять зависимости между словами когда обычные статистические методы бессильны LSA также может быть применен как с обучением (с предварительной тематической классификацией документов) так и без обучения (произвольное разбиение произвольного текста) что зависит от решаемой задачи

bull Об основных недостатках значительное снижение скорости вычисления при увеличении объема входных данных (в частности при SVD-преобразовании)

bull Как показано в литературе скорость вычисления соответствует порядку где сумма количества документов и термов kndash размерность пространства факторов

На рисунке показано возникновение и изменение главных факторов при уменьшении числа сингулярных элементов диагональной матрицы от 100 до ~12 Трехмерные рисунки представляют собой симметричную матрицу полученную в результате вычисления скалярного произведения векторов каждого эталонного документа с каждым тестируемым Эталонный набор векторов ndash это заранее размеченный на 30 документов текст тестируемый ndash с уменьшением числа сингулярных значений диагональной матрицы полученной при SVD-анализе На осях X и Y откладывается количество документов (эталонных и тестируемых) на оси Z ndash объем лексиконаНа рисунках хорошо видно что при уменьшении числа сингулярных диагональных элементов на 20-30 факторы еще не достаточно ярко выявлены но при этом возникают корреляции похожих документов (небольшие пики вне диагонали) которые сначала незначительно увеличиваются а затем с уменьшением числа сингулярных значений (до 70-80) ndash исчезают При автоматической кластеризации такие пики являются шумом поэтому их желательно минимизировать Если же целью является получение ассоциативных связей внутри документов то следует найти оптимальное соотношение сохранения основного лексикона и примешивания ассоциативного

Имплементация в R - Package lsquolsarsquoalnumx - Regular expression for removal of non-alphanumeric characters (saving special characters)

astextmatrix - Display a latent semantic space generated by Latent Semantic Analysis (LSA)

associate - Find close terms in a textmatrix

corpora - Corpora (Essay Scoring) dimcalc Dimensionality Calculation Routines (LSA)

dimcalc - Dimensionality Calculation Routines (LSA)

lsa - Create a vector space with Latent Semantic Analysis (LSA)

printtextmatrix - Print a textmatrix (Matrices)

sampletextmatrix - Create a random sample of files

textmatrix - Создает Textmatrix (Matrices) из файлов

Пример 1

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) read files into a document-term matrixmyMatrix = textmatrix(td minWordLength=1) create the latent semantic spacemyLSAspace = lsa(myMatrix dims=dimcalc_raw()) display it as a textmatrix againround(astextmatrix(myLSAspace)2) should give the original create the latent semantic spacemyLSAspace = lsa(myMatrix dims=dimcalc_share())

Пример 2

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) create matricesmyMatrix = textmatrix(td minWordLength=1)myLSAspace = lsa(myMatrix dims=dimcalc_share())myNewMatrix = astextmatrix(myLSAspace) calc associations for mouseassociate(myNewMatrix mouse) clean upunlink(td recursive=TRUE)

Пример 3 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(ham mouse sushi) file=paste(td D2 sep=) )write( c(dog pet pet) file=paste(td D3 sep=) ) LSAdata(stopwords_en)myMatrix = textmatrix(td stopwords=stopwords_en)myMatrix = lw_logtf(myMatrix) gw_idf(myMatrix)myLSAspace = lsa(myMatrix dims=dimcalc_share())astextmatrix(myLSAspace) clean upunlink(td recursive=TRUE)

Пример 4 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(hamster mouse sushi) file=paste(td D2 sep=) )write( c(dog monster monster) file=paste(td D3 sep=) ) read them create a document-term matrixtextmatrix(td) read them drop german stopwordsdata(stopwords_de)textmatrix(td stopwords=stopwords_de) read them based on a controlled vocabularyvoc = c(dog mouse)textmatrix(td vocabulary=voc minWordLength=1) clean up

Вместо заключения Очевидным недостатком LSA является ненормальность (негаусовость) вероятностного распределения слов в любом естественном языке Но эту проблему можно решить сглаживанием выборки (например применив фонетические слова распределение становится более laquoнормальнымraquo) Либо используют вероятностный LSA тназ PLSA основанный на мультиноминальном распределении Другим менее очевидным недостаткам LSA (и ему подобных методов) применительно к обработке неструктурированной информации можно отнести laquoтуманностьraquo самого метода (в частности выбора кол-ва сингулярных значений диагональной матрицы) и интерпретации результата не говоря уже о проблеме сбалансированности обучающего текста

Как правило для качественного построения модели оставляют менее 1-2 процента от общего числа диагональных значений (после SVD преобразования но об это в следующем посте) И как показывает практика увеличение числа факторов приводит к ухудшению результата Но дойдя примерно до 10 процентов от общего числа диагональных значений опять может быть всплеск аналогичный результату полученному при 1

Сбалансированность корпуса ndash вечная проблема которая не имеет хорошего решения на сегодняшний день Поэтому про нее приято помалкивать

Интерпретируемость результатов LSA (как и DLA) также затруднительна человек еще может понять что за тематику будет содержать топик полученный в результате анализа а вот машине не понять (не аннотировать) тематику без привлечения большого числа хороших и разных тезаурусов

Таким образом несмотря на трудоемкость и непрозрачность LSA он может успешно применяться для разного рада задач где важно поймать семантику сообщения обобщить или расширить laquoсмыслыraquo поискового запроса

bull Стандарт основанный на XML для обмена моделями статистической обработки Data Mining

bull Поддерживается более 20 организациями и поставщиками ПО

bull Реализован в частности и в R

Поддерживаемые предиктивные алгоритмы в R

Состав pmml package

bull addLT

bull addMSAttributes

bull audit

bull fileToXMLNode

bull pmml

bull pmmlada

bull pmmlcoxph

bull pmmlcvglmnet

bull pmmlglm

bull pmmlhclust

bull pmmlkmeans

bull pmmlksvm

bull pmmllm bull pmmlmultinom bull pmmlnaiveBayes bull pmmlnnet bull pmmlrandomForest bull pmmlrfsrc bull pmmlrpart bull pmmlrules bull pmmlsvm bull pmmlCanExport bull pmmltoc

Пример

Good by R see you later alligator

WATSON ndash одно из наиболее впечатляющих применений предиктивной аналитики

Разрабатывался компанией IBM с 2006 по 2010 годПрославился победой в телешоу Jeopardy (в России ndash laquoСвоя играraquo) в 2011 годуПредшественник Deep Blue обыграл чемпиона мира по шахматам Гарри Каспарова в 1997 г

>

IBM Deep QA Project

bull Целью проекта было создать компьютерную систему (ИИ) для ответа на вопросы (QA) задаваемые в свободной форме в телешоу и показать результаты соизмеримые с человеческими

bull Задача более сложная чем шахматная программа Deep Blue выигравшая у Каспарова в 1997 г

bull Вопросы по категориямCategory General ScienceClue When hit by electrons a phosphor gives off electromagnetic energy in this formAnswer Light (or Photons)

Category Lincoln BlogsClue Secretary Chase just submitted this to me for the third time guess what pal This time Irsquom accepting itAnswer his resignation

Category Head NorthClue Theyrsquore the two states you could be reentering if yoursquore crossing Floridarsquos northern borderAnswer Georgia and Alabama

Вопросы могут касаться сразу нескольких фактов чтобы ответ был вернымCategory ldquoRaprdquo SheetClue This archaic term for a mischievous or annoying child can also mean a rogue or scampSubclue 1 This archaic term for a mischievous or annoying childSubclue 2 This term can also mean a rogue or scampAnswer Rapscallion

Category Diplomatic RelationsClue Of the four countries in the world that the United States does not have diplomatic relations with the one thatrsquos farthest northInner subclue The four countries in the world that the United States does not have diplomatic relations with (Bhutan Cuba Iran North Korea)Outer subclue Of Bhutan Cuba Iran and North Korea the one thatrsquos farthest northAnswer North Korea

Вопросы - пазлы

Category Before and After Goes to the MoviesClue Film of a typical day in the life of the Beatles which includes running from bloodthirsty zombie fans in a Romero classicSubclue 2 Film of a typical day in the life of the Beatles Answer 1 (A Hard Dayrsquos Night)Subclue 2 Running from bloodthirsty zombie fans in a Romero classicAnswer 2 (Night of the Living Dead)Answer A Hard Dayrsquos Night of the Living Dead

Category Rhyme TimeClue Itrsquos where Pele stores his ballSubclue 1 Pele ball (soccer)Subclue 2 where store (cabinet drawer locker and so on)Answer soccer locker

Недопустимые типы вопросов

oCategory Picture This(Contestants are shown a picture of a B-52 bomber)Clue Alphanumeric name of the fearsome machine seen hereAnswer B-52

oCategory Decode the Postal CodesVerbal instruction from host Wersquore going to give you a word comprising two postal abbreviations you have to identify the statesClue VainAnswer Virginia and Indiana

Лексические типы ответа ndash LAT (Lexical Answer Type)

Метрики качества ответов - результативность

Показатели двух теоретических QA систем

Показатели результативности чемпионов шоу (2000)

Облако победителей

Линия сравнения результативности (baseline performance)

Сравнение системы тестового поиска и поиска в базе знаний

Результативность Watson (по версиям)

Основы подхода Deep QA

bull Massive parallelism использование высокого параллелизма при рассмотрении множественных интерпретаций и гипотез

bull Many experts привлечение интеграции приложения и контекстуального оценивания в широком диапазоне слабосвязанных вероятностных вопросов и контентной аналитики

bull Pervasive confidence estimation повсеместная оценка доверия означает что ни один из компонентов не включается в ответ сразу все компоненты имеют признаки и связанные с ними уровни доверия производится скоринг различных вопросов и контентная интерпретация Основа confidence-processing состоит в обучении как стэкировать и комбинировать баллы

bull Integrate shallow and deep knowledge интеграция поверхностных и глубинных знаний состоит в балансе использования строгой семантики и мелких семантик использующих множества слабо сформированных онтологий

bull Content Acquisition - Сбор контентаСочетает ручные и автоматические этапы Первым шагом является анализ примеров вопросов проблемного пространства чтобы произвести описание видов вопросов на которые нужно ответить и характеризовать область применения Анализ примеров вопросов в первую очередь ручная задача в то время как анализ области может быть выполнен путем автоматических или статистических методов таких как анализ LAT показанный ранее Учитывая вопросы для широкого домена Jeopardy Challenge источники для Watson включают широкий ассортимент энциклопедий словарей тезаурусов Newswire статьи литературные произведения и тд Начиная с разумного размера базового корпуса DeepQA затем применяет автоматический процесс расширения корпуса Процесс включает в себя четыре этапа высокого уровня (1) выявления основных документов и получить соответствующие документы из Интернет (2) извлечь автономные текстовые ядра из связанных веб-документов (3) Оценка на основе ядер являются ли они информативны по отношению к исходному основному документу и (4) объединить наиболее информативные ядра в расширенном корпусе Работающая система использует этот расширенный корпус и не имеет доступа к Интернет во время игры

bull Question Analysis ndash Анализ вопроса

Первый шаг во время выполнения процесса вопрос-ответной системы При анализе вопроса система пытается понять что вопрос задан и выполняет начальный анализ определяющий как вопрос будет обработан на остальных этапах работы системы Подход DeepQA использует смешанный набор экспертов на данном этапе и в системе Watson производится мелкий парсинг глубокий парсинг строятся логические формы семантические этикетки ролей взаимные ссылки отношения именованные сущности и так далее а также конкретные виды анализа для ответа вопрос

bull Question classification - Классификация вопроса

Это задача выявления типа вопроса или частей вопроса которые требуют специальной обработки Это может включать в себя что-нибудь из отдельных слов с двойным смыслом и потенциально до выявления целых статей которые имеют определенную синтаксическую семантическую или риторические функциональные возможности которые могут инициировать нисходящий анализ Классификация может определить вопрос как вопрос- головоломку вопрос-математику -определение и так далее Это будет определять каламбуры ограничения компоненты определений или целые подвопросы в пределах вопросов

bull Focus and LAT Detection ndash Определение фокуса и лексического типа ответа

Лексический тип ответа - это слово или словосочетание в вопросе который определяет тип ответа без попытки понять семантику Определение LAT является важным видом выигрыша и общим источником критических ошибок Преимущество подхода DeepQA является использование многих самостоятельно разработанных алгоритмов laquoответ-типированияraquo Например фокус вопроса викторины laquoПри попадании электронов люминофор излучает электромагнитную энергию в этой формеraquo - является laquoэта формаraquo Фокус часто (но не всегда) содержит полезную информацию об ответе часто субъект или объект отношение в вопросе и может превратить вопрос в фактическое утверждение при замене возможным кандидатом Это представляет полезный способ собирать доказательства о каждом кандидате

bull Relation Detection ndash детектирование отношений

Большинство вопросов содержит отношения являются ли они синтаксическими предикатами субъект-глагол-объект или семантические отношения между субъектами Например в вопросе laquoЕсть два штата в которые вы могли бы войти повторно если вы пересекаете северную границу штата Флоридаraquo мы можем обнаружить отношение границы (Флорида Х к северу) Watson использует обнаружение отношения на протяжении всего процесса QA от фокуса и LAT определения до прохождению и скорингу ответов Watson также может использовать обнаруженные отношения для выделения хранилища триплетов и напрямую генерировать кандидатов в ответы В 20000 игр Jeopardy вопросы например обнаружили распределение Freebase отношений чрезвычайно плоского вида (см рисунок) Это приближение распределеня 50 наиболее частых отношений в 20 000 случайно выбранных вопросах викторины

bull Decomposition ndash декомпозиция

Важным требованием успеха анализа Jeopardy является способность отвечать на вопросы которые разложены на составляющие DeepQA использует основанный на правилах глубокий парсинг и статистические методы классификации чтобы наилучшим образом разложить вопросы на элементы и определить как лучше разбить их на подвопросы Операционная гипотеза что правильная интерпретация вопроса позволит лучше произвести скоринг ответов после того как все доказательства собраны Даже если вопрос не должен быть разложен для определения ответа этот метод может помочь улучшить общее доверие ответу системы DeepQA решает задачи параллельно для каждого разложения применяя алгоритмы от начала до конца каждого подвопроса и синтезирует окончательные ответы DeepQA также поддерживает вложенные декомпозиции вопросов через рекурсивное применение QA системы от начала до конца в внутреннем подвопросе а затем во внешнем Настраиваемые компоненты позволяют легко подключать специализированные алгоритмы синтеза в общую систему

bull Hypothesis Generation ndash генерация гипотез

Генерация гипотез принимает результаты анализа вопросов и производит кандидатов на ответы Каждый кандидат ответ включается обратно в вопрос и это считается как гипотеза Система должна доказать правильность этой гипотезы с некоторой степенью уверенности Как и во всех аспектах DeepQA используется смесь разных подходов для первичного поиска и генерации кандидата в системе Watson

bull Primary Search ndash первичный поиск

В этом поиске целью является найти столько потенциально кандидатов сколько это можно сделать на основе результатов анализа вопроса В течение проекта велись эмпирические исследования направленные на баланс скорости объема и точности Эти исследования позволили регулярно настраивать систему так чтобы найти такое количество кандидатов которые производят наилучший баланс точности и вычислительных ресурсов Оперативная цель основного поиска в конечном счете стабилизировалась на около 85 процентов для топ-250 кандидатов то есть система генерирует правильный ответ как кандидата ответа на 85 процентов вопросов где-то в верхних 250 ранжированных кандидатов Разнообразие методов поиска используются в том числе с использованием нескольких текст поисковых системах с различными базовыми подходами (например Indri и Lucene) поиск документов а также поиска маршрута база знаний поиска с помощью SPARQL хранилища триплетов Для небольшого количества латов которые были определены как закрытые латы кандидат на ответ может быть получен из фиксированного списка в каком-то хранилище известных экземпляров LAT таких как США Президент или Страна

Поиск доказательств

bull Поиск по фразе ndash число соответствий разного типав ответе и вопросеbull Популярность ndash как часто встречается этот вариант ответаbull Соответствие по типу ndash ответ и требование вопросаbull Соответствие по времениbull Надежность источника

bull Candidate Answer Generation ndash генерирование кандидатов на ответ

Результаты поиска применяются для генерирования возможных кандидатов в ответы с помощью различных подходящих техник Для поиска документов извлекаются заголовки и используются как кандидаты Число кандидатов при этом может быть не единственным и требовать использования анализа подстрок и ссылок Используя детектирование именованных сущностей в ряде случаев удается извлечь хороших кандидатов В зависимости от типа источника для генерирования кандидата требуется разный набор алгоритмов например база знаний или обратный словарь порождают кандидатов непосредственно как кандидата Этот этап критически важен и если кандидаты не найдены то фиксируется невозможность ответа В нормальном режиме на этом этапе Watson гененерирует несколько сотен андидатов

bull Soft Filtering ndash мягкая фильтрацияДля ускорения процесса скоринга кандидатов Watson использует различные алгоритмы разной точности Более легковесные (менее вычислительно интенсивные) применяются на первом этапе скоринга На этом этапе устанавливается порог оценки и кандидаты имеющие более высокую оценку считаются прошедшими мягкую фильтрацию Они поступают на выработку гипотез и скоринг доказательств Интересно что кандидаты не прошедшие порог мягкой фильтрации не забываются а направляются прямо на финальный этап слияния Модель скоринга мягкой фильтрации и порога определяются на основе machine learning используя обучающие данные Watson типично пропускает через мягкую фильтрацию 100 кандидатов но эта функция параметризована и их число можно изменить

Проблемы NLP

bull В мае 1898 года Португалия отмечала 400-летний юбилей со дня прибытия этого великого путешественника в Индию

В мае Гари прибыл в Индию после празднования своего юбилея в Португалии

21 мая 1498 года Васка де Гама высадился в местечке Каппад

bull Он был помилован президентом 8 сентября 1974 годаФорд помиловал Никсона 8 сентября 1974 года Никсон Форд

bull Говоря ldquogive a trinklerdquo что предлагают вам сделать британцы по приезду в город

bull Hypothesis and Evidence Scoring ndash скоринг гипотез и доказательств

Прошедшие порог мягкой фильтрации кандидаты поступают на скрупулезный процесс который включает сбор дополнительных поддерживающих доказательств для каждого кандидата на ответ или гипотезу Процесс использует широкий набор различных методов скоринговой аналитики чтобы исследовать все поддерживающие доказательства

bull Evidence Retrieval ndash извлечение доказательств

Чтобы лучше исследовать каждого кандидата прошедшего через мягкую фильтрацию система собирает дополнительные поддерживающие доказательства Архитектура поддерживает интеграцию различных evidence-gathering техник Один из применяемых способов состоит в том что проводится дополнительный поиск в котором кандидат добавляется в качестве required term к первичному запросу извлеченному из вопроса Это будет приводить к получению выражений содержащих кандидата в контексте первичных терминов вопросаПоддерживающие доказательства могут быть извлечены и из других источников например из RDF баз знаний Извлеченные поддерживающие доказательства направляются модули глубокого скоринга которые анализируют кандидата в контексте поддерживающего доказательства

bull Scoring ndash скоринг (количественное оценивание)

Алгоритмы скоринга определяют степень несомненности которую обеспечивают доказательства в поддержку кандидата The DeepQA framework поддерживает множество компонент для выработки оценки в различных измерениях каждого доказательства которая вырабатывает оценку связанную с тем насколько хорошо доказательство поддерживает кандидата на ответ в качестве ответа на заданный вопросDeepQA использует общий формат для оценок для принятых гипотез и подтверждающих оценок отражающих семантические и ограничивающие факторы Это позволяет разработчикам DeepQA быстро разворачивать перемешивать и настраивать сложные совокупности модуле для обработкиНапрмер Watson использует больше чем 50 скоринговых компонент Они производят оценки разноготипа от оценок вероятностей до подсчета категориальных свойств основанных на доказательствах от различных источников включая неструктурированные тексты полуструктурированные тексты и RDF хранилища Эти оценки используют такие данные как degree of match between a passagersquos predicate-argument structure and the question passage source reliability geospatial location temporal relationships taxonomic classification the lexical and semantic relations the candidate is known to participate in the candidatersquos correlation with question terms its popularity (or obscurity) its aliases and so on

Вопрос Чили имеет самую длинную общую границу со страной Сгенерировано несколько кандидатов среди них Аргентина и Боливия Первичный поиск даст приоритет Боливии из=а популярности обсуждений их отношений Однако собранные Watson доказательства из других источников показывают более высокую оценку для Аргентины

Скоринг (взвешивание) доказательств ndash предиктивная аналитика

- При делении клеток митозом называется деление ядра а цитокинезом ndash деление этой жидкости в которой находится ядро

Генерирование кандидатов Сбор доказательств Уверенность в доказательстве

ОрганеллыВакуольЦитоплазмаПлазмамитохондрии

Органеллы ndash не жидкостьВакуоль ndash не жидкостьЦитоплазма ndash возможно жидкостьПлазма ndash не жидкостьМитохондрии ndash не жидкость

Цитоплазма ndash 92Органеллы ndash 19Вакуоль ndash 10Плазма ndash 2Митохондрии ndash 2

Answer Merging ndash объединение ответов

Многие кандидаты в ответы на поставленный вопрос могут быть эквивалентны несмотря на различные внешне формыТехники ранжирования тем не менее рассматривают таких кандидатов как различные Без объединения алгоритмы ранжирования будут работать отдельно с эквивалентными сущностями и пытаться противопоставить одну форму другой Это приведет к проблемам принятия решений Watson содержит алгоритмы идентификации эквивалентных сущностей используя множественные сравнения нормализацию и методы разрешения совместных ссылок

Ranking and Confidence Estimation ndash ранжирование и оценивание доверияПосле объединения система должна произвести ранжирование гипотез и оценивает доверие основанное на объединенных оценках В системе подобран ML подход основанный на обучении на обучающем наборе вопросов с известными ответами и обучение модели основываясь на скоринге Применяется как весьма плоская модель и существующие алгоритмы ранжирования Для более тонких оценок применяется двухфазный процесс использующий группы оценок для оценивания профиля и для оценки доверия Используя эту промежуточную модель система производит ансамбль промежуточных оценок Здесь используется иерархическая техника метаучителя и коллектива экспертов Этот подход обеспечивает итеративное расширение обучения используя изощренные и глубокие иерархические модели обеспечивающие гибкость и робастность при выработке оценок и модифицирует системуМетаучитель в Watson использует набор многие обучаемые модели чтобы управлять различными классами вопросов которые могут быть критическими при идентификации правильных ответовНаконец важно что использование NLP-based скоринга дает весьма разреженные оценки и требует точного оценивания с применением confidence-weighted learning techniques

Развертывание Watson

bull DeepQA разработан используя Apache UIMA - framework implementation of the Unstructured Information Management Architecture (Ferrucci and Lally 2004) UIMA был разработан для поддержки взаимодействия и масштабирования приложений обработки текста и мультимодального анализа Все компоненты DeepQA имплементированы как UIMA annotators Это программные компоненты для анализа текста и получения аннотаций или заключений о тексте Watson развивался в процессе разработки от нескольких компонент до нескольких сотен UIMA обеспечивает быструю интеграцию компонент тестирование и исследование

bull Начальная имплементация Watson запускалась на одном процессоре и требовала 2 часа на ответ на один вопрос DeepQA развился в параллельную систему используя UIMA-AS часть Apache UIMA масштабируя приложения UIMA используя асинхронный механизм месседжинга UIMA-AS позволила масштабировать Watson более чем на 2500 вычислительных ядер UIMA-AS управляет коммуникациями месседжингом управлением запросами используя open JMS standard UIMA-AS позволил снизить латентность Watson до 3ndash5 секунд

bull Для препроцессинга корпуса текстов создания быстрых run-time indices использован Hadoop

UIMA annotators были развернуты как mapper ы в Hadoop map-reduce framework Hadoop распределяет контент по кластеру для обеспечения высокого использования CPU и обеспечивает подходящий набор инструментов для deploying managing and monitoring the corpus analysis process

bull Аппаратная платформа ndash это 90 серверов 2800 ядер 15 ТБ RAM 80 Тфлопс $3 000 000 10 R

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 2: !Predictive analytics part_3

Основы анализа текстов на естественном языке ndash Natural Language Processing (NLP)

Уровни задачи понимания текста

bull Извлечение фактов и разбивка текста ndash разметка bull Обработка на уровне слов - морфологияbull Обработка на уровне предложений - парсингbull Обработка на уровне текста

Корпус текстов

bull функции по созданию корпуса из массива данных (DataFrameSource)bull из каталога файлов каждый из которых содержит отдельный документ (DirSource)bull из вектора (VectorSource)bull из текстов доступных по URI-ссылке (URISource) bull из набора новостных сообщений агентства Reuters входящих в состав расширения tm

(ReutersSource) bull Помимо типов которые входят в библиотеку tm пользователь может оперативно

установить расширения из CRAN позволяющие импортировать тексты из веб-источников в форматах XML JSON HTML (tmpluginwebmining) из почтовых файлов eml и mbox (tmpluginmail) из файлов французской программы текстового анализа Alceste (tmpluginalceste) из файлов полученных от новостных агрегаторов Europresse (tmplugineuropresse) LexisNexis (tmpluginlexisnexis) Dow Jones Factiva (tmpluginfactiva)

Форматы текста

bull Документы могут храниться в источнике в разных форматах Библиотека tm поддерживает чтение документов в форматах простого текста (readPlain)

bull PDF (readPDF) bull Microsoft Word (readDOC) bull XML (readXML) bull табличной структуры (readTabular ndash для источников

DataFrameSource и VectorSource) bull несколько Reuters-форматов

Пакеты и функции в составе NLP package которые потребуются нам

bull library(NLP)bull library(tm) - Text Mining Packagebull library(Wordcloud) - Word Clouds buildingbull library(RColorBrewer)bull library(SnowballC)bull library(lsa)

Подготовка текста

Файлы хранятся в каталоге articlesdirpath lt- DStudy10-АСBig DataTextarticles lt- Corpus(DirSource(dirpath) readerControl = list(reader = readPlain language = ru load = T)) Текстовые файлы были сохранены в кодировке Windows Конвертируемarticles lt- tm_map(articles iconv cp1251 UTF-8)articles lt- tm_map(articles stripWhitespace)articles lt- tm_map(articles tolower)articles lt- tm_map(articles removeNumbers)articles lt- tm_map(articles removeWords stopwords(russian))articles lt- tm_map(articles removePunctuation)

articles lt- tm_map(articles PlainTextDocument)wordcloud(articles randomorder=F maxwords=80 colors=brewerpal(6Dark2))

inspect(articles)

gt stopwords(russian) [1] и в во не что он на я с со [11] как а то все она так его но да ты [21] к у же вы за бы по только ее мне [31] было вот от меня еще нет о из ему теперь [41] когда даже ну вдруг ли если уже или ни быть [51] был него до вас нибудь опять уж вам сказал ведь [61] там потом себя ничего ей может они тут где есть [71] надо ней для мы тебя их чем была сам чтоб [81] без будто человек чего раз тоже себе под жизнь будет [91] ж тогда кто этот говорил того потому этого какой совсем [101] ним здесь этом один почти мой тем чтобы нее кажется[111] сейчас были куда зачем сказать всех никогда сегодня можно при [121] наконец два об другой хоть после над больше тот через [131] эти нас про всего них какая много разве сказала три [141] эту моя впрочем хорошо свою этой перед иногда лучше чуть [151] том нельзя такой им более всегда конечно всю между

Генерирование облака слов

wordcloud(articles randomorder=F maxwords=80colors=brewerpal(6Oranges))

Стемминг ndash морфологический анализ Stemminggtlibrary( SnowballC)gt wordStem(c(молодёжный молодёжного молодёжном года году участники участников) language=ru)[1] молодёжн молодёжн молодёжн год год участник участник

Использование функции mystemexe от Яндекс

mystemexe to the catalogarticlesmystem lt- function(doc) library(stringr) sdoc lt- system(mystem -nl -e utf-8 intern=T input=doc) При получении нескольких вариантов mystem разделяет ихdirpathlt-articles вертикальной чертой Удалим черту и варианты sdoc lt- str_replace(sdoc |$ ) Если mystem сомневается в результате он добавляет знак вопроса Удаляемsummary sdoc lt- str_replace(sdoc ) sdoc lt- paste(sdoc collapse= ) attributes(sdoc) lt- attributes(doc) sdoc

LSA - Латентный семантический анализ

Сравнение текстов по смысловому содержанию

Определения

Латентно-семантический анализ отображает документы и отдельные слова в так называемое laquoсемантическое пространствоraquo в котором и производятся все дальнейшие сравнения При этом делаются следующие предположения

1) Документы это просто набор слов Порядок слов в документах игнорируется Важно только то сколько раз то или иное слово встречается в документе2) Семантическое значение документа определяется набором слов которые как правило идут вместе Например в биржевых сводках часто встречаются слова laquoфондraquo laquoакцияraquo laquoдолларraquo3) Каждое слово имеет единственное значение Это безусловно сильное упрощение но именно оно делает проблему разрешимой

Основные этапы

bull Удаление слов из laquoстоп-спискаraquobull Стеммингbull Удаление уникальных словbull Построение частотной матрицы А индексируемых слов (TF-IDF)

строки ndash словастолбцы ndash тексты

bull Сингулярное разложение (SVD) матрицыbull Определение существенной размерности (главных компонент)bull Усечение размерности семантического пространстваbull Представление слов и текстов в усеченном пространствеbull Визуализация и ассоциативная кластеризация текстов

TF-IDF анализ

TF (term frequency mdash частота слова) mdash отношение числа вхождения некоторого слова к общему количеству слов документа Таким образом оценивается важность слова t_i в пределах отдельного документа

где есть число вхождений слова в документ а в знаменателе mdash общее число слов в данном документеIDF (inverse document frequency mdash обратная частота документа) mdash инверсия частоты с которой некоторое слово встречается в документах коллекции Основоположником данной концепции является Карен ДжонсУчёт IDF уменьшает вес широкоупотребительных слов Для каждого уникального слова в пределах конкретной коллекции документов существует только одно значение IDF

D -количество документов в корпусеколичество документов в которых встречается t

Частотная матрица для двух далеких текстов

Частотная матрица для двух более близких текстов

Карта слов для двух выбранных документов

Разложение матрицы laquoслова-документыraquo

Модель векторного пространства

bull Наиболее распространенный вариант LSA основан на использовании разложения вещественнозначной матрицы по сингулярным значениям или SVD-разложения (SVD ndash Singular Value Decomposition) С помощью него любую матрицу можно разложить в множество ортогональных матриц линейная комбинация которых является достаточно точным приближением к исходной матрице Обычно используют мультипликативное разложение

bull где матрицы U и V ndash ортогональные а S ndash диагональная матрица значения на диагонали которой называются сингулярными значениями матрицы A

bull Символ Т в обозначении матрицы означает транспонирование матрицы

bull Основная идея латентно-семантического анализа состоит в следующем

bull после перемножения матриц полученная матрица Ă содержащая только k первых линейно независимых компонент исходной матрицы A отражает структуру зависимостей (в данном случае ассоциативных) латентно присутствующих в исходной матрице Структура зависимостей определяется весовыми функциями термов для каждого документа

Особенность такого разложения в том что если в матрице S оставить только k наибольших сингулярных значений то линейная комбинация получившихся матриц будет наилучшим приближением исходной матрицы A к матрице Ă ранга k

Пример

bull c1 Human machine interface for ABC computer applicationsbull c2 A survey of user opinion of computer system response timebull c3 The EPS user interface management systembull c4 System and human system engineering testing of EPSbull c5 Relation of user perceived response time to error measurementbull m1 The generation of random binary ordered treesbull m2 The intersection graph of paths in treesbull m3 Graph minors IV Widths of trees and well-quasi-orderingbull m4 Graph minors A survey

Желтым отмечены слова встречающиеся хотя бы в двух заголовках

После SVD

Семантическое пространство

Матрица расстояний между словами

Результат снижения размерности кластеризация [human interface computer user EPS response time][survey trees graph minors]

Расстояния между заголовками до и после SVD

bull Объем корпуса для построения модели должен быть большим ndash желательно около трех-пяти миллионов словоупотреблений Но метод работает и на коллекциях меньшего объема правда несколько хужеПроизвольное разбиение текста на документы обычно производят от тысячи до нескольких десятков тысяч частей примерно одинакового объема Таким образом матрица термы-на-документы получается прямоугольной и может быть сильно разраженной Например при объеме 5 млн словоформ получается матрица 30-50 тысяч документов на 200-300 тысяч а иногда и более термов В действительности низкочастотные термы можно опустить тк это заметно снизит размерность матрицы (скажем если не использовать 5 от общего объема низкочастотных термов то размерность сократиться в два раза) что приведет к снижению вычислительных ресурсов и времениВыбор сокращения сингулярных значений диагональной матрицы (размерности k) при обратном перемножении матриц достаточно произвольно При вышеуказанной размерности матрицы оставляют несколько сотен (100-300) главных компонент При этом как показывает практика зависимость количества компонент и точность меняются нелинейно например если начинать увеличивать их число то точность будет падать но при некотором значении скажем 10000 ndash опять вырастет до оптимального случая

Применение

bull сравнение двух термов между собойbull сравнение двух документов между собойbull сравнение терма и документа

Так же иногда этот метод используют для нахождения laquoближайшего соседаraquo mdash наиболее близких по весу термов ассоциативно связанных с исходным Это свойство используют для поиска близких по смыслу термов Следует уточнить что близость по смыслу ndash это контекстнозависимая величина поэтому не всякий близкий терм будет соответствовать ассоциации (это может быть и синоним и антоним и просто часто встречающееся вместе с искомым термом слово или словосочетание)

bull Достоинством метода можно считать его замечательную способность выявлять зависимости между словами когда обычные статистические методы бессильны LSA также может быть применен как с обучением (с предварительной тематической классификацией документов) так и без обучения (произвольное разбиение произвольного текста) что зависит от решаемой задачи

bull Об основных недостатках значительное снижение скорости вычисления при увеличении объема входных данных (в частности при SVD-преобразовании)

bull Как показано в литературе скорость вычисления соответствует порядку где сумма количества документов и термов kndash размерность пространства факторов

На рисунке показано возникновение и изменение главных факторов при уменьшении числа сингулярных элементов диагональной матрицы от 100 до ~12 Трехмерные рисунки представляют собой симметричную матрицу полученную в результате вычисления скалярного произведения векторов каждого эталонного документа с каждым тестируемым Эталонный набор векторов ndash это заранее размеченный на 30 документов текст тестируемый ndash с уменьшением числа сингулярных значений диагональной матрицы полученной при SVD-анализе На осях X и Y откладывается количество документов (эталонных и тестируемых) на оси Z ndash объем лексиконаНа рисунках хорошо видно что при уменьшении числа сингулярных диагональных элементов на 20-30 факторы еще не достаточно ярко выявлены но при этом возникают корреляции похожих документов (небольшие пики вне диагонали) которые сначала незначительно увеличиваются а затем с уменьшением числа сингулярных значений (до 70-80) ndash исчезают При автоматической кластеризации такие пики являются шумом поэтому их желательно минимизировать Если же целью является получение ассоциативных связей внутри документов то следует найти оптимальное соотношение сохранения основного лексикона и примешивания ассоциативного

Имплементация в R - Package lsquolsarsquoalnumx - Regular expression for removal of non-alphanumeric characters (saving special characters)

astextmatrix - Display a latent semantic space generated by Latent Semantic Analysis (LSA)

associate - Find close terms in a textmatrix

corpora - Corpora (Essay Scoring) dimcalc Dimensionality Calculation Routines (LSA)

dimcalc - Dimensionality Calculation Routines (LSA)

lsa - Create a vector space with Latent Semantic Analysis (LSA)

printtextmatrix - Print a textmatrix (Matrices)

sampletextmatrix - Create a random sample of files

textmatrix - Создает Textmatrix (Matrices) из файлов

Пример 1

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) read files into a document-term matrixmyMatrix = textmatrix(td minWordLength=1) create the latent semantic spacemyLSAspace = lsa(myMatrix dims=dimcalc_raw()) display it as a textmatrix againround(astextmatrix(myLSAspace)2) should give the original create the latent semantic spacemyLSAspace = lsa(myMatrix dims=dimcalc_share())

Пример 2

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) create matricesmyMatrix = textmatrix(td minWordLength=1)myLSAspace = lsa(myMatrix dims=dimcalc_share())myNewMatrix = astextmatrix(myLSAspace) calc associations for mouseassociate(myNewMatrix mouse) clean upunlink(td recursive=TRUE)

Пример 3 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(ham mouse sushi) file=paste(td D2 sep=) )write( c(dog pet pet) file=paste(td D3 sep=) ) LSAdata(stopwords_en)myMatrix = textmatrix(td stopwords=stopwords_en)myMatrix = lw_logtf(myMatrix) gw_idf(myMatrix)myLSAspace = lsa(myMatrix dims=dimcalc_share())astextmatrix(myLSAspace) clean upunlink(td recursive=TRUE)

Пример 4 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(hamster mouse sushi) file=paste(td D2 sep=) )write( c(dog monster monster) file=paste(td D3 sep=) ) read them create a document-term matrixtextmatrix(td) read them drop german stopwordsdata(stopwords_de)textmatrix(td stopwords=stopwords_de) read them based on a controlled vocabularyvoc = c(dog mouse)textmatrix(td vocabulary=voc minWordLength=1) clean up

Вместо заключения Очевидным недостатком LSA является ненормальность (негаусовость) вероятностного распределения слов в любом естественном языке Но эту проблему можно решить сглаживанием выборки (например применив фонетические слова распределение становится более laquoнормальнымraquo) Либо используют вероятностный LSA тназ PLSA основанный на мультиноминальном распределении Другим менее очевидным недостаткам LSA (и ему подобных методов) применительно к обработке неструктурированной информации можно отнести laquoтуманностьraquo самого метода (в частности выбора кол-ва сингулярных значений диагональной матрицы) и интерпретации результата не говоря уже о проблеме сбалансированности обучающего текста

Как правило для качественного построения модели оставляют менее 1-2 процента от общего числа диагональных значений (после SVD преобразования но об это в следующем посте) И как показывает практика увеличение числа факторов приводит к ухудшению результата Но дойдя примерно до 10 процентов от общего числа диагональных значений опять может быть всплеск аналогичный результату полученному при 1

Сбалансированность корпуса ndash вечная проблема которая не имеет хорошего решения на сегодняшний день Поэтому про нее приято помалкивать

Интерпретируемость результатов LSA (как и DLA) также затруднительна человек еще может понять что за тематику будет содержать топик полученный в результате анализа а вот машине не понять (не аннотировать) тематику без привлечения большого числа хороших и разных тезаурусов

Таким образом несмотря на трудоемкость и непрозрачность LSA он может успешно применяться для разного рада задач где важно поймать семантику сообщения обобщить или расширить laquoсмыслыraquo поискового запроса

bull Стандарт основанный на XML для обмена моделями статистической обработки Data Mining

bull Поддерживается более 20 организациями и поставщиками ПО

bull Реализован в частности и в R

Поддерживаемые предиктивные алгоритмы в R

Состав pmml package

bull addLT

bull addMSAttributes

bull audit

bull fileToXMLNode

bull pmml

bull pmmlada

bull pmmlcoxph

bull pmmlcvglmnet

bull pmmlglm

bull pmmlhclust

bull pmmlkmeans

bull pmmlksvm

bull pmmllm bull pmmlmultinom bull pmmlnaiveBayes bull pmmlnnet bull pmmlrandomForest bull pmmlrfsrc bull pmmlrpart bull pmmlrules bull pmmlsvm bull pmmlCanExport bull pmmltoc

Пример

Good by R see you later alligator

WATSON ndash одно из наиболее впечатляющих применений предиктивной аналитики

Разрабатывался компанией IBM с 2006 по 2010 годПрославился победой в телешоу Jeopardy (в России ndash laquoСвоя играraquo) в 2011 годуПредшественник Deep Blue обыграл чемпиона мира по шахматам Гарри Каспарова в 1997 г

>

IBM Deep QA Project

bull Целью проекта было создать компьютерную систему (ИИ) для ответа на вопросы (QA) задаваемые в свободной форме в телешоу и показать результаты соизмеримые с человеческими

bull Задача более сложная чем шахматная программа Deep Blue выигравшая у Каспарова в 1997 г

bull Вопросы по категориямCategory General ScienceClue When hit by electrons a phosphor gives off electromagnetic energy in this formAnswer Light (or Photons)

Category Lincoln BlogsClue Secretary Chase just submitted this to me for the third time guess what pal This time Irsquom accepting itAnswer his resignation

Category Head NorthClue Theyrsquore the two states you could be reentering if yoursquore crossing Floridarsquos northern borderAnswer Georgia and Alabama

Вопросы могут касаться сразу нескольких фактов чтобы ответ был вернымCategory ldquoRaprdquo SheetClue This archaic term for a mischievous or annoying child can also mean a rogue or scampSubclue 1 This archaic term for a mischievous or annoying childSubclue 2 This term can also mean a rogue or scampAnswer Rapscallion

Category Diplomatic RelationsClue Of the four countries in the world that the United States does not have diplomatic relations with the one thatrsquos farthest northInner subclue The four countries in the world that the United States does not have diplomatic relations with (Bhutan Cuba Iran North Korea)Outer subclue Of Bhutan Cuba Iran and North Korea the one thatrsquos farthest northAnswer North Korea

Вопросы - пазлы

Category Before and After Goes to the MoviesClue Film of a typical day in the life of the Beatles which includes running from bloodthirsty zombie fans in a Romero classicSubclue 2 Film of a typical day in the life of the Beatles Answer 1 (A Hard Dayrsquos Night)Subclue 2 Running from bloodthirsty zombie fans in a Romero classicAnswer 2 (Night of the Living Dead)Answer A Hard Dayrsquos Night of the Living Dead

Category Rhyme TimeClue Itrsquos where Pele stores his ballSubclue 1 Pele ball (soccer)Subclue 2 where store (cabinet drawer locker and so on)Answer soccer locker

Недопустимые типы вопросов

oCategory Picture This(Contestants are shown a picture of a B-52 bomber)Clue Alphanumeric name of the fearsome machine seen hereAnswer B-52

oCategory Decode the Postal CodesVerbal instruction from host Wersquore going to give you a word comprising two postal abbreviations you have to identify the statesClue VainAnswer Virginia and Indiana

Лексические типы ответа ndash LAT (Lexical Answer Type)

Метрики качества ответов - результативность

Показатели двух теоретических QA систем

Показатели результативности чемпионов шоу (2000)

Облако победителей

Линия сравнения результативности (baseline performance)

Сравнение системы тестового поиска и поиска в базе знаний

Результативность Watson (по версиям)

Основы подхода Deep QA

bull Massive parallelism использование высокого параллелизма при рассмотрении множественных интерпретаций и гипотез

bull Many experts привлечение интеграции приложения и контекстуального оценивания в широком диапазоне слабосвязанных вероятностных вопросов и контентной аналитики

bull Pervasive confidence estimation повсеместная оценка доверия означает что ни один из компонентов не включается в ответ сразу все компоненты имеют признаки и связанные с ними уровни доверия производится скоринг различных вопросов и контентная интерпретация Основа confidence-processing состоит в обучении как стэкировать и комбинировать баллы

bull Integrate shallow and deep knowledge интеграция поверхностных и глубинных знаний состоит в балансе использования строгой семантики и мелких семантик использующих множества слабо сформированных онтологий

bull Content Acquisition - Сбор контентаСочетает ручные и автоматические этапы Первым шагом является анализ примеров вопросов проблемного пространства чтобы произвести описание видов вопросов на которые нужно ответить и характеризовать область применения Анализ примеров вопросов в первую очередь ручная задача в то время как анализ области может быть выполнен путем автоматических или статистических методов таких как анализ LAT показанный ранее Учитывая вопросы для широкого домена Jeopardy Challenge источники для Watson включают широкий ассортимент энциклопедий словарей тезаурусов Newswire статьи литературные произведения и тд Начиная с разумного размера базового корпуса DeepQA затем применяет автоматический процесс расширения корпуса Процесс включает в себя четыре этапа высокого уровня (1) выявления основных документов и получить соответствующие документы из Интернет (2) извлечь автономные текстовые ядра из связанных веб-документов (3) Оценка на основе ядер являются ли они информативны по отношению к исходному основному документу и (4) объединить наиболее информативные ядра в расширенном корпусе Работающая система использует этот расширенный корпус и не имеет доступа к Интернет во время игры

bull Question Analysis ndash Анализ вопроса

Первый шаг во время выполнения процесса вопрос-ответной системы При анализе вопроса система пытается понять что вопрос задан и выполняет начальный анализ определяющий как вопрос будет обработан на остальных этапах работы системы Подход DeepQA использует смешанный набор экспертов на данном этапе и в системе Watson производится мелкий парсинг глубокий парсинг строятся логические формы семантические этикетки ролей взаимные ссылки отношения именованные сущности и так далее а также конкретные виды анализа для ответа вопрос

bull Question classification - Классификация вопроса

Это задача выявления типа вопроса или частей вопроса которые требуют специальной обработки Это может включать в себя что-нибудь из отдельных слов с двойным смыслом и потенциально до выявления целых статей которые имеют определенную синтаксическую семантическую или риторические функциональные возможности которые могут инициировать нисходящий анализ Классификация может определить вопрос как вопрос- головоломку вопрос-математику -определение и так далее Это будет определять каламбуры ограничения компоненты определений или целые подвопросы в пределах вопросов

bull Focus and LAT Detection ndash Определение фокуса и лексического типа ответа

Лексический тип ответа - это слово или словосочетание в вопросе который определяет тип ответа без попытки понять семантику Определение LAT является важным видом выигрыша и общим источником критических ошибок Преимущество подхода DeepQA является использование многих самостоятельно разработанных алгоритмов laquoответ-типированияraquo Например фокус вопроса викторины laquoПри попадании электронов люминофор излучает электромагнитную энергию в этой формеraquo - является laquoэта формаraquo Фокус часто (но не всегда) содержит полезную информацию об ответе часто субъект или объект отношение в вопросе и может превратить вопрос в фактическое утверждение при замене возможным кандидатом Это представляет полезный способ собирать доказательства о каждом кандидате

bull Relation Detection ndash детектирование отношений

Большинство вопросов содержит отношения являются ли они синтаксическими предикатами субъект-глагол-объект или семантические отношения между субъектами Например в вопросе laquoЕсть два штата в которые вы могли бы войти повторно если вы пересекаете северную границу штата Флоридаraquo мы можем обнаружить отношение границы (Флорида Х к северу) Watson использует обнаружение отношения на протяжении всего процесса QA от фокуса и LAT определения до прохождению и скорингу ответов Watson также может использовать обнаруженные отношения для выделения хранилища триплетов и напрямую генерировать кандидатов в ответы В 20000 игр Jeopardy вопросы например обнаружили распределение Freebase отношений чрезвычайно плоского вида (см рисунок) Это приближение распределеня 50 наиболее частых отношений в 20 000 случайно выбранных вопросах викторины

bull Decomposition ndash декомпозиция

Важным требованием успеха анализа Jeopardy является способность отвечать на вопросы которые разложены на составляющие DeepQA использует основанный на правилах глубокий парсинг и статистические методы классификации чтобы наилучшим образом разложить вопросы на элементы и определить как лучше разбить их на подвопросы Операционная гипотеза что правильная интерпретация вопроса позволит лучше произвести скоринг ответов после того как все доказательства собраны Даже если вопрос не должен быть разложен для определения ответа этот метод может помочь улучшить общее доверие ответу системы DeepQA решает задачи параллельно для каждого разложения применяя алгоритмы от начала до конца каждого подвопроса и синтезирует окончательные ответы DeepQA также поддерживает вложенные декомпозиции вопросов через рекурсивное применение QA системы от начала до конца в внутреннем подвопросе а затем во внешнем Настраиваемые компоненты позволяют легко подключать специализированные алгоритмы синтеза в общую систему

bull Hypothesis Generation ndash генерация гипотез

Генерация гипотез принимает результаты анализа вопросов и производит кандидатов на ответы Каждый кандидат ответ включается обратно в вопрос и это считается как гипотеза Система должна доказать правильность этой гипотезы с некоторой степенью уверенности Как и во всех аспектах DeepQA используется смесь разных подходов для первичного поиска и генерации кандидата в системе Watson

bull Primary Search ndash первичный поиск

В этом поиске целью является найти столько потенциально кандидатов сколько это можно сделать на основе результатов анализа вопроса В течение проекта велись эмпирические исследования направленные на баланс скорости объема и точности Эти исследования позволили регулярно настраивать систему так чтобы найти такое количество кандидатов которые производят наилучший баланс точности и вычислительных ресурсов Оперативная цель основного поиска в конечном счете стабилизировалась на около 85 процентов для топ-250 кандидатов то есть система генерирует правильный ответ как кандидата ответа на 85 процентов вопросов где-то в верхних 250 ранжированных кандидатов Разнообразие методов поиска используются в том числе с использованием нескольких текст поисковых системах с различными базовыми подходами (например Indri и Lucene) поиск документов а также поиска маршрута база знаний поиска с помощью SPARQL хранилища триплетов Для небольшого количества латов которые были определены как закрытые латы кандидат на ответ может быть получен из фиксированного списка в каком-то хранилище известных экземпляров LAT таких как США Президент или Страна

Поиск доказательств

bull Поиск по фразе ndash число соответствий разного типав ответе и вопросеbull Популярность ndash как часто встречается этот вариант ответаbull Соответствие по типу ndash ответ и требование вопросаbull Соответствие по времениbull Надежность источника

bull Candidate Answer Generation ndash генерирование кандидатов на ответ

Результаты поиска применяются для генерирования возможных кандидатов в ответы с помощью различных подходящих техник Для поиска документов извлекаются заголовки и используются как кандидаты Число кандидатов при этом может быть не единственным и требовать использования анализа подстрок и ссылок Используя детектирование именованных сущностей в ряде случаев удается извлечь хороших кандидатов В зависимости от типа источника для генерирования кандидата требуется разный набор алгоритмов например база знаний или обратный словарь порождают кандидатов непосредственно как кандидата Этот этап критически важен и если кандидаты не найдены то фиксируется невозможность ответа В нормальном режиме на этом этапе Watson гененерирует несколько сотен андидатов

bull Soft Filtering ndash мягкая фильтрацияДля ускорения процесса скоринга кандидатов Watson использует различные алгоритмы разной точности Более легковесные (менее вычислительно интенсивные) применяются на первом этапе скоринга На этом этапе устанавливается порог оценки и кандидаты имеющие более высокую оценку считаются прошедшими мягкую фильтрацию Они поступают на выработку гипотез и скоринг доказательств Интересно что кандидаты не прошедшие порог мягкой фильтрации не забываются а направляются прямо на финальный этап слияния Модель скоринга мягкой фильтрации и порога определяются на основе machine learning используя обучающие данные Watson типично пропускает через мягкую фильтрацию 100 кандидатов но эта функция параметризована и их число можно изменить

Проблемы NLP

bull В мае 1898 года Португалия отмечала 400-летний юбилей со дня прибытия этого великого путешественника в Индию

В мае Гари прибыл в Индию после празднования своего юбилея в Португалии

21 мая 1498 года Васка де Гама высадился в местечке Каппад

bull Он был помилован президентом 8 сентября 1974 годаФорд помиловал Никсона 8 сентября 1974 года Никсон Форд

bull Говоря ldquogive a trinklerdquo что предлагают вам сделать британцы по приезду в город

bull Hypothesis and Evidence Scoring ndash скоринг гипотез и доказательств

Прошедшие порог мягкой фильтрации кандидаты поступают на скрупулезный процесс который включает сбор дополнительных поддерживающих доказательств для каждого кандидата на ответ или гипотезу Процесс использует широкий набор различных методов скоринговой аналитики чтобы исследовать все поддерживающие доказательства

bull Evidence Retrieval ndash извлечение доказательств

Чтобы лучше исследовать каждого кандидата прошедшего через мягкую фильтрацию система собирает дополнительные поддерживающие доказательства Архитектура поддерживает интеграцию различных evidence-gathering техник Один из применяемых способов состоит в том что проводится дополнительный поиск в котором кандидат добавляется в качестве required term к первичному запросу извлеченному из вопроса Это будет приводить к получению выражений содержащих кандидата в контексте первичных терминов вопросаПоддерживающие доказательства могут быть извлечены и из других источников например из RDF баз знаний Извлеченные поддерживающие доказательства направляются модули глубокого скоринга которые анализируют кандидата в контексте поддерживающего доказательства

bull Scoring ndash скоринг (количественное оценивание)

Алгоритмы скоринга определяют степень несомненности которую обеспечивают доказательства в поддержку кандидата The DeepQA framework поддерживает множество компонент для выработки оценки в различных измерениях каждого доказательства которая вырабатывает оценку связанную с тем насколько хорошо доказательство поддерживает кандидата на ответ в качестве ответа на заданный вопросDeepQA использует общий формат для оценок для принятых гипотез и подтверждающих оценок отражающих семантические и ограничивающие факторы Это позволяет разработчикам DeepQA быстро разворачивать перемешивать и настраивать сложные совокупности модуле для обработкиНапрмер Watson использует больше чем 50 скоринговых компонент Они производят оценки разноготипа от оценок вероятностей до подсчета категориальных свойств основанных на доказательствах от различных источников включая неструктурированные тексты полуструктурированные тексты и RDF хранилища Эти оценки используют такие данные как degree of match between a passagersquos predicate-argument structure and the question passage source reliability geospatial location temporal relationships taxonomic classification the lexical and semantic relations the candidate is known to participate in the candidatersquos correlation with question terms its popularity (or obscurity) its aliases and so on

Вопрос Чили имеет самую длинную общую границу со страной Сгенерировано несколько кандидатов среди них Аргентина и Боливия Первичный поиск даст приоритет Боливии из=а популярности обсуждений их отношений Однако собранные Watson доказательства из других источников показывают более высокую оценку для Аргентины

Скоринг (взвешивание) доказательств ndash предиктивная аналитика

- При делении клеток митозом называется деление ядра а цитокинезом ndash деление этой жидкости в которой находится ядро

Генерирование кандидатов Сбор доказательств Уверенность в доказательстве

ОрганеллыВакуольЦитоплазмаПлазмамитохондрии

Органеллы ndash не жидкостьВакуоль ndash не жидкостьЦитоплазма ndash возможно жидкостьПлазма ndash не жидкостьМитохондрии ndash не жидкость

Цитоплазма ndash 92Органеллы ndash 19Вакуоль ndash 10Плазма ndash 2Митохондрии ndash 2

Answer Merging ndash объединение ответов

Многие кандидаты в ответы на поставленный вопрос могут быть эквивалентны несмотря на различные внешне формыТехники ранжирования тем не менее рассматривают таких кандидатов как различные Без объединения алгоритмы ранжирования будут работать отдельно с эквивалентными сущностями и пытаться противопоставить одну форму другой Это приведет к проблемам принятия решений Watson содержит алгоритмы идентификации эквивалентных сущностей используя множественные сравнения нормализацию и методы разрешения совместных ссылок

Ranking and Confidence Estimation ndash ранжирование и оценивание доверияПосле объединения система должна произвести ранжирование гипотез и оценивает доверие основанное на объединенных оценках В системе подобран ML подход основанный на обучении на обучающем наборе вопросов с известными ответами и обучение модели основываясь на скоринге Применяется как весьма плоская модель и существующие алгоритмы ранжирования Для более тонких оценок применяется двухфазный процесс использующий группы оценок для оценивания профиля и для оценки доверия Используя эту промежуточную модель система производит ансамбль промежуточных оценок Здесь используется иерархическая техника метаучителя и коллектива экспертов Этот подход обеспечивает итеративное расширение обучения используя изощренные и глубокие иерархические модели обеспечивающие гибкость и робастность при выработке оценок и модифицирует системуМетаучитель в Watson использует набор многие обучаемые модели чтобы управлять различными классами вопросов которые могут быть критическими при идентификации правильных ответовНаконец важно что использование NLP-based скоринга дает весьма разреженные оценки и требует точного оценивания с применением confidence-weighted learning techniques

Развертывание Watson

bull DeepQA разработан используя Apache UIMA - framework implementation of the Unstructured Information Management Architecture (Ferrucci and Lally 2004) UIMA был разработан для поддержки взаимодействия и масштабирования приложений обработки текста и мультимодального анализа Все компоненты DeepQA имплементированы как UIMA annotators Это программные компоненты для анализа текста и получения аннотаций или заключений о тексте Watson развивался в процессе разработки от нескольких компонент до нескольких сотен UIMA обеспечивает быструю интеграцию компонент тестирование и исследование

bull Начальная имплементация Watson запускалась на одном процессоре и требовала 2 часа на ответ на один вопрос DeepQA развился в параллельную систему используя UIMA-AS часть Apache UIMA масштабируя приложения UIMA используя асинхронный механизм месседжинга UIMA-AS позволила масштабировать Watson более чем на 2500 вычислительных ядер UIMA-AS управляет коммуникациями месседжингом управлением запросами используя open JMS standard UIMA-AS позволил снизить латентность Watson до 3ndash5 секунд

bull Для препроцессинга корпуса текстов создания быстрых run-time indices использован Hadoop

UIMA annotators были развернуты как mapper ы в Hadoop map-reduce framework Hadoop распределяет контент по кластеру для обеспечения высокого использования CPU и обеспечивает подходящий набор инструментов для deploying managing and monitoring the corpus analysis process

bull Аппаратная платформа ndash это 90 серверов 2800 ядер 15 ТБ RAM 80 Тфлопс $3 000 000 10 R

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 3: !Predictive analytics part_3

Уровни задачи понимания текста

bull Извлечение фактов и разбивка текста ndash разметка bull Обработка на уровне слов - морфологияbull Обработка на уровне предложений - парсингbull Обработка на уровне текста

Корпус текстов

bull функции по созданию корпуса из массива данных (DataFrameSource)bull из каталога файлов каждый из которых содержит отдельный документ (DirSource)bull из вектора (VectorSource)bull из текстов доступных по URI-ссылке (URISource) bull из набора новостных сообщений агентства Reuters входящих в состав расширения tm

(ReutersSource) bull Помимо типов которые входят в библиотеку tm пользователь может оперативно

установить расширения из CRAN позволяющие импортировать тексты из веб-источников в форматах XML JSON HTML (tmpluginwebmining) из почтовых файлов eml и mbox (tmpluginmail) из файлов французской программы текстового анализа Alceste (tmpluginalceste) из файлов полученных от новостных агрегаторов Europresse (tmplugineuropresse) LexisNexis (tmpluginlexisnexis) Dow Jones Factiva (tmpluginfactiva)

Форматы текста

bull Документы могут храниться в источнике в разных форматах Библиотека tm поддерживает чтение документов в форматах простого текста (readPlain)

bull PDF (readPDF) bull Microsoft Word (readDOC) bull XML (readXML) bull табличной структуры (readTabular ndash для источников

DataFrameSource и VectorSource) bull несколько Reuters-форматов

Пакеты и функции в составе NLP package которые потребуются нам

bull library(NLP)bull library(tm) - Text Mining Packagebull library(Wordcloud) - Word Clouds buildingbull library(RColorBrewer)bull library(SnowballC)bull library(lsa)

Подготовка текста

Файлы хранятся в каталоге articlesdirpath lt- DStudy10-АСBig DataTextarticles lt- Corpus(DirSource(dirpath) readerControl = list(reader = readPlain language = ru load = T)) Текстовые файлы были сохранены в кодировке Windows Конвертируемarticles lt- tm_map(articles iconv cp1251 UTF-8)articles lt- tm_map(articles stripWhitespace)articles lt- tm_map(articles tolower)articles lt- tm_map(articles removeNumbers)articles lt- tm_map(articles removeWords stopwords(russian))articles lt- tm_map(articles removePunctuation)

articles lt- tm_map(articles PlainTextDocument)wordcloud(articles randomorder=F maxwords=80 colors=brewerpal(6Dark2))

inspect(articles)

gt stopwords(russian) [1] и в во не что он на я с со [11] как а то все она так его но да ты [21] к у же вы за бы по только ее мне [31] было вот от меня еще нет о из ему теперь [41] когда даже ну вдруг ли если уже или ни быть [51] был него до вас нибудь опять уж вам сказал ведь [61] там потом себя ничего ей может они тут где есть [71] надо ней для мы тебя их чем была сам чтоб [81] без будто человек чего раз тоже себе под жизнь будет [91] ж тогда кто этот говорил того потому этого какой совсем [101] ним здесь этом один почти мой тем чтобы нее кажется[111] сейчас были куда зачем сказать всех никогда сегодня можно при [121] наконец два об другой хоть после над больше тот через [131] эти нас про всего них какая много разве сказала три [141] эту моя впрочем хорошо свою этой перед иногда лучше чуть [151] том нельзя такой им более всегда конечно всю между

Генерирование облака слов

wordcloud(articles randomorder=F maxwords=80colors=brewerpal(6Oranges))

Стемминг ndash морфологический анализ Stemminggtlibrary( SnowballC)gt wordStem(c(молодёжный молодёжного молодёжном года году участники участников) language=ru)[1] молодёжн молодёжн молодёжн год год участник участник

Использование функции mystemexe от Яндекс

mystemexe to the catalogarticlesmystem lt- function(doc) library(stringr) sdoc lt- system(mystem -nl -e utf-8 intern=T input=doc) При получении нескольких вариантов mystem разделяет ихdirpathlt-articles вертикальной чертой Удалим черту и варианты sdoc lt- str_replace(sdoc |$ ) Если mystem сомневается в результате он добавляет знак вопроса Удаляемsummary sdoc lt- str_replace(sdoc ) sdoc lt- paste(sdoc collapse= ) attributes(sdoc) lt- attributes(doc) sdoc

LSA - Латентный семантический анализ

Сравнение текстов по смысловому содержанию

Определения

Латентно-семантический анализ отображает документы и отдельные слова в так называемое laquoсемантическое пространствоraquo в котором и производятся все дальнейшие сравнения При этом делаются следующие предположения

1) Документы это просто набор слов Порядок слов в документах игнорируется Важно только то сколько раз то или иное слово встречается в документе2) Семантическое значение документа определяется набором слов которые как правило идут вместе Например в биржевых сводках часто встречаются слова laquoфондraquo laquoакцияraquo laquoдолларraquo3) Каждое слово имеет единственное значение Это безусловно сильное упрощение но именно оно делает проблему разрешимой

Основные этапы

bull Удаление слов из laquoстоп-спискаraquobull Стеммингbull Удаление уникальных словbull Построение частотной матрицы А индексируемых слов (TF-IDF)

строки ndash словастолбцы ndash тексты

bull Сингулярное разложение (SVD) матрицыbull Определение существенной размерности (главных компонент)bull Усечение размерности семантического пространстваbull Представление слов и текстов в усеченном пространствеbull Визуализация и ассоциативная кластеризация текстов

TF-IDF анализ

TF (term frequency mdash частота слова) mdash отношение числа вхождения некоторого слова к общему количеству слов документа Таким образом оценивается важность слова t_i в пределах отдельного документа

где есть число вхождений слова в документ а в знаменателе mdash общее число слов в данном документеIDF (inverse document frequency mdash обратная частота документа) mdash инверсия частоты с которой некоторое слово встречается в документах коллекции Основоположником данной концепции является Карен ДжонсУчёт IDF уменьшает вес широкоупотребительных слов Для каждого уникального слова в пределах конкретной коллекции документов существует только одно значение IDF

D -количество документов в корпусеколичество документов в которых встречается t

Частотная матрица для двух далеких текстов

Частотная матрица для двух более близких текстов

Карта слов для двух выбранных документов

Разложение матрицы laquoслова-документыraquo

Модель векторного пространства

bull Наиболее распространенный вариант LSA основан на использовании разложения вещественнозначной матрицы по сингулярным значениям или SVD-разложения (SVD ndash Singular Value Decomposition) С помощью него любую матрицу можно разложить в множество ортогональных матриц линейная комбинация которых является достаточно точным приближением к исходной матрице Обычно используют мультипликативное разложение

bull где матрицы U и V ndash ортогональные а S ndash диагональная матрица значения на диагонали которой называются сингулярными значениями матрицы A

bull Символ Т в обозначении матрицы означает транспонирование матрицы

bull Основная идея латентно-семантического анализа состоит в следующем

bull после перемножения матриц полученная матрица Ă содержащая только k первых линейно независимых компонент исходной матрицы A отражает структуру зависимостей (в данном случае ассоциативных) латентно присутствующих в исходной матрице Структура зависимостей определяется весовыми функциями термов для каждого документа

Особенность такого разложения в том что если в матрице S оставить только k наибольших сингулярных значений то линейная комбинация получившихся матриц будет наилучшим приближением исходной матрицы A к матрице Ă ранга k

Пример

bull c1 Human machine interface for ABC computer applicationsbull c2 A survey of user opinion of computer system response timebull c3 The EPS user interface management systembull c4 System and human system engineering testing of EPSbull c5 Relation of user perceived response time to error measurementbull m1 The generation of random binary ordered treesbull m2 The intersection graph of paths in treesbull m3 Graph minors IV Widths of trees and well-quasi-orderingbull m4 Graph minors A survey

Желтым отмечены слова встречающиеся хотя бы в двух заголовках

После SVD

Семантическое пространство

Матрица расстояний между словами

Результат снижения размерности кластеризация [human interface computer user EPS response time][survey trees graph minors]

Расстояния между заголовками до и после SVD

bull Объем корпуса для построения модели должен быть большим ndash желательно около трех-пяти миллионов словоупотреблений Но метод работает и на коллекциях меньшего объема правда несколько хужеПроизвольное разбиение текста на документы обычно производят от тысячи до нескольких десятков тысяч частей примерно одинакового объема Таким образом матрица термы-на-документы получается прямоугольной и может быть сильно разраженной Например при объеме 5 млн словоформ получается матрица 30-50 тысяч документов на 200-300 тысяч а иногда и более термов В действительности низкочастотные термы можно опустить тк это заметно снизит размерность матрицы (скажем если не использовать 5 от общего объема низкочастотных термов то размерность сократиться в два раза) что приведет к снижению вычислительных ресурсов и времениВыбор сокращения сингулярных значений диагональной матрицы (размерности k) при обратном перемножении матриц достаточно произвольно При вышеуказанной размерности матрицы оставляют несколько сотен (100-300) главных компонент При этом как показывает практика зависимость количества компонент и точность меняются нелинейно например если начинать увеличивать их число то точность будет падать но при некотором значении скажем 10000 ndash опять вырастет до оптимального случая

Применение

bull сравнение двух термов между собойbull сравнение двух документов между собойbull сравнение терма и документа

Так же иногда этот метод используют для нахождения laquoближайшего соседаraquo mdash наиболее близких по весу термов ассоциативно связанных с исходным Это свойство используют для поиска близких по смыслу термов Следует уточнить что близость по смыслу ndash это контекстнозависимая величина поэтому не всякий близкий терм будет соответствовать ассоциации (это может быть и синоним и антоним и просто часто встречающееся вместе с искомым термом слово или словосочетание)

bull Достоинством метода можно считать его замечательную способность выявлять зависимости между словами когда обычные статистические методы бессильны LSA также может быть применен как с обучением (с предварительной тематической классификацией документов) так и без обучения (произвольное разбиение произвольного текста) что зависит от решаемой задачи

bull Об основных недостатках значительное снижение скорости вычисления при увеличении объема входных данных (в частности при SVD-преобразовании)

bull Как показано в литературе скорость вычисления соответствует порядку где сумма количества документов и термов kndash размерность пространства факторов

На рисунке показано возникновение и изменение главных факторов при уменьшении числа сингулярных элементов диагональной матрицы от 100 до ~12 Трехмерные рисунки представляют собой симметричную матрицу полученную в результате вычисления скалярного произведения векторов каждого эталонного документа с каждым тестируемым Эталонный набор векторов ndash это заранее размеченный на 30 документов текст тестируемый ndash с уменьшением числа сингулярных значений диагональной матрицы полученной при SVD-анализе На осях X и Y откладывается количество документов (эталонных и тестируемых) на оси Z ndash объем лексиконаНа рисунках хорошо видно что при уменьшении числа сингулярных диагональных элементов на 20-30 факторы еще не достаточно ярко выявлены но при этом возникают корреляции похожих документов (небольшие пики вне диагонали) которые сначала незначительно увеличиваются а затем с уменьшением числа сингулярных значений (до 70-80) ndash исчезают При автоматической кластеризации такие пики являются шумом поэтому их желательно минимизировать Если же целью является получение ассоциативных связей внутри документов то следует найти оптимальное соотношение сохранения основного лексикона и примешивания ассоциативного

Имплементация в R - Package lsquolsarsquoalnumx - Regular expression for removal of non-alphanumeric characters (saving special characters)

astextmatrix - Display a latent semantic space generated by Latent Semantic Analysis (LSA)

associate - Find close terms in a textmatrix

corpora - Corpora (Essay Scoring) dimcalc Dimensionality Calculation Routines (LSA)

dimcalc - Dimensionality Calculation Routines (LSA)

lsa - Create a vector space with Latent Semantic Analysis (LSA)

printtextmatrix - Print a textmatrix (Matrices)

sampletextmatrix - Create a random sample of files

textmatrix - Создает Textmatrix (Matrices) из файлов

Пример 1

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) read files into a document-term matrixmyMatrix = textmatrix(td minWordLength=1) create the latent semantic spacemyLSAspace = lsa(myMatrix dims=dimcalc_raw()) display it as a textmatrix againround(astextmatrix(myLSAspace)2) should give the original create the latent semantic spacemyLSAspace = lsa(myMatrix dims=dimcalc_share())

Пример 2

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) create matricesmyMatrix = textmatrix(td minWordLength=1)myLSAspace = lsa(myMatrix dims=dimcalc_share())myNewMatrix = astextmatrix(myLSAspace) calc associations for mouseassociate(myNewMatrix mouse) clean upunlink(td recursive=TRUE)

Пример 3 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(ham mouse sushi) file=paste(td D2 sep=) )write( c(dog pet pet) file=paste(td D3 sep=) ) LSAdata(stopwords_en)myMatrix = textmatrix(td stopwords=stopwords_en)myMatrix = lw_logtf(myMatrix) gw_idf(myMatrix)myLSAspace = lsa(myMatrix dims=dimcalc_share())astextmatrix(myLSAspace) clean upunlink(td recursive=TRUE)

Пример 4 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(hamster mouse sushi) file=paste(td D2 sep=) )write( c(dog monster monster) file=paste(td D3 sep=) ) read them create a document-term matrixtextmatrix(td) read them drop german stopwordsdata(stopwords_de)textmatrix(td stopwords=stopwords_de) read them based on a controlled vocabularyvoc = c(dog mouse)textmatrix(td vocabulary=voc minWordLength=1) clean up

Вместо заключения Очевидным недостатком LSA является ненормальность (негаусовость) вероятностного распределения слов в любом естественном языке Но эту проблему можно решить сглаживанием выборки (например применив фонетические слова распределение становится более laquoнормальнымraquo) Либо используют вероятностный LSA тназ PLSA основанный на мультиноминальном распределении Другим менее очевидным недостаткам LSA (и ему подобных методов) применительно к обработке неструктурированной информации можно отнести laquoтуманностьraquo самого метода (в частности выбора кол-ва сингулярных значений диагональной матрицы) и интерпретации результата не говоря уже о проблеме сбалансированности обучающего текста

Как правило для качественного построения модели оставляют менее 1-2 процента от общего числа диагональных значений (после SVD преобразования но об это в следующем посте) И как показывает практика увеличение числа факторов приводит к ухудшению результата Но дойдя примерно до 10 процентов от общего числа диагональных значений опять может быть всплеск аналогичный результату полученному при 1

Сбалансированность корпуса ndash вечная проблема которая не имеет хорошего решения на сегодняшний день Поэтому про нее приято помалкивать

Интерпретируемость результатов LSA (как и DLA) также затруднительна человек еще может понять что за тематику будет содержать топик полученный в результате анализа а вот машине не понять (не аннотировать) тематику без привлечения большого числа хороших и разных тезаурусов

Таким образом несмотря на трудоемкость и непрозрачность LSA он может успешно применяться для разного рада задач где важно поймать семантику сообщения обобщить или расширить laquoсмыслыraquo поискового запроса

bull Стандарт основанный на XML для обмена моделями статистической обработки Data Mining

bull Поддерживается более 20 организациями и поставщиками ПО

bull Реализован в частности и в R

Поддерживаемые предиктивные алгоритмы в R

Состав pmml package

bull addLT

bull addMSAttributes

bull audit

bull fileToXMLNode

bull pmml

bull pmmlada

bull pmmlcoxph

bull pmmlcvglmnet

bull pmmlglm

bull pmmlhclust

bull pmmlkmeans

bull pmmlksvm

bull pmmllm bull pmmlmultinom bull pmmlnaiveBayes bull pmmlnnet bull pmmlrandomForest bull pmmlrfsrc bull pmmlrpart bull pmmlrules bull pmmlsvm bull pmmlCanExport bull pmmltoc

Пример

Good by R see you later alligator

WATSON ndash одно из наиболее впечатляющих применений предиктивной аналитики

Разрабатывался компанией IBM с 2006 по 2010 годПрославился победой в телешоу Jeopardy (в России ndash laquoСвоя играraquo) в 2011 годуПредшественник Deep Blue обыграл чемпиона мира по шахматам Гарри Каспарова в 1997 г

>

IBM Deep QA Project

bull Целью проекта было создать компьютерную систему (ИИ) для ответа на вопросы (QA) задаваемые в свободной форме в телешоу и показать результаты соизмеримые с человеческими

bull Задача более сложная чем шахматная программа Deep Blue выигравшая у Каспарова в 1997 г

bull Вопросы по категориямCategory General ScienceClue When hit by electrons a phosphor gives off electromagnetic energy in this formAnswer Light (or Photons)

Category Lincoln BlogsClue Secretary Chase just submitted this to me for the third time guess what pal This time Irsquom accepting itAnswer his resignation

Category Head NorthClue Theyrsquore the two states you could be reentering if yoursquore crossing Floridarsquos northern borderAnswer Georgia and Alabama

Вопросы могут касаться сразу нескольких фактов чтобы ответ был вернымCategory ldquoRaprdquo SheetClue This archaic term for a mischievous or annoying child can also mean a rogue or scampSubclue 1 This archaic term for a mischievous or annoying childSubclue 2 This term can also mean a rogue or scampAnswer Rapscallion

Category Diplomatic RelationsClue Of the four countries in the world that the United States does not have diplomatic relations with the one thatrsquos farthest northInner subclue The four countries in the world that the United States does not have diplomatic relations with (Bhutan Cuba Iran North Korea)Outer subclue Of Bhutan Cuba Iran and North Korea the one thatrsquos farthest northAnswer North Korea

Вопросы - пазлы

Category Before and After Goes to the MoviesClue Film of a typical day in the life of the Beatles which includes running from bloodthirsty zombie fans in a Romero classicSubclue 2 Film of a typical day in the life of the Beatles Answer 1 (A Hard Dayrsquos Night)Subclue 2 Running from bloodthirsty zombie fans in a Romero classicAnswer 2 (Night of the Living Dead)Answer A Hard Dayrsquos Night of the Living Dead

Category Rhyme TimeClue Itrsquos where Pele stores his ballSubclue 1 Pele ball (soccer)Subclue 2 where store (cabinet drawer locker and so on)Answer soccer locker

Недопустимые типы вопросов

oCategory Picture This(Contestants are shown a picture of a B-52 bomber)Clue Alphanumeric name of the fearsome machine seen hereAnswer B-52

oCategory Decode the Postal CodesVerbal instruction from host Wersquore going to give you a word comprising two postal abbreviations you have to identify the statesClue VainAnswer Virginia and Indiana

Лексические типы ответа ndash LAT (Lexical Answer Type)

Метрики качества ответов - результативность

Показатели двух теоретических QA систем

Показатели результативности чемпионов шоу (2000)

Облако победителей

Линия сравнения результативности (baseline performance)

Сравнение системы тестового поиска и поиска в базе знаний

Результативность Watson (по версиям)

Основы подхода Deep QA

bull Massive parallelism использование высокого параллелизма при рассмотрении множественных интерпретаций и гипотез

bull Many experts привлечение интеграции приложения и контекстуального оценивания в широком диапазоне слабосвязанных вероятностных вопросов и контентной аналитики

bull Pervasive confidence estimation повсеместная оценка доверия означает что ни один из компонентов не включается в ответ сразу все компоненты имеют признаки и связанные с ними уровни доверия производится скоринг различных вопросов и контентная интерпретация Основа confidence-processing состоит в обучении как стэкировать и комбинировать баллы

bull Integrate shallow and deep knowledge интеграция поверхностных и глубинных знаний состоит в балансе использования строгой семантики и мелких семантик использующих множества слабо сформированных онтологий

bull Content Acquisition - Сбор контентаСочетает ручные и автоматические этапы Первым шагом является анализ примеров вопросов проблемного пространства чтобы произвести описание видов вопросов на которые нужно ответить и характеризовать область применения Анализ примеров вопросов в первую очередь ручная задача в то время как анализ области может быть выполнен путем автоматических или статистических методов таких как анализ LAT показанный ранее Учитывая вопросы для широкого домена Jeopardy Challenge источники для Watson включают широкий ассортимент энциклопедий словарей тезаурусов Newswire статьи литературные произведения и тд Начиная с разумного размера базового корпуса DeepQA затем применяет автоматический процесс расширения корпуса Процесс включает в себя четыре этапа высокого уровня (1) выявления основных документов и получить соответствующие документы из Интернет (2) извлечь автономные текстовые ядра из связанных веб-документов (3) Оценка на основе ядер являются ли они информативны по отношению к исходному основному документу и (4) объединить наиболее информативные ядра в расширенном корпусе Работающая система использует этот расширенный корпус и не имеет доступа к Интернет во время игры

bull Question Analysis ndash Анализ вопроса

Первый шаг во время выполнения процесса вопрос-ответной системы При анализе вопроса система пытается понять что вопрос задан и выполняет начальный анализ определяющий как вопрос будет обработан на остальных этапах работы системы Подход DeepQA использует смешанный набор экспертов на данном этапе и в системе Watson производится мелкий парсинг глубокий парсинг строятся логические формы семантические этикетки ролей взаимные ссылки отношения именованные сущности и так далее а также конкретные виды анализа для ответа вопрос

bull Question classification - Классификация вопроса

Это задача выявления типа вопроса или частей вопроса которые требуют специальной обработки Это может включать в себя что-нибудь из отдельных слов с двойным смыслом и потенциально до выявления целых статей которые имеют определенную синтаксическую семантическую или риторические функциональные возможности которые могут инициировать нисходящий анализ Классификация может определить вопрос как вопрос- головоломку вопрос-математику -определение и так далее Это будет определять каламбуры ограничения компоненты определений или целые подвопросы в пределах вопросов

bull Focus and LAT Detection ndash Определение фокуса и лексического типа ответа

Лексический тип ответа - это слово или словосочетание в вопросе который определяет тип ответа без попытки понять семантику Определение LAT является важным видом выигрыша и общим источником критических ошибок Преимущество подхода DeepQA является использование многих самостоятельно разработанных алгоритмов laquoответ-типированияraquo Например фокус вопроса викторины laquoПри попадании электронов люминофор излучает электромагнитную энергию в этой формеraquo - является laquoэта формаraquo Фокус часто (но не всегда) содержит полезную информацию об ответе часто субъект или объект отношение в вопросе и может превратить вопрос в фактическое утверждение при замене возможным кандидатом Это представляет полезный способ собирать доказательства о каждом кандидате

bull Relation Detection ndash детектирование отношений

Большинство вопросов содержит отношения являются ли они синтаксическими предикатами субъект-глагол-объект или семантические отношения между субъектами Например в вопросе laquoЕсть два штата в которые вы могли бы войти повторно если вы пересекаете северную границу штата Флоридаraquo мы можем обнаружить отношение границы (Флорида Х к северу) Watson использует обнаружение отношения на протяжении всего процесса QA от фокуса и LAT определения до прохождению и скорингу ответов Watson также может использовать обнаруженные отношения для выделения хранилища триплетов и напрямую генерировать кандидатов в ответы В 20000 игр Jeopardy вопросы например обнаружили распределение Freebase отношений чрезвычайно плоского вида (см рисунок) Это приближение распределеня 50 наиболее частых отношений в 20 000 случайно выбранных вопросах викторины

bull Decomposition ndash декомпозиция

Важным требованием успеха анализа Jeopardy является способность отвечать на вопросы которые разложены на составляющие DeepQA использует основанный на правилах глубокий парсинг и статистические методы классификации чтобы наилучшим образом разложить вопросы на элементы и определить как лучше разбить их на подвопросы Операционная гипотеза что правильная интерпретация вопроса позволит лучше произвести скоринг ответов после того как все доказательства собраны Даже если вопрос не должен быть разложен для определения ответа этот метод может помочь улучшить общее доверие ответу системы DeepQA решает задачи параллельно для каждого разложения применяя алгоритмы от начала до конца каждого подвопроса и синтезирует окончательные ответы DeepQA также поддерживает вложенные декомпозиции вопросов через рекурсивное применение QA системы от начала до конца в внутреннем подвопросе а затем во внешнем Настраиваемые компоненты позволяют легко подключать специализированные алгоритмы синтеза в общую систему

bull Hypothesis Generation ndash генерация гипотез

Генерация гипотез принимает результаты анализа вопросов и производит кандидатов на ответы Каждый кандидат ответ включается обратно в вопрос и это считается как гипотеза Система должна доказать правильность этой гипотезы с некоторой степенью уверенности Как и во всех аспектах DeepQA используется смесь разных подходов для первичного поиска и генерации кандидата в системе Watson

bull Primary Search ndash первичный поиск

В этом поиске целью является найти столько потенциально кандидатов сколько это можно сделать на основе результатов анализа вопроса В течение проекта велись эмпирические исследования направленные на баланс скорости объема и точности Эти исследования позволили регулярно настраивать систему так чтобы найти такое количество кандидатов которые производят наилучший баланс точности и вычислительных ресурсов Оперативная цель основного поиска в конечном счете стабилизировалась на около 85 процентов для топ-250 кандидатов то есть система генерирует правильный ответ как кандидата ответа на 85 процентов вопросов где-то в верхних 250 ранжированных кандидатов Разнообразие методов поиска используются в том числе с использованием нескольких текст поисковых системах с различными базовыми подходами (например Indri и Lucene) поиск документов а также поиска маршрута база знаний поиска с помощью SPARQL хранилища триплетов Для небольшого количества латов которые были определены как закрытые латы кандидат на ответ может быть получен из фиксированного списка в каком-то хранилище известных экземпляров LAT таких как США Президент или Страна

Поиск доказательств

bull Поиск по фразе ndash число соответствий разного типав ответе и вопросеbull Популярность ndash как часто встречается этот вариант ответаbull Соответствие по типу ndash ответ и требование вопросаbull Соответствие по времениbull Надежность источника

bull Candidate Answer Generation ndash генерирование кандидатов на ответ

Результаты поиска применяются для генерирования возможных кандидатов в ответы с помощью различных подходящих техник Для поиска документов извлекаются заголовки и используются как кандидаты Число кандидатов при этом может быть не единственным и требовать использования анализа подстрок и ссылок Используя детектирование именованных сущностей в ряде случаев удается извлечь хороших кандидатов В зависимости от типа источника для генерирования кандидата требуется разный набор алгоритмов например база знаний или обратный словарь порождают кандидатов непосредственно как кандидата Этот этап критически важен и если кандидаты не найдены то фиксируется невозможность ответа В нормальном режиме на этом этапе Watson гененерирует несколько сотен андидатов

bull Soft Filtering ndash мягкая фильтрацияДля ускорения процесса скоринга кандидатов Watson использует различные алгоритмы разной точности Более легковесные (менее вычислительно интенсивные) применяются на первом этапе скоринга На этом этапе устанавливается порог оценки и кандидаты имеющие более высокую оценку считаются прошедшими мягкую фильтрацию Они поступают на выработку гипотез и скоринг доказательств Интересно что кандидаты не прошедшие порог мягкой фильтрации не забываются а направляются прямо на финальный этап слияния Модель скоринга мягкой фильтрации и порога определяются на основе machine learning используя обучающие данные Watson типично пропускает через мягкую фильтрацию 100 кандидатов но эта функция параметризована и их число можно изменить

Проблемы NLP

bull В мае 1898 года Португалия отмечала 400-летний юбилей со дня прибытия этого великого путешественника в Индию

В мае Гари прибыл в Индию после празднования своего юбилея в Португалии

21 мая 1498 года Васка де Гама высадился в местечке Каппад

bull Он был помилован президентом 8 сентября 1974 годаФорд помиловал Никсона 8 сентября 1974 года Никсон Форд

bull Говоря ldquogive a trinklerdquo что предлагают вам сделать британцы по приезду в город

bull Hypothesis and Evidence Scoring ndash скоринг гипотез и доказательств

Прошедшие порог мягкой фильтрации кандидаты поступают на скрупулезный процесс который включает сбор дополнительных поддерживающих доказательств для каждого кандидата на ответ или гипотезу Процесс использует широкий набор различных методов скоринговой аналитики чтобы исследовать все поддерживающие доказательства

bull Evidence Retrieval ndash извлечение доказательств

Чтобы лучше исследовать каждого кандидата прошедшего через мягкую фильтрацию система собирает дополнительные поддерживающие доказательства Архитектура поддерживает интеграцию различных evidence-gathering техник Один из применяемых способов состоит в том что проводится дополнительный поиск в котором кандидат добавляется в качестве required term к первичному запросу извлеченному из вопроса Это будет приводить к получению выражений содержащих кандидата в контексте первичных терминов вопросаПоддерживающие доказательства могут быть извлечены и из других источников например из RDF баз знаний Извлеченные поддерживающие доказательства направляются модули глубокого скоринга которые анализируют кандидата в контексте поддерживающего доказательства

bull Scoring ndash скоринг (количественное оценивание)

Алгоритмы скоринга определяют степень несомненности которую обеспечивают доказательства в поддержку кандидата The DeepQA framework поддерживает множество компонент для выработки оценки в различных измерениях каждого доказательства которая вырабатывает оценку связанную с тем насколько хорошо доказательство поддерживает кандидата на ответ в качестве ответа на заданный вопросDeepQA использует общий формат для оценок для принятых гипотез и подтверждающих оценок отражающих семантические и ограничивающие факторы Это позволяет разработчикам DeepQA быстро разворачивать перемешивать и настраивать сложные совокупности модуле для обработкиНапрмер Watson использует больше чем 50 скоринговых компонент Они производят оценки разноготипа от оценок вероятностей до подсчета категориальных свойств основанных на доказательствах от различных источников включая неструктурированные тексты полуструктурированные тексты и RDF хранилища Эти оценки используют такие данные как degree of match between a passagersquos predicate-argument structure and the question passage source reliability geospatial location temporal relationships taxonomic classification the lexical and semantic relations the candidate is known to participate in the candidatersquos correlation with question terms its popularity (or obscurity) its aliases and so on

Вопрос Чили имеет самую длинную общую границу со страной Сгенерировано несколько кандидатов среди них Аргентина и Боливия Первичный поиск даст приоритет Боливии из=а популярности обсуждений их отношений Однако собранные Watson доказательства из других источников показывают более высокую оценку для Аргентины

Скоринг (взвешивание) доказательств ndash предиктивная аналитика

- При делении клеток митозом называется деление ядра а цитокинезом ndash деление этой жидкости в которой находится ядро

Генерирование кандидатов Сбор доказательств Уверенность в доказательстве

ОрганеллыВакуольЦитоплазмаПлазмамитохондрии

Органеллы ndash не жидкостьВакуоль ndash не жидкостьЦитоплазма ndash возможно жидкостьПлазма ndash не жидкостьМитохондрии ndash не жидкость

Цитоплазма ndash 92Органеллы ndash 19Вакуоль ndash 10Плазма ndash 2Митохондрии ndash 2

Answer Merging ndash объединение ответов

Многие кандидаты в ответы на поставленный вопрос могут быть эквивалентны несмотря на различные внешне формыТехники ранжирования тем не менее рассматривают таких кандидатов как различные Без объединения алгоритмы ранжирования будут работать отдельно с эквивалентными сущностями и пытаться противопоставить одну форму другой Это приведет к проблемам принятия решений Watson содержит алгоритмы идентификации эквивалентных сущностей используя множественные сравнения нормализацию и методы разрешения совместных ссылок

Ranking and Confidence Estimation ndash ранжирование и оценивание доверияПосле объединения система должна произвести ранжирование гипотез и оценивает доверие основанное на объединенных оценках В системе подобран ML подход основанный на обучении на обучающем наборе вопросов с известными ответами и обучение модели основываясь на скоринге Применяется как весьма плоская модель и существующие алгоритмы ранжирования Для более тонких оценок применяется двухфазный процесс использующий группы оценок для оценивания профиля и для оценки доверия Используя эту промежуточную модель система производит ансамбль промежуточных оценок Здесь используется иерархическая техника метаучителя и коллектива экспертов Этот подход обеспечивает итеративное расширение обучения используя изощренные и глубокие иерархические модели обеспечивающие гибкость и робастность при выработке оценок и модифицирует системуМетаучитель в Watson использует набор многие обучаемые модели чтобы управлять различными классами вопросов которые могут быть критическими при идентификации правильных ответовНаконец важно что использование NLP-based скоринга дает весьма разреженные оценки и требует точного оценивания с применением confidence-weighted learning techniques

Развертывание Watson

bull DeepQA разработан используя Apache UIMA - framework implementation of the Unstructured Information Management Architecture (Ferrucci and Lally 2004) UIMA был разработан для поддержки взаимодействия и масштабирования приложений обработки текста и мультимодального анализа Все компоненты DeepQA имплементированы как UIMA annotators Это программные компоненты для анализа текста и получения аннотаций или заключений о тексте Watson развивался в процессе разработки от нескольких компонент до нескольких сотен UIMA обеспечивает быструю интеграцию компонент тестирование и исследование

bull Начальная имплементация Watson запускалась на одном процессоре и требовала 2 часа на ответ на один вопрос DeepQA развился в параллельную систему используя UIMA-AS часть Apache UIMA масштабируя приложения UIMA используя асинхронный механизм месседжинга UIMA-AS позволила масштабировать Watson более чем на 2500 вычислительных ядер UIMA-AS управляет коммуникациями месседжингом управлением запросами используя open JMS standard UIMA-AS позволил снизить латентность Watson до 3ndash5 секунд

bull Для препроцессинга корпуса текстов создания быстрых run-time indices использован Hadoop

UIMA annotators были развернуты как mapper ы в Hadoop map-reduce framework Hadoop распределяет контент по кластеру для обеспечения высокого использования CPU и обеспечивает подходящий набор инструментов для deploying managing and monitoring the corpus analysis process

bull Аппаратная платформа ndash это 90 серверов 2800 ядер 15 ТБ RAM 80 Тфлопс $3 000 000 10 R

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 4: !Predictive analytics part_3

Корпус текстов

bull функции по созданию корпуса из массива данных (DataFrameSource)bull из каталога файлов каждый из которых содержит отдельный документ (DirSource)bull из вектора (VectorSource)bull из текстов доступных по URI-ссылке (URISource) bull из набора новостных сообщений агентства Reuters входящих в состав расширения tm

(ReutersSource) bull Помимо типов которые входят в библиотеку tm пользователь может оперативно

установить расширения из CRAN позволяющие импортировать тексты из веб-источников в форматах XML JSON HTML (tmpluginwebmining) из почтовых файлов eml и mbox (tmpluginmail) из файлов французской программы текстового анализа Alceste (tmpluginalceste) из файлов полученных от новостных агрегаторов Europresse (tmplugineuropresse) LexisNexis (tmpluginlexisnexis) Dow Jones Factiva (tmpluginfactiva)

Форматы текста

bull Документы могут храниться в источнике в разных форматах Библиотека tm поддерживает чтение документов в форматах простого текста (readPlain)

bull PDF (readPDF) bull Microsoft Word (readDOC) bull XML (readXML) bull табличной структуры (readTabular ndash для источников

DataFrameSource и VectorSource) bull несколько Reuters-форматов

Пакеты и функции в составе NLP package которые потребуются нам

bull library(NLP)bull library(tm) - Text Mining Packagebull library(Wordcloud) - Word Clouds buildingbull library(RColorBrewer)bull library(SnowballC)bull library(lsa)

Подготовка текста

Файлы хранятся в каталоге articlesdirpath lt- DStudy10-АСBig DataTextarticles lt- Corpus(DirSource(dirpath) readerControl = list(reader = readPlain language = ru load = T)) Текстовые файлы были сохранены в кодировке Windows Конвертируемarticles lt- tm_map(articles iconv cp1251 UTF-8)articles lt- tm_map(articles stripWhitespace)articles lt- tm_map(articles tolower)articles lt- tm_map(articles removeNumbers)articles lt- tm_map(articles removeWords stopwords(russian))articles lt- tm_map(articles removePunctuation)

articles lt- tm_map(articles PlainTextDocument)wordcloud(articles randomorder=F maxwords=80 colors=brewerpal(6Dark2))

inspect(articles)

gt stopwords(russian) [1] и в во не что он на я с со [11] как а то все она так его но да ты [21] к у же вы за бы по только ее мне [31] было вот от меня еще нет о из ему теперь [41] когда даже ну вдруг ли если уже или ни быть [51] был него до вас нибудь опять уж вам сказал ведь [61] там потом себя ничего ей может они тут где есть [71] надо ней для мы тебя их чем была сам чтоб [81] без будто человек чего раз тоже себе под жизнь будет [91] ж тогда кто этот говорил того потому этого какой совсем [101] ним здесь этом один почти мой тем чтобы нее кажется[111] сейчас были куда зачем сказать всех никогда сегодня можно при [121] наконец два об другой хоть после над больше тот через [131] эти нас про всего них какая много разве сказала три [141] эту моя впрочем хорошо свою этой перед иногда лучше чуть [151] том нельзя такой им более всегда конечно всю между

Генерирование облака слов

wordcloud(articles randomorder=F maxwords=80colors=brewerpal(6Oranges))

Стемминг ndash морфологический анализ Stemminggtlibrary( SnowballC)gt wordStem(c(молодёжный молодёжного молодёжном года году участники участников) language=ru)[1] молодёжн молодёжн молодёжн год год участник участник

Использование функции mystemexe от Яндекс

mystemexe to the catalogarticlesmystem lt- function(doc) library(stringr) sdoc lt- system(mystem -nl -e utf-8 intern=T input=doc) При получении нескольких вариантов mystem разделяет ихdirpathlt-articles вертикальной чертой Удалим черту и варианты sdoc lt- str_replace(sdoc |$ ) Если mystem сомневается в результате он добавляет знак вопроса Удаляемsummary sdoc lt- str_replace(sdoc ) sdoc lt- paste(sdoc collapse= ) attributes(sdoc) lt- attributes(doc) sdoc

LSA - Латентный семантический анализ

Сравнение текстов по смысловому содержанию

Определения

Латентно-семантический анализ отображает документы и отдельные слова в так называемое laquoсемантическое пространствоraquo в котором и производятся все дальнейшие сравнения При этом делаются следующие предположения

1) Документы это просто набор слов Порядок слов в документах игнорируется Важно только то сколько раз то или иное слово встречается в документе2) Семантическое значение документа определяется набором слов которые как правило идут вместе Например в биржевых сводках часто встречаются слова laquoфондraquo laquoакцияraquo laquoдолларraquo3) Каждое слово имеет единственное значение Это безусловно сильное упрощение но именно оно делает проблему разрешимой

Основные этапы

bull Удаление слов из laquoстоп-спискаraquobull Стеммингbull Удаление уникальных словbull Построение частотной матрицы А индексируемых слов (TF-IDF)

строки ndash словастолбцы ndash тексты

bull Сингулярное разложение (SVD) матрицыbull Определение существенной размерности (главных компонент)bull Усечение размерности семантического пространстваbull Представление слов и текстов в усеченном пространствеbull Визуализация и ассоциативная кластеризация текстов

TF-IDF анализ

TF (term frequency mdash частота слова) mdash отношение числа вхождения некоторого слова к общему количеству слов документа Таким образом оценивается важность слова t_i в пределах отдельного документа

где есть число вхождений слова в документ а в знаменателе mdash общее число слов в данном документеIDF (inverse document frequency mdash обратная частота документа) mdash инверсия частоты с которой некоторое слово встречается в документах коллекции Основоположником данной концепции является Карен ДжонсУчёт IDF уменьшает вес широкоупотребительных слов Для каждого уникального слова в пределах конкретной коллекции документов существует только одно значение IDF

D -количество документов в корпусеколичество документов в которых встречается t

Частотная матрица для двух далеких текстов

Частотная матрица для двух более близких текстов

Карта слов для двух выбранных документов

Разложение матрицы laquoслова-документыraquo

Модель векторного пространства

bull Наиболее распространенный вариант LSA основан на использовании разложения вещественнозначной матрицы по сингулярным значениям или SVD-разложения (SVD ndash Singular Value Decomposition) С помощью него любую матрицу можно разложить в множество ортогональных матриц линейная комбинация которых является достаточно точным приближением к исходной матрице Обычно используют мультипликативное разложение

bull где матрицы U и V ndash ортогональные а S ndash диагональная матрица значения на диагонали которой называются сингулярными значениями матрицы A

bull Символ Т в обозначении матрицы означает транспонирование матрицы

bull Основная идея латентно-семантического анализа состоит в следующем

bull после перемножения матриц полученная матрица Ă содержащая только k первых линейно независимых компонент исходной матрицы A отражает структуру зависимостей (в данном случае ассоциативных) латентно присутствующих в исходной матрице Структура зависимостей определяется весовыми функциями термов для каждого документа

Особенность такого разложения в том что если в матрице S оставить только k наибольших сингулярных значений то линейная комбинация получившихся матриц будет наилучшим приближением исходной матрицы A к матрице Ă ранга k

Пример

bull c1 Human machine interface for ABC computer applicationsbull c2 A survey of user opinion of computer system response timebull c3 The EPS user interface management systembull c4 System and human system engineering testing of EPSbull c5 Relation of user perceived response time to error measurementbull m1 The generation of random binary ordered treesbull m2 The intersection graph of paths in treesbull m3 Graph minors IV Widths of trees and well-quasi-orderingbull m4 Graph minors A survey

Желтым отмечены слова встречающиеся хотя бы в двух заголовках

После SVD

Семантическое пространство

Матрица расстояний между словами

Результат снижения размерности кластеризация [human interface computer user EPS response time][survey trees graph minors]

Расстояния между заголовками до и после SVD

bull Объем корпуса для построения модели должен быть большим ndash желательно около трех-пяти миллионов словоупотреблений Но метод работает и на коллекциях меньшего объема правда несколько хужеПроизвольное разбиение текста на документы обычно производят от тысячи до нескольких десятков тысяч частей примерно одинакового объема Таким образом матрица термы-на-документы получается прямоугольной и может быть сильно разраженной Например при объеме 5 млн словоформ получается матрица 30-50 тысяч документов на 200-300 тысяч а иногда и более термов В действительности низкочастотные термы можно опустить тк это заметно снизит размерность матрицы (скажем если не использовать 5 от общего объема низкочастотных термов то размерность сократиться в два раза) что приведет к снижению вычислительных ресурсов и времениВыбор сокращения сингулярных значений диагональной матрицы (размерности k) при обратном перемножении матриц достаточно произвольно При вышеуказанной размерности матрицы оставляют несколько сотен (100-300) главных компонент При этом как показывает практика зависимость количества компонент и точность меняются нелинейно например если начинать увеличивать их число то точность будет падать но при некотором значении скажем 10000 ndash опять вырастет до оптимального случая

Применение

bull сравнение двух термов между собойbull сравнение двух документов между собойbull сравнение терма и документа

Так же иногда этот метод используют для нахождения laquoближайшего соседаraquo mdash наиболее близких по весу термов ассоциативно связанных с исходным Это свойство используют для поиска близких по смыслу термов Следует уточнить что близость по смыслу ndash это контекстнозависимая величина поэтому не всякий близкий терм будет соответствовать ассоциации (это может быть и синоним и антоним и просто часто встречающееся вместе с искомым термом слово или словосочетание)

bull Достоинством метода можно считать его замечательную способность выявлять зависимости между словами когда обычные статистические методы бессильны LSA также может быть применен как с обучением (с предварительной тематической классификацией документов) так и без обучения (произвольное разбиение произвольного текста) что зависит от решаемой задачи

bull Об основных недостатках значительное снижение скорости вычисления при увеличении объема входных данных (в частности при SVD-преобразовании)

bull Как показано в литературе скорость вычисления соответствует порядку где сумма количества документов и термов kndash размерность пространства факторов

На рисунке показано возникновение и изменение главных факторов при уменьшении числа сингулярных элементов диагональной матрицы от 100 до ~12 Трехмерные рисунки представляют собой симметричную матрицу полученную в результате вычисления скалярного произведения векторов каждого эталонного документа с каждым тестируемым Эталонный набор векторов ndash это заранее размеченный на 30 документов текст тестируемый ndash с уменьшением числа сингулярных значений диагональной матрицы полученной при SVD-анализе На осях X и Y откладывается количество документов (эталонных и тестируемых) на оси Z ndash объем лексиконаНа рисунках хорошо видно что при уменьшении числа сингулярных диагональных элементов на 20-30 факторы еще не достаточно ярко выявлены но при этом возникают корреляции похожих документов (небольшие пики вне диагонали) которые сначала незначительно увеличиваются а затем с уменьшением числа сингулярных значений (до 70-80) ndash исчезают При автоматической кластеризации такие пики являются шумом поэтому их желательно минимизировать Если же целью является получение ассоциативных связей внутри документов то следует найти оптимальное соотношение сохранения основного лексикона и примешивания ассоциативного

Имплементация в R - Package lsquolsarsquoalnumx - Regular expression for removal of non-alphanumeric characters (saving special characters)

astextmatrix - Display a latent semantic space generated by Latent Semantic Analysis (LSA)

associate - Find close terms in a textmatrix

corpora - Corpora (Essay Scoring) dimcalc Dimensionality Calculation Routines (LSA)

dimcalc - Dimensionality Calculation Routines (LSA)

lsa - Create a vector space with Latent Semantic Analysis (LSA)

printtextmatrix - Print a textmatrix (Matrices)

sampletextmatrix - Create a random sample of files

textmatrix - Создает Textmatrix (Matrices) из файлов

Пример 1

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) read files into a document-term matrixmyMatrix = textmatrix(td minWordLength=1) create the latent semantic spacemyLSAspace = lsa(myMatrix dims=dimcalc_raw()) display it as a textmatrix againround(astextmatrix(myLSAspace)2) should give the original create the latent semantic spacemyLSAspace = lsa(myMatrix dims=dimcalc_share())

Пример 2

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) create matricesmyMatrix = textmatrix(td minWordLength=1)myLSAspace = lsa(myMatrix dims=dimcalc_share())myNewMatrix = astextmatrix(myLSAspace) calc associations for mouseassociate(myNewMatrix mouse) clean upunlink(td recursive=TRUE)

Пример 3 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(ham mouse sushi) file=paste(td D2 sep=) )write( c(dog pet pet) file=paste(td D3 sep=) ) LSAdata(stopwords_en)myMatrix = textmatrix(td stopwords=stopwords_en)myMatrix = lw_logtf(myMatrix) gw_idf(myMatrix)myLSAspace = lsa(myMatrix dims=dimcalc_share())astextmatrix(myLSAspace) clean upunlink(td recursive=TRUE)

Пример 4 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(hamster mouse sushi) file=paste(td D2 sep=) )write( c(dog monster monster) file=paste(td D3 sep=) ) read them create a document-term matrixtextmatrix(td) read them drop german stopwordsdata(stopwords_de)textmatrix(td stopwords=stopwords_de) read them based on a controlled vocabularyvoc = c(dog mouse)textmatrix(td vocabulary=voc minWordLength=1) clean up

Вместо заключения Очевидным недостатком LSA является ненормальность (негаусовость) вероятностного распределения слов в любом естественном языке Но эту проблему можно решить сглаживанием выборки (например применив фонетические слова распределение становится более laquoнормальнымraquo) Либо используют вероятностный LSA тназ PLSA основанный на мультиноминальном распределении Другим менее очевидным недостаткам LSA (и ему подобных методов) применительно к обработке неструктурированной информации можно отнести laquoтуманностьraquo самого метода (в частности выбора кол-ва сингулярных значений диагональной матрицы) и интерпретации результата не говоря уже о проблеме сбалансированности обучающего текста

Как правило для качественного построения модели оставляют менее 1-2 процента от общего числа диагональных значений (после SVD преобразования но об это в следующем посте) И как показывает практика увеличение числа факторов приводит к ухудшению результата Но дойдя примерно до 10 процентов от общего числа диагональных значений опять может быть всплеск аналогичный результату полученному при 1

Сбалансированность корпуса ndash вечная проблема которая не имеет хорошего решения на сегодняшний день Поэтому про нее приято помалкивать

Интерпретируемость результатов LSA (как и DLA) также затруднительна человек еще может понять что за тематику будет содержать топик полученный в результате анализа а вот машине не понять (не аннотировать) тематику без привлечения большого числа хороших и разных тезаурусов

Таким образом несмотря на трудоемкость и непрозрачность LSA он может успешно применяться для разного рада задач где важно поймать семантику сообщения обобщить или расширить laquoсмыслыraquo поискового запроса

bull Стандарт основанный на XML для обмена моделями статистической обработки Data Mining

bull Поддерживается более 20 организациями и поставщиками ПО

bull Реализован в частности и в R

Поддерживаемые предиктивные алгоритмы в R

Состав pmml package

bull addLT

bull addMSAttributes

bull audit

bull fileToXMLNode

bull pmml

bull pmmlada

bull pmmlcoxph

bull pmmlcvglmnet

bull pmmlglm

bull pmmlhclust

bull pmmlkmeans

bull pmmlksvm

bull pmmllm bull pmmlmultinom bull pmmlnaiveBayes bull pmmlnnet bull pmmlrandomForest bull pmmlrfsrc bull pmmlrpart bull pmmlrules bull pmmlsvm bull pmmlCanExport bull pmmltoc

Пример

Good by R see you later alligator

WATSON ndash одно из наиболее впечатляющих применений предиктивной аналитики

Разрабатывался компанией IBM с 2006 по 2010 годПрославился победой в телешоу Jeopardy (в России ndash laquoСвоя играraquo) в 2011 годуПредшественник Deep Blue обыграл чемпиона мира по шахматам Гарри Каспарова в 1997 г

>

IBM Deep QA Project

bull Целью проекта было создать компьютерную систему (ИИ) для ответа на вопросы (QA) задаваемые в свободной форме в телешоу и показать результаты соизмеримые с человеческими

bull Задача более сложная чем шахматная программа Deep Blue выигравшая у Каспарова в 1997 г

bull Вопросы по категориямCategory General ScienceClue When hit by electrons a phosphor gives off electromagnetic energy in this formAnswer Light (or Photons)

Category Lincoln BlogsClue Secretary Chase just submitted this to me for the third time guess what pal This time Irsquom accepting itAnswer his resignation

Category Head NorthClue Theyrsquore the two states you could be reentering if yoursquore crossing Floridarsquos northern borderAnswer Georgia and Alabama

Вопросы могут касаться сразу нескольких фактов чтобы ответ был вернымCategory ldquoRaprdquo SheetClue This archaic term for a mischievous or annoying child can also mean a rogue or scampSubclue 1 This archaic term for a mischievous or annoying childSubclue 2 This term can also mean a rogue or scampAnswer Rapscallion

Category Diplomatic RelationsClue Of the four countries in the world that the United States does not have diplomatic relations with the one thatrsquos farthest northInner subclue The four countries in the world that the United States does not have diplomatic relations with (Bhutan Cuba Iran North Korea)Outer subclue Of Bhutan Cuba Iran and North Korea the one thatrsquos farthest northAnswer North Korea

Вопросы - пазлы

Category Before and After Goes to the MoviesClue Film of a typical day in the life of the Beatles which includes running from bloodthirsty zombie fans in a Romero classicSubclue 2 Film of a typical day in the life of the Beatles Answer 1 (A Hard Dayrsquos Night)Subclue 2 Running from bloodthirsty zombie fans in a Romero classicAnswer 2 (Night of the Living Dead)Answer A Hard Dayrsquos Night of the Living Dead

Category Rhyme TimeClue Itrsquos where Pele stores his ballSubclue 1 Pele ball (soccer)Subclue 2 where store (cabinet drawer locker and so on)Answer soccer locker

Недопустимые типы вопросов

oCategory Picture This(Contestants are shown a picture of a B-52 bomber)Clue Alphanumeric name of the fearsome machine seen hereAnswer B-52

oCategory Decode the Postal CodesVerbal instruction from host Wersquore going to give you a word comprising two postal abbreviations you have to identify the statesClue VainAnswer Virginia and Indiana

Лексические типы ответа ndash LAT (Lexical Answer Type)

Метрики качества ответов - результативность

Показатели двух теоретических QA систем

Показатели результативности чемпионов шоу (2000)

Облако победителей

Линия сравнения результативности (baseline performance)

Сравнение системы тестового поиска и поиска в базе знаний

Результативность Watson (по версиям)

Основы подхода Deep QA

bull Massive parallelism использование высокого параллелизма при рассмотрении множественных интерпретаций и гипотез

bull Many experts привлечение интеграции приложения и контекстуального оценивания в широком диапазоне слабосвязанных вероятностных вопросов и контентной аналитики

bull Pervasive confidence estimation повсеместная оценка доверия означает что ни один из компонентов не включается в ответ сразу все компоненты имеют признаки и связанные с ними уровни доверия производится скоринг различных вопросов и контентная интерпретация Основа confidence-processing состоит в обучении как стэкировать и комбинировать баллы

bull Integrate shallow and deep knowledge интеграция поверхностных и глубинных знаний состоит в балансе использования строгой семантики и мелких семантик использующих множества слабо сформированных онтологий

bull Content Acquisition - Сбор контентаСочетает ручные и автоматические этапы Первым шагом является анализ примеров вопросов проблемного пространства чтобы произвести описание видов вопросов на которые нужно ответить и характеризовать область применения Анализ примеров вопросов в первую очередь ручная задача в то время как анализ области может быть выполнен путем автоматических или статистических методов таких как анализ LAT показанный ранее Учитывая вопросы для широкого домена Jeopardy Challenge источники для Watson включают широкий ассортимент энциклопедий словарей тезаурусов Newswire статьи литературные произведения и тд Начиная с разумного размера базового корпуса DeepQA затем применяет автоматический процесс расширения корпуса Процесс включает в себя четыре этапа высокого уровня (1) выявления основных документов и получить соответствующие документы из Интернет (2) извлечь автономные текстовые ядра из связанных веб-документов (3) Оценка на основе ядер являются ли они информативны по отношению к исходному основному документу и (4) объединить наиболее информативные ядра в расширенном корпусе Работающая система использует этот расширенный корпус и не имеет доступа к Интернет во время игры

bull Question Analysis ndash Анализ вопроса

Первый шаг во время выполнения процесса вопрос-ответной системы При анализе вопроса система пытается понять что вопрос задан и выполняет начальный анализ определяющий как вопрос будет обработан на остальных этапах работы системы Подход DeepQA использует смешанный набор экспертов на данном этапе и в системе Watson производится мелкий парсинг глубокий парсинг строятся логические формы семантические этикетки ролей взаимные ссылки отношения именованные сущности и так далее а также конкретные виды анализа для ответа вопрос

bull Question classification - Классификация вопроса

Это задача выявления типа вопроса или частей вопроса которые требуют специальной обработки Это может включать в себя что-нибудь из отдельных слов с двойным смыслом и потенциально до выявления целых статей которые имеют определенную синтаксическую семантическую или риторические функциональные возможности которые могут инициировать нисходящий анализ Классификация может определить вопрос как вопрос- головоломку вопрос-математику -определение и так далее Это будет определять каламбуры ограничения компоненты определений или целые подвопросы в пределах вопросов

bull Focus and LAT Detection ndash Определение фокуса и лексического типа ответа

Лексический тип ответа - это слово или словосочетание в вопросе который определяет тип ответа без попытки понять семантику Определение LAT является важным видом выигрыша и общим источником критических ошибок Преимущество подхода DeepQA является использование многих самостоятельно разработанных алгоритмов laquoответ-типированияraquo Например фокус вопроса викторины laquoПри попадании электронов люминофор излучает электромагнитную энергию в этой формеraquo - является laquoэта формаraquo Фокус часто (но не всегда) содержит полезную информацию об ответе часто субъект или объект отношение в вопросе и может превратить вопрос в фактическое утверждение при замене возможным кандидатом Это представляет полезный способ собирать доказательства о каждом кандидате

bull Relation Detection ndash детектирование отношений

Большинство вопросов содержит отношения являются ли они синтаксическими предикатами субъект-глагол-объект или семантические отношения между субъектами Например в вопросе laquoЕсть два штата в которые вы могли бы войти повторно если вы пересекаете северную границу штата Флоридаraquo мы можем обнаружить отношение границы (Флорида Х к северу) Watson использует обнаружение отношения на протяжении всего процесса QA от фокуса и LAT определения до прохождению и скорингу ответов Watson также может использовать обнаруженные отношения для выделения хранилища триплетов и напрямую генерировать кандидатов в ответы В 20000 игр Jeopardy вопросы например обнаружили распределение Freebase отношений чрезвычайно плоского вида (см рисунок) Это приближение распределеня 50 наиболее частых отношений в 20 000 случайно выбранных вопросах викторины

bull Decomposition ndash декомпозиция

Важным требованием успеха анализа Jeopardy является способность отвечать на вопросы которые разложены на составляющие DeepQA использует основанный на правилах глубокий парсинг и статистические методы классификации чтобы наилучшим образом разложить вопросы на элементы и определить как лучше разбить их на подвопросы Операционная гипотеза что правильная интерпретация вопроса позволит лучше произвести скоринг ответов после того как все доказательства собраны Даже если вопрос не должен быть разложен для определения ответа этот метод может помочь улучшить общее доверие ответу системы DeepQA решает задачи параллельно для каждого разложения применяя алгоритмы от начала до конца каждого подвопроса и синтезирует окончательные ответы DeepQA также поддерживает вложенные декомпозиции вопросов через рекурсивное применение QA системы от начала до конца в внутреннем подвопросе а затем во внешнем Настраиваемые компоненты позволяют легко подключать специализированные алгоритмы синтеза в общую систему

bull Hypothesis Generation ndash генерация гипотез

Генерация гипотез принимает результаты анализа вопросов и производит кандидатов на ответы Каждый кандидат ответ включается обратно в вопрос и это считается как гипотеза Система должна доказать правильность этой гипотезы с некоторой степенью уверенности Как и во всех аспектах DeepQA используется смесь разных подходов для первичного поиска и генерации кандидата в системе Watson

bull Primary Search ndash первичный поиск

В этом поиске целью является найти столько потенциально кандидатов сколько это можно сделать на основе результатов анализа вопроса В течение проекта велись эмпирические исследования направленные на баланс скорости объема и точности Эти исследования позволили регулярно настраивать систему так чтобы найти такое количество кандидатов которые производят наилучший баланс точности и вычислительных ресурсов Оперативная цель основного поиска в конечном счете стабилизировалась на около 85 процентов для топ-250 кандидатов то есть система генерирует правильный ответ как кандидата ответа на 85 процентов вопросов где-то в верхних 250 ранжированных кандидатов Разнообразие методов поиска используются в том числе с использованием нескольких текст поисковых системах с различными базовыми подходами (например Indri и Lucene) поиск документов а также поиска маршрута база знаний поиска с помощью SPARQL хранилища триплетов Для небольшого количества латов которые были определены как закрытые латы кандидат на ответ может быть получен из фиксированного списка в каком-то хранилище известных экземпляров LAT таких как США Президент или Страна

Поиск доказательств

bull Поиск по фразе ndash число соответствий разного типав ответе и вопросеbull Популярность ndash как часто встречается этот вариант ответаbull Соответствие по типу ndash ответ и требование вопросаbull Соответствие по времениbull Надежность источника

bull Candidate Answer Generation ndash генерирование кандидатов на ответ

Результаты поиска применяются для генерирования возможных кандидатов в ответы с помощью различных подходящих техник Для поиска документов извлекаются заголовки и используются как кандидаты Число кандидатов при этом может быть не единственным и требовать использования анализа подстрок и ссылок Используя детектирование именованных сущностей в ряде случаев удается извлечь хороших кандидатов В зависимости от типа источника для генерирования кандидата требуется разный набор алгоритмов например база знаний или обратный словарь порождают кандидатов непосредственно как кандидата Этот этап критически важен и если кандидаты не найдены то фиксируется невозможность ответа В нормальном режиме на этом этапе Watson гененерирует несколько сотен андидатов

bull Soft Filtering ndash мягкая фильтрацияДля ускорения процесса скоринга кандидатов Watson использует различные алгоритмы разной точности Более легковесные (менее вычислительно интенсивные) применяются на первом этапе скоринга На этом этапе устанавливается порог оценки и кандидаты имеющие более высокую оценку считаются прошедшими мягкую фильтрацию Они поступают на выработку гипотез и скоринг доказательств Интересно что кандидаты не прошедшие порог мягкой фильтрации не забываются а направляются прямо на финальный этап слияния Модель скоринга мягкой фильтрации и порога определяются на основе machine learning используя обучающие данные Watson типично пропускает через мягкую фильтрацию 100 кандидатов но эта функция параметризована и их число можно изменить

Проблемы NLP

bull В мае 1898 года Португалия отмечала 400-летний юбилей со дня прибытия этого великого путешественника в Индию

В мае Гари прибыл в Индию после празднования своего юбилея в Португалии

21 мая 1498 года Васка де Гама высадился в местечке Каппад

bull Он был помилован президентом 8 сентября 1974 годаФорд помиловал Никсона 8 сентября 1974 года Никсон Форд

bull Говоря ldquogive a trinklerdquo что предлагают вам сделать британцы по приезду в город

bull Hypothesis and Evidence Scoring ndash скоринг гипотез и доказательств

Прошедшие порог мягкой фильтрации кандидаты поступают на скрупулезный процесс который включает сбор дополнительных поддерживающих доказательств для каждого кандидата на ответ или гипотезу Процесс использует широкий набор различных методов скоринговой аналитики чтобы исследовать все поддерживающие доказательства

bull Evidence Retrieval ndash извлечение доказательств

Чтобы лучше исследовать каждого кандидата прошедшего через мягкую фильтрацию система собирает дополнительные поддерживающие доказательства Архитектура поддерживает интеграцию различных evidence-gathering техник Один из применяемых способов состоит в том что проводится дополнительный поиск в котором кандидат добавляется в качестве required term к первичному запросу извлеченному из вопроса Это будет приводить к получению выражений содержащих кандидата в контексте первичных терминов вопросаПоддерживающие доказательства могут быть извлечены и из других источников например из RDF баз знаний Извлеченные поддерживающие доказательства направляются модули глубокого скоринга которые анализируют кандидата в контексте поддерживающего доказательства

bull Scoring ndash скоринг (количественное оценивание)

Алгоритмы скоринга определяют степень несомненности которую обеспечивают доказательства в поддержку кандидата The DeepQA framework поддерживает множество компонент для выработки оценки в различных измерениях каждого доказательства которая вырабатывает оценку связанную с тем насколько хорошо доказательство поддерживает кандидата на ответ в качестве ответа на заданный вопросDeepQA использует общий формат для оценок для принятых гипотез и подтверждающих оценок отражающих семантические и ограничивающие факторы Это позволяет разработчикам DeepQA быстро разворачивать перемешивать и настраивать сложные совокупности модуле для обработкиНапрмер Watson использует больше чем 50 скоринговых компонент Они производят оценки разноготипа от оценок вероятностей до подсчета категориальных свойств основанных на доказательствах от различных источников включая неструктурированные тексты полуструктурированные тексты и RDF хранилища Эти оценки используют такие данные как degree of match between a passagersquos predicate-argument structure and the question passage source reliability geospatial location temporal relationships taxonomic classification the lexical and semantic relations the candidate is known to participate in the candidatersquos correlation with question terms its popularity (or obscurity) its aliases and so on

Вопрос Чили имеет самую длинную общую границу со страной Сгенерировано несколько кандидатов среди них Аргентина и Боливия Первичный поиск даст приоритет Боливии из=а популярности обсуждений их отношений Однако собранные Watson доказательства из других источников показывают более высокую оценку для Аргентины

Скоринг (взвешивание) доказательств ndash предиктивная аналитика

- При делении клеток митозом называется деление ядра а цитокинезом ndash деление этой жидкости в которой находится ядро

Генерирование кандидатов Сбор доказательств Уверенность в доказательстве

ОрганеллыВакуольЦитоплазмаПлазмамитохондрии

Органеллы ndash не жидкостьВакуоль ndash не жидкостьЦитоплазма ndash возможно жидкостьПлазма ndash не жидкостьМитохондрии ndash не жидкость

Цитоплазма ndash 92Органеллы ndash 19Вакуоль ndash 10Плазма ndash 2Митохондрии ndash 2

Answer Merging ndash объединение ответов

Многие кандидаты в ответы на поставленный вопрос могут быть эквивалентны несмотря на различные внешне формыТехники ранжирования тем не менее рассматривают таких кандидатов как различные Без объединения алгоритмы ранжирования будут работать отдельно с эквивалентными сущностями и пытаться противопоставить одну форму другой Это приведет к проблемам принятия решений Watson содержит алгоритмы идентификации эквивалентных сущностей используя множественные сравнения нормализацию и методы разрешения совместных ссылок

Ranking and Confidence Estimation ndash ранжирование и оценивание доверияПосле объединения система должна произвести ранжирование гипотез и оценивает доверие основанное на объединенных оценках В системе подобран ML подход основанный на обучении на обучающем наборе вопросов с известными ответами и обучение модели основываясь на скоринге Применяется как весьма плоская модель и существующие алгоритмы ранжирования Для более тонких оценок применяется двухфазный процесс использующий группы оценок для оценивания профиля и для оценки доверия Используя эту промежуточную модель система производит ансамбль промежуточных оценок Здесь используется иерархическая техника метаучителя и коллектива экспертов Этот подход обеспечивает итеративное расширение обучения используя изощренные и глубокие иерархические модели обеспечивающие гибкость и робастность при выработке оценок и модифицирует системуМетаучитель в Watson использует набор многие обучаемые модели чтобы управлять различными классами вопросов которые могут быть критическими при идентификации правильных ответовНаконец важно что использование NLP-based скоринга дает весьма разреженные оценки и требует точного оценивания с применением confidence-weighted learning techniques

Развертывание Watson

bull DeepQA разработан используя Apache UIMA - framework implementation of the Unstructured Information Management Architecture (Ferrucci and Lally 2004) UIMA был разработан для поддержки взаимодействия и масштабирования приложений обработки текста и мультимодального анализа Все компоненты DeepQA имплементированы как UIMA annotators Это программные компоненты для анализа текста и получения аннотаций или заключений о тексте Watson развивался в процессе разработки от нескольких компонент до нескольких сотен UIMA обеспечивает быструю интеграцию компонент тестирование и исследование

bull Начальная имплементация Watson запускалась на одном процессоре и требовала 2 часа на ответ на один вопрос DeepQA развился в параллельную систему используя UIMA-AS часть Apache UIMA масштабируя приложения UIMA используя асинхронный механизм месседжинга UIMA-AS позволила масштабировать Watson более чем на 2500 вычислительных ядер UIMA-AS управляет коммуникациями месседжингом управлением запросами используя open JMS standard UIMA-AS позволил снизить латентность Watson до 3ndash5 секунд

bull Для препроцессинга корпуса текстов создания быстрых run-time indices использован Hadoop

UIMA annotators были развернуты как mapper ы в Hadoop map-reduce framework Hadoop распределяет контент по кластеру для обеспечения высокого использования CPU и обеспечивает подходящий набор инструментов для deploying managing and monitoring the corpus analysis process

bull Аппаратная платформа ndash это 90 серверов 2800 ядер 15 ТБ RAM 80 Тфлопс $3 000 000 10 R

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 5: !Predictive analytics part_3

Форматы текста

bull Документы могут храниться в источнике в разных форматах Библиотека tm поддерживает чтение документов в форматах простого текста (readPlain)

bull PDF (readPDF) bull Microsoft Word (readDOC) bull XML (readXML) bull табличной структуры (readTabular ndash для источников

DataFrameSource и VectorSource) bull несколько Reuters-форматов

Пакеты и функции в составе NLP package которые потребуются нам

bull library(NLP)bull library(tm) - Text Mining Packagebull library(Wordcloud) - Word Clouds buildingbull library(RColorBrewer)bull library(SnowballC)bull library(lsa)

Подготовка текста

Файлы хранятся в каталоге articlesdirpath lt- DStudy10-АСBig DataTextarticles lt- Corpus(DirSource(dirpath) readerControl = list(reader = readPlain language = ru load = T)) Текстовые файлы были сохранены в кодировке Windows Конвертируемarticles lt- tm_map(articles iconv cp1251 UTF-8)articles lt- tm_map(articles stripWhitespace)articles lt- tm_map(articles tolower)articles lt- tm_map(articles removeNumbers)articles lt- tm_map(articles removeWords stopwords(russian))articles lt- tm_map(articles removePunctuation)

articles lt- tm_map(articles PlainTextDocument)wordcloud(articles randomorder=F maxwords=80 colors=brewerpal(6Dark2))

inspect(articles)

gt stopwords(russian) [1] и в во не что он на я с со [11] как а то все она так его но да ты [21] к у же вы за бы по только ее мне [31] было вот от меня еще нет о из ему теперь [41] когда даже ну вдруг ли если уже или ни быть [51] был него до вас нибудь опять уж вам сказал ведь [61] там потом себя ничего ей может они тут где есть [71] надо ней для мы тебя их чем была сам чтоб [81] без будто человек чего раз тоже себе под жизнь будет [91] ж тогда кто этот говорил того потому этого какой совсем [101] ним здесь этом один почти мой тем чтобы нее кажется[111] сейчас были куда зачем сказать всех никогда сегодня можно при [121] наконец два об другой хоть после над больше тот через [131] эти нас про всего них какая много разве сказала три [141] эту моя впрочем хорошо свою этой перед иногда лучше чуть [151] том нельзя такой им более всегда конечно всю между

Генерирование облака слов

wordcloud(articles randomorder=F maxwords=80colors=brewerpal(6Oranges))

Стемминг ndash морфологический анализ Stemminggtlibrary( SnowballC)gt wordStem(c(молодёжный молодёжного молодёжном года году участники участников) language=ru)[1] молодёжн молодёжн молодёжн год год участник участник

Использование функции mystemexe от Яндекс

mystemexe to the catalogarticlesmystem lt- function(doc) library(stringr) sdoc lt- system(mystem -nl -e utf-8 intern=T input=doc) При получении нескольких вариантов mystem разделяет ихdirpathlt-articles вертикальной чертой Удалим черту и варианты sdoc lt- str_replace(sdoc |$ ) Если mystem сомневается в результате он добавляет знак вопроса Удаляемsummary sdoc lt- str_replace(sdoc ) sdoc lt- paste(sdoc collapse= ) attributes(sdoc) lt- attributes(doc) sdoc

LSA - Латентный семантический анализ

Сравнение текстов по смысловому содержанию

Определения

Латентно-семантический анализ отображает документы и отдельные слова в так называемое laquoсемантическое пространствоraquo в котором и производятся все дальнейшие сравнения При этом делаются следующие предположения

1) Документы это просто набор слов Порядок слов в документах игнорируется Важно только то сколько раз то или иное слово встречается в документе2) Семантическое значение документа определяется набором слов которые как правило идут вместе Например в биржевых сводках часто встречаются слова laquoфондraquo laquoакцияraquo laquoдолларraquo3) Каждое слово имеет единственное значение Это безусловно сильное упрощение но именно оно делает проблему разрешимой

Основные этапы

bull Удаление слов из laquoстоп-спискаraquobull Стеммингbull Удаление уникальных словbull Построение частотной матрицы А индексируемых слов (TF-IDF)

строки ndash словастолбцы ndash тексты

bull Сингулярное разложение (SVD) матрицыbull Определение существенной размерности (главных компонент)bull Усечение размерности семантического пространстваbull Представление слов и текстов в усеченном пространствеbull Визуализация и ассоциативная кластеризация текстов

TF-IDF анализ

TF (term frequency mdash частота слова) mdash отношение числа вхождения некоторого слова к общему количеству слов документа Таким образом оценивается важность слова t_i в пределах отдельного документа

где есть число вхождений слова в документ а в знаменателе mdash общее число слов в данном документеIDF (inverse document frequency mdash обратная частота документа) mdash инверсия частоты с которой некоторое слово встречается в документах коллекции Основоположником данной концепции является Карен ДжонсУчёт IDF уменьшает вес широкоупотребительных слов Для каждого уникального слова в пределах конкретной коллекции документов существует только одно значение IDF

D -количество документов в корпусеколичество документов в которых встречается t

Частотная матрица для двух далеких текстов

Частотная матрица для двух более близких текстов

Карта слов для двух выбранных документов

Разложение матрицы laquoслова-документыraquo

Модель векторного пространства

bull Наиболее распространенный вариант LSA основан на использовании разложения вещественнозначной матрицы по сингулярным значениям или SVD-разложения (SVD ndash Singular Value Decomposition) С помощью него любую матрицу можно разложить в множество ортогональных матриц линейная комбинация которых является достаточно точным приближением к исходной матрице Обычно используют мультипликативное разложение

bull где матрицы U и V ndash ортогональные а S ndash диагональная матрица значения на диагонали которой называются сингулярными значениями матрицы A

bull Символ Т в обозначении матрицы означает транспонирование матрицы

bull Основная идея латентно-семантического анализа состоит в следующем

bull после перемножения матриц полученная матрица Ă содержащая только k первых линейно независимых компонент исходной матрицы A отражает структуру зависимостей (в данном случае ассоциативных) латентно присутствующих в исходной матрице Структура зависимостей определяется весовыми функциями термов для каждого документа

Особенность такого разложения в том что если в матрице S оставить только k наибольших сингулярных значений то линейная комбинация получившихся матриц будет наилучшим приближением исходной матрицы A к матрице Ă ранга k

Пример

bull c1 Human machine interface for ABC computer applicationsbull c2 A survey of user opinion of computer system response timebull c3 The EPS user interface management systembull c4 System and human system engineering testing of EPSbull c5 Relation of user perceived response time to error measurementbull m1 The generation of random binary ordered treesbull m2 The intersection graph of paths in treesbull m3 Graph minors IV Widths of trees and well-quasi-orderingbull m4 Graph minors A survey

Желтым отмечены слова встречающиеся хотя бы в двух заголовках

После SVD

Семантическое пространство

Матрица расстояний между словами

Результат снижения размерности кластеризация [human interface computer user EPS response time][survey trees graph minors]

Расстояния между заголовками до и после SVD

bull Объем корпуса для построения модели должен быть большим ndash желательно около трех-пяти миллионов словоупотреблений Но метод работает и на коллекциях меньшего объема правда несколько хужеПроизвольное разбиение текста на документы обычно производят от тысячи до нескольких десятков тысяч частей примерно одинакового объема Таким образом матрица термы-на-документы получается прямоугольной и может быть сильно разраженной Например при объеме 5 млн словоформ получается матрица 30-50 тысяч документов на 200-300 тысяч а иногда и более термов В действительности низкочастотные термы можно опустить тк это заметно снизит размерность матрицы (скажем если не использовать 5 от общего объема низкочастотных термов то размерность сократиться в два раза) что приведет к снижению вычислительных ресурсов и времениВыбор сокращения сингулярных значений диагональной матрицы (размерности k) при обратном перемножении матриц достаточно произвольно При вышеуказанной размерности матрицы оставляют несколько сотен (100-300) главных компонент При этом как показывает практика зависимость количества компонент и точность меняются нелинейно например если начинать увеличивать их число то точность будет падать но при некотором значении скажем 10000 ndash опять вырастет до оптимального случая

Применение

bull сравнение двух термов между собойbull сравнение двух документов между собойbull сравнение терма и документа

Так же иногда этот метод используют для нахождения laquoближайшего соседаraquo mdash наиболее близких по весу термов ассоциативно связанных с исходным Это свойство используют для поиска близких по смыслу термов Следует уточнить что близость по смыслу ndash это контекстнозависимая величина поэтому не всякий близкий терм будет соответствовать ассоциации (это может быть и синоним и антоним и просто часто встречающееся вместе с искомым термом слово или словосочетание)

bull Достоинством метода можно считать его замечательную способность выявлять зависимости между словами когда обычные статистические методы бессильны LSA также может быть применен как с обучением (с предварительной тематической классификацией документов) так и без обучения (произвольное разбиение произвольного текста) что зависит от решаемой задачи

bull Об основных недостатках значительное снижение скорости вычисления при увеличении объема входных данных (в частности при SVD-преобразовании)

bull Как показано в литературе скорость вычисления соответствует порядку где сумма количества документов и термов kndash размерность пространства факторов

На рисунке показано возникновение и изменение главных факторов при уменьшении числа сингулярных элементов диагональной матрицы от 100 до ~12 Трехмерные рисунки представляют собой симметричную матрицу полученную в результате вычисления скалярного произведения векторов каждого эталонного документа с каждым тестируемым Эталонный набор векторов ndash это заранее размеченный на 30 документов текст тестируемый ndash с уменьшением числа сингулярных значений диагональной матрицы полученной при SVD-анализе На осях X и Y откладывается количество документов (эталонных и тестируемых) на оси Z ndash объем лексиконаНа рисунках хорошо видно что при уменьшении числа сингулярных диагональных элементов на 20-30 факторы еще не достаточно ярко выявлены но при этом возникают корреляции похожих документов (небольшие пики вне диагонали) которые сначала незначительно увеличиваются а затем с уменьшением числа сингулярных значений (до 70-80) ndash исчезают При автоматической кластеризации такие пики являются шумом поэтому их желательно минимизировать Если же целью является получение ассоциативных связей внутри документов то следует найти оптимальное соотношение сохранения основного лексикона и примешивания ассоциативного

Имплементация в R - Package lsquolsarsquoalnumx - Regular expression for removal of non-alphanumeric characters (saving special characters)

astextmatrix - Display a latent semantic space generated by Latent Semantic Analysis (LSA)

associate - Find close terms in a textmatrix

corpora - Corpora (Essay Scoring) dimcalc Dimensionality Calculation Routines (LSA)

dimcalc - Dimensionality Calculation Routines (LSA)

lsa - Create a vector space with Latent Semantic Analysis (LSA)

printtextmatrix - Print a textmatrix (Matrices)

sampletextmatrix - Create a random sample of files

textmatrix - Создает Textmatrix (Matrices) из файлов

Пример 1

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) read files into a document-term matrixmyMatrix = textmatrix(td minWordLength=1) create the latent semantic spacemyLSAspace = lsa(myMatrix dims=dimcalc_raw()) display it as a textmatrix againround(astextmatrix(myLSAspace)2) should give the original create the latent semantic spacemyLSAspace = lsa(myMatrix dims=dimcalc_share())

Пример 2

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) create matricesmyMatrix = textmatrix(td minWordLength=1)myLSAspace = lsa(myMatrix dims=dimcalc_share())myNewMatrix = astextmatrix(myLSAspace) calc associations for mouseassociate(myNewMatrix mouse) clean upunlink(td recursive=TRUE)

Пример 3 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(ham mouse sushi) file=paste(td D2 sep=) )write( c(dog pet pet) file=paste(td D3 sep=) ) LSAdata(stopwords_en)myMatrix = textmatrix(td stopwords=stopwords_en)myMatrix = lw_logtf(myMatrix) gw_idf(myMatrix)myLSAspace = lsa(myMatrix dims=dimcalc_share())astextmatrix(myLSAspace) clean upunlink(td recursive=TRUE)

Пример 4 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(hamster mouse sushi) file=paste(td D2 sep=) )write( c(dog monster monster) file=paste(td D3 sep=) ) read them create a document-term matrixtextmatrix(td) read them drop german stopwordsdata(stopwords_de)textmatrix(td stopwords=stopwords_de) read them based on a controlled vocabularyvoc = c(dog mouse)textmatrix(td vocabulary=voc minWordLength=1) clean up

Вместо заключения Очевидным недостатком LSA является ненормальность (негаусовость) вероятностного распределения слов в любом естественном языке Но эту проблему можно решить сглаживанием выборки (например применив фонетические слова распределение становится более laquoнормальнымraquo) Либо используют вероятностный LSA тназ PLSA основанный на мультиноминальном распределении Другим менее очевидным недостаткам LSA (и ему подобных методов) применительно к обработке неструктурированной информации можно отнести laquoтуманностьraquo самого метода (в частности выбора кол-ва сингулярных значений диагональной матрицы) и интерпретации результата не говоря уже о проблеме сбалансированности обучающего текста

Как правило для качественного построения модели оставляют менее 1-2 процента от общего числа диагональных значений (после SVD преобразования но об это в следующем посте) И как показывает практика увеличение числа факторов приводит к ухудшению результата Но дойдя примерно до 10 процентов от общего числа диагональных значений опять может быть всплеск аналогичный результату полученному при 1

Сбалансированность корпуса ndash вечная проблема которая не имеет хорошего решения на сегодняшний день Поэтому про нее приято помалкивать

Интерпретируемость результатов LSA (как и DLA) также затруднительна человек еще может понять что за тематику будет содержать топик полученный в результате анализа а вот машине не понять (не аннотировать) тематику без привлечения большого числа хороших и разных тезаурусов

Таким образом несмотря на трудоемкость и непрозрачность LSA он может успешно применяться для разного рада задач где важно поймать семантику сообщения обобщить или расширить laquoсмыслыraquo поискового запроса

bull Стандарт основанный на XML для обмена моделями статистической обработки Data Mining

bull Поддерживается более 20 организациями и поставщиками ПО

bull Реализован в частности и в R

Поддерживаемые предиктивные алгоритмы в R

Состав pmml package

bull addLT

bull addMSAttributes

bull audit

bull fileToXMLNode

bull pmml

bull pmmlada

bull pmmlcoxph

bull pmmlcvglmnet

bull pmmlglm

bull pmmlhclust

bull pmmlkmeans

bull pmmlksvm

bull pmmllm bull pmmlmultinom bull pmmlnaiveBayes bull pmmlnnet bull pmmlrandomForest bull pmmlrfsrc bull pmmlrpart bull pmmlrules bull pmmlsvm bull pmmlCanExport bull pmmltoc

Пример

Good by R see you later alligator

WATSON ndash одно из наиболее впечатляющих применений предиктивной аналитики

Разрабатывался компанией IBM с 2006 по 2010 годПрославился победой в телешоу Jeopardy (в России ndash laquoСвоя играraquo) в 2011 годуПредшественник Deep Blue обыграл чемпиона мира по шахматам Гарри Каспарова в 1997 г

>

IBM Deep QA Project

bull Целью проекта было создать компьютерную систему (ИИ) для ответа на вопросы (QA) задаваемые в свободной форме в телешоу и показать результаты соизмеримые с человеческими

bull Задача более сложная чем шахматная программа Deep Blue выигравшая у Каспарова в 1997 г

bull Вопросы по категориямCategory General ScienceClue When hit by electrons a phosphor gives off electromagnetic energy in this formAnswer Light (or Photons)

Category Lincoln BlogsClue Secretary Chase just submitted this to me for the third time guess what pal This time Irsquom accepting itAnswer his resignation

Category Head NorthClue Theyrsquore the two states you could be reentering if yoursquore crossing Floridarsquos northern borderAnswer Georgia and Alabama

Вопросы могут касаться сразу нескольких фактов чтобы ответ был вернымCategory ldquoRaprdquo SheetClue This archaic term for a mischievous or annoying child can also mean a rogue or scampSubclue 1 This archaic term for a mischievous or annoying childSubclue 2 This term can also mean a rogue or scampAnswer Rapscallion

Category Diplomatic RelationsClue Of the four countries in the world that the United States does not have diplomatic relations with the one thatrsquos farthest northInner subclue The four countries in the world that the United States does not have diplomatic relations with (Bhutan Cuba Iran North Korea)Outer subclue Of Bhutan Cuba Iran and North Korea the one thatrsquos farthest northAnswer North Korea

Вопросы - пазлы

Category Before and After Goes to the MoviesClue Film of a typical day in the life of the Beatles which includes running from bloodthirsty zombie fans in a Romero classicSubclue 2 Film of a typical day in the life of the Beatles Answer 1 (A Hard Dayrsquos Night)Subclue 2 Running from bloodthirsty zombie fans in a Romero classicAnswer 2 (Night of the Living Dead)Answer A Hard Dayrsquos Night of the Living Dead

Category Rhyme TimeClue Itrsquos where Pele stores his ballSubclue 1 Pele ball (soccer)Subclue 2 where store (cabinet drawer locker and so on)Answer soccer locker

Недопустимые типы вопросов

oCategory Picture This(Contestants are shown a picture of a B-52 bomber)Clue Alphanumeric name of the fearsome machine seen hereAnswer B-52

oCategory Decode the Postal CodesVerbal instruction from host Wersquore going to give you a word comprising two postal abbreviations you have to identify the statesClue VainAnswer Virginia and Indiana

Лексические типы ответа ndash LAT (Lexical Answer Type)

Метрики качества ответов - результативность

Показатели двух теоретических QA систем

Показатели результативности чемпионов шоу (2000)

Облако победителей

Линия сравнения результативности (baseline performance)

Сравнение системы тестового поиска и поиска в базе знаний

Результативность Watson (по версиям)

Основы подхода Deep QA

bull Massive parallelism использование высокого параллелизма при рассмотрении множественных интерпретаций и гипотез

bull Many experts привлечение интеграции приложения и контекстуального оценивания в широком диапазоне слабосвязанных вероятностных вопросов и контентной аналитики

bull Pervasive confidence estimation повсеместная оценка доверия означает что ни один из компонентов не включается в ответ сразу все компоненты имеют признаки и связанные с ними уровни доверия производится скоринг различных вопросов и контентная интерпретация Основа confidence-processing состоит в обучении как стэкировать и комбинировать баллы

bull Integrate shallow and deep knowledge интеграция поверхностных и глубинных знаний состоит в балансе использования строгой семантики и мелких семантик использующих множества слабо сформированных онтологий

bull Content Acquisition - Сбор контентаСочетает ручные и автоматические этапы Первым шагом является анализ примеров вопросов проблемного пространства чтобы произвести описание видов вопросов на которые нужно ответить и характеризовать область применения Анализ примеров вопросов в первую очередь ручная задача в то время как анализ области может быть выполнен путем автоматических или статистических методов таких как анализ LAT показанный ранее Учитывая вопросы для широкого домена Jeopardy Challenge источники для Watson включают широкий ассортимент энциклопедий словарей тезаурусов Newswire статьи литературные произведения и тд Начиная с разумного размера базового корпуса DeepQA затем применяет автоматический процесс расширения корпуса Процесс включает в себя четыре этапа высокого уровня (1) выявления основных документов и получить соответствующие документы из Интернет (2) извлечь автономные текстовые ядра из связанных веб-документов (3) Оценка на основе ядер являются ли они информативны по отношению к исходному основному документу и (4) объединить наиболее информативные ядра в расширенном корпусе Работающая система использует этот расширенный корпус и не имеет доступа к Интернет во время игры

bull Question Analysis ndash Анализ вопроса

Первый шаг во время выполнения процесса вопрос-ответной системы При анализе вопроса система пытается понять что вопрос задан и выполняет начальный анализ определяющий как вопрос будет обработан на остальных этапах работы системы Подход DeepQA использует смешанный набор экспертов на данном этапе и в системе Watson производится мелкий парсинг глубокий парсинг строятся логические формы семантические этикетки ролей взаимные ссылки отношения именованные сущности и так далее а также конкретные виды анализа для ответа вопрос

bull Question classification - Классификация вопроса

Это задача выявления типа вопроса или частей вопроса которые требуют специальной обработки Это может включать в себя что-нибудь из отдельных слов с двойным смыслом и потенциально до выявления целых статей которые имеют определенную синтаксическую семантическую или риторические функциональные возможности которые могут инициировать нисходящий анализ Классификация может определить вопрос как вопрос- головоломку вопрос-математику -определение и так далее Это будет определять каламбуры ограничения компоненты определений или целые подвопросы в пределах вопросов

bull Focus and LAT Detection ndash Определение фокуса и лексического типа ответа

Лексический тип ответа - это слово или словосочетание в вопросе который определяет тип ответа без попытки понять семантику Определение LAT является важным видом выигрыша и общим источником критических ошибок Преимущество подхода DeepQA является использование многих самостоятельно разработанных алгоритмов laquoответ-типированияraquo Например фокус вопроса викторины laquoПри попадании электронов люминофор излучает электромагнитную энергию в этой формеraquo - является laquoэта формаraquo Фокус часто (но не всегда) содержит полезную информацию об ответе часто субъект или объект отношение в вопросе и может превратить вопрос в фактическое утверждение при замене возможным кандидатом Это представляет полезный способ собирать доказательства о каждом кандидате

bull Relation Detection ndash детектирование отношений

Большинство вопросов содержит отношения являются ли они синтаксическими предикатами субъект-глагол-объект или семантические отношения между субъектами Например в вопросе laquoЕсть два штата в которые вы могли бы войти повторно если вы пересекаете северную границу штата Флоридаraquo мы можем обнаружить отношение границы (Флорида Х к северу) Watson использует обнаружение отношения на протяжении всего процесса QA от фокуса и LAT определения до прохождению и скорингу ответов Watson также может использовать обнаруженные отношения для выделения хранилища триплетов и напрямую генерировать кандидатов в ответы В 20000 игр Jeopardy вопросы например обнаружили распределение Freebase отношений чрезвычайно плоского вида (см рисунок) Это приближение распределеня 50 наиболее частых отношений в 20 000 случайно выбранных вопросах викторины

bull Decomposition ndash декомпозиция

Важным требованием успеха анализа Jeopardy является способность отвечать на вопросы которые разложены на составляющие DeepQA использует основанный на правилах глубокий парсинг и статистические методы классификации чтобы наилучшим образом разложить вопросы на элементы и определить как лучше разбить их на подвопросы Операционная гипотеза что правильная интерпретация вопроса позволит лучше произвести скоринг ответов после того как все доказательства собраны Даже если вопрос не должен быть разложен для определения ответа этот метод может помочь улучшить общее доверие ответу системы DeepQA решает задачи параллельно для каждого разложения применяя алгоритмы от начала до конца каждого подвопроса и синтезирует окончательные ответы DeepQA также поддерживает вложенные декомпозиции вопросов через рекурсивное применение QA системы от начала до конца в внутреннем подвопросе а затем во внешнем Настраиваемые компоненты позволяют легко подключать специализированные алгоритмы синтеза в общую систему

bull Hypothesis Generation ndash генерация гипотез

Генерация гипотез принимает результаты анализа вопросов и производит кандидатов на ответы Каждый кандидат ответ включается обратно в вопрос и это считается как гипотеза Система должна доказать правильность этой гипотезы с некоторой степенью уверенности Как и во всех аспектах DeepQA используется смесь разных подходов для первичного поиска и генерации кандидата в системе Watson

bull Primary Search ndash первичный поиск

В этом поиске целью является найти столько потенциально кандидатов сколько это можно сделать на основе результатов анализа вопроса В течение проекта велись эмпирические исследования направленные на баланс скорости объема и точности Эти исследования позволили регулярно настраивать систему так чтобы найти такое количество кандидатов которые производят наилучший баланс точности и вычислительных ресурсов Оперативная цель основного поиска в конечном счете стабилизировалась на около 85 процентов для топ-250 кандидатов то есть система генерирует правильный ответ как кандидата ответа на 85 процентов вопросов где-то в верхних 250 ранжированных кандидатов Разнообразие методов поиска используются в том числе с использованием нескольких текст поисковых системах с различными базовыми подходами (например Indri и Lucene) поиск документов а также поиска маршрута база знаний поиска с помощью SPARQL хранилища триплетов Для небольшого количества латов которые были определены как закрытые латы кандидат на ответ может быть получен из фиксированного списка в каком-то хранилище известных экземпляров LAT таких как США Президент или Страна

Поиск доказательств

bull Поиск по фразе ndash число соответствий разного типав ответе и вопросеbull Популярность ndash как часто встречается этот вариант ответаbull Соответствие по типу ndash ответ и требование вопросаbull Соответствие по времениbull Надежность источника

bull Candidate Answer Generation ndash генерирование кандидатов на ответ

Результаты поиска применяются для генерирования возможных кандидатов в ответы с помощью различных подходящих техник Для поиска документов извлекаются заголовки и используются как кандидаты Число кандидатов при этом может быть не единственным и требовать использования анализа подстрок и ссылок Используя детектирование именованных сущностей в ряде случаев удается извлечь хороших кандидатов В зависимости от типа источника для генерирования кандидата требуется разный набор алгоритмов например база знаний или обратный словарь порождают кандидатов непосредственно как кандидата Этот этап критически важен и если кандидаты не найдены то фиксируется невозможность ответа В нормальном режиме на этом этапе Watson гененерирует несколько сотен андидатов

bull Soft Filtering ndash мягкая фильтрацияДля ускорения процесса скоринга кандидатов Watson использует различные алгоритмы разной точности Более легковесные (менее вычислительно интенсивные) применяются на первом этапе скоринга На этом этапе устанавливается порог оценки и кандидаты имеющие более высокую оценку считаются прошедшими мягкую фильтрацию Они поступают на выработку гипотез и скоринг доказательств Интересно что кандидаты не прошедшие порог мягкой фильтрации не забываются а направляются прямо на финальный этап слияния Модель скоринга мягкой фильтрации и порога определяются на основе machine learning используя обучающие данные Watson типично пропускает через мягкую фильтрацию 100 кандидатов но эта функция параметризована и их число можно изменить

Проблемы NLP

bull В мае 1898 года Португалия отмечала 400-летний юбилей со дня прибытия этого великого путешественника в Индию

В мае Гари прибыл в Индию после празднования своего юбилея в Португалии

21 мая 1498 года Васка де Гама высадился в местечке Каппад

bull Он был помилован президентом 8 сентября 1974 годаФорд помиловал Никсона 8 сентября 1974 года Никсон Форд

bull Говоря ldquogive a trinklerdquo что предлагают вам сделать британцы по приезду в город

bull Hypothesis and Evidence Scoring ndash скоринг гипотез и доказательств

Прошедшие порог мягкой фильтрации кандидаты поступают на скрупулезный процесс который включает сбор дополнительных поддерживающих доказательств для каждого кандидата на ответ или гипотезу Процесс использует широкий набор различных методов скоринговой аналитики чтобы исследовать все поддерживающие доказательства

bull Evidence Retrieval ndash извлечение доказательств

Чтобы лучше исследовать каждого кандидата прошедшего через мягкую фильтрацию система собирает дополнительные поддерживающие доказательства Архитектура поддерживает интеграцию различных evidence-gathering техник Один из применяемых способов состоит в том что проводится дополнительный поиск в котором кандидат добавляется в качестве required term к первичному запросу извлеченному из вопроса Это будет приводить к получению выражений содержащих кандидата в контексте первичных терминов вопросаПоддерживающие доказательства могут быть извлечены и из других источников например из RDF баз знаний Извлеченные поддерживающие доказательства направляются модули глубокого скоринга которые анализируют кандидата в контексте поддерживающего доказательства

bull Scoring ndash скоринг (количественное оценивание)

Алгоритмы скоринга определяют степень несомненности которую обеспечивают доказательства в поддержку кандидата The DeepQA framework поддерживает множество компонент для выработки оценки в различных измерениях каждого доказательства которая вырабатывает оценку связанную с тем насколько хорошо доказательство поддерживает кандидата на ответ в качестве ответа на заданный вопросDeepQA использует общий формат для оценок для принятых гипотез и подтверждающих оценок отражающих семантические и ограничивающие факторы Это позволяет разработчикам DeepQA быстро разворачивать перемешивать и настраивать сложные совокупности модуле для обработкиНапрмер Watson использует больше чем 50 скоринговых компонент Они производят оценки разноготипа от оценок вероятностей до подсчета категориальных свойств основанных на доказательствах от различных источников включая неструктурированные тексты полуструктурированные тексты и RDF хранилища Эти оценки используют такие данные как degree of match between a passagersquos predicate-argument structure and the question passage source reliability geospatial location temporal relationships taxonomic classification the lexical and semantic relations the candidate is known to participate in the candidatersquos correlation with question terms its popularity (or obscurity) its aliases and so on

Вопрос Чили имеет самую длинную общую границу со страной Сгенерировано несколько кандидатов среди них Аргентина и Боливия Первичный поиск даст приоритет Боливии из=а популярности обсуждений их отношений Однако собранные Watson доказательства из других источников показывают более высокую оценку для Аргентины

Скоринг (взвешивание) доказательств ndash предиктивная аналитика

- При делении клеток митозом называется деление ядра а цитокинезом ndash деление этой жидкости в которой находится ядро

Генерирование кандидатов Сбор доказательств Уверенность в доказательстве

ОрганеллыВакуольЦитоплазмаПлазмамитохондрии

Органеллы ndash не жидкостьВакуоль ndash не жидкостьЦитоплазма ndash возможно жидкостьПлазма ndash не жидкостьМитохондрии ndash не жидкость

Цитоплазма ndash 92Органеллы ndash 19Вакуоль ndash 10Плазма ndash 2Митохондрии ndash 2

Answer Merging ndash объединение ответов

Многие кандидаты в ответы на поставленный вопрос могут быть эквивалентны несмотря на различные внешне формыТехники ранжирования тем не менее рассматривают таких кандидатов как различные Без объединения алгоритмы ранжирования будут работать отдельно с эквивалентными сущностями и пытаться противопоставить одну форму другой Это приведет к проблемам принятия решений Watson содержит алгоритмы идентификации эквивалентных сущностей используя множественные сравнения нормализацию и методы разрешения совместных ссылок

Ranking and Confidence Estimation ndash ранжирование и оценивание доверияПосле объединения система должна произвести ранжирование гипотез и оценивает доверие основанное на объединенных оценках В системе подобран ML подход основанный на обучении на обучающем наборе вопросов с известными ответами и обучение модели основываясь на скоринге Применяется как весьма плоская модель и существующие алгоритмы ранжирования Для более тонких оценок применяется двухфазный процесс использующий группы оценок для оценивания профиля и для оценки доверия Используя эту промежуточную модель система производит ансамбль промежуточных оценок Здесь используется иерархическая техника метаучителя и коллектива экспертов Этот подход обеспечивает итеративное расширение обучения используя изощренные и глубокие иерархические модели обеспечивающие гибкость и робастность при выработке оценок и модифицирует системуМетаучитель в Watson использует набор многие обучаемые модели чтобы управлять различными классами вопросов которые могут быть критическими при идентификации правильных ответовНаконец важно что использование NLP-based скоринга дает весьма разреженные оценки и требует точного оценивания с применением confidence-weighted learning techniques

Развертывание Watson

bull DeepQA разработан используя Apache UIMA - framework implementation of the Unstructured Information Management Architecture (Ferrucci and Lally 2004) UIMA был разработан для поддержки взаимодействия и масштабирования приложений обработки текста и мультимодального анализа Все компоненты DeepQA имплементированы как UIMA annotators Это программные компоненты для анализа текста и получения аннотаций или заключений о тексте Watson развивался в процессе разработки от нескольких компонент до нескольких сотен UIMA обеспечивает быструю интеграцию компонент тестирование и исследование

bull Начальная имплементация Watson запускалась на одном процессоре и требовала 2 часа на ответ на один вопрос DeepQA развился в параллельную систему используя UIMA-AS часть Apache UIMA масштабируя приложения UIMA используя асинхронный механизм месседжинга UIMA-AS позволила масштабировать Watson более чем на 2500 вычислительных ядер UIMA-AS управляет коммуникациями месседжингом управлением запросами используя open JMS standard UIMA-AS позволил снизить латентность Watson до 3ndash5 секунд

bull Для препроцессинга корпуса текстов создания быстрых run-time indices использован Hadoop

UIMA annotators были развернуты как mapper ы в Hadoop map-reduce framework Hadoop распределяет контент по кластеру для обеспечения высокого использования CPU и обеспечивает подходящий набор инструментов для deploying managing and monitoring the corpus analysis process

bull Аппаратная платформа ndash это 90 серверов 2800 ядер 15 ТБ RAM 80 Тфлопс $3 000 000 10 R

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 6: !Predictive analytics part_3

Пакеты и функции в составе NLP package которые потребуются нам

bull library(NLP)bull library(tm) - Text Mining Packagebull library(Wordcloud) - Word Clouds buildingbull library(RColorBrewer)bull library(SnowballC)bull library(lsa)

Подготовка текста

Файлы хранятся в каталоге articlesdirpath lt- DStudy10-АСBig DataTextarticles lt- Corpus(DirSource(dirpath) readerControl = list(reader = readPlain language = ru load = T)) Текстовые файлы были сохранены в кодировке Windows Конвертируемarticles lt- tm_map(articles iconv cp1251 UTF-8)articles lt- tm_map(articles stripWhitespace)articles lt- tm_map(articles tolower)articles lt- tm_map(articles removeNumbers)articles lt- tm_map(articles removeWords stopwords(russian))articles lt- tm_map(articles removePunctuation)

articles lt- tm_map(articles PlainTextDocument)wordcloud(articles randomorder=F maxwords=80 colors=brewerpal(6Dark2))

inspect(articles)

gt stopwords(russian) [1] и в во не что он на я с со [11] как а то все она так его но да ты [21] к у же вы за бы по только ее мне [31] было вот от меня еще нет о из ему теперь [41] когда даже ну вдруг ли если уже или ни быть [51] был него до вас нибудь опять уж вам сказал ведь [61] там потом себя ничего ей может они тут где есть [71] надо ней для мы тебя их чем была сам чтоб [81] без будто человек чего раз тоже себе под жизнь будет [91] ж тогда кто этот говорил того потому этого какой совсем [101] ним здесь этом один почти мой тем чтобы нее кажется[111] сейчас были куда зачем сказать всех никогда сегодня можно при [121] наконец два об другой хоть после над больше тот через [131] эти нас про всего них какая много разве сказала три [141] эту моя впрочем хорошо свою этой перед иногда лучше чуть [151] том нельзя такой им более всегда конечно всю между

Генерирование облака слов

wordcloud(articles randomorder=F maxwords=80colors=brewerpal(6Oranges))

Стемминг ndash морфологический анализ Stemminggtlibrary( SnowballC)gt wordStem(c(молодёжный молодёжного молодёжном года году участники участников) language=ru)[1] молодёжн молодёжн молодёжн год год участник участник

Использование функции mystemexe от Яндекс

mystemexe to the catalogarticlesmystem lt- function(doc) library(stringr) sdoc lt- system(mystem -nl -e utf-8 intern=T input=doc) При получении нескольких вариантов mystem разделяет ихdirpathlt-articles вертикальной чертой Удалим черту и варианты sdoc lt- str_replace(sdoc |$ ) Если mystem сомневается в результате он добавляет знак вопроса Удаляемsummary sdoc lt- str_replace(sdoc ) sdoc lt- paste(sdoc collapse= ) attributes(sdoc) lt- attributes(doc) sdoc

LSA - Латентный семантический анализ

Сравнение текстов по смысловому содержанию

Определения

Латентно-семантический анализ отображает документы и отдельные слова в так называемое laquoсемантическое пространствоraquo в котором и производятся все дальнейшие сравнения При этом делаются следующие предположения

1) Документы это просто набор слов Порядок слов в документах игнорируется Важно только то сколько раз то или иное слово встречается в документе2) Семантическое значение документа определяется набором слов которые как правило идут вместе Например в биржевых сводках часто встречаются слова laquoфондraquo laquoакцияraquo laquoдолларraquo3) Каждое слово имеет единственное значение Это безусловно сильное упрощение но именно оно делает проблему разрешимой

Основные этапы

bull Удаление слов из laquoстоп-спискаraquobull Стеммингbull Удаление уникальных словbull Построение частотной матрицы А индексируемых слов (TF-IDF)

строки ndash словастолбцы ndash тексты

bull Сингулярное разложение (SVD) матрицыbull Определение существенной размерности (главных компонент)bull Усечение размерности семантического пространстваbull Представление слов и текстов в усеченном пространствеbull Визуализация и ассоциативная кластеризация текстов

TF-IDF анализ

TF (term frequency mdash частота слова) mdash отношение числа вхождения некоторого слова к общему количеству слов документа Таким образом оценивается важность слова t_i в пределах отдельного документа

где есть число вхождений слова в документ а в знаменателе mdash общее число слов в данном документеIDF (inverse document frequency mdash обратная частота документа) mdash инверсия частоты с которой некоторое слово встречается в документах коллекции Основоположником данной концепции является Карен ДжонсУчёт IDF уменьшает вес широкоупотребительных слов Для каждого уникального слова в пределах конкретной коллекции документов существует только одно значение IDF

D -количество документов в корпусеколичество документов в которых встречается t

Частотная матрица для двух далеких текстов

Частотная матрица для двух более близких текстов

Карта слов для двух выбранных документов

Разложение матрицы laquoслова-документыraquo

Модель векторного пространства

bull Наиболее распространенный вариант LSA основан на использовании разложения вещественнозначной матрицы по сингулярным значениям или SVD-разложения (SVD ndash Singular Value Decomposition) С помощью него любую матрицу можно разложить в множество ортогональных матриц линейная комбинация которых является достаточно точным приближением к исходной матрице Обычно используют мультипликативное разложение

bull где матрицы U и V ndash ортогональные а S ndash диагональная матрица значения на диагонали которой называются сингулярными значениями матрицы A

bull Символ Т в обозначении матрицы означает транспонирование матрицы

bull Основная идея латентно-семантического анализа состоит в следующем

bull после перемножения матриц полученная матрица Ă содержащая только k первых линейно независимых компонент исходной матрицы A отражает структуру зависимостей (в данном случае ассоциативных) латентно присутствующих в исходной матрице Структура зависимостей определяется весовыми функциями термов для каждого документа

Особенность такого разложения в том что если в матрице S оставить только k наибольших сингулярных значений то линейная комбинация получившихся матриц будет наилучшим приближением исходной матрицы A к матрице Ă ранга k

Пример

bull c1 Human machine interface for ABC computer applicationsbull c2 A survey of user opinion of computer system response timebull c3 The EPS user interface management systembull c4 System and human system engineering testing of EPSbull c5 Relation of user perceived response time to error measurementbull m1 The generation of random binary ordered treesbull m2 The intersection graph of paths in treesbull m3 Graph minors IV Widths of trees and well-quasi-orderingbull m4 Graph minors A survey

Желтым отмечены слова встречающиеся хотя бы в двух заголовках

После SVD

Семантическое пространство

Матрица расстояний между словами

Результат снижения размерности кластеризация [human interface computer user EPS response time][survey trees graph minors]

Расстояния между заголовками до и после SVD

bull Объем корпуса для построения модели должен быть большим ndash желательно около трех-пяти миллионов словоупотреблений Но метод работает и на коллекциях меньшего объема правда несколько хужеПроизвольное разбиение текста на документы обычно производят от тысячи до нескольких десятков тысяч частей примерно одинакового объема Таким образом матрица термы-на-документы получается прямоугольной и может быть сильно разраженной Например при объеме 5 млн словоформ получается матрица 30-50 тысяч документов на 200-300 тысяч а иногда и более термов В действительности низкочастотные термы можно опустить тк это заметно снизит размерность матрицы (скажем если не использовать 5 от общего объема низкочастотных термов то размерность сократиться в два раза) что приведет к снижению вычислительных ресурсов и времениВыбор сокращения сингулярных значений диагональной матрицы (размерности k) при обратном перемножении матриц достаточно произвольно При вышеуказанной размерности матрицы оставляют несколько сотен (100-300) главных компонент При этом как показывает практика зависимость количества компонент и точность меняются нелинейно например если начинать увеличивать их число то точность будет падать но при некотором значении скажем 10000 ndash опять вырастет до оптимального случая

Применение

bull сравнение двух термов между собойbull сравнение двух документов между собойbull сравнение терма и документа

Так же иногда этот метод используют для нахождения laquoближайшего соседаraquo mdash наиболее близких по весу термов ассоциативно связанных с исходным Это свойство используют для поиска близких по смыслу термов Следует уточнить что близость по смыслу ndash это контекстнозависимая величина поэтому не всякий близкий терм будет соответствовать ассоциации (это может быть и синоним и антоним и просто часто встречающееся вместе с искомым термом слово или словосочетание)

bull Достоинством метода можно считать его замечательную способность выявлять зависимости между словами когда обычные статистические методы бессильны LSA также может быть применен как с обучением (с предварительной тематической классификацией документов) так и без обучения (произвольное разбиение произвольного текста) что зависит от решаемой задачи

bull Об основных недостатках значительное снижение скорости вычисления при увеличении объема входных данных (в частности при SVD-преобразовании)

bull Как показано в литературе скорость вычисления соответствует порядку где сумма количества документов и термов kndash размерность пространства факторов

На рисунке показано возникновение и изменение главных факторов при уменьшении числа сингулярных элементов диагональной матрицы от 100 до ~12 Трехмерные рисунки представляют собой симметричную матрицу полученную в результате вычисления скалярного произведения векторов каждого эталонного документа с каждым тестируемым Эталонный набор векторов ndash это заранее размеченный на 30 документов текст тестируемый ndash с уменьшением числа сингулярных значений диагональной матрицы полученной при SVD-анализе На осях X и Y откладывается количество документов (эталонных и тестируемых) на оси Z ndash объем лексиконаНа рисунках хорошо видно что при уменьшении числа сингулярных диагональных элементов на 20-30 факторы еще не достаточно ярко выявлены но при этом возникают корреляции похожих документов (небольшие пики вне диагонали) которые сначала незначительно увеличиваются а затем с уменьшением числа сингулярных значений (до 70-80) ndash исчезают При автоматической кластеризации такие пики являются шумом поэтому их желательно минимизировать Если же целью является получение ассоциативных связей внутри документов то следует найти оптимальное соотношение сохранения основного лексикона и примешивания ассоциативного

Имплементация в R - Package lsquolsarsquoalnumx - Regular expression for removal of non-alphanumeric characters (saving special characters)

astextmatrix - Display a latent semantic space generated by Latent Semantic Analysis (LSA)

associate - Find close terms in a textmatrix

corpora - Corpora (Essay Scoring) dimcalc Dimensionality Calculation Routines (LSA)

dimcalc - Dimensionality Calculation Routines (LSA)

lsa - Create a vector space with Latent Semantic Analysis (LSA)

printtextmatrix - Print a textmatrix (Matrices)

sampletextmatrix - Create a random sample of files

textmatrix - Создает Textmatrix (Matrices) из файлов

Пример 1

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) read files into a document-term matrixmyMatrix = textmatrix(td minWordLength=1) create the latent semantic spacemyLSAspace = lsa(myMatrix dims=dimcalc_raw()) display it as a textmatrix againround(astextmatrix(myLSAspace)2) should give the original create the latent semantic spacemyLSAspace = lsa(myMatrix dims=dimcalc_share())

Пример 2

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) create matricesmyMatrix = textmatrix(td minWordLength=1)myLSAspace = lsa(myMatrix dims=dimcalc_share())myNewMatrix = astextmatrix(myLSAspace) calc associations for mouseassociate(myNewMatrix mouse) clean upunlink(td recursive=TRUE)

Пример 3 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(ham mouse sushi) file=paste(td D2 sep=) )write( c(dog pet pet) file=paste(td D3 sep=) ) LSAdata(stopwords_en)myMatrix = textmatrix(td stopwords=stopwords_en)myMatrix = lw_logtf(myMatrix) gw_idf(myMatrix)myLSAspace = lsa(myMatrix dims=dimcalc_share())astextmatrix(myLSAspace) clean upunlink(td recursive=TRUE)

Пример 4 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(hamster mouse sushi) file=paste(td D2 sep=) )write( c(dog monster monster) file=paste(td D3 sep=) ) read them create a document-term matrixtextmatrix(td) read them drop german stopwordsdata(stopwords_de)textmatrix(td stopwords=stopwords_de) read them based on a controlled vocabularyvoc = c(dog mouse)textmatrix(td vocabulary=voc minWordLength=1) clean up

Вместо заключения Очевидным недостатком LSA является ненормальность (негаусовость) вероятностного распределения слов в любом естественном языке Но эту проблему можно решить сглаживанием выборки (например применив фонетические слова распределение становится более laquoнормальнымraquo) Либо используют вероятностный LSA тназ PLSA основанный на мультиноминальном распределении Другим менее очевидным недостаткам LSA (и ему подобных методов) применительно к обработке неструктурированной информации можно отнести laquoтуманностьraquo самого метода (в частности выбора кол-ва сингулярных значений диагональной матрицы) и интерпретации результата не говоря уже о проблеме сбалансированности обучающего текста

Как правило для качественного построения модели оставляют менее 1-2 процента от общего числа диагональных значений (после SVD преобразования но об это в следующем посте) И как показывает практика увеличение числа факторов приводит к ухудшению результата Но дойдя примерно до 10 процентов от общего числа диагональных значений опять может быть всплеск аналогичный результату полученному при 1

Сбалансированность корпуса ndash вечная проблема которая не имеет хорошего решения на сегодняшний день Поэтому про нее приято помалкивать

Интерпретируемость результатов LSA (как и DLA) также затруднительна человек еще может понять что за тематику будет содержать топик полученный в результате анализа а вот машине не понять (не аннотировать) тематику без привлечения большого числа хороших и разных тезаурусов

Таким образом несмотря на трудоемкость и непрозрачность LSA он может успешно применяться для разного рада задач где важно поймать семантику сообщения обобщить или расширить laquoсмыслыraquo поискового запроса

bull Стандарт основанный на XML для обмена моделями статистической обработки Data Mining

bull Поддерживается более 20 организациями и поставщиками ПО

bull Реализован в частности и в R

Поддерживаемые предиктивные алгоритмы в R

Состав pmml package

bull addLT

bull addMSAttributes

bull audit

bull fileToXMLNode

bull pmml

bull pmmlada

bull pmmlcoxph

bull pmmlcvglmnet

bull pmmlglm

bull pmmlhclust

bull pmmlkmeans

bull pmmlksvm

bull pmmllm bull pmmlmultinom bull pmmlnaiveBayes bull pmmlnnet bull pmmlrandomForest bull pmmlrfsrc bull pmmlrpart bull pmmlrules bull pmmlsvm bull pmmlCanExport bull pmmltoc

Пример

Good by R see you later alligator

WATSON ndash одно из наиболее впечатляющих применений предиктивной аналитики

Разрабатывался компанией IBM с 2006 по 2010 годПрославился победой в телешоу Jeopardy (в России ndash laquoСвоя играraquo) в 2011 годуПредшественник Deep Blue обыграл чемпиона мира по шахматам Гарри Каспарова в 1997 г

>

IBM Deep QA Project

bull Целью проекта было создать компьютерную систему (ИИ) для ответа на вопросы (QA) задаваемые в свободной форме в телешоу и показать результаты соизмеримые с человеческими

bull Задача более сложная чем шахматная программа Deep Blue выигравшая у Каспарова в 1997 г

bull Вопросы по категориямCategory General ScienceClue When hit by electrons a phosphor gives off electromagnetic energy in this formAnswer Light (or Photons)

Category Lincoln BlogsClue Secretary Chase just submitted this to me for the third time guess what pal This time Irsquom accepting itAnswer his resignation

Category Head NorthClue Theyrsquore the two states you could be reentering if yoursquore crossing Floridarsquos northern borderAnswer Georgia and Alabama

Вопросы могут касаться сразу нескольких фактов чтобы ответ был вернымCategory ldquoRaprdquo SheetClue This archaic term for a mischievous or annoying child can also mean a rogue or scampSubclue 1 This archaic term for a mischievous or annoying childSubclue 2 This term can also mean a rogue or scampAnswer Rapscallion

Category Diplomatic RelationsClue Of the four countries in the world that the United States does not have diplomatic relations with the one thatrsquos farthest northInner subclue The four countries in the world that the United States does not have diplomatic relations with (Bhutan Cuba Iran North Korea)Outer subclue Of Bhutan Cuba Iran and North Korea the one thatrsquos farthest northAnswer North Korea

Вопросы - пазлы

Category Before and After Goes to the MoviesClue Film of a typical day in the life of the Beatles which includes running from bloodthirsty zombie fans in a Romero classicSubclue 2 Film of a typical day in the life of the Beatles Answer 1 (A Hard Dayrsquos Night)Subclue 2 Running from bloodthirsty zombie fans in a Romero classicAnswer 2 (Night of the Living Dead)Answer A Hard Dayrsquos Night of the Living Dead

Category Rhyme TimeClue Itrsquos where Pele stores his ballSubclue 1 Pele ball (soccer)Subclue 2 where store (cabinet drawer locker and so on)Answer soccer locker

Недопустимые типы вопросов

oCategory Picture This(Contestants are shown a picture of a B-52 bomber)Clue Alphanumeric name of the fearsome machine seen hereAnswer B-52

oCategory Decode the Postal CodesVerbal instruction from host Wersquore going to give you a word comprising two postal abbreviations you have to identify the statesClue VainAnswer Virginia and Indiana

Лексические типы ответа ndash LAT (Lexical Answer Type)

Метрики качества ответов - результативность

Показатели двух теоретических QA систем

Показатели результативности чемпионов шоу (2000)

Облако победителей

Линия сравнения результативности (baseline performance)

Сравнение системы тестового поиска и поиска в базе знаний

Результативность Watson (по версиям)

Основы подхода Deep QA

bull Massive parallelism использование высокого параллелизма при рассмотрении множественных интерпретаций и гипотез

bull Many experts привлечение интеграции приложения и контекстуального оценивания в широком диапазоне слабосвязанных вероятностных вопросов и контентной аналитики

bull Pervasive confidence estimation повсеместная оценка доверия означает что ни один из компонентов не включается в ответ сразу все компоненты имеют признаки и связанные с ними уровни доверия производится скоринг различных вопросов и контентная интерпретация Основа confidence-processing состоит в обучении как стэкировать и комбинировать баллы

bull Integrate shallow and deep knowledge интеграция поверхностных и глубинных знаний состоит в балансе использования строгой семантики и мелких семантик использующих множества слабо сформированных онтологий

bull Content Acquisition - Сбор контентаСочетает ручные и автоматические этапы Первым шагом является анализ примеров вопросов проблемного пространства чтобы произвести описание видов вопросов на которые нужно ответить и характеризовать область применения Анализ примеров вопросов в первую очередь ручная задача в то время как анализ области может быть выполнен путем автоматических или статистических методов таких как анализ LAT показанный ранее Учитывая вопросы для широкого домена Jeopardy Challenge источники для Watson включают широкий ассортимент энциклопедий словарей тезаурусов Newswire статьи литературные произведения и тд Начиная с разумного размера базового корпуса DeepQA затем применяет автоматический процесс расширения корпуса Процесс включает в себя четыре этапа высокого уровня (1) выявления основных документов и получить соответствующие документы из Интернет (2) извлечь автономные текстовые ядра из связанных веб-документов (3) Оценка на основе ядер являются ли они информативны по отношению к исходному основному документу и (4) объединить наиболее информативные ядра в расширенном корпусе Работающая система использует этот расширенный корпус и не имеет доступа к Интернет во время игры

bull Question Analysis ndash Анализ вопроса

Первый шаг во время выполнения процесса вопрос-ответной системы При анализе вопроса система пытается понять что вопрос задан и выполняет начальный анализ определяющий как вопрос будет обработан на остальных этапах работы системы Подход DeepQA использует смешанный набор экспертов на данном этапе и в системе Watson производится мелкий парсинг глубокий парсинг строятся логические формы семантические этикетки ролей взаимные ссылки отношения именованные сущности и так далее а также конкретные виды анализа для ответа вопрос

bull Question classification - Классификация вопроса

Это задача выявления типа вопроса или частей вопроса которые требуют специальной обработки Это может включать в себя что-нибудь из отдельных слов с двойным смыслом и потенциально до выявления целых статей которые имеют определенную синтаксическую семантическую или риторические функциональные возможности которые могут инициировать нисходящий анализ Классификация может определить вопрос как вопрос- головоломку вопрос-математику -определение и так далее Это будет определять каламбуры ограничения компоненты определений или целые подвопросы в пределах вопросов

bull Focus and LAT Detection ndash Определение фокуса и лексического типа ответа

Лексический тип ответа - это слово или словосочетание в вопросе который определяет тип ответа без попытки понять семантику Определение LAT является важным видом выигрыша и общим источником критических ошибок Преимущество подхода DeepQA является использование многих самостоятельно разработанных алгоритмов laquoответ-типированияraquo Например фокус вопроса викторины laquoПри попадании электронов люминофор излучает электромагнитную энергию в этой формеraquo - является laquoэта формаraquo Фокус часто (но не всегда) содержит полезную информацию об ответе часто субъект или объект отношение в вопросе и может превратить вопрос в фактическое утверждение при замене возможным кандидатом Это представляет полезный способ собирать доказательства о каждом кандидате

bull Relation Detection ndash детектирование отношений

Большинство вопросов содержит отношения являются ли они синтаксическими предикатами субъект-глагол-объект или семантические отношения между субъектами Например в вопросе laquoЕсть два штата в которые вы могли бы войти повторно если вы пересекаете северную границу штата Флоридаraquo мы можем обнаружить отношение границы (Флорида Х к северу) Watson использует обнаружение отношения на протяжении всего процесса QA от фокуса и LAT определения до прохождению и скорингу ответов Watson также может использовать обнаруженные отношения для выделения хранилища триплетов и напрямую генерировать кандидатов в ответы В 20000 игр Jeopardy вопросы например обнаружили распределение Freebase отношений чрезвычайно плоского вида (см рисунок) Это приближение распределеня 50 наиболее частых отношений в 20 000 случайно выбранных вопросах викторины

bull Decomposition ndash декомпозиция

Важным требованием успеха анализа Jeopardy является способность отвечать на вопросы которые разложены на составляющие DeepQA использует основанный на правилах глубокий парсинг и статистические методы классификации чтобы наилучшим образом разложить вопросы на элементы и определить как лучше разбить их на подвопросы Операционная гипотеза что правильная интерпретация вопроса позволит лучше произвести скоринг ответов после того как все доказательства собраны Даже если вопрос не должен быть разложен для определения ответа этот метод может помочь улучшить общее доверие ответу системы DeepQA решает задачи параллельно для каждого разложения применяя алгоритмы от начала до конца каждого подвопроса и синтезирует окончательные ответы DeepQA также поддерживает вложенные декомпозиции вопросов через рекурсивное применение QA системы от начала до конца в внутреннем подвопросе а затем во внешнем Настраиваемые компоненты позволяют легко подключать специализированные алгоритмы синтеза в общую систему

bull Hypothesis Generation ndash генерация гипотез

Генерация гипотез принимает результаты анализа вопросов и производит кандидатов на ответы Каждый кандидат ответ включается обратно в вопрос и это считается как гипотеза Система должна доказать правильность этой гипотезы с некоторой степенью уверенности Как и во всех аспектах DeepQA используется смесь разных подходов для первичного поиска и генерации кандидата в системе Watson

bull Primary Search ndash первичный поиск

В этом поиске целью является найти столько потенциально кандидатов сколько это можно сделать на основе результатов анализа вопроса В течение проекта велись эмпирические исследования направленные на баланс скорости объема и точности Эти исследования позволили регулярно настраивать систему так чтобы найти такое количество кандидатов которые производят наилучший баланс точности и вычислительных ресурсов Оперативная цель основного поиска в конечном счете стабилизировалась на около 85 процентов для топ-250 кандидатов то есть система генерирует правильный ответ как кандидата ответа на 85 процентов вопросов где-то в верхних 250 ранжированных кандидатов Разнообразие методов поиска используются в том числе с использованием нескольких текст поисковых системах с различными базовыми подходами (например Indri и Lucene) поиск документов а также поиска маршрута база знаний поиска с помощью SPARQL хранилища триплетов Для небольшого количества латов которые были определены как закрытые латы кандидат на ответ может быть получен из фиксированного списка в каком-то хранилище известных экземпляров LAT таких как США Президент или Страна

Поиск доказательств

bull Поиск по фразе ndash число соответствий разного типав ответе и вопросеbull Популярность ndash как часто встречается этот вариант ответаbull Соответствие по типу ndash ответ и требование вопросаbull Соответствие по времениbull Надежность источника

bull Candidate Answer Generation ndash генерирование кандидатов на ответ

Результаты поиска применяются для генерирования возможных кандидатов в ответы с помощью различных подходящих техник Для поиска документов извлекаются заголовки и используются как кандидаты Число кандидатов при этом может быть не единственным и требовать использования анализа подстрок и ссылок Используя детектирование именованных сущностей в ряде случаев удается извлечь хороших кандидатов В зависимости от типа источника для генерирования кандидата требуется разный набор алгоритмов например база знаний или обратный словарь порождают кандидатов непосредственно как кандидата Этот этап критически важен и если кандидаты не найдены то фиксируется невозможность ответа В нормальном режиме на этом этапе Watson гененерирует несколько сотен андидатов

bull Soft Filtering ndash мягкая фильтрацияДля ускорения процесса скоринга кандидатов Watson использует различные алгоритмы разной точности Более легковесные (менее вычислительно интенсивные) применяются на первом этапе скоринга На этом этапе устанавливается порог оценки и кандидаты имеющие более высокую оценку считаются прошедшими мягкую фильтрацию Они поступают на выработку гипотез и скоринг доказательств Интересно что кандидаты не прошедшие порог мягкой фильтрации не забываются а направляются прямо на финальный этап слияния Модель скоринга мягкой фильтрации и порога определяются на основе machine learning используя обучающие данные Watson типично пропускает через мягкую фильтрацию 100 кандидатов но эта функция параметризована и их число можно изменить

Проблемы NLP

bull В мае 1898 года Португалия отмечала 400-летний юбилей со дня прибытия этого великого путешественника в Индию

В мае Гари прибыл в Индию после празднования своего юбилея в Португалии

21 мая 1498 года Васка де Гама высадился в местечке Каппад

bull Он был помилован президентом 8 сентября 1974 годаФорд помиловал Никсона 8 сентября 1974 года Никсон Форд

bull Говоря ldquogive a trinklerdquo что предлагают вам сделать британцы по приезду в город

bull Hypothesis and Evidence Scoring ndash скоринг гипотез и доказательств

Прошедшие порог мягкой фильтрации кандидаты поступают на скрупулезный процесс который включает сбор дополнительных поддерживающих доказательств для каждого кандидата на ответ или гипотезу Процесс использует широкий набор различных методов скоринговой аналитики чтобы исследовать все поддерживающие доказательства

bull Evidence Retrieval ndash извлечение доказательств

Чтобы лучше исследовать каждого кандидата прошедшего через мягкую фильтрацию система собирает дополнительные поддерживающие доказательства Архитектура поддерживает интеграцию различных evidence-gathering техник Один из применяемых способов состоит в том что проводится дополнительный поиск в котором кандидат добавляется в качестве required term к первичному запросу извлеченному из вопроса Это будет приводить к получению выражений содержащих кандидата в контексте первичных терминов вопросаПоддерживающие доказательства могут быть извлечены и из других источников например из RDF баз знаний Извлеченные поддерживающие доказательства направляются модули глубокого скоринга которые анализируют кандидата в контексте поддерживающего доказательства

bull Scoring ndash скоринг (количественное оценивание)

Алгоритмы скоринга определяют степень несомненности которую обеспечивают доказательства в поддержку кандидата The DeepQA framework поддерживает множество компонент для выработки оценки в различных измерениях каждого доказательства которая вырабатывает оценку связанную с тем насколько хорошо доказательство поддерживает кандидата на ответ в качестве ответа на заданный вопросDeepQA использует общий формат для оценок для принятых гипотез и подтверждающих оценок отражающих семантические и ограничивающие факторы Это позволяет разработчикам DeepQA быстро разворачивать перемешивать и настраивать сложные совокупности модуле для обработкиНапрмер Watson использует больше чем 50 скоринговых компонент Они производят оценки разноготипа от оценок вероятностей до подсчета категориальных свойств основанных на доказательствах от различных источников включая неструктурированные тексты полуструктурированные тексты и RDF хранилища Эти оценки используют такие данные как degree of match between a passagersquos predicate-argument structure and the question passage source reliability geospatial location temporal relationships taxonomic classification the lexical and semantic relations the candidate is known to participate in the candidatersquos correlation with question terms its popularity (or obscurity) its aliases and so on

Вопрос Чили имеет самую длинную общую границу со страной Сгенерировано несколько кандидатов среди них Аргентина и Боливия Первичный поиск даст приоритет Боливии из=а популярности обсуждений их отношений Однако собранные Watson доказательства из других источников показывают более высокую оценку для Аргентины

Скоринг (взвешивание) доказательств ndash предиктивная аналитика

- При делении клеток митозом называется деление ядра а цитокинезом ndash деление этой жидкости в которой находится ядро

Генерирование кандидатов Сбор доказательств Уверенность в доказательстве

ОрганеллыВакуольЦитоплазмаПлазмамитохондрии

Органеллы ndash не жидкостьВакуоль ndash не жидкостьЦитоплазма ndash возможно жидкостьПлазма ndash не жидкостьМитохондрии ndash не жидкость

Цитоплазма ndash 92Органеллы ndash 19Вакуоль ndash 10Плазма ndash 2Митохондрии ndash 2

Answer Merging ndash объединение ответов

Многие кандидаты в ответы на поставленный вопрос могут быть эквивалентны несмотря на различные внешне формыТехники ранжирования тем не менее рассматривают таких кандидатов как различные Без объединения алгоритмы ранжирования будут работать отдельно с эквивалентными сущностями и пытаться противопоставить одну форму другой Это приведет к проблемам принятия решений Watson содержит алгоритмы идентификации эквивалентных сущностей используя множественные сравнения нормализацию и методы разрешения совместных ссылок

Ranking and Confidence Estimation ndash ранжирование и оценивание доверияПосле объединения система должна произвести ранжирование гипотез и оценивает доверие основанное на объединенных оценках В системе подобран ML подход основанный на обучении на обучающем наборе вопросов с известными ответами и обучение модели основываясь на скоринге Применяется как весьма плоская модель и существующие алгоритмы ранжирования Для более тонких оценок применяется двухфазный процесс использующий группы оценок для оценивания профиля и для оценки доверия Используя эту промежуточную модель система производит ансамбль промежуточных оценок Здесь используется иерархическая техника метаучителя и коллектива экспертов Этот подход обеспечивает итеративное расширение обучения используя изощренные и глубокие иерархические модели обеспечивающие гибкость и робастность при выработке оценок и модифицирует системуМетаучитель в Watson использует набор многие обучаемые модели чтобы управлять различными классами вопросов которые могут быть критическими при идентификации правильных ответовНаконец важно что использование NLP-based скоринга дает весьма разреженные оценки и требует точного оценивания с применением confidence-weighted learning techniques

Развертывание Watson

bull DeepQA разработан используя Apache UIMA - framework implementation of the Unstructured Information Management Architecture (Ferrucci and Lally 2004) UIMA был разработан для поддержки взаимодействия и масштабирования приложений обработки текста и мультимодального анализа Все компоненты DeepQA имплементированы как UIMA annotators Это программные компоненты для анализа текста и получения аннотаций или заключений о тексте Watson развивался в процессе разработки от нескольких компонент до нескольких сотен UIMA обеспечивает быструю интеграцию компонент тестирование и исследование

bull Начальная имплементация Watson запускалась на одном процессоре и требовала 2 часа на ответ на один вопрос DeepQA развился в параллельную систему используя UIMA-AS часть Apache UIMA масштабируя приложения UIMA используя асинхронный механизм месседжинга UIMA-AS позволила масштабировать Watson более чем на 2500 вычислительных ядер UIMA-AS управляет коммуникациями месседжингом управлением запросами используя open JMS standard UIMA-AS позволил снизить латентность Watson до 3ndash5 секунд

bull Для препроцессинга корпуса текстов создания быстрых run-time indices использован Hadoop

UIMA annotators были развернуты как mapper ы в Hadoop map-reduce framework Hadoop распределяет контент по кластеру для обеспечения высокого использования CPU и обеспечивает подходящий набор инструментов для deploying managing and monitoring the corpus analysis process

bull Аппаратная платформа ndash это 90 серверов 2800 ядер 15 ТБ RAM 80 Тфлопс $3 000 000 10 R

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 7: !Predictive analytics part_3

Подготовка текста

Файлы хранятся в каталоге articlesdirpath lt- DStudy10-АСBig DataTextarticles lt- Corpus(DirSource(dirpath) readerControl = list(reader = readPlain language = ru load = T)) Текстовые файлы были сохранены в кодировке Windows Конвертируемarticles lt- tm_map(articles iconv cp1251 UTF-8)articles lt- tm_map(articles stripWhitespace)articles lt- tm_map(articles tolower)articles lt- tm_map(articles removeNumbers)articles lt- tm_map(articles removeWords stopwords(russian))articles lt- tm_map(articles removePunctuation)

articles lt- tm_map(articles PlainTextDocument)wordcloud(articles randomorder=F maxwords=80 colors=brewerpal(6Dark2))

inspect(articles)

gt stopwords(russian) [1] и в во не что он на я с со [11] как а то все она так его но да ты [21] к у же вы за бы по только ее мне [31] было вот от меня еще нет о из ему теперь [41] когда даже ну вдруг ли если уже или ни быть [51] был него до вас нибудь опять уж вам сказал ведь [61] там потом себя ничего ей может они тут где есть [71] надо ней для мы тебя их чем была сам чтоб [81] без будто человек чего раз тоже себе под жизнь будет [91] ж тогда кто этот говорил того потому этого какой совсем [101] ним здесь этом один почти мой тем чтобы нее кажется[111] сейчас были куда зачем сказать всех никогда сегодня можно при [121] наконец два об другой хоть после над больше тот через [131] эти нас про всего них какая много разве сказала три [141] эту моя впрочем хорошо свою этой перед иногда лучше чуть [151] том нельзя такой им более всегда конечно всю между

Генерирование облака слов

wordcloud(articles randomorder=F maxwords=80colors=brewerpal(6Oranges))

Стемминг ndash морфологический анализ Stemminggtlibrary( SnowballC)gt wordStem(c(молодёжный молодёжного молодёжном года году участники участников) language=ru)[1] молодёжн молодёжн молодёжн год год участник участник

Использование функции mystemexe от Яндекс

mystemexe to the catalogarticlesmystem lt- function(doc) library(stringr) sdoc lt- system(mystem -nl -e utf-8 intern=T input=doc) При получении нескольких вариантов mystem разделяет ихdirpathlt-articles вертикальной чертой Удалим черту и варианты sdoc lt- str_replace(sdoc |$ ) Если mystem сомневается в результате он добавляет знак вопроса Удаляемsummary sdoc lt- str_replace(sdoc ) sdoc lt- paste(sdoc collapse= ) attributes(sdoc) lt- attributes(doc) sdoc

LSA - Латентный семантический анализ

Сравнение текстов по смысловому содержанию

Определения

Латентно-семантический анализ отображает документы и отдельные слова в так называемое laquoсемантическое пространствоraquo в котором и производятся все дальнейшие сравнения При этом делаются следующие предположения

1) Документы это просто набор слов Порядок слов в документах игнорируется Важно только то сколько раз то или иное слово встречается в документе2) Семантическое значение документа определяется набором слов которые как правило идут вместе Например в биржевых сводках часто встречаются слова laquoфондraquo laquoакцияraquo laquoдолларraquo3) Каждое слово имеет единственное значение Это безусловно сильное упрощение но именно оно делает проблему разрешимой

Основные этапы

bull Удаление слов из laquoстоп-спискаraquobull Стеммингbull Удаление уникальных словbull Построение частотной матрицы А индексируемых слов (TF-IDF)

строки ndash словастолбцы ndash тексты

bull Сингулярное разложение (SVD) матрицыbull Определение существенной размерности (главных компонент)bull Усечение размерности семантического пространстваbull Представление слов и текстов в усеченном пространствеbull Визуализация и ассоциативная кластеризация текстов

TF-IDF анализ

TF (term frequency mdash частота слова) mdash отношение числа вхождения некоторого слова к общему количеству слов документа Таким образом оценивается важность слова t_i в пределах отдельного документа

где есть число вхождений слова в документ а в знаменателе mdash общее число слов в данном документеIDF (inverse document frequency mdash обратная частота документа) mdash инверсия частоты с которой некоторое слово встречается в документах коллекции Основоположником данной концепции является Карен ДжонсУчёт IDF уменьшает вес широкоупотребительных слов Для каждого уникального слова в пределах конкретной коллекции документов существует только одно значение IDF

D -количество документов в корпусеколичество документов в которых встречается t

Частотная матрица для двух далеких текстов

Частотная матрица для двух более близких текстов

Карта слов для двух выбранных документов

Разложение матрицы laquoслова-документыraquo

Модель векторного пространства

bull Наиболее распространенный вариант LSA основан на использовании разложения вещественнозначной матрицы по сингулярным значениям или SVD-разложения (SVD ndash Singular Value Decomposition) С помощью него любую матрицу можно разложить в множество ортогональных матриц линейная комбинация которых является достаточно точным приближением к исходной матрице Обычно используют мультипликативное разложение

bull где матрицы U и V ndash ортогональные а S ndash диагональная матрица значения на диагонали которой называются сингулярными значениями матрицы A

bull Символ Т в обозначении матрицы означает транспонирование матрицы

bull Основная идея латентно-семантического анализа состоит в следующем

bull после перемножения матриц полученная матрица Ă содержащая только k первых линейно независимых компонент исходной матрицы A отражает структуру зависимостей (в данном случае ассоциативных) латентно присутствующих в исходной матрице Структура зависимостей определяется весовыми функциями термов для каждого документа

Особенность такого разложения в том что если в матрице S оставить только k наибольших сингулярных значений то линейная комбинация получившихся матриц будет наилучшим приближением исходной матрицы A к матрице Ă ранга k

Пример

bull c1 Human machine interface for ABC computer applicationsbull c2 A survey of user opinion of computer system response timebull c3 The EPS user interface management systembull c4 System and human system engineering testing of EPSbull c5 Relation of user perceived response time to error measurementbull m1 The generation of random binary ordered treesbull m2 The intersection graph of paths in treesbull m3 Graph minors IV Widths of trees and well-quasi-orderingbull m4 Graph minors A survey

Желтым отмечены слова встречающиеся хотя бы в двух заголовках

После SVD

Семантическое пространство

Матрица расстояний между словами

Результат снижения размерности кластеризация [human interface computer user EPS response time][survey trees graph minors]

Расстояния между заголовками до и после SVD

bull Объем корпуса для построения модели должен быть большим ndash желательно около трех-пяти миллионов словоупотреблений Но метод работает и на коллекциях меньшего объема правда несколько хужеПроизвольное разбиение текста на документы обычно производят от тысячи до нескольких десятков тысяч частей примерно одинакового объема Таким образом матрица термы-на-документы получается прямоугольной и может быть сильно разраженной Например при объеме 5 млн словоформ получается матрица 30-50 тысяч документов на 200-300 тысяч а иногда и более термов В действительности низкочастотные термы можно опустить тк это заметно снизит размерность матрицы (скажем если не использовать 5 от общего объема низкочастотных термов то размерность сократиться в два раза) что приведет к снижению вычислительных ресурсов и времениВыбор сокращения сингулярных значений диагональной матрицы (размерности k) при обратном перемножении матриц достаточно произвольно При вышеуказанной размерности матрицы оставляют несколько сотен (100-300) главных компонент При этом как показывает практика зависимость количества компонент и точность меняются нелинейно например если начинать увеличивать их число то точность будет падать но при некотором значении скажем 10000 ndash опять вырастет до оптимального случая

Применение

bull сравнение двух термов между собойbull сравнение двух документов между собойbull сравнение терма и документа

Так же иногда этот метод используют для нахождения laquoближайшего соседаraquo mdash наиболее близких по весу термов ассоциативно связанных с исходным Это свойство используют для поиска близких по смыслу термов Следует уточнить что близость по смыслу ndash это контекстнозависимая величина поэтому не всякий близкий терм будет соответствовать ассоциации (это может быть и синоним и антоним и просто часто встречающееся вместе с искомым термом слово или словосочетание)

bull Достоинством метода можно считать его замечательную способность выявлять зависимости между словами когда обычные статистические методы бессильны LSA также может быть применен как с обучением (с предварительной тематической классификацией документов) так и без обучения (произвольное разбиение произвольного текста) что зависит от решаемой задачи

bull Об основных недостатках значительное снижение скорости вычисления при увеличении объема входных данных (в частности при SVD-преобразовании)

bull Как показано в литературе скорость вычисления соответствует порядку где сумма количества документов и термов kndash размерность пространства факторов

На рисунке показано возникновение и изменение главных факторов при уменьшении числа сингулярных элементов диагональной матрицы от 100 до ~12 Трехмерные рисунки представляют собой симметричную матрицу полученную в результате вычисления скалярного произведения векторов каждого эталонного документа с каждым тестируемым Эталонный набор векторов ndash это заранее размеченный на 30 документов текст тестируемый ndash с уменьшением числа сингулярных значений диагональной матрицы полученной при SVD-анализе На осях X и Y откладывается количество документов (эталонных и тестируемых) на оси Z ndash объем лексиконаНа рисунках хорошо видно что при уменьшении числа сингулярных диагональных элементов на 20-30 факторы еще не достаточно ярко выявлены но при этом возникают корреляции похожих документов (небольшие пики вне диагонали) которые сначала незначительно увеличиваются а затем с уменьшением числа сингулярных значений (до 70-80) ndash исчезают При автоматической кластеризации такие пики являются шумом поэтому их желательно минимизировать Если же целью является получение ассоциативных связей внутри документов то следует найти оптимальное соотношение сохранения основного лексикона и примешивания ассоциативного

Имплементация в R - Package lsquolsarsquoalnumx - Regular expression for removal of non-alphanumeric characters (saving special characters)

astextmatrix - Display a latent semantic space generated by Latent Semantic Analysis (LSA)

associate - Find close terms in a textmatrix

corpora - Corpora (Essay Scoring) dimcalc Dimensionality Calculation Routines (LSA)

dimcalc - Dimensionality Calculation Routines (LSA)

lsa - Create a vector space with Latent Semantic Analysis (LSA)

printtextmatrix - Print a textmatrix (Matrices)

sampletextmatrix - Create a random sample of files

textmatrix - Создает Textmatrix (Matrices) из файлов

Пример 1

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) read files into a document-term matrixmyMatrix = textmatrix(td minWordLength=1) create the latent semantic spacemyLSAspace = lsa(myMatrix dims=dimcalc_raw()) display it as a textmatrix againround(astextmatrix(myLSAspace)2) should give the original create the latent semantic spacemyLSAspace = lsa(myMatrix dims=dimcalc_share())

Пример 2

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) create matricesmyMatrix = textmatrix(td minWordLength=1)myLSAspace = lsa(myMatrix dims=dimcalc_share())myNewMatrix = astextmatrix(myLSAspace) calc associations for mouseassociate(myNewMatrix mouse) clean upunlink(td recursive=TRUE)

Пример 3 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(ham mouse sushi) file=paste(td D2 sep=) )write( c(dog pet pet) file=paste(td D3 sep=) ) LSAdata(stopwords_en)myMatrix = textmatrix(td stopwords=stopwords_en)myMatrix = lw_logtf(myMatrix) gw_idf(myMatrix)myLSAspace = lsa(myMatrix dims=dimcalc_share())astextmatrix(myLSAspace) clean upunlink(td recursive=TRUE)

Пример 4 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(hamster mouse sushi) file=paste(td D2 sep=) )write( c(dog monster monster) file=paste(td D3 sep=) ) read them create a document-term matrixtextmatrix(td) read them drop german stopwordsdata(stopwords_de)textmatrix(td stopwords=stopwords_de) read them based on a controlled vocabularyvoc = c(dog mouse)textmatrix(td vocabulary=voc minWordLength=1) clean up

Вместо заключения Очевидным недостатком LSA является ненормальность (негаусовость) вероятностного распределения слов в любом естественном языке Но эту проблему можно решить сглаживанием выборки (например применив фонетические слова распределение становится более laquoнормальнымraquo) Либо используют вероятностный LSA тназ PLSA основанный на мультиноминальном распределении Другим менее очевидным недостаткам LSA (и ему подобных методов) применительно к обработке неструктурированной информации можно отнести laquoтуманностьraquo самого метода (в частности выбора кол-ва сингулярных значений диагональной матрицы) и интерпретации результата не говоря уже о проблеме сбалансированности обучающего текста

Как правило для качественного построения модели оставляют менее 1-2 процента от общего числа диагональных значений (после SVD преобразования но об это в следующем посте) И как показывает практика увеличение числа факторов приводит к ухудшению результата Но дойдя примерно до 10 процентов от общего числа диагональных значений опять может быть всплеск аналогичный результату полученному при 1

Сбалансированность корпуса ndash вечная проблема которая не имеет хорошего решения на сегодняшний день Поэтому про нее приято помалкивать

Интерпретируемость результатов LSA (как и DLA) также затруднительна человек еще может понять что за тематику будет содержать топик полученный в результате анализа а вот машине не понять (не аннотировать) тематику без привлечения большого числа хороших и разных тезаурусов

Таким образом несмотря на трудоемкость и непрозрачность LSA он может успешно применяться для разного рада задач где важно поймать семантику сообщения обобщить или расширить laquoсмыслыraquo поискового запроса

bull Стандарт основанный на XML для обмена моделями статистической обработки Data Mining

bull Поддерживается более 20 организациями и поставщиками ПО

bull Реализован в частности и в R

Поддерживаемые предиктивные алгоритмы в R

Состав pmml package

bull addLT

bull addMSAttributes

bull audit

bull fileToXMLNode

bull pmml

bull pmmlada

bull pmmlcoxph

bull pmmlcvglmnet

bull pmmlglm

bull pmmlhclust

bull pmmlkmeans

bull pmmlksvm

bull pmmllm bull pmmlmultinom bull pmmlnaiveBayes bull pmmlnnet bull pmmlrandomForest bull pmmlrfsrc bull pmmlrpart bull pmmlrules bull pmmlsvm bull pmmlCanExport bull pmmltoc

Пример

Good by R see you later alligator

WATSON ndash одно из наиболее впечатляющих применений предиктивной аналитики

Разрабатывался компанией IBM с 2006 по 2010 годПрославился победой в телешоу Jeopardy (в России ndash laquoСвоя играraquo) в 2011 годуПредшественник Deep Blue обыграл чемпиона мира по шахматам Гарри Каспарова в 1997 г

>

IBM Deep QA Project

bull Целью проекта было создать компьютерную систему (ИИ) для ответа на вопросы (QA) задаваемые в свободной форме в телешоу и показать результаты соизмеримые с человеческими

bull Задача более сложная чем шахматная программа Deep Blue выигравшая у Каспарова в 1997 г

bull Вопросы по категориямCategory General ScienceClue When hit by electrons a phosphor gives off electromagnetic energy in this formAnswer Light (or Photons)

Category Lincoln BlogsClue Secretary Chase just submitted this to me for the third time guess what pal This time Irsquom accepting itAnswer his resignation

Category Head NorthClue Theyrsquore the two states you could be reentering if yoursquore crossing Floridarsquos northern borderAnswer Georgia and Alabama

Вопросы могут касаться сразу нескольких фактов чтобы ответ был вернымCategory ldquoRaprdquo SheetClue This archaic term for a mischievous or annoying child can also mean a rogue or scampSubclue 1 This archaic term for a mischievous or annoying childSubclue 2 This term can also mean a rogue or scampAnswer Rapscallion

Category Diplomatic RelationsClue Of the four countries in the world that the United States does not have diplomatic relations with the one thatrsquos farthest northInner subclue The four countries in the world that the United States does not have diplomatic relations with (Bhutan Cuba Iran North Korea)Outer subclue Of Bhutan Cuba Iran and North Korea the one thatrsquos farthest northAnswer North Korea

Вопросы - пазлы

Category Before and After Goes to the MoviesClue Film of a typical day in the life of the Beatles which includes running from bloodthirsty zombie fans in a Romero classicSubclue 2 Film of a typical day in the life of the Beatles Answer 1 (A Hard Dayrsquos Night)Subclue 2 Running from bloodthirsty zombie fans in a Romero classicAnswer 2 (Night of the Living Dead)Answer A Hard Dayrsquos Night of the Living Dead

Category Rhyme TimeClue Itrsquos where Pele stores his ballSubclue 1 Pele ball (soccer)Subclue 2 where store (cabinet drawer locker and so on)Answer soccer locker

Недопустимые типы вопросов

oCategory Picture This(Contestants are shown a picture of a B-52 bomber)Clue Alphanumeric name of the fearsome machine seen hereAnswer B-52

oCategory Decode the Postal CodesVerbal instruction from host Wersquore going to give you a word comprising two postal abbreviations you have to identify the statesClue VainAnswer Virginia and Indiana

Лексические типы ответа ndash LAT (Lexical Answer Type)

Метрики качества ответов - результативность

Показатели двух теоретических QA систем

Показатели результативности чемпионов шоу (2000)

Облако победителей

Линия сравнения результативности (baseline performance)

Сравнение системы тестового поиска и поиска в базе знаний

Результативность Watson (по версиям)

Основы подхода Deep QA

bull Massive parallelism использование высокого параллелизма при рассмотрении множественных интерпретаций и гипотез

bull Many experts привлечение интеграции приложения и контекстуального оценивания в широком диапазоне слабосвязанных вероятностных вопросов и контентной аналитики

bull Pervasive confidence estimation повсеместная оценка доверия означает что ни один из компонентов не включается в ответ сразу все компоненты имеют признаки и связанные с ними уровни доверия производится скоринг различных вопросов и контентная интерпретация Основа confidence-processing состоит в обучении как стэкировать и комбинировать баллы

bull Integrate shallow and deep knowledge интеграция поверхностных и глубинных знаний состоит в балансе использования строгой семантики и мелких семантик использующих множества слабо сформированных онтологий

bull Content Acquisition - Сбор контентаСочетает ручные и автоматические этапы Первым шагом является анализ примеров вопросов проблемного пространства чтобы произвести описание видов вопросов на которые нужно ответить и характеризовать область применения Анализ примеров вопросов в первую очередь ручная задача в то время как анализ области может быть выполнен путем автоматических или статистических методов таких как анализ LAT показанный ранее Учитывая вопросы для широкого домена Jeopardy Challenge источники для Watson включают широкий ассортимент энциклопедий словарей тезаурусов Newswire статьи литературные произведения и тд Начиная с разумного размера базового корпуса DeepQA затем применяет автоматический процесс расширения корпуса Процесс включает в себя четыре этапа высокого уровня (1) выявления основных документов и получить соответствующие документы из Интернет (2) извлечь автономные текстовые ядра из связанных веб-документов (3) Оценка на основе ядер являются ли они информативны по отношению к исходному основному документу и (4) объединить наиболее информативные ядра в расширенном корпусе Работающая система использует этот расширенный корпус и не имеет доступа к Интернет во время игры

bull Question Analysis ndash Анализ вопроса

Первый шаг во время выполнения процесса вопрос-ответной системы При анализе вопроса система пытается понять что вопрос задан и выполняет начальный анализ определяющий как вопрос будет обработан на остальных этапах работы системы Подход DeepQA использует смешанный набор экспертов на данном этапе и в системе Watson производится мелкий парсинг глубокий парсинг строятся логические формы семантические этикетки ролей взаимные ссылки отношения именованные сущности и так далее а также конкретные виды анализа для ответа вопрос

bull Question classification - Классификация вопроса

Это задача выявления типа вопроса или частей вопроса которые требуют специальной обработки Это может включать в себя что-нибудь из отдельных слов с двойным смыслом и потенциально до выявления целых статей которые имеют определенную синтаксическую семантическую или риторические функциональные возможности которые могут инициировать нисходящий анализ Классификация может определить вопрос как вопрос- головоломку вопрос-математику -определение и так далее Это будет определять каламбуры ограничения компоненты определений или целые подвопросы в пределах вопросов

bull Focus and LAT Detection ndash Определение фокуса и лексического типа ответа

Лексический тип ответа - это слово или словосочетание в вопросе который определяет тип ответа без попытки понять семантику Определение LAT является важным видом выигрыша и общим источником критических ошибок Преимущество подхода DeepQA является использование многих самостоятельно разработанных алгоритмов laquoответ-типированияraquo Например фокус вопроса викторины laquoПри попадании электронов люминофор излучает электромагнитную энергию в этой формеraquo - является laquoэта формаraquo Фокус часто (но не всегда) содержит полезную информацию об ответе часто субъект или объект отношение в вопросе и может превратить вопрос в фактическое утверждение при замене возможным кандидатом Это представляет полезный способ собирать доказательства о каждом кандидате

bull Relation Detection ndash детектирование отношений

Большинство вопросов содержит отношения являются ли они синтаксическими предикатами субъект-глагол-объект или семантические отношения между субъектами Например в вопросе laquoЕсть два штата в которые вы могли бы войти повторно если вы пересекаете северную границу штата Флоридаraquo мы можем обнаружить отношение границы (Флорида Х к северу) Watson использует обнаружение отношения на протяжении всего процесса QA от фокуса и LAT определения до прохождению и скорингу ответов Watson также может использовать обнаруженные отношения для выделения хранилища триплетов и напрямую генерировать кандидатов в ответы В 20000 игр Jeopardy вопросы например обнаружили распределение Freebase отношений чрезвычайно плоского вида (см рисунок) Это приближение распределеня 50 наиболее частых отношений в 20 000 случайно выбранных вопросах викторины

bull Decomposition ndash декомпозиция

Важным требованием успеха анализа Jeopardy является способность отвечать на вопросы которые разложены на составляющие DeepQA использует основанный на правилах глубокий парсинг и статистические методы классификации чтобы наилучшим образом разложить вопросы на элементы и определить как лучше разбить их на подвопросы Операционная гипотеза что правильная интерпретация вопроса позволит лучше произвести скоринг ответов после того как все доказательства собраны Даже если вопрос не должен быть разложен для определения ответа этот метод может помочь улучшить общее доверие ответу системы DeepQA решает задачи параллельно для каждого разложения применяя алгоритмы от начала до конца каждого подвопроса и синтезирует окончательные ответы DeepQA также поддерживает вложенные декомпозиции вопросов через рекурсивное применение QA системы от начала до конца в внутреннем подвопросе а затем во внешнем Настраиваемые компоненты позволяют легко подключать специализированные алгоритмы синтеза в общую систему

bull Hypothesis Generation ndash генерация гипотез

Генерация гипотез принимает результаты анализа вопросов и производит кандидатов на ответы Каждый кандидат ответ включается обратно в вопрос и это считается как гипотеза Система должна доказать правильность этой гипотезы с некоторой степенью уверенности Как и во всех аспектах DeepQA используется смесь разных подходов для первичного поиска и генерации кандидата в системе Watson

bull Primary Search ndash первичный поиск

В этом поиске целью является найти столько потенциально кандидатов сколько это можно сделать на основе результатов анализа вопроса В течение проекта велись эмпирические исследования направленные на баланс скорости объема и точности Эти исследования позволили регулярно настраивать систему так чтобы найти такое количество кандидатов которые производят наилучший баланс точности и вычислительных ресурсов Оперативная цель основного поиска в конечном счете стабилизировалась на около 85 процентов для топ-250 кандидатов то есть система генерирует правильный ответ как кандидата ответа на 85 процентов вопросов где-то в верхних 250 ранжированных кандидатов Разнообразие методов поиска используются в том числе с использованием нескольких текст поисковых системах с различными базовыми подходами (например Indri и Lucene) поиск документов а также поиска маршрута база знаний поиска с помощью SPARQL хранилища триплетов Для небольшого количества латов которые были определены как закрытые латы кандидат на ответ может быть получен из фиксированного списка в каком-то хранилище известных экземпляров LAT таких как США Президент или Страна

Поиск доказательств

bull Поиск по фразе ndash число соответствий разного типав ответе и вопросеbull Популярность ndash как часто встречается этот вариант ответаbull Соответствие по типу ndash ответ и требование вопросаbull Соответствие по времениbull Надежность источника

bull Candidate Answer Generation ndash генерирование кандидатов на ответ

Результаты поиска применяются для генерирования возможных кандидатов в ответы с помощью различных подходящих техник Для поиска документов извлекаются заголовки и используются как кандидаты Число кандидатов при этом может быть не единственным и требовать использования анализа подстрок и ссылок Используя детектирование именованных сущностей в ряде случаев удается извлечь хороших кандидатов В зависимости от типа источника для генерирования кандидата требуется разный набор алгоритмов например база знаний или обратный словарь порождают кандидатов непосредственно как кандидата Этот этап критически важен и если кандидаты не найдены то фиксируется невозможность ответа В нормальном режиме на этом этапе Watson гененерирует несколько сотен андидатов

bull Soft Filtering ndash мягкая фильтрацияДля ускорения процесса скоринга кандидатов Watson использует различные алгоритмы разной точности Более легковесные (менее вычислительно интенсивные) применяются на первом этапе скоринга На этом этапе устанавливается порог оценки и кандидаты имеющие более высокую оценку считаются прошедшими мягкую фильтрацию Они поступают на выработку гипотез и скоринг доказательств Интересно что кандидаты не прошедшие порог мягкой фильтрации не забываются а направляются прямо на финальный этап слияния Модель скоринга мягкой фильтрации и порога определяются на основе machine learning используя обучающие данные Watson типично пропускает через мягкую фильтрацию 100 кандидатов но эта функция параметризована и их число можно изменить

Проблемы NLP

bull В мае 1898 года Португалия отмечала 400-летний юбилей со дня прибытия этого великого путешественника в Индию

В мае Гари прибыл в Индию после празднования своего юбилея в Португалии

21 мая 1498 года Васка де Гама высадился в местечке Каппад

bull Он был помилован президентом 8 сентября 1974 годаФорд помиловал Никсона 8 сентября 1974 года Никсон Форд

bull Говоря ldquogive a trinklerdquo что предлагают вам сделать британцы по приезду в город

bull Hypothesis and Evidence Scoring ndash скоринг гипотез и доказательств

Прошедшие порог мягкой фильтрации кандидаты поступают на скрупулезный процесс который включает сбор дополнительных поддерживающих доказательств для каждого кандидата на ответ или гипотезу Процесс использует широкий набор различных методов скоринговой аналитики чтобы исследовать все поддерживающие доказательства

bull Evidence Retrieval ndash извлечение доказательств

Чтобы лучше исследовать каждого кандидата прошедшего через мягкую фильтрацию система собирает дополнительные поддерживающие доказательства Архитектура поддерживает интеграцию различных evidence-gathering техник Один из применяемых способов состоит в том что проводится дополнительный поиск в котором кандидат добавляется в качестве required term к первичному запросу извлеченному из вопроса Это будет приводить к получению выражений содержащих кандидата в контексте первичных терминов вопросаПоддерживающие доказательства могут быть извлечены и из других источников например из RDF баз знаний Извлеченные поддерживающие доказательства направляются модули глубокого скоринга которые анализируют кандидата в контексте поддерживающего доказательства

bull Scoring ndash скоринг (количественное оценивание)

Алгоритмы скоринга определяют степень несомненности которую обеспечивают доказательства в поддержку кандидата The DeepQA framework поддерживает множество компонент для выработки оценки в различных измерениях каждого доказательства которая вырабатывает оценку связанную с тем насколько хорошо доказательство поддерживает кандидата на ответ в качестве ответа на заданный вопросDeepQA использует общий формат для оценок для принятых гипотез и подтверждающих оценок отражающих семантические и ограничивающие факторы Это позволяет разработчикам DeepQA быстро разворачивать перемешивать и настраивать сложные совокупности модуле для обработкиНапрмер Watson использует больше чем 50 скоринговых компонент Они производят оценки разноготипа от оценок вероятностей до подсчета категориальных свойств основанных на доказательствах от различных источников включая неструктурированные тексты полуструктурированные тексты и RDF хранилища Эти оценки используют такие данные как degree of match between a passagersquos predicate-argument structure and the question passage source reliability geospatial location temporal relationships taxonomic classification the lexical and semantic relations the candidate is known to participate in the candidatersquos correlation with question terms its popularity (or obscurity) its aliases and so on

Вопрос Чили имеет самую длинную общую границу со страной Сгенерировано несколько кандидатов среди них Аргентина и Боливия Первичный поиск даст приоритет Боливии из=а популярности обсуждений их отношений Однако собранные Watson доказательства из других источников показывают более высокую оценку для Аргентины

Скоринг (взвешивание) доказательств ndash предиктивная аналитика

- При делении клеток митозом называется деление ядра а цитокинезом ndash деление этой жидкости в которой находится ядро

Генерирование кандидатов Сбор доказательств Уверенность в доказательстве

ОрганеллыВакуольЦитоплазмаПлазмамитохондрии

Органеллы ndash не жидкостьВакуоль ndash не жидкостьЦитоплазма ndash возможно жидкостьПлазма ndash не жидкостьМитохондрии ndash не жидкость

Цитоплазма ndash 92Органеллы ndash 19Вакуоль ndash 10Плазма ndash 2Митохондрии ndash 2

Answer Merging ndash объединение ответов

Многие кандидаты в ответы на поставленный вопрос могут быть эквивалентны несмотря на различные внешне формыТехники ранжирования тем не менее рассматривают таких кандидатов как различные Без объединения алгоритмы ранжирования будут работать отдельно с эквивалентными сущностями и пытаться противопоставить одну форму другой Это приведет к проблемам принятия решений Watson содержит алгоритмы идентификации эквивалентных сущностей используя множественные сравнения нормализацию и методы разрешения совместных ссылок

Ranking and Confidence Estimation ndash ранжирование и оценивание доверияПосле объединения система должна произвести ранжирование гипотез и оценивает доверие основанное на объединенных оценках В системе подобран ML подход основанный на обучении на обучающем наборе вопросов с известными ответами и обучение модели основываясь на скоринге Применяется как весьма плоская модель и существующие алгоритмы ранжирования Для более тонких оценок применяется двухфазный процесс использующий группы оценок для оценивания профиля и для оценки доверия Используя эту промежуточную модель система производит ансамбль промежуточных оценок Здесь используется иерархическая техника метаучителя и коллектива экспертов Этот подход обеспечивает итеративное расширение обучения используя изощренные и глубокие иерархические модели обеспечивающие гибкость и робастность при выработке оценок и модифицирует системуМетаучитель в Watson использует набор многие обучаемые модели чтобы управлять различными классами вопросов которые могут быть критическими при идентификации правильных ответовНаконец важно что использование NLP-based скоринга дает весьма разреженные оценки и требует точного оценивания с применением confidence-weighted learning techniques

Развертывание Watson

bull DeepQA разработан используя Apache UIMA - framework implementation of the Unstructured Information Management Architecture (Ferrucci and Lally 2004) UIMA был разработан для поддержки взаимодействия и масштабирования приложений обработки текста и мультимодального анализа Все компоненты DeepQA имплементированы как UIMA annotators Это программные компоненты для анализа текста и получения аннотаций или заключений о тексте Watson развивался в процессе разработки от нескольких компонент до нескольких сотен UIMA обеспечивает быструю интеграцию компонент тестирование и исследование

bull Начальная имплементация Watson запускалась на одном процессоре и требовала 2 часа на ответ на один вопрос DeepQA развился в параллельную систему используя UIMA-AS часть Apache UIMA масштабируя приложения UIMA используя асинхронный механизм месседжинга UIMA-AS позволила масштабировать Watson более чем на 2500 вычислительных ядер UIMA-AS управляет коммуникациями месседжингом управлением запросами используя open JMS standard UIMA-AS позволил снизить латентность Watson до 3ndash5 секунд

bull Для препроцессинга корпуса текстов создания быстрых run-time indices использован Hadoop

UIMA annotators были развернуты как mapper ы в Hadoop map-reduce framework Hadoop распределяет контент по кластеру для обеспечения высокого использования CPU и обеспечивает подходящий набор инструментов для deploying managing and monitoring the corpus analysis process

bull Аппаратная платформа ndash это 90 серверов 2800 ядер 15 ТБ RAM 80 Тфлопс $3 000 000 10 R

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 8: !Predictive analytics part_3

gt stopwords(russian) [1] и в во не что он на я с со [11] как а то все она так его но да ты [21] к у же вы за бы по только ее мне [31] было вот от меня еще нет о из ему теперь [41] когда даже ну вдруг ли если уже или ни быть [51] был него до вас нибудь опять уж вам сказал ведь [61] там потом себя ничего ей может они тут где есть [71] надо ней для мы тебя их чем была сам чтоб [81] без будто человек чего раз тоже себе под жизнь будет [91] ж тогда кто этот говорил того потому этого какой совсем [101] ним здесь этом один почти мой тем чтобы нее кажется[111] сейчас были куда зачем сказать всех никогда сегодня можно при [121] наконец два об другой хоть после над больше тот через [131] эти нас про всего них какая много разве сказала три [141] эту моя впрочем хорошо свою этой перед иногда лучше чуть [151] том нельзя такой им более всегда конечно всю между

Генерирование облака слов

wordcloud(articles randomorder=F maxwords=80colors=brewerpal(6Oranges))

Стемминг ndash морфологический анализ Stemminggtlibrary( SnowballC)gt wordStem(c(молодёжный молодёжного молодёжном года году участники участников) language=ru)[1] молодёжн молодёжн молодёжн год год участник участник

Использование функции mystemexe от Яндекс

mystemexe to the catalogarticlesmystem lt- function(doc) library(stringr) sdoc lt- system(mystem -nl -e utf-8 intern=T input=doc) При получении нескольких вариантов mystem разделяет ихdirpathlt-articles вертикальной чертой Удалим черту и варианты sdoc lt- str_replace(sdoc |$ ) Если mystem сомневается в результате он добавляет знак вопроса Удаляемsummary sdoc lt- str_replace(sdoc ) sdoc lt- paste(sdoc collapse= ) attributes(sdoc) lt- attributes(doc) sdoc

LSA - Латентный семантический анализ

Сравнение текстов по смысловому содержанию

Определения

Латентно-семантический анализ отображает документы и отдельные слова в так называемое laquoсемантическое пространствоraquo в котором и производятся все дальнейшие сравнения При этом делаются следующие предположения

1) Документы это просто набор слов Порядок слов в документах игнорируется Важно только то сколько раз то или иное слово встречается в документе2) Семантическое значение документа определяется набором слов которые как правило идут вместе Например в биржевых сводках часто встречаются слова laquoфондraquo laquoакцияraquo laquoдолларraquo3) Каждое слово имеет единственное значение Это безусловно сильное упрощение но именно оно делает проблему разрешимой

Основные этапы

bull Удаление слов из laquoстоп-спискаraquobull Стеммингbull Удаление уникальных словbull Построение частотной матрицы А индексируемых слов (TF-IDF)

строки ndash словастолбцы ndash тексты

bull Сингулярное разложение (SVD) матрицыbull Определение существенной размерности (главных компонент)bull Усечение размерности семантического пространстваbull Представление слов и текстов в усеченном пространствеbull Визуализация и ассоциативная кластеризация текстов

TF-IDF анализ

TF (term frequency mdash частота слова) mdash отношение числа вхождения некоторого слова к общему количеству слов документа Таким образом оценивается важность слова t_i в пределах отдельного документа

где есть число вхождений слова в документ а в знаменателе mdash общее число слов в данном документеIDF (inverse document frequency mdash обратная частота документа) mdash инверсия частоты с которой некоторое слово встречается в документах коллекции Основоположником данной концепции является Карен ДжонсУчёт IDF уменьшает вес широкоупотребительных слов Для каждого уникального слова в пределах конкретной коллекции документов существует только одно значение IDF

D -количество документов в корпусеколичество документов в которых встречается t

Частотная матрица для двух далеких текстов

Частотная матрица для двух более близких текстов

Карта слов для двух выбранных документов

Разложение матрицы laquoслова-документыraquo

Модель векторного пространства

bull Наиболее распространенный вариант LSA основан на использовании разложения вещественнозначной матрицы по сингулярным значениям или SVD-разложения (SVD ndash Singular Value Decomposition) С помощью него любую матрицу можно разложить в множество ортогональных матриц линейная комбинация которых является достаточно точным приближением к исходной матрице Обычно используют мультипликативное разложение

bull где матрицы U и V ndash ортогональные а S ndash диагональная матрица значения на диагонали которой называются сингулярными значениями матрицы A

bull Символ Т в обозначении матрицы означает транспонирование матрицы

bull Основная идея латентно-семантического анализа состоит в следующем

bull после перемножения матриц полученная матрица Ă содержащая только k первых линейно независимых компонент исходной матрицы A отражает структуру зависимостей (в данном случае ассоциативных) латентно присутствующих в исходной матрице Структура зависимостей определяется весовыми функциями термов для каждого документа

Особенность такого разложения в том что если в матрице S оставить только k наибольших сингулярных значений то линейная комбинация получившихся матриц будет наилучшим приближением исходной матрицы A к матрице Ă ранга k

Пример

bull c1 Human machine interface for ABC computer applicationsbull c2 A survey of user opinion of computer system response timebull c3 The EPS user interface management systembull c4 System and human system engineering testing of EPSbull c5 Relation of user perceived response time to error measurementbull m1 The generation of random binary ordered treesbull m2 The intersection graph of paths in treesbull m3 Graph minors IV Widths of trees and well-quasi-orderingbull m4 Graph minors A survey

Желтым отмечены слова встречающиеся хотя бы в двух заголовках

После SVD

Семантическое пространство

Матрица расстояний между словами

Результат снижения размерности кластеризация [human interface computer user EPS response time][survey trees graph minors]

Расстояния между заголовками до и после SVD

bull Объем корпуса для построения модели должен быть большим ndash желательно около трех-пяти миллионов словоупотреблений Но метод работает и на коллекциях меньшего объема правда несколько хужеПроизвольное разбиение текста на документы обычно производят от тысячи до нескольких десятков тысяч частей примерно одинакового объема Таким образом матрица термы-на-документы получается прямоугольной и может быть сильно разраженной Например при объеме 5 млн словоформ получается матрица 30-50 тысяч документов на 200-300 тысяч а иногда и более термов В действительности низкочастотные термы можно опустить тк это заметно снизит размерность матрицы (скажем если не использовать 5 от общего объема низкочастотных термов то размерность сократиться в два раза) что приведет к снижению вычислительных ресурсов и времениВыбор сокращения сингулярных значений диагональной матрицы (размерности k) при обратном перемножении матриц достаточно произвольно При вышеуказанной размерности матрицы оставляют несколько сотен (100-300) главных компонент При этом как показывает практика зависимость количества компонент и точность меняются нелинейно например если начинать увеличивать их число то точность будет падать но при некотором значении скажем 10000 ndash опять вырастет до оптимального случая

Применение

bull сравнение двух термов между собойbull сравнение двух документов между собойbull сравнение терма и документа

Так же иногда этот метод используют для нахождения laquoближайшего соседаraquo mdash наиболее близких по весу термов ассоциативно связанных с исходным Это свойство используют для поиска близких по смыслу термов Следует уточнить что близость по смыслу ndash это контекстнозависимая величина поэтому не всякий близкий терм будет соответствовать ассоциации (это может быть и синоним и антоним и просто часто встречающееся вместе с искомым термом слово или словосочетание)

bull Достоинством метода можно считать его замечательную способность выявлять зависимости между словами когда обычные статистические методы бессильны LSA также может быть применен как с обучением (с предварительной тематической классификацией документов) так и без обучения (произвольное разбиение произвольного текста) что зависит от решаемой задачи

bull Об основных недостатках значительное снижение скорости вычисления при увеличении объема входных данных (в частности при SVD-преобразовании)

bull Как показано в литературе скорость вычисления соответствует порядку где сумма количества документов и термов kndash размерность пространства факторов

На рисунке показано возникновение и изменение главных факторов при уменьшении числа сингулярных элементов диагональной матрицы от 100 до ~12 Трехмерные рисунки представляют собой симметричную матрицу полученную в результате вычисления скалярного произведения векторов каждого эталонного документа с каждым тестируемым Эталонный набор векторов ndash это заранее размеченный на 30 документов текст тестируемый ndash с уменьшением числа сингулярных значений диагональной матрицы полученной при SVD-анализе На осях X и Y откладывается количество документов (эталонных и тестируемых) на оси Z ndash объем лексиконаНа рисунках хорошо видно что при уменьшении числа сингулярных диагональных элементов на 20-30 факторы еще не достаточно ярко выявлены но при этом возникают корреляции похожих документов (небольшие пики вне диагонали) которые сначала незначительно увеличиваются а затем с уменьшением числа сингулярных значений (до 70-80) ndash исчезают При автоматической кластеризации такие пики являются шумом поэтому их желательно минимизировать Если же целью является получение ассоциативных связей внутри документов то следует найти оптимальное соотношение сохранения основного лексикона и примешивания ассоциативного

Имплементация в R - Package lsquolsarsquoalnumx - Regular expression for removal of non-alphanumeric characters (saving special characters)

astextmatrix - Display a latent semantic space generated by Latent Semantic Analysis (LSA)

associate - Find close terms in a textmatrix

corpora - Corpora (Essay Scoring) dimcalc Dimensionality Calculation Routines (LSA)

dimcalc - Dimensionality Calculation Routines (LSA)

lsa - Create a vector space with Latent Semantic Analysis (LSA)

printtextmatrix - Print a textmatrix (Matrices)

sampletextmatrix - Create a random sample of files

textmatrix - Создает Textmatrix (Matrices) из файлов

Пример 1

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) read files into a document-term matrixmyMatrix = textmatrix(td minWordLength=1) create the latent semantic spacemyLSAspace = lsa(myMatrix dims=dimcalc_raw()) display it as a textmatrix againround(astextmatrix(myLSAspace)2) should give the original create the latent semantic spacemyLSAspace = lsa(myMatrix dims=dimcalc_share())

Пример 2

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) create matricesmyMatrix = textmatrix(td minWordLength=1)myLSAspace = lsa(myMatrix dims=dimcalc_share())myNewMatrix = astextmatrix(myLSAspace) calc associations for mouseassociate(myNewMatrix mouse) clean upunlink(td recursive=TRUE)

Пример 3 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(ham mouse sushi) file=paste(td D2 sep=) )write( c(dog pet pet) file=paste(td D3 sep=) ) LSAdata(stopwords_en)myMatrix = textmatrix(td stopwords=stopwords_en)myMatrix = lw_logtf(myMatrix) gw_idf(myMatrix)myLSAspace = lsa(myMatrix dims=dimcalc_share())astextmatrix(myLSAspace) clean upunlink(td recursive=TRUE)

Пример 4 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(hamster mouse sushi) file=paste(td D2 sep=) )write( c(dog monster monster) file=paste(td D3 sep=) ) read them create a document-term matrixtextmatrix(td) read them drop german stopwordsdata(stopwords_de)textmatrix(td stopwords=stopwords_de) read them based on a controlled vocabularyvoc = c(dog mouse)textmatrix(td vocabulary=voc minWordLength=1) clean up

Вместо заключения Очевидным недостатком LSA является ненормальность (негаусовость) вероятностного распределения слов в любом естественном языке Но эту проблему можно решить сглаживанием выборки (например применив фонетические слова распределение становится более laquoнормальнымraquo) Либо используют вероятностный LSA тназ PLSA основанный на мультиноминальном распределении Другим менее очевидным недостаткам LSA (и ему подобных методов) применительно к обработке неструктурированной информации можно отнести laquoтуманностьraquo самого метода (в частности выбора кол-ва сингулярных значений диагональной матрицы) и интерпретации результата не говоря уже о проблеме сбалансированности обучающего текста

Как правило для качественного построения модели оставляют менее 1-2 процента от общего числа диагональных значений (после SVD преобразования но об это в следующем посте) И как показывает практика увеличение числа факторов приводит к ухудшению результата Но дойдя примерно до 10 процентов от общего числа диагональных значений опять может быть всплеск аналогичный результату полученному при 1

Сбалансированность корпуса ndash вечная проблема которая не имеет хорошего решения на сегодняшний день Поэтому про нее приято помалкивать

Интерпретируемость результатов LSA (как и DLA) также затруднительна человек еще может понять что за тематику будет содержать топик полученный в результате анализа а вот машине не понять (не аннотировать) тематику без привлечения большого числа хороших и разных тезаурусов

Таким образом несмотря на трудоемкость и непрозрачность LSA он может успешно применяться для разного рада задач где важно поймать семантику сообщения обобщить или расширить laquoсмыслыraquo поискового запроса

bull Стандарт основанный на XML для обмена моделями статистической обработки Data Mining

bull Поддерживается более 20 организациями и поставщиками ПО

bull Реализован в частности и в R

Поддерживаемые предиктивные алгоритмы в R

Состав pmml package

bull addLT

bull addMSAttributes

bull audit

bull fileToXMLNode

bull pmml

bull pmmlada

bull pmmlcoxph

bull pmmlcvglmnet

bull pmmlglm

bull pmmlhclust

bull pmmlkmeans

bull pmmlksvm

bull pmmllm bull pmmlmultinom bull pmmlnaiveBayes bull pmmlnnet bull pmmlrandomForest bull pmmlrfsrc bull pmmlrpart bull pmmlrules bull pmmlsvm bull pmmlCanExport bull pmmltoc

Пример

Good by R see you later alligator

WATSON ndash одно из наиболее впечатляющих применений предиктивной аналитики

Разрабатывался компанией IBM с 2006 по 2010 годПрославился победой в телешоу Jeopardy (в России ndash laquoСвоя играraquo) в 2011 годуПредшественник Deep Blue обыграл чемпиона мира по шахматам Гарри Каспарова в 1997 г

>

IBM Deep QA Project

bull Целью проекта было создать компьютерную систему (ИИ) для ответа на вопросы (QA) задаваемые в свободной форме в телешоу и показать результаты соизмеримые с человеческими

bull Задача более сложная чем шахматная программа Deep Blue выигравшая у Каспарова в 1997 г

bull Вопросы по категориямCategory General ScienceClue When hit by electrons a phosphor gives off electromagnetic energy in this formAnswer Light (or Photons)

Category Lincoln BlogsClue Secretary Chase just submitted this to me for the third time guess what pal This time Irsquom accepting itAnswer his resignation

Category Head NorthClue Theyrsquore the two states you could be reentering if yoursquore crossing Floridarsquos northern borderAnswer Georgia and Alabama

Вопросы могут касаться сразу нескольких фактов чтобы ответ был вернымCategory ldquoRaprdquo SheetClue This archaic term for a mischievous or annoying child can also mean a rogue or scampSubclue 1 This archaic term for a mischievous or annoying childSubclue 2 This term can also mean a rogue or scampAnswer Rapscallion

Category Diplomatic RelationsClue Of the four countries in the world that the United States does not have diplomatic relations with the one thatrsquos farthest northInner subclue The four countries in the world that the United States does not have diplomatic relations with (Bhutan Cuba Iran North Korea)Outer subclue Of Bhutan Cuba Iran and North Korea the one thatrsquos farthest northAnswer North Korea

Вопросы - пазлы

Category Before and After Goes to the MoviesClue Film of a typical day in the life of the Beatles which includes running from bloodthirsty zombie fans in a Romero classicSubclue 2 Film of a typical day in the life of the Beatles Answer 1 (A Hard Dayrsquos Night)Subclue 2 Running from bloodthirsty zombie fans in a Romero classicAnswer 2 (Night of the Living Dead)Answer A Hard Dayrsquos Night of the Living Dead

Category Rhyme TimeClue Itrsquos where Pele stores his ballSubclue 1 Pele ball (soccer)Subclue 2 where store (cabinet drawer locker and so on)Answer soccer locker

Недопустимые типы вопросов

oCategory Picture This(Contestants are shown a picture of a B-52 bomber)Clue Alphanumeric name of the fearsome machine seen hereAnswer B-52

oCategory Decode the Postal CodesVerbal instruction from host Wersquore going to give you a word comprising two postal abbreviations you have to identify the statesClue VainAnswer Virginia and Indiana

Лексические типы ответа ndash LAT (Lexical Answer Type)

Метрики качества ответов - результативность

Показатели двух теоретических QA систем

Показатели результативности чемпионов шоу (2000)

Облако победителей

Линия сравнения результативности (baseline performance)

Сравнение системы тестового поиска и поиска в базе знаний

Результативность Watson (по версиям)

Основы подхода Deep QA

bull Massive parallelism использование высокого параллелизма при рассмотрении множественных интерпретаций и гипотез

bull Many experts привлечение интеграции приложения и контекстуального оценивания в широком диапазоне слабосвязанных вероятностных вопросов и контентной аналитики

bull Pervasive confidence estimation повсеместная оценка доверия означает что ни один из компонентов не включается в ответ сразу все компоненты имеют признаки и связанные с ними уровни доверия производится скоринг различных вопросов и контентная интерпретация Основа confidence-processing состоит в обучении как стэкировать и комбинировать баллы

bull Integrate shallow and deep knowledge интеграция поверхностных и глубинных знаний состоит в балансе использования строгой семантики и мелких семантик использующих множества слабо сформированных онтологий

bull Content Acquisition - Сбор контентаСочетает ручные и автоматические этапы Первым шагом является анализ примеров вопросов проблемного пространства чтобы произвести описание видов вопросов на которые нужно ответить и характеризовать область применения Анализ примеров вопросов в первую очередь ручная задача в то время как анализ области может быть выполнен путем автоматических или статистических методов таких как анализ LAT показанный ранее Учитывая вопросы для широкого домена Jeopardy Challenge источники для Watson включают широкий ассортимент энциклопедий словарей тезаурусов Newswire статьи литературные произведения и тд Начиная с разумного размера базового корпуса DeepQA затем применяет автоматический процесс расширения корпуса Процесс включает в себя четыре этапа высокого уровня (1) выявления основных документов и получить соответствующие документы из Интернет (2) извлечь автономные текстовые ядра из связанных веб-документов (3) Оценка на основе ядер являются ли они информативны по отношению к исходному основному документу и (4) объединить наиболее информативные ядра в расширенном корпусе Работающая система использует этот расширенный корпус и не имеет доступа к Интернет во время игры

bull Question Analysis ndash Анализ вопроса

Первый шаг во время выполнения процесса вопрос-ответной системы При анализе вопроса система пытается понять что вопрос задан и выполняет начальный анализ определяющий как вопрос будет обработан на остальных этапах работы системы Подход DeepQA использует смешанный набор экспертов на данном этапе и в системе Watson производится мелкий парсинг глубокий парсинг строятся логические формы семантические этикетки ролей взаимные ссылки отношения именованные сущности и так далее а также конкретные виды анализа для ответа вопрос

bull Question classification - Классификация вопроса

Это задача выявления типа вопроса или частей вопроса которые требуют специальной обработки Это может включать в себя что-нибудь из отдельных слов с двойным смыслом и потенциально до выявления целых статей которые имеют определенную синтаксическую семантическую или риторические функциональные возможности которые могут инициировать нисходящий анализ Классификация может определить вопрос как вопрос- головоломку вопрос-математику -определение и так далее Это будет определять каламбуры ограничения компоненты определений или целые подвопросы в пределах вопросов

bull Focus and LAT Detection ndash Определение фокуса и лексического типа ответа

Лексический тип ответа - это слово или словосочетание в вопросе который определяет тип ответа без попытки понять семантику Определение LAT является важным видом выигрыша и общим источником критических ошибок Преимущество подхода DeepQA является использование многих самостоятельно разработанных алгоритмов laquoответ-типированияraquo Например фокус вопроса викторины laquoПри попадании электронов люминофор излучает электромагнитную энергию в этой формеraquo - является laquoэта формаraquo Фокус часто (но не всегда) содержит полезную информацию об ответе часто субъект или объект отношение в вопросе и может превратить вопрос в фактическое утверждение при замене возможным кандидатом Это представляет полезный способ собирать доказательства о каждом кандидате

bull Relation Detection ndash детектирование отношений

Большинство вопросов содержит отношения являются ли они синтаксическими предикатами субъект-глагол-объект или семантические отношения между субъектами Например в вопросе laquoЕсть два штата в которые вы могли бы войти повторно если вы пересекаете северную границу штата Флоридаraquo мы можем обнаружить отношение границы (Флорида Х к северу) Watson использует обнаружение отношения на протяжении всего процесса QA от фокуса и LAT определения до прохождению и скорингу ответов Watson также может использовать обнаруженные отношения для выделения хранилища триплетов и напрямую генерировать кандидатов в ответы В 20000 игр Jeopardy вопросы например обнаружили распределение Freebase отношений чрезвычайно плоского вида (см рисунок) Это приближение распределеня 50 наиболее частых отношений в 20 000 случайно выбранных вопросах викторины

bull Decomposition ndash декомпозиция

Важным требованием успеха анализа Jeopardy является способность отвечать на вопросы которые разложены на составляющие DeepQA использует основанный на правилах глубокий парсинг и статистические методы классификации чтобы наилучшим образом разложить вопросы на элементы и определить как лучше разбить их на подвопросы Операционная гипотеза что правильная интерпретация вопроса позволит лучше произвести скоринг ответов после того как все доказательства собраны Даже если вопрос не должен быть разложен для определения ответа этот метод может помочь улучшить общее доверие ответу системы DeepQA решает задачи параллельно для каждого разложения применяя алгоритмы от начала до конца каждого подвопроса и синтезирует окончательные ответы DeepQA также поддерживает вложенные декомпозиции вопросов через рекурсивное применение QA системы от начала до конца в внутреннем подвопросе а затем во внешнем Настраиваемые компоненты позволяют легко подключать специализированные алгоритмы синтеза в общую систему

bull Hypothesis Generation ndash генерация гипотез

Генерация гипотез принимает результаты анализа вопросов и производит кандидатов на ответы Каждый кандидат ответ включается обратно в вопрос и это считается как гипотеза Система должна доказать правильность этой гипотезы с некоторой степенью уверенности Как и во всех аспектах DeepQA используется смесь разных подходов для первичного поиска и генерации кандидата в системе Watson

bull Primary Search ndash первичный поиск

В этом поиске целью является найти столько потенциально кандидатов сколько это можно сделать на основе результатов анализа вопроса В течение проекта велись эмпирические исследования направленные на баланс скорости объема и точности Эти исследования позволили регулярно настраивать систему так чтобы найти такое количество кандидатов которые производят наилучший баланс точности и вычислительных ресурсов Оперативная цель основного поиска в конечном счете стабилизировалась на около 85 процентов для топ-250 кандидатов то есть система генерирует правильный ответ как кандидата ответа на 85 процентов вопросов где-то в верхних 250 ранжированных кандидатов Разнообразие методов поиска используются в том числе с использованием нескольких текст поисковых системах с различными базовыми подходами (например Indri и Lucene) поиск документов а также поиска маршрута база знаний поиска с помощью SPARQL хранилища триплетов Для небольшого количества латов которые были определены как закрытые латы кандидат на ответ может быть получен из фиксированного списка в каком-то хранилище известных экземпляров LAT таких как США Президент или Страна

Поиск доказательств

bull Поиск по фразе ndash число соответствий разного типав ответе и вопросеbull Популярность ndash как часто встречается этот вариант ответаbull Соответствие по типу ndash ответ и требование вопросаbull Соответствие по времениbull Надежность источника

bull Candidate Answer Generation ndash генерирование кандидатов на ответ

Результаты поиска применяются для генерирования возможных кандидатов в ответы с помощью различных подходящих техник Для поиска документов извлекаются заголовки и используются как кандидаты Число кандидатов при этом может быть не единственным и требовать использования анализа подстрок и ссылок Используя детектирование именованных сущностей в ряде случаев удается извлечь хороших кандидатов В зависимости от типа источника для генерирования кандидата требуется разный набор алгоритмов например база знаний или обратный словарь порождают кандидатов непосредственно как кандидата Этот этап критически важен и если кандидаты не найдены то фиксируется невозможность ответа В нормальном режиме на этом этапе Watson гененерирует несколько сотен андидатов

bull Soft Filtering ndash мягкая фильтрацияДля ускорения процесса скоринга кандидатов Watson использует различные алгоритмы разной точности Более легковесные (менее вычислительно интенсивные) применяются на первом этапе скоринга На этом этапе устанавливается порог оценки и кандидаты имеющие более высокую оценку считаются прошедшими мягкую фильтрацию Они поступают на выработку гипотез и скоринг доказательств Интересно что кандидаты не прошедшие порог мягкой фильтрации не забываются а направляются прямо на финальный этап слияния Модель скоринга мягкой фильтрации и порога определяются на основе machine learning используя обучающие данные Watson типично пропускает через мягкую фильтрацию 100 кандидатов но эта функция параметризована и их число можно изменить

Проблемы NLP

bull В мае 1898 года Португалия отмечала 400-летний юбилей со дня прибытия этого великого путешественника в Индию

В мае Гари прибыл в Индию после празднования своего юбилея в Португалии

21 мая 1498 года Васка де Гама высадился в местечке Каппад

bull Он был помилован президентом 8 сентября 1974 годаФорд помиловал Никсона 8 сентября 1974 года Никсон Форд

bull Говоря ldquogive a trinklerdquo что предлагают вам сделать британцы по приезду в город

bull Hypothesis and Evidence Scoring ndash скоринг гипотез и доказательств

Прошедшие порог мягкой фильтрации кандидаты поступают на скрупулезный процесс который включает сбор дополнительных поддерживающих доказательств для каждого кандидата на ответ или гипотезу Процесс использует широкий набор различных методов скоринговой аналитики чтобы исследовать все поддерживающие доказательства

bull Evidence Retrieval ndash извлечение доказательств

Чтобы лучше исследовать каждого кандидата прошедшего через мягкую фильтрацию система собирает дополнительные поддерживающие доказательства Архитектура поддерживает интеграцию различных evidence-gathering техник Один из применяемых способов состоит в том что проводится дополнительный поиск в котором кандидат добавляется в качестве required term к первичному запросу извлеченному из вопроса Это будет приводить к получению выражений содержащих кандидата в контексте первичных терминов вопросаПоддерживающие доказательства могут быть извлечены и из других источников например из RDF баз знаний Извлеченные поддерживающие доказательства направляются модули глубокого скоринга которые анализируют кандидата в контексте поддерживающего доказательства

bull Scoring ndash скоринг (количественное оценивание)

Алгоритмы скоринга определяют степень несомненности которую обеспечивают доказательства в поддержку кандидата The DeepQA framework поддерживает множество компонент для выработки оценки в различных измерениях каждого доказательства которая вырабатывает оценку связанную с тем насколько хорошо доказательство поддерживает кандидата на ответ в качестве ответа на заданный вопросDeepQA использует общий формат для оценок для принятых гипотез и подтверждающих оценок отражающих семантические и ограничивающие факторы Это позволяет разработчикам DeepQA быстро разворачивать перемешивать и настраивать сложные совокупности модуле для обработкиНапрмер Watson использует больше чем 50 скоринговых компонент Они производят оценки разноготипа от оценок вероятностей до подсчета категориальных свойств основанных на доказательствах от различных источников включая неструктурированные тексты полуструктурированные тексты и RDF хранилища Эти оценки используют такие данные как degree of match between a passagersquos predicate-argument structure and the question passage source reliability geospatial location temporal relationships taxonomic classification the lexical and semantic relations the candidate is known to participate in the candidatersquos correlation with question terms its popularity (or obscurity) its aliases and so on

Вопрос Чили имеет самую длинную общую границу со страной Сгенерировано несколько кандидатов среди них Аргентина и Боливия Первичный поиск даст приоритет Боливии из=а популярности обсуждений их отношений Однако собранные Watson доказательства из других источников показывают более высокую оценку для Аргентины

Скоринг (взвешивание) доказательств ndash предиктивная аналитика

- При делении клеток митозом называется деление ядра а цитокинезом ndash деление этой жидкости в которой находится ядро

Генерирование кандидатов Сбор доказательств Уверенность в доказательстве

ОрганеллыВакуольЦитоплазмаПлазмамитохондрии

Органеллы ndash не жидкостьВакуоль ndash не жидкостьЦитоплазма ndash возможно жидкостьПлазма ndash не жидкостьМитохондрии ndash не жидкость

Цитоплазма ndash 92Органеллы ndash 19Вакуоль ndash 10Плазма ndash 2Митохондрии ndash 2

Answer Merging ndash объединение ответов

Многие кандидаты в ответы на поставленный вопрос могут быть эквивалентны несмотря на различные внешне формыТехники ранжирования тем не менее рассматривают таких кандидатов как различные Без объединения алгоритмы ранжирования будут работать отдельно с эквивалентными сущностями и пытаться противопоставить одну форму другой Это приведет к проблемам принятия решений Watson содержит алгоритмы идентификации эквивалентных сущностей используя множественные сравнения нормализацию и методы разрешения совместных ссылок

Ranking and Confidence Estimation ndash ранжирование и оценивание доверияПосле объединения система должна произвести ранжирование гипотез и оценивает доверие основанное на объединенных оценках В системе подобран ML подход основанный на обучении на обучающем наборе вопросов с известными ответами и обучение модели основываясь на скоринге Применяется как весьма плоская модель и существующие алгоритмы ранжирования Для более тонких оценок применяется двухфазный процесс использующий группы оценок для оценивания профиля и для оценки доверия Используя эту промежуточную модель система производит ансамбль промежуточных оценок Здесь используется иерархическая техника метаучителя и коллектива экспертов Этот подход обеспечивает итеративное расширение обучения используя изощренные и глубокие иерархические модели обеспечивающие гибкость и робастность при выработке оценок и модифицирует системуМетаучитель в Watson использует набор многие обучаемые модели чтобы управлять различными классами вопросов которые могут быть критическими при идентификации правильных ответовНаконец важно что использование NLP-based скоринга дает весьма разреженные оценки и требует точного оценивания с применением confidence-weighted learning techniques

Развертывание Watson

bull DeepQA разработан используя Apache UIMA - framework implementation of the Unstructured Information Management Architecture (Ferrucci and Lally 2004) UIMA был разработан для поддержки взаимодействия и масштабирования приложений обработки текста и мультимодального анализа Все компоненты DeepQA имплементированы как UIMA annotators Это программные компоненты для анализа текста и получения аннотаций или заключений о тексте Watson развивался в процессе разработки от нескольких компонент до нескольких сотен UIMA обеспечивает быструю интеграцию компонент тестирование и исследование

bull Начальная имплементация Watson запускалась на одном процессоре и требовала 2 часа на ответ на один вопрос DeepQA развился в параллельную систему используя UIMA-AS часть Apache UIMA масштабируя приложения UIMA используя асинхронный механизм месседжинга UIMA-AS позволила масштабировать Watson более чем на 2500 вычислительных ядер UIMA-AS управляет коммуникациями месседжингом управлением запросами используя open JMS standard UIMA-AS позволил снизить латентность Watson до 3ndash5 секунд

bull Для препроцессинга корпуса текстов создания быстрых run-time indices использован Hadoop

UIMA annotators были развернуты как mapper ы в Hadoop map-reduce framework Hadoop распределяет контент по кластеру для обеспечения высокого использования CPU и обеспечивает подходящий набор инструментов для deploying managing and monitoring the corpus analysis process

bull Аппаратная платформа ndash это 90 серверов 2800 ядер 15 ТБ RAM 80 Тфлопс $3 000 000 10 R

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 9: !Predictive analytics part_3

Генерирование облака слов

wordcloud(articles randomorder=F maxwords=80colors=brewerpal(6Oranges))

Стемминг ndash морфологический анализ Stemminggtlibrary( SnowballC)gt wordStem(c(молодёжный молодёжного молодёжном года году участники участников) language=ru)[1] молодёжн молодёжн молодёжн год год участник участник

Использование функции mystemexe от Яндекс

mystemexe to the catalogarticlesmystem lt- function(doc) library(stringr) sdoc lt- system(mystem -nl -e utf-8 intern=T input=doc) При получении нескольких вариантов mystem разделяет ихdirpathlt-articles вертикальной чертой Удалим черту и варианты sdoc lt- str_replace(sdoc |$ ) Если mystem сомневается в результате он добавляет знак вопроса Удаляемsummary sdoc lt- str_replace(sdoc ) sdoc lt- paste(sdoc collapse= ) attributes(sdoc) lt- attributes(doc) sdoc

LSA - Латентный семантический анализ

Сравнение текстов по смысловому содержанию

Определения

Латентно-семантический анализ отображает документы и отдельные слова в так называемое laquoсемантическое пространствоraquo в котором и производятся все дальнейшие сравнения При этом делаются следующие предположения

1) Документы это просто набор слов Порядок слов в документах игнорируется Важно только то сколько раз то или иное слово встречается в документе2) Семантическое значение документа определяется набором слов которые как правило идут вместе Например в биржевых сводках часто встречаются слова laquoфондraquo laquoакцияraquo laquoдолларraquo3) Каждое слово имеет единственное значение Это безусловно сильное упрощение но именно оно делает проблему разрешимой

Основные этапы

bull Удаление слов из laquoстоп-спискаraquobull Стеммингbull Удаление уникальных словbull Построение частотной матрицы А индексируемых слов (TF-IDF)

строки ndash словастолбцы ndash тексты

bull Сингулярное разложение (SVD) матрицыbull Определение существенной размерности (главных компонент)bull Усечение размерности семантического пространстваbull Представление слов и текстов в усеченном пространствеbull Визуализация и ассоциативная кластеризация текстов

TF-IDF анализ

TF (term frequency mdash частота слова) mdash отношение числа вхождения некоторого слова к общему количеству слов документа Таким образом оценивается важность слова t_i в пределах отдельного документа

где есть число вхождений слова в документ а в знаменателе mdash общее число слов в данном документеIDF (inverse document frequency mdash обратная частота документа) mdash инверсия частоты с которой некоторое слово встречается в документах коллекции Основоположником данной концепции является Карен ДжонсУчёт IDF уменьшает вес широкоупотребительных слов Для каждого уникального слова в пределах конкретной коллекции документов существует только одно значение IDF

D -количество документов в корпусеколичество документов в которых встречается t

Частотная матрица для двух далеких текстов

Частотная матрица для двух более близких текстов

Карта слов для двух выбранных документов

Разложение матрицы laquoслова-документыraquo

Модель векторного пространства

bull Наиболее распространенный вариант LSA основан на использовании разложения вещественнозначной матрицы по сингулярным значениям или SVD-разложения (SVD ndash Singular Value Decomposition) С помощью него любую матрицу можно разложить в множество ортогональных матриц линейная комбинация которых является достаточно точным приближением к исходной матрице Обычно используют мультипликативное разложение

bull где матрицы U и V ndash ортогональные а S ndash диагональная матрица значения на диагонали которой называются сингулярными значениями матрицы A

bull Символ Т в обозначении матрицы означает транспонирование матрицы

bull Основная идея латентно-семантического анализа состоит в следующем

bull после перемножения матриц полученная матрица Ă содержащая только k первых линейно независимых компонент исходной матрицы A отражает структуру зависимостей (в данном случае ассоциативных) латентно присутствующих в исходной матрице Структура зависимостей определяется весовыми функциями термов для каждого документа

Особенность такого разложения в том что если в матрице S оставить только k наибольших сингулярных значений то линейная комбинация получившихся матриц будет наилучшим приближением исходной матрицы A к матрице Ă ранга k

Пример

bull c1 Human machine interface for ABC computer applicationsbull c2 A survey of user opinion of computer system response timebull c3 The EPS user interface management systembull c4 System and human system engineering testing of EPSbull c5 Relation of user perceived response time to error measurementbull m1 The generation of random binary ordered treesbull m2 The intersection graph of paths in treesbull m3 Graph minors IV Widths of trees and well-quasi-orderingbull m4 Graph minors A survey

Желтым отмечены слова встречающиеся хотя бы в двух заголовках

После SVD

Семантическое пространство

Матрица расстояний между словами

Результат снижения размерности кластеризация [human interface computer user EPS response time][survey trees graph minors]

Расстояния между заголовками до и после SVD

bull Объем корпуса для построения модели должен быть большим ndash желательно около трех-пяти миллионов словоупотреблений Но метод работает и на коллекциях меньшего объема правда несколько хужеПроизвольное разбиение текста на документы обычно производят от тысячи до нескольких десятков тысяч частей примерно одинакового объема Таким образом матрица термы-на-документы получается прямоугольной и может быть сильно разраженной Например при объеме 5 млн словоформ получается матрица 30-50 тысяч документов на 200-300 тысяч а иногда и более термов В действительности низкочастотные термы можно опустить тк это заметно снизит размерность матрицы (скажем если не использовать 5 от общего объема низкочастотных термов то размерность сократиться в два раза) что приведет к снижению вычислительных ресурсов и времениВыбор сокращения сингулярных значений диагональной матрицы (размерности k) при обратном перемножении матриц достаточно произвольно При вышеуказанной размерности матрицы оставляют несколько сотен (100-300) главных компонент При этом как показывает практика зависимость количества компонент и точность меняются нелинейно например если начинать увеличивать их число то точность будет падать но при некотором значении скажем 10000 ndash опять вырастет до оптимального случая

Применение

bull сравнение двух термов между собойbull сравнение двух документов между собойbull сравнение терма и документа

Так же иногда этот метод используют для нахождения laquoближайшего соседаraquo mdash наиболее близких по весу термов ассоциативно связанных с исходным Это свойство используют для поиска близких по смыслу термов Следует уточнить что близость по смыслу ndash это контекстнозависимая величина поэтому не всякий близкий терм будет соответствовать ассоциации (это может быть и синоним и антоним и просто часто встречающееся вместе с искомым термом слово или словосочетание)

bull Достоинством метода можно считать его замечательную способность выявлять зависимости между словами когда обычные статистические методы бессильны LSA также может быть применен как с обучением (с предварительной тематической классификацией документов) так и без обучения (произвольное разбиение произвольного текста) что зависит от решаемой задачи

bull Об основных недостатках значительное снижение скорости вычисления при увеличении объема входных данных (в частности при SVD-преобразовании)

bull Как показано в литературе скорость вычисления соответствует порядку где сумма количества документов и термов kndash размерность пространства факторов

На рисунке показано возникновение и изменение главных факторов при уменьшении числа сингулярных элементов диагональной матрицы от 100 до ~12 Трехмерные рисунки представляют собой симметричную матрицу полученную в результате вычисления скалярного произведения векторов каждого эталонного документа с каждым тестируемым Эталонный набор векторов ndash это заранее размеченный на 30 документов текст тестируемый ndash с уменьшением числа сингулярных значений диагональной матрицы полученной при SVD-анализе На осях X и Y откладывается количество документов (эталонных и тестируемых) на оси Z ndash объем лексиконаНа рисунках хорошо видно что при уменьшении числа сингулярных диагональных элементов на 20-30 факторы еще не достаточно ярко выявлены но при этом возникают корреляции похожих документов (небольшие пики вне диагонали) которые сначала незначительно увеличиваются а затем с уменьшением числа сингулярных значений (до 70-80) ndash исчезают При автоматической кластеризации такие пики являются шумом поэтому их желательно минимизировать Если же целью является получение ассоциативных связей внутри документов то следует найти оптимальное соотношение сохранения основного лексикона и примешивания ассоциативного

Имплементация в R - Package lsquolsarsquoalnumx - Regular expression for removal of non-alphanumeric characters (saving special characters)

astextmatrix - Display a latent semantic space generated by Latent Semantic Analysis (LSA)

associate - Find close terms in a textmatrix

corpora - Corpora (Essay Scoring) dimcalc Dimensionality Calculation Routines (LSA)

dimcalc - Dimensionality Calculation Routines (LSA)

lsa - Create a vector space with Latent Semantic Analysis (LSA)

printtextmatrix - Print a textmatrix (Matrices)

sampletextmatrix - Create a random sample of files

textmatrix - Создает Textmatrix (Matrices) из файлов

Пример 1

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) read files into a document-term matrixmyMatrix = textmatrix(td minWordLength=1) create the latent semantic spacemyLSAspace = lsa(myMatrix dims=dimcalc_raw()) display it as a textmatrix againround(astextmatrix(myLSAspace)2) should give the original create the latent semantic spacemyLSAspace = lsa(myMatrix dims=dimcalc_share())

Пример 2

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) create matricesmyMatrix = textmatrix(td minWordLength=1)myLSAspace = lsa(myMatrix dims=dimcalc_share())myNewMatrix = astextmatrix(myLSAspace) calc associations for mouseassociate(myNewMatrix mouse) clean upunlink(td recursive=TRUE)

Пример 3 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(ham mouse sushi) file=paste(td D2 sep=) )write( c(dog pet pet) file=paste(td D3 sep=) ) LSAdata(stopwords_en)myMatrix = textmatrix(td stopwords=stopwords_en)myMatrix = lw_logtf(myMatrix) gw_idf(myMatrix)myLSAspace = lsa(myMatrix dims=dimcalc_share())astextmatrix(myLSAspace) clean upunlink(td recursive=TRUE)

Пример 4 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(hamster mouse sushi) file=paste(td D2 sep=) )write( c(dog monster monster) file=paste(td D3 sep=) ) read them create a document-term matrixtextmatrix(td) read them drop german stopwordsdata(stopwords_de)textmatrix(td stopwords=stopwords_de) read them based on a controlled vocabularyvoc = c(dog mouse)textmatrix(td vocabulary=voc minWordLength=1) clean up

Вместо заключения Очевидным недостатком LSA является ненормальность (негаусовость) вероятностного распределения слов в любом естественном языке Но эту проблему можно решить сглаживанием выборки (например применив фонетические слова распределение становится более laquoнормальнымraquo) Либо используют вероятностный LSA тназ PLSA основанный на мультиноминальном распределении Другим менее очевидным недостаткам LSA (и ему подобных методов) применительно к обработке неструктурированной информации можно отнести laquoтуманностьraquo самого метода (в частности выбора кол-ва сингулярных значений диагональной матрицы) и интерпретации результата не говоря уже о проблеме сбалансированности обучающего текста

Как правило для качественного построения модели оставляют менее 1-2 процента от общего числа диагональных значений (после SVD преобразования но об это в следующем посте) И как показывает практика увеличение числа факторов приводит к ухудшению результата Но дойдя примерно до 10 процентов от общего числа диагональных значений опять может быть всплеск аналогичный результату полученному при 1

Сбалансированность корпуса ndash вечная проблема которая не имеет хорошего решения на сегодняшний день Поэтому про нее приято помалкивать

Интерпретируемость результатов LSA (как и DLA) также затруднительна человек еще может понять что за тематику будет содержать топик полученный в результате анализа а вот машине не понять (не аннотировать) тематику без привлечения большого числа хороших и разных тезаурусов

Таким образом несмотря на трудоемкость и непрозрачность LSA он может успешно применяться для разного рада задач где важно поймать семантику сообщения обобщить или расширить laquoсмыслыraquo поискового запроса

bull Стандарт основанный на XML для обмена моделями статистической обработки Data Mining

bull Поддерживается более 20 организациями и поставщиками ПО

bull Реализован в частности и в R

Поддерживаемые предиктивные алгоритмы в R

Состав pmml package

bull addLT

bull addMSAttributes

bull audit

bull fileToXMLNode

bull pmml

bull pmmlada

bull pmmlcoxph

bull pmmlcvglmnet

bull pmmlglm

bull pmmlhclust

bull pmmlkmeans

bull pmmlksvm

bull pmmllm bull pmmlmultinom bull pmmlnaiveBayes bull pmmlnnet bull pmmlrandomForest bull pmmlrfsrc bull pmmlrpart bull pmmlrules bull pmmlsvm bull pmmlCanExport bull pmmltoc

Пример

Good by R see you later alligator

WATSON ndash одно из наиболее впечатляющих применений предиктивной аналитики

Разрабатывался компанией IBM с 2006 по 2010 годПрославился победой в телешоу Jeopardy (в России ndash laquoСвоя играraquo) в 2011 годуПредшественник Deep Blue обыграл чемпиона мира по шахматам Гарри Каспарова в 1997 г

>

IBM Deep QA Project

bull Целью проекта было создать компьютерную систему (ИИ) для ответа на вопросы (QA) задаваемые в свободной форме в телешоу и показать результаты соизмеримые с человеческими

bull Задача более сложная чем шахматная программа Deep Blue выигравшая у Каспарова в 1997 г

bull Вопросы по категориямCategory General ScienceClue When hit by electrons a phosphor gives off electromagnetic energy in this formAnswer Light (or Photons)

Category Lincoln BlogsClue Secretary Chase just submitted this to me for the third time guess what pal This time Irsquom accepting itAnswer his resignation

Category Head NorthClue Theyrsquore the two states you could be reentering if yoursquore crossing Floridarsquos northern borderAnswer Georgia and Alabama

Вопросы могут касаться сразу нескольких фактов чтобы ответ был вернымCategory ldquoRaprdquo SheetClue This archaic term for a mischievous or annoying child can also mean a rogue or scampSubclue 1 This archaic term for a mischievous or annoying childSubclue 2 This term can also mean a rogue or scampAnswer Rapscallion

Category Diplomatic RelationsClue Of the four countries in the world that the United States does not have diplomatic relations with the one thatrsquos farthest northInner subclue The four countries in the world that the United States does not have diplomatic relations with (Bhutan Cuba Iran North Korea)Outer subclue Of Bhutan Cuba Iran and North Korea the one thatrsquos farthest northAnswer North Korea

Вопросы - пазлы

Category Before and After Goes to the MoviesClue Film of a typical day in the life of the Beatles which includes running from bloodthirsty zombie fans in a Romero classicSubclue 2 Film of a typical day in the life of the Beatles Answer 1 (A Hard Dayrsquos Night)Subclue 2 Running from bloodthirsty zombie fans in a Romero classicAnswer 2 (Night of the Living Dead)Answer A Hard Dayrsquos Night of the Living Dead

Category Rhyme TimeClue Itrsquos where Pele stores his ballSubclue 1 Pele ball (soccer)Subclue 2 where store (cabinet drawer locker and so on)Answer soccer locker

Недопустимые типы вопросов

oCategory Picture This(Contestants are shown a picture of a B-52 bomber)Clue Alphanumeric name of the fearsome machine seen hereAnswer B-52

oCategory Decode the Postal CodesVerbal instruction from host Wersquore going to give you a word comprising two postal abbreviations you have to identify the statesClue VainAnswer Virginia and Indiana

Лексические типы ответа ndash LAT (Lexical Answer Type)

Метрики качества ответов - результативность

Показатели двух теоретических QA систем

Показатели результативности чемпионов шоу (2000)

Облако победителей

Линия сравнения результативности (baseline performance)

Сравнение системы тестового поиска и поиска в базе знаний

Результативность Watson (по версиям)

Основы подхода Deep QA

bull Massive parallelism использование высокого параллелизма при рассмотрении множественных интерпретаций и гипотез

bull Many experts привлечение интеграции приложения и контекстуального оценивания в широком диапазоне слабосвязанных вероятностных вопросов и контентной аналитики

bull Pervasive confidence estimation повсеместная оценка доверия означает что ни один из компонентов не включается в ответ сразу все компоненты имеют признаки и связанные с ними уровни доверия производится скоринг различных вопросов и контентная интерпретация Основа confidence-processing состоит в обучении как стэкировать и комбинировать баллы

bull Integrate shallow and deep knowledge интеграция поверхностных и глубинных знаний состоит в балансе использования строгой семантики и мелких семантик использующих множества слабо сформированных онтологий

bull Content Acquisition - Сбор контентаСочетает ручные и автоматические этапы Первым шагом является анализ примеров вопросов проблемного пространства чтобы произвести описание видов вопросов на которые нужно ответить и характеризовать область применения Анализ примеров вопросов в первую очередь ручная задача в то время как анализ области может быть выполнен путем автоматических или статистических методов таких как анализ LAT показанный ранее Учитывая вопросы для широкого домена Jeopardy Challenge источники для Watson включают широкий ассортимент энциклопедий словарей тезаурусов Newswire статьи литературные произведения и тд Начиная с разумного размера базового корпуса DeepQA затем применяет автоматический процесс расширения корпуса Процесс включает в себя четыре этапа высокого уровня (1) выявления основных документов и получить соответствующие документы из Интернет (2) извлечь автономные текстовые ядра из связанных веб-документов (3) Оценка на основе ядер являются ли они информативны по отношению к исходному основному документу и (4) объединить наиболее информативные ядра в расширенном корпусе Работающая система использует этот расширенный корпус и не имеет доступа к Интернет во время игры

bull Question Analysis ndash Анализ вопроса

Первый шаг во время выполнения процесса вопрос-ответной системы При анализе вопроса система пытается понять что вопрос задан и выполняет начальный анализ определяющий как вопрос будет обработан на остальных этапах работы системы Подход DeepQA использует смешанный набор экспертов на данном этапе и в системе Watson производится мелкий парсинг глубокий парсинг строятся логические формы семантические этикетки ролей взаимные ссылки отношения именованные сущности и так далее а также конкретные виды анализа для ответа вопрос

bull Question classification - Классификация вопроса

Это задача выявления типа вопроса или частей вопроса которые требуют специальной обработки Это может включать в себя что-нибудь из отдельных слов с двойным смыслом и потенциально до выявления целых статей которые имеют определенную синтаксическую семантическую или риторические функциональные возможности которые могут инициировать нисходящий анализ Классификация может определить вопрос как вопрос- головоломку вопрос-математику -определение и так далее Это будет определять каламбуры ограничения компоненты определений или целые подвопросы в пределах вопросов

bull Focus and LAT Detection ndash Определение фокуса и лексического типа ответа

Лексический тип ответа - это слово или словосочетание в вопросе который определяет тип ответа без попытки понять семантику Определение LAT является важным видом выигрыша и общим источником критических ошибок Преимущество подхода DeepQA является использование многих самостоятельно разработанных алгоритмов laquoответ-типированияraquo Например фокус вопроса викторины laquoПри попадании электронов люминофор излучает электромагнитную энергию в этой формеraquo - является laquoэта формаraquo Фокус часто (но не всегда) содержит полезную информацию об ответе часто субъект или объект отношение в вопросе и может превратить вопрос в фактическое утверждение при замене возможным кандидатом Это представляет полезный способ собирать доказательства о каждом кандидате

bull Relation Detection ndash детектирование отношений

Большинство вопросов содержит отношения являются ли они синтаксическими предикатами субъект-глагол-объект или семантические отношения между субъектами Например в вопросе laquoЕсть два штата в которые вы могли бы войти повторно если вы пересекаете северную границу штата Флоридаraquo мы можем обнаружить отношение границы (Флорида Х к северу) Watson использует обнаружение отношения на протяжении всего процесса QA от фокуса и LAT определения до прохождению и скорингу ответов Watson также может использовать обнаруженные отношения для выделения хранилища триплетов и напрямую генерировать кандидатов в ответы В 20000 игр Jeopardy вопросы например обнаружили распределение Freebase отношений чрезвычайно плоского вида (см рисунок) Это приближение распределеня 50 наиболее частых отношений в 20 000 случайно выбранных вопросах викторины

bull Decomposition ndash декомпозиция

Важным требованием успеха анализа Jeopardy является способность отвечать на вопросы которые разложены на составляющие DeepQA использует основанный на правилах глубокий парсинг и статистические методы классификации чтобы наилучшим образом разложить вопросы на элементы и определить как лучше разбить их на подвопросы Операционная гипотеза что правильная интерпретация вопроса позволит лучше произвести скоринг ответов после того как все доказательства собраны Даже если вопрос не должен быть разложен для определения ответа этот метод может помочь улучшить общее доверие ответу системы DeepQA решает задачи параллельно для каждого разложения применяя алгоритмы от начала до конца каждого подвопроса и синтезирует окончательные ответы DeepQA также поддерживает вложенные декомпозиции вопросов через рекурсивное применение QA системы от начала до конца в внутреннем подвопросе а затем во внешнем Настраиваемые компоненты позволяют легко подключать специализированные алгоритмы синтеза в общую систему

bull Hypothesis Generation ndash генерация гипотез

Генерация гипотез принимает результаты анализа вопросов и производит кандидатов на ответы Каждый кандидат ответ включается обратно в вопрос и это считается как гипотеза Система должна доказать правильность этой гипотезы с некоторой степенью уверенности Как и во всех аспектах DeepQA используется смесь разных подходов для первичного поиска и генерации кандидата в системе Watson

bull Primary Search ndash первичный поиск

В этом поиске целью является найти столько потенциально кандидатов сколько это можно сделать на основе результатов анализа вопроса В течение проекта велись эмпирические исследования направленные на баланс скорости объема и точности Эти исследования позволили регулярно настраивать систему так чтобы найти такое количество кандидатов которые производят наилучший баланс точности и вычислительных ресурсов Оперативная цель основного поиска в конечном счете стабилизировалась на около 85 процентов для топ-250 кандидатов то есть система генерирует правильный ответ как кандидата ответа на 85 процентов вопросов где-то в верхних 250 ранжированных кандидатов Разнообразие методов поиска используются в том числе с использованием нескольких текст поисковых системах с различными базовыми подходами (например Indri и Lucene) поиск документов а также поиска маршрута база знаний поиска с помощью SPARQL хранилища триплетов Для небольшого количества латов которые были определены как закрытые латы кандидат на ответ может быть получен из фиксированного списка в каком-то хранилище известных экземпляров LAT таких как США Президент или Страна

Поиск доказательств

bull Поиск по фразе ndash число соответствий разного типав ответе и вопросеbull Популярность ndash как часто встречается этот вариант ответаbull Соответствие по типу ndash ответ и требование вопросаbull Соответствие по времениbull Надежность источника

bull Candidate Answer Generation ndash генерирование кандидатов на ответ

Результаты поиска применяются для генерирования возможных кандидатов в ответы с помощью различных подходящих техник Для поиска документов извлекаются заголовки и используются как кандидаты Число кандидатов при этом может быть не единственным и требовать использования анализа подстрок и ссылок Используя детектирование именованных сущностей в ряде случаев удается извлечь хороших кандидатов В зависимости от типа источника для генерирования кандидата требуется разный набор алгоритмов например база знаний или обратный словарь порождают кандидатов непосредственно как кандидата Этот этап критически важен и если кандидаты не найдены то фиксируется невозможность ответа В нормальном режиме на этом этапе Watson гененерирует несколько сотен андидатов

bull Soft Filtering ndash мягкая фильтрацияДля ускорения процесса скоринга кандидатов Watson использует различные алгоритмы разной точности Более легковесные (менее вычислительно интенсивные) применяются на первом этапе скоринга На этом этапе устанавливается порог оценки и кандидаты имеющие более высокую оценку считаются прошедшими мягкую фильтрацию Они поступают на выработку гипотез и скоринг доказательств Интересно что кандидаты не прошедшие порог мягкой фильтрации не забываются а направляются прямо на финальный этап слияния Модель скоринга мягкой фильтрации и порога определяются на основе machine learning используя обучающие данные Watson типично пропускает через мягкую фильтрацию 100 кандидатов но эта функция параметризована и их число можно изменить

Проблемы NLP

bull В мае 1898 года Португалия отмечала 400-летний юбилей со дня прибытия этого великого путешественника в Индию

В мае Гари прибыл в Индию после празднования своего юбилея в Португалии

21 мая 1498 года Васка де Гама высадился в местечке Каппад

bull Он был помилован президентом 8 сентября 1974 годаФорд помиловал Никсона 8 сентября 1974 года Никсон Форд

bull Говоря ldquogive a trinklerdquo что предлагают вам сделать британцы по приезду в город

bull Hypothesis and Evidence Scoring ndash скоринг гипотез и доказательств

Прошедшие порог мягкой фильтрации кандидаты поступают на скрупулезный процесс который включает сбор дополнительных поддерживающих доказательств для каждого кандидата на ответ или гипотезу Процесс использует широкий набор различных методов скоринговой аналитики чтобы исследовать все поддерживающие доказательства

bull Evidence Retrieval ndash извлечение доказательств

Чтобы лучше исследовать каждого кандидата прошедшего через мягкую фильтрацию система собирает дополнительные поддерживающие доказательства Архитектура поддерживает интеграцию различных evidence-gathering техник Один из применяемых способов состоит в том что проводится дополнительный поиск в котором кандидат добавляется в качестве required term к первичному запросу извлеченному из вопроса Это будет приводить к получению выражений содержащих кандидата в контексте первичных терминов вопросаПоддерживающие доказательства могут быть извлечены и из других источников например из RDF баз знаний Извлеченные поддерживающие доказательства направляются модули глубокого скоринга которые анализируют кандидата в контексте поддерживающего доказательства

bull Scoring ndash скоринг (количественное оценивание)

Алгоритмы скоринга определяют степень несомненности которую обеспечивают доказательства в поддержку кандидата The DeepQA framework поддерживает множество компонент для выработки оценки в различных измерениях каждого доказательства которая вырабатывает оценку связанную с тем насколько хорошо доказательство поддерживает кандидата на ответ в качестве ответа на заданный вопросDeepQA использует общий формат для оценок для принятых гипотез и подтверждающих оценок отражающих семантические и ограничивающие факторы Это позволяет разработчикам DeepQA быстро разворачивать перемешивать и настраивать сложные совокупности модуле для обработкиНапрмер Watson использует больше чем 50 скоринговых компонент Они производят оценки разноготипа от оценок вероятностей до подсчета категориальных свойств основанных на доказательствах от различных источников включая неструктурированные тексты полуструктурированные тексты и RDF хранилища Эти оценки используют такие данные как degree of match between a passagersquos predicate-argument structure and the question passage source reliability geospatial location temporal relationships taxonomic classification the lexical and semantic relations the candidate is known to participate in the candidatersquos correlation with question terms its popularity (or obscurity) its aliases and so on

Вопрос Чили имеет самую длинную общую границу со страной Сгенерировано несколько кандидатов среди них Аргентина и Боливия Первичный поиск даст приоритет Боливии из=а популярности обсуждений их отношений Однако собранные Watson доказательства из других источников показывают более высокую оценку для Аргентины

Скоринг (взвешивание) доказательств ndash предиктивная аналитика

- При делении клеток митозом называется деление ядра а цитокинезом ndash деление этой жидкости в которой находится ядро

Генерирование кандидатов Сбор доказательств Уверенность в доказательстве

ОрганеллыВакуольЦитоплазмаПлазмамитохондрии

Органеллы ndash не жидкостьВакуоль ndash не жидкостьЦитоплазма ndash возможно жидкостьПлазма ndash не жидкостьМитохондрии ndash не жидкость

Цитоплазма ndash 92Органеллы ndash 19Вакуоль ndash 10Плазма ndash 2Митохондрии ndash 2

Answer Merging ndash объединение ответов

Многие кандидаты в ответы на поставленный вопрос могут быть эквивалентны несмотря на различные внешне формыТехники ранжирования тем не менее рассматривают таких кандидатов как различные Без объединения алгоритмы ранжирования будут работать отдельно с эквивалентными сущностями и пытаться противопоставить одну форму другой Это приведет к проблемам принятия решений Watson содержит алгоритмы идентификации эквивалентных сущностей используя множественные сравнения нормализацию и методы разрешения совместных ссылок

Ranking and Confidence Estimation ndash ранжирование и оценивание доверияПосле объединения система должна произвести ранжирование гипотез и оценивает доверие основанное на объединенных оценках В системе подобран ML подход основанный на обучении на обучающем наборе вопросов с известными ответами и обучение модели основываясь на скоринге Применяется как весьма плоская модель и существующие алгоритмы ранжирования Для более тонких оценок применяется двухфазный процесс использующий группы оценок для оценивания профиля и для оценки доверия Используя эту промежуточную модель система производит ансамбль промежуточных оценок Здесь используется иерархическая техника метаучителя и коллектива экспертов Этот подход обеспечивает итеративное расширение обучения используя изощренные и глубокие иерархические модели обеспечивающие гибкость и робастность при выработке оценок и модифицирует системуМетаучитель в Watson использует набор многие обучаемые модели чтобы управлять различными классами вопросов которые могут быть критическими при идентификации правильных ответовНаконец важно что использование NLP-based скоринга дает весьма разреженные оценки и требует точного оценивания с применением confidence-weighted learning techniques

Развертывание Watson

bull DeepQA разработан используя Apache UIMA - framework implementation of the Unstructured Information Management Architecture (Ferrucci and Lally 2004) UIMA был разработан для поддержки взаимодействия и масштабирования приложений обработки текста и мультимодального анализа Все компоненты DeepQA имплементированы как UIMA annotators Это программные компоненты для анализа текста и получения аннотаций или заключений о тексте Watson развивался в процессе разработки от нескольких компонент до нескольких сотен UIMA обеспечивает быструю интеграцию компонент тестирование и исследование

bull Начальная имплементация Watson запускалась на одном процессоре и требовала 2 часа на ответ на один вопрос DeepQA развился в параллельную систему используя UIMA-AS часть Apache UIMA масштабируя приложения UIMA используя асинхронный механизм месседжинга UIMA-AS позволила масштабировать Watson более чем на 2500 вычислительных ядер UIMA-AS управляет коммуникациями месседжингом управлением запросами используя open JMS standard UIMA-AS позволил снизить латентность Watson до 3ndash5 секунд

bull Для препроцессинга корпуса текстов создания быстрых run-time indices использован Hadoop

UIMA annotators были развернуты как mapper ы в Hadoop map-reduce framework Hadoop распределяет контент по кластеру для обеспечения высокого использования CPU и обеспечивает подходящий набор инструментов для deploying managing and monitoring the corpus analysis process

bull Аппаратная платформа ndash это 90 серверов 2800 ядер 15 ТБ RAM 80 Тфлопс $3 000 000 10 R

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 10: !Predictive analytics part_3

Стемминг ndash морфологический анализ Stemminggtlibrary( SnowballC)gt wordStem(c(молодёжный молодёжного молодёжном года году участники участников) language=ru)[1] молодёжн молодёжн молодёжн год год участник участник

Использование функции mystemexe от Яндекс

mystemexe to the catalogarticlesmystem lt- function(doc) library(stringr) sdoc lt- system(mystem -nl -e utf-8 intern=T input=doc) При получении нескольких вариантов mystem разделяет ихdirpathlt-articles вертикальной чертой Удалим черту и варианты sdoc lt- str_replace(sdoc |$ ) Если mystem сомневается в результате он добавляет знак вопроса Удаляемsummary sdoc lt- str_replace(sdoc ) sdoc lt- paste(sdoc collapse= ) attributes(sdoc) lt- attributes(doc) sdoc

LSA - Латентный семантический анализ

Сравнение текстов по смысловому содержанию

Определения

Латентно-семантический анализ отображает документы и отдельные слова в так называемое laquoсемантическое пространствоraquo в котором и производятся все дальнейшие сравнения При этом делаются следующие предположения

1) Документы это просто набор слов Порядок слов в документах игнорируется Важно только то сколько раз то или иное слово встречается в документе2) Семантическое значение документа определяется набором слов которые как правило идут вместе Например в биржевых сводках часто встречаются слова laquoфондraquo laquoакцияraquo laquoдолларraquo3) Каждое слово имеет единственное значение Это безусловно сильное упрощение но именно оно делает проблему разрешимой

Основные этапы

bull Удаление слов из laquoстоп-спискаraquobull Стеммингbull Удаление уникальных словbull Построение частотной матрицы А индексируемых слов (TF-IDF)

строки ndash словастолбцы ndash тексты

bull Сингулярное разложение (SVD) матрицыbull Определение существенной размерности (главных компонент)bull Усечение размерности семантического пространстваbull Представление слов и текстов в усеченном пространствеbull Визуализация и ассоциативная кластеризация текстов

TF-IDF анализ

TF (term frequency mdash частота слова) mdash отношение числа вхождения некоторого слова к общему количеству слов документа Таким образом оценивается важность слова t_i в пределах отдельного документа

где есть число вхождений слова в документ а в знаменателе mdash общее число слов в данном документеIDF (inverse document frequency mdash обратная частота документа) mdash инверсия частоты с которой некоторое слово встречается в документах коллекции Основоположником данной концепции является Карен ДжонсУчёт IDF уменьшает вес широкоупотребительных слов Для каждого уникального слова в пределах конкретной коллекции документов существует только одно значение IDF

D -количество документов в корпусеколичество документов в которых встречается t

Частотная матрица для двух далеких текстов

Частотная матрица для двух более близких текстов

Карта слов для двух выбранных документов

Разложение матрицы laquoслова-документыraquo

Модель векторного пространства

bull Наиболее распространенный вариант LSA основан на использовании разложения вещественнозначной матрицы по сингулярным значениям или SVD-разложения (SVD ndash Singular Value Decomposition) С помощью него любую матрицу можно разложить в множество ортогональных матриц линейная комбинация которых является достаточно точным приближением к исходной матрице Обычно используют мультипликативное разложение

bull где матрицы U и V ndash ортогональные а S ndash диагональная матрица значения на диагонали которой называются сингулярными значениями матрицы A

bull Символ Т в обозначении матрицы означает транспонирование матрицы

bull Основная идея латентно-семантического анализа состоит в следующем

bull после перемножения матриц полученная матрица Ă содержащая только k первых линейно независимых компонент исходной матрицы A отражает структуру зависимостей (в данном случае ассоциативных) латентно присутствующих в исходной матрице Структура зависимостей определяется весовыми функциями термов для каждого документа

Особенность такого разложения в том что если в матрице S оставить только k наибольших сингулярных значений то линейная комбинация получившихся матриц будет наилучшим приближением исходной матрицы A к матрице Ă ранга k

Пример

bull c1 Human machine interface for ABC computer applicationsbull c2 A survey of user opinion of computer system response timebull c3 The EPS user interface management systembull c4 System and human system engineering testing of EPSbull c5 Relation of user perceived response time to error measurementbull m1 The generation of random binary ordered treesbull m2 The intersection graph of paths in treesbull m3 Graph minors IV Widths of trees and well-quasi-orderingbull m4 Graph minors A survey

Желтым отмечены слова встречающиеся хотя бы в двух заголовках

После SVD

Семантическое пространство

Матрица расстояний между словами

Результат снижения размерности кластеризация [human interface computer user EPS response time][survey trees graph minors]

Расстояния между заголовками до и после SVD

bull Объем корпуса для построения модели должен быть большим ndash желательно около трех-пяти миллионов словоупотреблений Но метод работает и на коллекциях меньшего объема правда несколько хужеПроизвольное разбиение текста на документы обычно производят от тысячи до нескольких десятков тысяч частей примерно одинакового объема Таким образом матрица термы-на-документы получается прямоугольной и может быть сильно разраженной Например при объеме 5 млн словоформ получается матрица 30-50 тысяч документов на 200-300 тысяч а иногда и более термов В действительности низкочастотные термы можно опустить тк это заметно снизит размерность матрицы (скажем если не использовать 5 от общего объема низкочастотных термов то размерность сократиться в два раза) что приведет к снижению вычислительных ресурсов и времениВыбор сокращения сингулярных значений диагональной матрицы (размерности k) при обратном перемножении матриц достаточно произвольно При вышеуказанной размерности матрицы оставляют несколько сотен (100-300) главных компонент При этом как показывает практика зависимость количества компонент и точность меняются нелинейно например если начинать увеличивать их число то точность будет падать но при некотором значении скажем 10000 ndash опять вырастет до оптимального случая

Применение

bull сравнение двух термов между собойbull сравнение двух документов между собойbull сравнение терма и документа

Так же иногда этот метод используют для нахождения laquoближайшего соседаraquo mdash наиболее близких по весу термов ассоциативно связанных с исходным Это свойство используют для поиска близких по смыслу термов Следует уточнить что близость по смыслу ndash это контекстнозависимая величина поэтому не всякий близкий терм будет соответствовать ассоциации (это может быть и синоним и антоним и просто часто встречающееся вместе с искомым термом слово или словосочетание)

bull Достоинством метода можно считать его замечательную способность выявлять зависимости между словами когда обычные статистические методы бессильны LSA также может быть применен как с обучением (с предварительной тематической классификацией документов) так и без обучения (произвольное разбиение произвольного текста) что зависит от решаемой задачи

bull Об основных недостатках значительное снижение скорости вычисления при увеличении объема входных данных (в частности при SVD-преобразовании)

bull Как показано в литературе скорость вычисления соответствует порядку где сумма количества документов и термов kndash размерность пространства факторов

На рисунке показано возникновение и изменение главных факторов при уменьшении числа сингулярных элементов диагональной матрицы от 100 до ~12 Трехмерные рисунки представляют собой симметричную матрицу полученную в результате вычисления скалярного произведения векторов каждого эталонного документа с каждым тестируемым Эталонный набор векторов ndash это заранее размеченный на 30 документов текст тестируемый ndash с уменьшением числа сингулярных значений диагональной матрицы полученной при SVD-анализе На осях X и Y откладывается количество документов (эталонных и тестируемых) на оси Z ndash объем лексиконаНа рисунках хорошо видно что при уменьшении числа сингулярных диагональных элементов на 20-30 факторы еще не достаточно ярко выявлены но при этом возникают корреляции похожих документов (небольшие пики вне диагонали) которые сначала незначительно увеличиваются а затем с уменьшением числа сингулярных значений (до 70-80) ndash исчезают При автоматической кластеризации такие пики являются шумом поэтому их желательно минимизировать Если же целью является получение ассоциативных связей внутри документов то следует найти оптимальное соотношение сохранения основного лексикона и примешивания ассоциативного

Имплементация в R - Package lsquolsarsquoalnumx - Regular expression for removal of non-alphanumeric characters (saving special characters)

astextmatrix - Display a latent semantic space generated by Latent Semantic Analysis (LSA)

associate - Find close terms in a textmatrix

corpora - Corpora (Essay Scoring) dimcalc Dimensionality Calculation Routines (LSA)

dimcalc - Dimensionality Calculation Routines (LSA)

lsa - Create a vector space with Latent Semantic Analysis (LSA)

printtextmatrix - Print a textmatrix (Matrices)

sampletextmatrix - Create a random sample of files

textmatrix - Создает Textmatrix (Matrices) из файлов

Пример 1

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) read files into a document-term matrixmyMatrix = textmatrix(td minWordLength=1) create the latent semantic spacemyLSAspace = lsa(myMatrix dims=dimcalc_raw()) display it as a textmatrix againround(astextmatrix(myLSAspace)2) should give the original create the latent semantic spacemyLSAspace = lsa(myMatrix dims=dimcalc_share())

Пример 2

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) create matricesmyMatrix = textmatrix(td minWordLength=1)myLSAspace = lsa(myMatrix dims=dimcalc_share())myNewMatrix = astextmatrix(myLSAspace) calc associations for mouseassociate(myNewMatrix mouse) clean upunlink(td recursive=TRUE)

Пример 3 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(ham mouse sushi) file=paste(td D2 sep=) )write( c(dog pet pet) file=paste(td D3 sep=) ) LSAdata(stopwords_en)myMatrix = textmatrix(td stopwords=stopwords_en)myMatrix = lw_logtf(myMatrix) gw_idf(myMatrix)myLSAspace = lsa(myMatrix dims=dimcalc_share())astextmatrix(myLSAspace) clean upunlink(td recursive=TRUE)

Пример 4 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(hamster mouse sushi) file=paste(td D2 sep=) )write( c(dog monster monster) file=paste(td D3 sep=) ) read them create a document-term matrixtextmatrix(td) read them drop german stopwordsdata(stopwords_de)textmatrix(td stopwords=stopwords_de) read them based on a controlled vocabularyvoc = c(dog mouse)textmatrix(td vocabulary=voc minWordLength=1) clean up

Вместо заключения Очевидным недостатком LSA является ненормальность (негаусовость) вероятностного распределения слов в любом естественном языке Но эту проблему можно решить сглаживанием выборки (например применив фонетические слова распределение становится более laquoнормальнымraquo) Либо используют вероятностный LSA тназ PLSA основанный на мультиноминальном распределении Другим менее очевидным недостаткам LSA (и ему подобных методов) применительно к обработке неструктурированной информации можно отнести laquoтуманностьraquo самого метода (в частности выбора кол-ва сингулярных значений диагональной матрицы) и интерпретации результата не говоря уже о проблеме сбалансированности обучающего текста

Как правило для качественного построения модели оставляют менее 1-2 процента от общего числа диагональных значений (после SVD преобразования но об это в следующем посте) И как показывает практика увеличение числа факторов приводит к ухудшению результата Но дойдя примерно до 10 процентов от общего числа диагональных значений опять может быть всплеск аналогичный результату полученному при 1

Сбалансированность корпуса ndash вечная проблема которая не имеет хорошего решения на сегодняшний день Поэтому про нее приято помалкивать

Интерпретируемость результатов LSA (как и DLA) также затруднительна человек еще может понять что за тематику будет содержать топик полученный в результате анализа а вот машине не понять (не аннотировать) тематику без привлечения большого числа хороших и разных тезаурусов

Таким образом несмотря на трудоемкость и непрозрачность LSA он может успешно применяться для разного рада задач где важно поймать семантику сообщения обобщить или расширить laquoсмыслыraquo поискового запроса

bull Стандарт основанный на XML для обмена моделями статистической обработки Data Mining

bull Поддерживается более 20 организациями и поставщиками ПО

bull Реализован в частности и в R

Поддерживаемые предиктивные алгоритмы в R

Состав pmml package

bull addLT

bull addMSAttributes

bull audit

bull fileToXMLNode

bull pmml

bull pmmlada

bull pmmlcoxph

bull pmmlcvglmnet

bull pmmlglm

bull pmmlhclust

bull pmmlkmeans

bull pmmlksvm

bull pmmllm bull pmmlmultinom bull pmmlnaiveBayes bull pmmlnnet bull pmmlrandomForest bull pmmlrfsrc bull pmmlrpart bull pmmlrules bull pmmlsvm bull pmmlCanExport bull pmmltoc

Пример

Good by R see you later alligator

WATSON ndash одно из наиболее впечатляющих применений предиктивной аналитики

Разрабатывался компанией IBM с 2006 по 2010 годПрославился победой в телешоу Jeopardy (в России ndash laquoСвоя играraquo) в 2011 годуПредшественник Deep Blue обыграл чемпиона мира по шахматам Гарри Каспарова в 1997 г

>

IBM Deep QA Project

bull Целью проекта было создать компьютерную систему (ИИ) для ответа на вопросы (QA) задаваемые в свободной форме в телешоу и показать результаты соизмеримые с человеческими

bull Задача более сложная чем шахматная программа Deep Blue выигравшая у Каспарова в 1997 г

bull Вопросы по категориямCategory General ScienceClue When hit by electrons a phosphor gives off electromagnetic energy in this formAnswer Light (or Photons)

Category Lincoln BlogsClue Secretary Chase just submitted this to me for the third time guess what pal This time Irsquom accepting itAnswer his resignation

Category Head NorthClue Theyrsquore the two states you could be reentering if yoursquore crossing Floridarsquos northern borderAnswer Georgia and Alabama

Вопросы могут касаться сразу нескольких фактов чтобы ответ был вернымCategory ldquoRaprdquo SheetClue This archaic term for a mischievous or annoying child can also mean a rogue or scampSubclue 1 This archaic term for a mischievous or annoying childSubclue 2 This term can also mean a rogue or scampAnswer Rapscallion

Category Diplomatic RelationsClue Of the four countries in the world that the United States does not have diplomatic relations with the one thatrsquos farthest northInner subclue The four countries in the world that the United States does not have diplomatic relations with (Bhutan Cuba Iran North Korea)Outer subclue Of Bhutan Cuba Iran and North Korea the one thatrsquos farthest northAnswer North Korea

Вопросы - пазлы

Category Before and After Goes to the MoviesClue Film of a typical day in the life of the Beatles which includes running from bloodthirsty zombie fans in a Romero classicSubclue 2 Film of a typical day in the life of the Beatles Answer 1 (A Hard Dayrsquos Night)Subclue 2 Running from bloodthirsty zombie fans in a Romero classicAnswer 2 (Night of the Living Dead)Answer A Hard Dayrsquos Night of the Living Dead

Category Rhyme TimeClue Itrsquos where Pele stores his ballSubclue 1 Pele ball (soccer)Subclue 2 where store (cabinet drawer locker and so on)Answer soccer locker

Недопустимые типы вопросов

oCategory Picture This(Contestants are shown a picture of a B-52 bomber)Clue Alphanumeric name of the fearsome machine seen hereAnswer B-52

oCategory Decode the Postal CodesVerbal instruction from host Wersquore going to give you a word comprising two postal abbreviations you have to identify the statesClue VainAnswer Virginia and Indiana

Лексические типы ответа ndash LAT (Lexical Answer Type)

Метрики качества ответов - результативность

Показатели двух теоретических QA систем

Показатели результативности чемпионов шоу (2000)

Облако победителей

Линия сравнения результативности (baseline performance)

Сравнение системы тестового поиска и поиска в базе знаний

Результативность Watson (по версиям)

Основы подхода Deep QA

bull Massive parallelism использование высокого параллелизма при рассмотрении множественных интерпретаций и гипотез

bull Many experts привлечение интеграции приложения и контекстуального оценивания в широком диапазоне слабосвязанных вероятностных вопросов и контентной аналитики

bull Pervasive confidence estimation повсеместная оценка доверия означает что ни один из компонентов не включается в ответ сразу все компоненты имеют признаки и связанные с ними уровни доверия производится скоринг различных вопросов и контентная интерпретация Основа confidence-processing состоит в обучении как стэкировать и комбинировать баллы

bull Integrate shallow and deep knowledge интеграция поверхностных и глубинных знаний состоит в балансе использования строгой семантики и мелких семантик использующих множества слабо сформированных онтологий

bull Content Acquisition - Сбор контентаСочетает ручные и автоматические этапы Первым шагом является анализ примеров вопросов проблемного пространства чтобы произвести описание видов вопросов на которые нужно ответить и характеризовать область применения Анализ примеров вопросов в первую очередь ручная задача в то время как анализ области может быть выполнен путем автоматических или статистических методов таких как анализ LAT показанный ранее Учитывая вопросы для широкого домена Jeopardy Challenge источники для Watson включают широкий ассортимент энциклопедий словарей тезаурусов Newswire статьи литературные произведения и тд Начиная с разумного размера базового корпуса DeepQA затем применяет автоматический процесс расширения корпуса Процесс включает в себя четыре этапа высокого уровня (1) выявления основных документов и получить соответствующие документы из Интернет (2) извлечь автономные текстовые ядра из связанных веб-документов (3) Оценка на основе ядер являются ли они информативны по отношению к исходному основному документу и (4) объединить наиболее информативные ядра в расширенном корпусе Работающая система использует этот расширенный корпус и не имеет доступа к Интернет во время игры

bull Question Analysis ndash Анализ вопроса

Первый шаг во время выполнения процесса вопрос-ответной системы При анализе вопроса система пытается понять что вопрос задан и выполняет начальный анализ определяющий как вопрос будет обработан на остальных этапах работы системы Подход DeepQA использует смешанный набор экспертов на данном этапе и в системе Watson производится мелкий парсинг глубокий парсинг строятся логические формы семантические этикетки ролей взаимные ссылки отношения именованные сущности и так далее а также конкретные виды анализа для ответа вопрос

bull Question classification - Классификация вопроса

Это задача выявления типа вопроса или частей вопроса которые требуют специальной обработки Это может включать в себя что-нибудь из отдельных слов с двойным смыслом и потенциально до выявления целых статей которые имеют определенную синтаксическую семантическую или риторические функциональные возможности которые могут инициировать нисходящий анализ Классификация может определить вопрос как вопрос- головоломку вопрос-математику -определение и так далее Это будет определять каламбуры ограничения компоненты определений или целые подвопросы в пределах вопросов

bull Focus and LAT Detection ndash Определение фокуса и лексического типа ответа

Лексический тип ответа - это слово или словосочетание в вопросе который определяет тип ответа без попытки понять семантику Определение LAT является важным видом выигрыша и общим источником критических ошибок Преимущество подхода DeepQA является использование многих самостоятельно разработанных алгоритмов laquoответ-типированияraquo Например фокус вопроса викторины laquoПри попадании электронов люминофор излучает электромагнитную энергию в этой формеraquo - является laquoэта формаraquo Фокус часто (но не всегда) содержит полезную информацию об ответе часто субъект или объект отношение в вопросе и может превратить вопрос в фактическое утверждение при замене возможным кандидатом Это представляет полезный способ собирать доказательства о каждом кандидате

bull Relation Detection ndash детектирование отношений

Большинство вопросов содержит отношения являются ли они синтаксическими предикатами субъект-глагол-объект или семантические отношения между субъектами Например в вопросе laquoЕсть два штата в которые вы могли бы войти повторно если вы пересекаете северную границу штата Флоридаraquo мы можем обнаружить отношение границы (Флорида Х к северу) Watson использует обнаружение отношения на протяжении всего процесса QA от фокуса и LAT определения до прохождению и скорингу ответов Watson также может использовать обнаруженные отношения для выделения хранилища триплетов и напрямую генерировать кандидатов в ответы В 20000 игр Jeopardy вопросы например обнаружили распределение Freebase отношений чрезвычайно плоского вида (см рисунок) Это приближение распределеня 50 наиболее частых отношений в 20 000 случайно выбранных вопросах викторины

bull Decomposition ndash декомпозиция

Важным требованием успеха анализа Jeopardy является способность отвечать на вопросы которые разложены на составляющие DeepQA использует основанный на правилах глубокий парсинг и статистические методы классификации чтобы наилучшим образом разложить вопросы на элементы и определить как лучше разбить их на подвопросы Операционная гипотеза что правильная интерпретация вопроса позволит лучше произвести скоринг ответов после того как все доказательства собраны Даже если вопрос не должен быть разложен для определения ответа этот метод может помочь улучшить общее доверие ответу системы DeepQA решает задачи параллельно для каждого разложения применяя алгоритмы от начала до конца каждого подвопроса и синтезирует окончательные ответы DeepQA также поддерживает вложенные декомпозиции вопросов через рекурсивное применение QA системы от начала до конца в внутреннем подвопросе а затем во внешнем Настраиваемые компоненты позволяют легко подключать специализированные алгоритмы синтеза в общую систему

bull Hypothesis Generation ndash генерация гипотез

Генерация гипотез принимает результаты анализа вопросов и производит кандидатов на ответы Каждый кандидат ответ включается обратно в вопрос и это считается как гипотеза Система должна доказать правильность этой гипотезы с некоторой степенью уверенности Как и во всех аспектах DeepQA используется смесь разных подходов для первичного поиска и генерации кандидата в системе Watson

bull Primary Search ndash первичный поиск

В этом поиске целью является найти столько потенциально кандидатов сколько это можно сделать на основе результатов анализа вопроса В течение проекта велись эмпирические исследования направленные на баланс скорости объема и точности Эти исследования позволили регулярно настраивать систему так чтобы найти такое количество кандидатов которые производят наилучший баланс точности и вычислительных ресурсов Оперативная цель основного поиска в конечном счете стабилизировалась на около 85 процентов для топ-250 кандидатов то есть система генерирует правильный ответ как кандидата ответа на 85 процентов вопросов где-то в верхних 250 ранжированных кандидатов Разнообразие методов поиска используются в том числе с использованием нескольких текст поисковых системах с различными базовыми подходами (например Indri и Lucene) поиск документов а также поиска маршрута база знаний поиска с помощью SPARQL хранилища триплетов Для небольшого количества латов которые были определены как закрытые латы кандидат на ответ может быть получен из фиксированного списка в каком-то хранилище известных экземпляров LAT таких как США Президент или Страна

Поиск доказательств

bull Поиск по фразе ndash число соответствий разного типав ответе и вопросеbull Популярность ndash как часто встречается этот вариант ответаbull Соответствие по типу ndash ответ и требование вопросаbull Соответствие по времениbull Надежность источника

bull Candidate Answer Generation ndash генерирование кандидатов на ответ

Результаты поиска применяются для генерирования возможных кандидатов в ответы с помощью различных подходящих техник Для поиска документов извлекаются заголовки и используются как кандидаты Число кандидатов при этом может быть не единственным и требовать использования анализа подстрок и ссылок Используя детектирование именованных сущностей в ряде случаев удается извлечь хороших кандидатов В зависимости от типа источника для генерирования кандидата требуется разный набор алгоритмов например база знаний или обратный словарь порождают кандидатов непосредственно как кандидата Этот этап критически важен и если кандидаты не найдены то фиксируется невозможность ответа В нормальном режиме на этом этапе Watson гененерирует несколько сотен андидатов

bull Soft Filtering ndash мягкая фильтрацияДля ускорения процесса скоринга кандидатов Watson использует различные алгоритмы разной точности Более легковесные (менее вычислительно интенсивные) применяются на первом этапе скоринга На этом этапе устанавливается порог оценки и кандидаты имеющие более высокую оценку считаются прошедшими мягкую фильтрацию Они поступают на выработку гипотез и скоринг доказательств Интересно что кандидаты не прошедшие порог мягкой фильтрации не забываются а направляются прямо на финальный этап слияния Модель скоринга мягкой фильтрации и порога определяются на основе machine learning используя обучающие данные Watson типично пропускает через мягкую фильтрацию 100 кандидатов но эта функция параметризована и их число можно изменить

Проблемы NLP

bull В мае 1898 года Португалия отмечала 400-летний юбилей со дня прибытия этого великого путешественника в Индию

В мае Гари прибыл в Индию после празднования своего юбилея в Португалии

21 мая 1498 года Васка де Гама высадился в местечке Каппад

bull Он был помилован президентом 8 сентября 1974 годаФорд помиловал Никсона 8 сентября 1974 года Никсон Форд

bull Говоря ldquogive a trinklerdquo что предлагают вам сделать британцы по приезду в город

bull Hypothesis and Evidence Scoring ndash скоринг гипотез и доказательств

Прошедшие порог мягкой фильтрации кандидаты поступают на скрупулезный процесс который включает сбор дополнительных поддерживающих доказательств для каждого кандидата на ответ или гипотезу Процесс использует широкий набор различных методов скоринговой аналитики чтобы исследовать все поддерживающие доказательства

bull Evidence Retrieval ndash извлечение доказательств

Чтобы лучше исследовать каждого кандидата прошедшего через мягкую фильтрацию система собирает дополнительные поддерживающие доказательства Архитектура поддерживает интеграцию различных evidence-gathering техник Один из применяемых способов состоит в том что проводится дополнительный поиск в котором кандидат добавляется в качестве required term к первичному запросу извлеченному из вопроса Это будет приводить к получению выражений содержащих кандидата в контексте первичных терминов вопросаПоддерживающие доказательства могут быть извлечены и из других источников например из RDF баз знаний Извлеченные поддерживающие доказательства направляются модули глубокого скоринга которые анализируют кандидата в контексте поддерживающего доказательства

bull Scoring ndash скоринг (количественное оценивание)

Алгоритмы скоринга определяют степень несомненности которую обеспечивают доказательства в поддержку кандидата The DeepQA framework поддерживает множество компонент для выработки оценки в различных измерениях каждого доказательства которая вырабатывает оценку связанную с тем насколько хорошо доказательство поддерживает кандидата на ответ в качестве ответа на заданный вопросDeepQA использует общий формат для оценок для принятых гипотез и подтверждающих оценок отражающих семантические и ограничивающие факторы Это позволяет разработчикам DeepQA быстро разворачивать перемешивать и настраивать сложные совокупности модуле для обработкиНапрмер Watson использует больше чем 50 скоринговых компонент Они производят оценки разноготипа от оценок вероятностей до подсчета категориальных свойств основанных на доказательствах от различных источников включая неструктурированные тексты полуструктурированные тексты и RDF хранилища Эти оценки используют такие данные как degree of match between a passagersquos predicate-argument structure and the question passage source reliability geospatial location temporal relationships taxonomic classification the lexical and semantic relations the candidate is known to participate in the candidatersquos correlation with question terms its popularity (or obscurity) its aliases and so on

Вопрос Чили имеет самую длинную общую границу со страной Сгенерировано несколько кандидатов среди них Аргентина и Боливия Первичный поиск даст приоритет Боливии из=а популярности обсуждений их отношений Однако собранные Watson доказательства из других источников показывают более высокую оценку для Аргентины

Скоринг (взвешивание) доказательств ndash предиктивная аналитика

- При делении клеток митозом называется деление ядра а цитокинезом ndash деление этой жидкости в которой находится ядро

Генерирование кандидатов Сбор доказательств Уверенность в доказательстве

ОрганеллыВакуольЦитоплазмаПлазмамитохондрии

Органеллы ndash не жидкостьВакуоль ndash не жидкостьЦитоплазма ndash возможно жидкостьПлазма ndash не жидкостьМитохондрии ndash не жидкость

Цитоплазма ndash 92Органеллы ndash 19Вакуоль ndash 10Плазма ndash 2Митохондрии ndash 2

Answer Merging ndash объединение ответов

Многие кандидаты в ответы на поставленный вопрос могут быть эквивалентны несмотря на различные внешне формыТехники ранжирования тем не менее рассматривают таких кандидатов как различные Без объединения алгоритмы ранжирования будут работать отдельно с эквивалентными сущностями и пытаться противопоставить одну форму другой Это приведет к проблемам принятия решений Watson содержит алгоритмы идентификации эквивалентных сущностей используя множественные сравнения нормализацию и методы разрешения совместных ссылок

Ranking and Confidence Estimation ndash ранжирование и оценивание доверияПосле объединения система должна произвести ранжирование гипотез и оценивает доверие основанное на объединенных оценках В системе подобран ML подход основанный на обучении на обучающем наборе вопросов с известными ответами и обучение модели основываясь на скоринге Применяется как весьма плоская модель и существующие алгоритмы ранжирования Для более тонких оценок применяется двухфазный процесс использующий группы оценок для оценивания профиля и для оценки доверия Используя эту промежуточную модель система производит ансамбль промежуточных оценок Здесь используется иерархическая техника метаучителя и коллектива экспертов Этот подход обеспечивает итеративное расширение обучения используя изощренные и глубокие иерархические модели обеспечивающие гибкость и робастность при выработке оценок и модифицирует системуМетаучитель в Watson использует набор многие обучаемые модели чтобы управлять различными классами вопросов которые могут быть критическими при идентификации правильных ответовНаконец важно что использование NLP-based скоринга дает весьма разреженные оценки и требует точного оценивания с применением confidence-weighted learning techniques

Развертывание Watson

bull DeepQA разработан используя Apache UIMA - framework implementation of the Unstructured Information Management Architecture (Ferrucci and Lally 2004) UIMA был разработан для поддержки взаимодействия и масштабирования приложений обработки текста и мультимодального анализа Все компоненты DeepQA имплементированы как UIMA annotators Это программные компоненты для анализа текста и получения аннотаций или заключений о тексте Watson развивался в процессе разработки от нескольких компонент до нескольких сотен UIMA обеспечивает быструю интеграцию компонент тестирование и исследование

bull Начальная имплементация Watson запускалась на одном процессоре и требовала 2 часа на ответ на один вопрос DeepQA развился в параллельную систему используя UIMA-AS часть Apache UIMA масштабируя приложения UIMA используя асинхронный механизм месседжинга UIMA-AS позволила масштабировать Watson более чем на 2500 вычислительных ядер UIMA-AS управляет коммуникациями месседжингом управлением запросами используя open JMS standard UIMA-AS позволил снизить латентность Watson до 3ndash5 секунд

bull Для препроцессинга корпуса текстов создания быстрых run-time indices использован Hadoop

UIMA annotators были развернуты как mapper ы в Hadoop map-reduce framework Hadoop распределяет контент по кластеру для обеспечения высокого использования CPU и обеспечивает подходящий набор инструментов для deploying managing and monitoring the corpus analysis process

bull Аппаратная платформа ndash это 90 серверов 2800 ядер 15 ТБ RAM 80 Тфлопс $3 000 000 10 R

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 11: !Predictive analytics part_3

Использование функции mystemexe от Яндекс

mystemexe to the catalogarticlesmystem lt- function(doc) library(stringr) sdoc lt- system(mystem -nl -e utf-8 intern=T input=doc) При получении нескольких вариантов mystem разделяет ихdirpathlt-articles вертикальной чертой Удалим черту и варианты sdoc lt- str_replace(sdoc |$ ) Если mystem сомневается в результате он добавляет знак вопроса Удаляемsummary sdoc lt- str_replace(sdoc ) sdoc lt- paste(sdoc collapse= ) attributes(sdoc) lt- attributes(doc) sdoc

LSA - Латентный семантический анализ

Сравнение текстов по смысловому содержанию

Определения

Латентно-семантический анализ отображает документы и отдельные слова в так называемое laquoсемантическое пространствоraquo в котором и производятся все дальнейшие сравнения При этом делаются следующие предположения

1) Документы это просто набор слов Порядок слов в документах игнорируется Важно только то сколько раз то или иное слово встречается в документе2) Семантическое значение документа определяется набором слов которые как правило идут вместе Например в биржевых сводках часто встречаются слова laquoфондraquo laquoакцияraquo laquoдолларraquo3) Каждое слово имеет единственное значение Это безусловно сильное упрощение но именно оно делает проблему разрешимой

Основные этапы

bull Удаление слов из laquoстоп-спискаraquobull Стеммингbull Удаление уникальных словbull Построение частотной матрицы А индексируемых слов (TF-IDF)

строки ndash словастолбцы ndash тексты

bull Сингулярное разложение (SVD) матрицыbull Определение существенной размерности (главных компонент)bull Усечение размерности семантического пространстваbull Представление слов и текстов в усеченном пространствеbull Визуализация и ассоциативная кластеризация текстов

TF-IDF анализ

TF (term frequency mdash частота слова) mdash отношение числа вхождения некоторого слова к общему количеству слов документа Таким образом оценивается важность слова t_i в пределах отдельного документа

где есть число вхождений слова в документ а в знаменателе mdash общее число слов в данном документеIDF (inverse document frequency mdash обратная частота документа) mdash инверсия частоты с которой некоторое слово встречается в документах коллекции Основоположником данной концепции является Карен ДжонсУчёт IDF уменьшает вес широкоупотребительных слов Для каждого уникального слова в пределах конкретной коллекции документов существует только одно значение IDF

D -количество документов в корпусеколичество документов в которых встречается t

Частотная матрица для двух далеких текстов

Частотная матрица для двух более близких текстов

Карта слов для двух выбранных документов

Разложение матрицы laquoслова-документыraquo

Модель векторного пространства

bull Наиболее распространенный вариант LSA основан на использовании разложения вещественнозначной матрицы по сингулярным значениям или SVD-разложения (SVD ndash Singular Value Decomposition) С помощью него любую матрицу можно разложить в множество ортогональных матриц линейная комбинация которых является достаточно точным приближением к исходной матрице Обычно используют мультипликативное разложение

bull где матрицы U и V ndash ортогональные а S ndash диагональная матрица значения на диагонали которой называются сингулярными значениями матрицы A

bull Символ Т в обозначении матрицы означает транспонирование матрицы

bull Основная идея латентно-семантического анализа состоит в следующем

bull после перемножения матриц полученная матрица Ă содержащая только k первых линейно независимых компонент исходной матрицы A отражает структуру зависимостей (в данном случае ассоциативных) латентно присутствующих в исходной матрице Структура зависимостей определяется весовыми функциями термов для каждого документа

Особенность такого разложения в том что если в матрице S оставить только k наибольших сингулярных значений то линейная комбинация получившихся матриц будет наилучшим приближением исходной матрицы A к матрице Ă ранга k

Пример

bull c1 Human machine interface for ABC computer applicationsbull c2 A survey of user opinion of computer system response timebull c3 The EPS user interface management systembull c4 System and human system engineering testing of EPSbull c5 Relation of user perceived response time to error measurementbull m1 The generation of random binary ordered treesbull m2 The intersection graph of paths in treesbull m3 Graph minors IV Widths of trees and well-quasi-orderingbull m4 Graph minors A survey

Желтым отмечены слова встречающиеся хотя бы в двух заголовках

После SVD

Семантическое пространство

Матрица расстояний между словами

Результат снижения размерности кластеризация [human interface computer user EPS response time][survey trees graph minors]

Расстояния между заголовками до и после SVD

bull Объем корпуса для построения модели должен быть большим ndash желательно около трех-пяти миллионов словоупотреблений Но метод работает и на коллекциях меньшего объема правда несколько хужеПроизвольное разбиение текста на документы обычно производят от тысячи до нескольких десятков тысяч частей примерно одинакового объема Таким образом матрица термы-на-документы получается прямоугольной и может быть сильно разраженной Например при объеме 5 млн словоформ получается матрица 30-50 тысяч документов на 200-300 тысяч а иногда и более термов В действительности низкочастотные термы можно опустить тк это заметно снизит размерность матрицы (скажем если не использовать 5 от общего объема низкочастотных термов то размерность сократиться в два раза) что приведет к снижению вычислительных ресурсов и времениВыбор сокращения сингулярных значений диагональной матрицы (размерности k) при обратном перемножении матриц достаточно произвольно При вышеуказанной размерности матрицы оставляют несколько сотен (100-300) главных компонент При этом как показывает практика зависимость количества компонент и точность меняются нелинейно например если начинать увеличивать их число то точность будет падать но при некотором значении скажем 10000 ndash опять вырастет до оптимального случая

Применение

bull сравнение двух термов между собойbull сравнение двух документов между собойbull сравнение терма и документа

Так же иногда этот метод используют для нахождения laquoближайшего соседаraquo mdash наиболее близких по весу термов ассоциативно связанных с исходным Это свойство используют для поиска близких по смыслу термов Следует уточнить что близость по смыслу ndash это контекстнозависимая величина поэтому не всякий близкий терм будет соответствовать ассоциации (это может быть и синоним и антоним и просто часто встречающееся вместе с искомым термом слово или словосочетание)

bull Достоинством метода можно считать его замечательную способность выявлять зависимости между словами когда обычные статистические методы бессильны LSA также может быть применен как с обучением (с предварительной тематической классификацией документов) так и без обучения (произвольное разбиение произвольного текста) что зависит от решаемой задачи

bull Об основных недостатках значительное снижение скорости вычисления при увеличении объема входных данных (в частности при SVD-преобразовании)

bull Как показано в литературе скорость вычисления соответствует порядку где сумма количества документов и термов kndash размерность пространства факторов

На рисунке показано возникновение и изменение главных факторов при уменьшении числа сингулярных элементов диагональной матрицы от 100 до ~12 Трехмерные рисунки представляют собой симметричную матрицу полученную в результате вычисления скалярного произведения векторов каждого эталонного документа с каждым тестируемым Эталонный набор векторов ndash это заранее размеченный на 30 документов текст тестируемый ndash с уменьшением числа сингулярных значений диагональной матрицы полученной при SVD-анализе На осях X и Y откладывается количество документов (эталонных и тестируемых) на оси Z ndash объем лексиконаНа рисунках хорошо видно что при уменьшении числа сингулярных диагональных элементов на 20-30 факторы еще не достаточно ярко выявлены но при этом возникают корреляции похожих документов (небольшие пики вне диагонали) которые сначала незначительно увеличиваются а затем с уменьшением числа сингулярных значений (до 70-80) ndash исчезают При автоматической кластеризации такие пики являются шумом поэтому их желательно минимизировать Если же целью является получение ассоциативных связей внутри документов то следует найти оптимальное соотношение сохранения основного лексикона и примешивания ассоциативного

Имплементация в R - Package lsquolsarsquoalnumx - Regular expression for removal of non-alphanumeric characters (saving special characters)

astextmatrix - Display a latent semantic space generated by Latent Semantic Analysis (LSA)

associate - Find close terms in a textmatrix

corpora - Corpora (Essay Scoring) dimcalc Dimensionality Calculation Routines (LSA)

dimcalc - Dimensionality Calculation Routines (LSA)

lsa - Create a vector space with Latent Semantic Analysis (LSA)

printtextmatrix - Print a textmatrix (Matrices)

sampletextmatrix - Create a random sample of files

textmatrix - Создает Textmatrix (Matrices) из файлов

Пример 1

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) read files into a document-term matrixmyMatrix = textmatrix(td minWordLength=1) create the latent semantic spacemyLSAspace = lsa(myMatrix dims=dimcalc_raw()) display it as a textmatrix againround(astextmatrix(myLSAspace)2) should give the original create the latent semantic spacemyLSAspace = lsa(myMatrix dims=dimcalc_share())

Пример 2

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) create matricesmyMatrix = textmatrix(td minWordLength=1)myLSAspace = lsa(myMatrix dims=dimcalc_share())myNewMatrix = astextmatrix(myLSAspace) calc associations for mouseassociate(myNewMatrix mouse) clean upunlink(td recursive=TRUE)

Пример 3 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(ham mouse sushi) file=paste(td D2 sep=) )write( c(dog pet pet) file=paste(td D3 sep=) ) LSAdata(stopwords_en)myMatrix = textmatrix(td stopwords=stopwords_en)myMatrix = lw_logtf(myMatrix) gw_idf(myMatrix)myLSAspace = lsa(myMatrix dims=dimcalc_share())astextmatrix(myLSAspace) clean upunlink(td recursive=TRUE)

Пример 4 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(hamster mouse sushi) file=paste(td D2 sep=) )write( c(dog monster monster) file=paste(td D3 sep=) ) read them create a document-term matrixtextmatrix(td) read them drop german stopwordsdata(stopwords_de)textmatrix(td stopwords=stopwords_de) read them based on a controlled vocabularyvoc = c(dog mouse)textmatrix(td vocabulary=voc minWordLength=1) clean up

Вместо заключения Очевидным недостатком LSA является ненормальность (негаусовость) вероятностного распределения слов в любом естественном языке Но эту проблему можно решить сглаживанием выборки (например применив фонетические слова распределение становится более laquoнормальнымraquo) Либо используют вероятностный LSA тназ PLSA основанный на мультиноминальном распределении Другим менее очевидным недостаткам LSA (и ему подобных методов) применительно к обработке неструктурированной информации можно отнести laquoтуманностьraquo самого метода (в частности выбора кол-ва сингулярных значений диагональной матрицы) и интерпретации результата не говоря уже о проблеме сбалансированности обучающего текста

Как правило для качественного построения модели оставляют менее 1-2 процента от общего числа диагональных значений (после SVD преобразования но об это в следующем посте) И как показывает практика увеличение числа факторов приводит к ухудшению результата Но дойдя примерно до 10 процентов от общего числа диагональных значений опять может быть всплеск аналогичный результату полученному при 1

Сбалансированность корпуса ndash вечная проблема которая не имеет хорошего решения на сегодняшний день Поэтому про нее приято помалкивать

Интерпретируемость результатов LSA (как и DLA) также затруднительна человек еще может понять что за тематику будет содержать топик полученный в результате анализа а вот машине не понять (не аннотировать) тематику без привлечения большого числа хороших и разных тезаурусов

Таким образом несмотря на трудоемкость и непрозрачность LSA он может успешно применяться для разного рада задач где важно поймать семантику сообщения обобщить или расширить laquoсмыслыraquo поискового запроса

bull Стандарт основанный на XML для обмена моделями статистической обработки Data Mining

bull Поддерживается более 20 организациями и поставщиками ПО

bull Реализован в частности и в R

Поддерживаемые предиктивные алгоритмы в R

Состав pmml package

bull addLT

bull addMSAttributes

bull audit

bull fileToXMLNode

bull pmml

bull pmmlada

bull pmmlcoxph

bull pmmlcvglmnet

bull pmmlglm

bull pmmlhclust

bull pmmlkmeans

bull pmmlksvm

bull pmmllm bull pmmlmultinom bull pmmlnaiveBayes bull pmmlnnet bull pmmlrandomForest bull pmmlrfsrc bull pmmlrpart bull pmmlrules bull pmmlsvm bull pmmlCanExport bull pmmltoc

Пример

Good by R see you later alligator

WATSON ndash одно из наиболее впечатляющих применений предиктивной аналитики

Разрабатывался компанией IBM с 2006 по 2010 годПрославился победой в телешоу Jeopardy (в России ndash laquoСвоя играraquo) в 2011 годуПредшественник Deep Blue обыграл чемпиона мира по шахматам Гарри Каспарова в 1997 г

>

IBM Deep QA Project

bull Целью проекта было создать компьютерную систему (ИИ) для ответа на вопросы (QA) задаваемые в свободной форме в телешоу и показать результаты соизмеримые с человеческими

bull Задача более сложная чем шахматная программа Deep Blue выигравшая у Каспарова в 1997 г

bull Вопросы по категориямCategory General ScienceClue When hit by electrons a phosphor gives off electromagnetic energy in this formAnswer Light (or Photons)

Category Lincoln BlogsClue Secretary Chase just submitted this to me for the third time guess what pal This time Irsquom accepting itAnswer his resignation

Category Head NorthClue Theyrsquore the two states you could be reentering if yoursquore crossing Floridarsquos northern borderAnswer Georgia and Alabama

Вопросы могут касаться сразу нескольких фактов чтобы ответ был вернымCategory ldquoRaprdquo SheetClue This archaic term for a mischievous or annoying child can also mean a rogue or scampSubclue 1 This archaic term for a mischievous or annoying childSubclue 2 This term can also mean a rogue or scampAnswer Rapscallion

Category Diplomatic RelationsClue Of the four countries in the world that the United States does not have diplomatic relations with the one thatrsquos farthest northInner subclue The four countries in the world that the United States does not have diplomatic relations with (Bhutan Cuba Iran North Korea)Outer subclue Of Bhutan Cuba Iran and North Korea the one thatrsquos farthest northAnswer North Korea

Вопросы - пазлы

Category Before and After Goes to the MoviesClue Film of a typical day in the life of the Beatles which includes running from bloodthirsty zombie fans in a Romero classicSubclue 2 Film of a typical day in the life of the Beatles Answer 1 (A Hard Dayrsquos Night)Subclue 2 Running from bloodthirsty zombie fans in a Romero classicAnswer 2 (Night of the Living Dead)Answer A Hard Dayrsquos Night of the Living Dead

Category Rhyme TimeClue Itrsquos where Pele stores his ballSubclue 1 Pele ball (soccer)Subclue 2 where store (cabinet drawer locker and so on)Answer soccer locker

Недопустимые типы вопросов

oCategory Picture This(Contestants are shown a picture of a B-52 bomber)Clue Alphanumeric name of the fearsome machine seen hereAnswer B-52

oCategory Decode the Postal CodesVerbal instruction from host Wersquore going to give you a word comprising two postal abbreviations you have to identify the statesClue VainAnswer Virginia and Indiana

Лексические типы ответа ndash LAT (Lexical Answer Type)

Метрики качества ответов - результативность

Показатели двух теоретических QA систем

Показатели результативности чемпионов шоу (2000)

Облако победителей

Линия сравнения результативности (baseline performance)

Сравнение системы тестового поиска и поиска в базе знаний

Результативность Watson (по версиям)

Основы подхода Deep QA

bull Massive parallelism использование высокого параллелизма при рассмотрении множественных интерпретаций и гипотез

bull Many experts привлечение интеграции приложения и контекстуального оценивания в широком диапазоне слабосвязанных вероятностных вопросов и контентной аналитики

bull Pervasive confidence estimation повсеместная оценка доверия означает что ни один из компонентов не включается в ответ сразу все компоненты имеют признаки и связанные с ними уровни доверия производится скоринг различных вопросов и контентная интерпретация Основа confidence-processing состоит в обучении как стэкировать и комбинировать баллы

bull Integrate shallow and deep knowledge интеграция поверхностных и глубинных знаний состоит в балансе использования строгой семантики и мелких семантик использующих множества слабо сформированных онтологий

bull Content Acquisition - Сбор контентаСочетает ручные и автоматические этапы Первым шагом является анализ примеров вопросов проблемного пространства чтобы произвести описание видов вопросов на которые нужно ответить и характеризовать область применения Анализ примеров вопросов в первую очередь ручная задача в то время как анализ области может быть выполнен путем автоматических или статистических методов таких как анализ LAT показанный ранее Учитывая вопросы для широкого домена Jeopardy Challenge источники для Watson включают широкий ассортимент энциклопедий словарей тезаурусов Newswire статьи литературные произведения и тд Начиная с разумного размера базового корпуса DeepQA затем применяет автоматический процесс расширения корпуса Процесс включает в себя четыре этапа высокого уровня (1) выявления основных документов и получить соответствующие документы из Интернет (2) извлечь автономные текстовые ядра из связанных веб-документов (3) Оценка на основе ядер являются ли они информативны по отношению к исходному основному документу и (4) объединить наиболее информативные ядра в расширенном корпусе Работающая система использует этот расширенный корпус и не имеет доступа к Интернет во время игры

bull Question Analysis ndash Анализ вопроса

Первый шаг во время выполнения процесса вопрос-ответной системы При анализе вопроса система пытается понять что вопрос задан и выполняет начальный анализ определяющий как вопрос будет обработан на остальных этапах работы системы Подход DeepQA использует смешанный набор экспертов на данном этапе и в системе Watson производится мелкий парсинг глубокий парсинг строятся логические формы семантические этикетки ролей взаимные ссылки отношения именованные сущности и так далее а также конкретные виды анализа для ответа вопрос

bull Question classification - Классификация вопроса

Это задача выявления типа вопроса или частей вопроса которые требуют специальной обработки Это может включать в себя что-нибудь из отдельных слов с двойным смыслом и потенциально до выявления целых статей которые имеют определенную синтаксическую семантическую или риторические функциональные возможности которые могут инициировать нисходящий анализ Классификация может определить вопрос как вопрос- головоломку вопрос-математику -определение и так далее Это будет определять каламбуры ограничения компоненты определений или целые подвопросы в пределах вопросов

bull Focus and LAT Detection ndash Определение фокуса и лексического типа ответа

Лексический тип ответа - это слово или словосочетание в вопросе который определяет тип ответа без попытки понять семантику Определение LAT является важным видом выигрыша и общим источником критических ошибок Преимущество подхода DeepQA является использование многих самостоятельно разработанных алгоритмов laquoответ-типированияraquo Например фокус вопроса викторины laquoПри попадании электронов люминофор излучает электромагнитную энергию в этой формеraquo - является laquoэта формаraquo Фокус часто (но не всегда) содержит полезную информацию об ответе часто субъект или объект отношение в вопросе и может превратить вопрос в фактическое утверждение при замене возможным кандидатом Это представляет полезный способ собирать доказательства о каждом кандидате

bull Relation Detection ndash детектирование отношений

Большинство вопросов содержит отношения являются ли они синтаксическими предикатами субъект-глагол-объект или семантические отношения между субъектами Например в вопросе laquoЕсть два штата в которые вы могли бы войти повторно если вы пересекаете северную границу штата Флоридаraquo мы можем обнаружить отношение границы (Флорида Х к северу) Watson использует обнаружение отношения на протяжении всего процесса QA от фокуса и LAT определения до прохождению и скорингу ответов Watson также может использовать обнаруженные отношения для выделения хранилища триплетов и напрямую генерировать кандидатов в ответы В 20000 игр Jeopardy вопросы например обнаружили распределение Freebase отношений чрезвычайно плоского вида (см рисунок) Это приближение распределеня 50 наиболее частых отношений в 20 000 случайно выбранных вопросах викторины

bull Decomposition ndash декомпозиция

Важным требованием успеха анализа Jeopardy является способность отвечать на вопросы которые разложены на составляющие DeepQA использует основанный на правилах глубокий парсинг и статистические методы классификации чтобы наилучшим образом разложить вопросы на элементы и определить как лучше разбить их на подвопросы Операционная гипотеза что правильная интерпретация вопроса позволит лучше произвести скоринг ответов после того как все доказательства собраны Даже если вопрос не должен быть разложен для определения ответа этот метод может помочь улучшить общее доверие ответу системы DeepQA решает задачи параллельно для каждого разложения применяя алгоритмы от начала до конца каждого подвопроса и синтезирует окончательные ответы DeepQA также поддерживает вложенные декомпозиции вопросов через рекурсивное применение QA системы от начала до конца в внутреннем подвопросе а затем во внешнем Настраиваемые компоненты позволяют легко подключать специализированные алгоритмы синтеза в общую систему

bull Hypothesis Generation ndash генерация гипотез

Генерация гипотез принимает результаты анализа вопросов и производит кандидатов на ответы Каждый кандидат ответ включается обратно в вопрос и это считается как гипотеза Система должна доказать правильность этой гипотезы с некоторой степенью уверенности Как и во всех аспектах DeepQA используется смесь разных подходов для первичного поиска и генерации кандидата в системе Watson

bull Primary Search ndash первичный поиск

В этом поиске целью является найти столько потенциально кандидатов сколько это можно сделать на основе результатов анализа вопроса В течение проекта велись эмпирические исследования направленные на баланс скорости объема и точности Эти исследования позволили регулярно настраивать систему так чтобы найти такое количество кандидатов которые производят наилучший баланс точности и вычислительных ресурсов Оперативная цель основного поиска в конечном счете стабилизировалась на около 85 процентов для топ-250 кандидатов то есть система генерирует правильный ответ как кандидата ответа на 85 процентов вопросов где-то в верхних 250 ранжированных кандидатов Разнообразие методов поиска используются в том числе с использованием нескольких текст поисковых системах с различными базовыми подходами (например Indri и Lucene) поиск документов а также поиска маршрута база знаний поиска с помощью SPARQL хранилища триплетов Для небольшого количества латов которые были определены как закрытые латы кандидат на ответ может быть получен из фиксированного списка в каком-то хранилище известных экземпляров LAT таких как США Президент или Страна

Поиск доказательств

bull Поиск по фразе ndash число соответствий разного типав ответе и вопросеbull Популярность ndash как часто встречается этот вариант ответаbull Соответствие по типу ndash ответ и требование вопросаbull Соответствие по времениbull Надежность источника

bull Candidate Answer Generation ndash генерирование кандидатов на ответ

Результаты поиска применяются для генерирования возможных кандидатов в ответы с помощью различных подходящих техник Для поиска документов извлекаются заголовки и используются как кандидаты Число кандидатов при этом может быть не единственным и требовать использования анализа подстрок и ссылок Используя детектирование именованных сущностей в ряде случаев удается извлечь хороших кандидатов В зависимости от типа источника для генерирования кандидата требуется разный набор алгоритмов например база знаний или обратный словарь порождают кандидатов непосредственно как кандидата Этот этап критически важен и если кандидаты не найдены то фиксируется невозможность ответа В нормальном режиме на этом этапе Watson гененерирует несколько сотен андидатов

bull Soft Filtering ndash мягкая фильтрацияДля ускорения процесса скоринга кандидатов Watson использует различные алгоритмы разной точности Более легковесные (менее вычислительно интенсивные) применяются на первом этапе скоринга На этом этапе устанавливается порог оценки и кандидаты имеющие более высокую оценку считаются прошедшими мягкую фильтрацию Они поступают на выработку гипотез и скоринг доказательств Интересно что кандидаты не прошедшие порог мягкой фильтрации не забываются а направляются прямо на финальный этап слияния Модель скоринга мягкой фильтрации и порога определяются на основе machine learning используя обучающие данные Watson типично пропускает через мягкую фильтрацию 100 кандидатов но эта функция параметризована и их число можно изменить

Проблемы NLP

bull В мае 1898 года Португалия отмечала 400-летний юбилей со дня прибытия этого великого путешественника в Индию

В мае Гари прибыл в Индию после празднования своего юбилея в Португалии

21 мая 1498 года Васка де Гама высадился в местечке Каппад

bull Он был помилован президентом 8 сентября 1974 годаФорд помиловал Никсона 8 сентября 1974 года Никсон Форд

bull Говоря ldquogive a trinklerdquo что предлагают вам сделать британцы по приезду в город

bull Hypothesis and Evidence Scoring ndash скоринг гипотез и доказательств

Прошедшие порог мягкой фильтрации кандидаты поступают на скрупулезный процесс который включает сбор дополнительных поддерживающих доказательств для каждого кандидата на ответ или гипотезу Процесс использует широкий набор различных методов скоринговой аналитики чтобы исследовать все поддерживающие доказательства

bull Evidence Retrieval ndash извлечение доказательств

Чтобы лучше исследовать каждого кандидата прошедшего через мягкую фильтрацию система собирает дополнительные поддерживающие доказательства Архитектура поддерживает интеграцию различных evidence-gathering техник Один из применяемых способов состоит в том что проводится дополнительный поиск в котором кандидат добавляется в качестве required term к первичному запросу извлеченному из вопроса Это будет приводить к получению выражений содержащих кандидата в контексте первичных терминов вопросаПоддерживающие доказательства могут быть извлечены и из других источников например из RDF баз знаний Извлеченные поддерживающие доказательства направляются модули глубокого скоринга которые анализируют кандидата в контексте поддерживающего доказательства

bull Scoring ndash скоринг (количественное оценивание)

Алгоритмы скоринга определяют степень несомненности которую обеспечивают доказательства в поддержку кандидата The DeepQA framework поддерживает множество компонент для выработки оценки в различных измерениях каждого доказательства которая вырабатывает оценку связанную с тем насколько хорошо доказательство поддерживает кандидата на ответ в качестве ответа на заданный вопросDeepQA использует общий формат для оценок для принятых гипотез и подтверждающих оценок отражающих семантические и ограничивающие факторы Это позволяет разработчикам DeepQA быстро разворачивать перемешивать и настраивать сложные совокупности модуле для обработкиНапрмер Watson использует больше чем 50 скоринговых компонент Они производят оценки разноготипа от оценок вероятностей до подсчета категориальных свойств основанных на доказательствах от различных источников включая неструктурированные тексты полуструктурированные тексты и RDF хранилища Эти оценки используют такие данные как degree of match between a passagersquos predicate-argument structure and the question passage source reliability geospatial location temporal relationships taxonomic classification the lexical and semantic relations the candidate is known to participate in the candidatersquos correlation with question terms its popularity (or obscurity) its aliases and so on

Вопрос Чили имеет самую длинную общую границу со страной Сгенерировано несколько кандидатов среди них Аргентина и Боливия Первичный поиск даст приоритет Боливии из=а популярности обсуждений их отношений Однако собранные Watson доказательства из других источников показывают более высокую оценку для Аргентины

Скоринг (взвешивание) доказательств ndash предиктивная аналитика

- При делении клеток митозом называется деление ядра а цитокинезом ndash деление этой жидкости в которой находится ядро

Генерирование кандидатов Сбор доказательств Уверенность в доказательстве

ОрганеллыВакуольЦитоплазмаПлазмамитохондрии

Органеллы ndash не жидкостьВакуоль ndash не жидкостьЦитоплазма ndash возможно жидкостьПлазма ndash не жидкостьМитохондрии ndash не жидкость

Цитоплазма ndash 92Органеллы ndash 19Вакуоль ndash 10Плазма ndash 2Митохондрии ndash 2

Answer Merging ndash объединение ответов

Многие кандидаты в ответы на поставленный вопрос могут быть эквивалентны несмотря на различные внешне формыТехники ранжирования тем не менее рассматривают таких кандидатов как различные Без объединения алгоритмы ранжирования будут работать отдельно с эквивалентными сущностями и пытаться противопоставить одну форму другой Это приведет к проблемам принятия решений Watson содержит алгоритмы идентификации эквивалентных сущностей используя множественные сравнения нормализацию и методы разрешения совместных ссылок

Ranking and Confidence Estimation ndash ранжирование и оценивание доверияПосле объединения система должна произвести ранжирование гипотез и оценивает доверие основанное на объединенных оценках В системе подобран ML подход основанный на обучении на обучающем наборе вопросов с известными ответами и обучение модели основываясь на скоринге Применяется как весьма плоская модель и существующие алгоритмы ранжирования Для более тонких оценок применяется двухфазный процесс использующий группы оценок для оценивания профиля и для оценки доверия Используя эту промежуточную модель система производит ансамбль промежуточных оценок Здесь используется иерархическая техника метаучителя и коллектива экспертов Этот подход обеспечивает итеративное расширение обучения используя изощренные и глубокие иерархические модели обеспечивающие гибкость и робастность при выработке оценок и модифицирует системуМетаучитель в Watson использует набор многие обучаемые модели чтобы управлять различными классами вопросов которые могут быть критическими при идентификации правильных ответовНаконец важно что использование NLP-based скоринга дает весьма разреженные оценки и требует точного оценивания с применением confidence-weighted learning techniques

Развертывание Watson

bull DeepQA разработан используя Apache UIMA - framework implementation of the Unstructured Information Management Architecture (Ferrucci and Lally 2004) UIMA был разработан для поддержки взаимодействия и масштабирования приложений обработки текста и мультимодального анализа Все компоненты DeepQA имплементированы как UIMA annotators Это программные компоненты для анализа текста и получения аннотаций или заключений о тексте Watson развивался в процессе разработки от нескольких компонент до нескольких сотен UIMA обеспечивает быструю интеграцию компонент тестирование и исследование

bull Начальная имплементация Watson запускалась на одном процессоре и требовала 2 часа на ответ на один вопрос DeepQA развился в параллельную систему используя UIMA-AS часть Apache UIMA масштабируя приложения UIMA используя асинхронный механизм месседжинга UIMA-AS позволила масштабировать Watson более чем на 2500 вычислительных ядер UIMA-AS управляет коммуникациями месседжингом управлением запросами используя open JMS standard UIMA-AS позволил снизить латентность Watson до 3ndash5 секунд

bull Для препроцессинга корпуса текстов создания быстрых run-time indices использован Hadoop

UIMA annotators были развернуты как mapper ы в Hadoop map-reduce framework Hadoop распределяет контент по кластеру для обеспечения высокого использования CPU и обеспечивает подходящий набор инструментов для deploying managing and monitoring the corpus analysis process

bull Аппаратная платформа ndash это 90 серверов 2800 ядер 15 ТБ RAM 80 Тфлопс $3 000 000 10 R

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 12: !Predictive analytics part_3

LSA - Латентный семантический анализ

Сравнение текстов по смысловому содержанию

Определения

Латентно-семантический анализ отображает документы и отдельные слова в так называемое laquoсемантическое пространствоraquo в котором и производятся все дальнейшие сравнения При этом делаются следующие предположения

1) Документы это просто набор слов Порядок слов в документах игнорируется Важно только то сколько раз то или иное слово встречается в документе2) Семантическое значение документа определяется набором слов которые как правило идут вместе Например в биржевых сводках часто встречаются слова laquoфондraquo laquoакцияraquo laquoдолларraquo3) Каждое слово имеет единственное значение Это безусловно сильное упрощение но именно оно делает проблему разрешимой

Основные этапы

bull Удаление слов из laquoстоп-спискаraquobull Стеммингbull Удаление уникальных словbull Построение частотной матрицы А индексируемых слов (TF-IDF)

строки ndash словастолбцы ndash тексты

bull Сингулярное разложение (SVD) матрицыbull Определение существенной размерности (главных компонент)bull Усечение размерности семантического пространстваbull Представление слов и текстов в усеченном пространствеbull Визуализация и ассоциативная кластеризация текстов

TF-IDF анализ

TF (term frequency mdash частота слова) mdash отношение числа вхождения некоторого слова к общему количеству слов документа Таким образом оценивается важность слова t_i в пределах отдельного документа

где есть число вхождений слова в документ а в знаменателе mdash общее число слов в данном документеIDF (inverse document frequency mdash обратная частота документа) mdash инверсия частоты с которой некоторое слово встречается в документах коллекции Основоположником данной концепции является Карен ДжонсУчёт IDF уменьшает вес широкоупотребительных слов Для каждого уникального слова в пределах конкретной коллекции документов существует только одно значение IDF

D -количество документов в корпусеколичество документов в которых встречается t

Частотная матрица для двух далеких текстов

Частотная матрица для двух более близких текстов

Карта слов для двух выбранных документов

Разложение матрицы laquoслова-документыraquo

Модель векторного пространства

bull Наиболее распространенный вариант LSA основан на использовании разложения вещественнозначной матрицы по сингулярным значениям или SVD-разложения (SVD ndash Singular Value Decomposition) С помощью него любую матрицу можно разложить в множество ортогональных матриц линейная комбинация которых является достаточно точным приближением к исходной матрице Обычно используют мультипликативное разложение

bull где матрицы U и V ndash ортогональные а S ndash диагональная матрица значения на диагонали которой называются сингулярными значениями матрицы A

bull Символ Т в обозначении матрицы означает транспонирование матрицы

bull Основная идея латентно-семантического анализа состоит в следующем

bull после перемножения матриц полученная матрица Ă содержащая только k первых линейно независимых компонент исходной матрицы A отражает структуру зависимостей (в данном случае ассоциативных) латентно присутствующих в исходной матрице Структура зависимостей определяется весовыми функциями термов для каждого документа

Особенность такого разложения в том что если в матрице S оставить только k наибольших сингулярных значений то линейная комбинация получившихся матриц будет наилучшим приближением исходной матрицы A к матрице Ă ранга k

Пример

bull c1 Human machine interface for ABC computer applicationsbull c2 A survey of user opinion of computer system response timebull c3 The EPS user interface management systembull c4 System and human system engineering testing of EPSbull c5 Relation of user perceived response time to error measurementbull m1 The generation of random binary ordered treesbull m2 The intersection graph of paths in treesbull m3 Graph minors IV Widths of trees and well-quasi-orderingbull m4 Graph minors A survey

Желтым отмечены слова встречающиеся хотя бы в двух заголовках

После SVD

Семантическое пространство

Матрица расстояний между словами

Результат снижения размерности кластеризация [human interface computer user EPS response time][survey trees graph minors]

Расстояния между заголовками до и после SVD

bull Объем корпуса для построения модели должен быть большим ndash желательно около трех-пяти миллионов словоупотреблений Но метод работает и на коллекциях меньшего объема правда несколько хужеПроизвольное разбиение текста на документы обычно производят от тысячи до нескольких десятков тысяч частей примерно одинакового объема Таким образом матрица термы-на-документы получается прямоугольной и может быть сильно разраженной Например при объеме 5 млн словоформ получается матрица 30-50 тысяч документов на 200-300 тысяч а иногда и более термов В действительности низкочастотные термы можно опустить тк это заметно снизит размерность матрицы (скажем если не использовать 5 от общего объема низкочастотных термов то размерность сократиться в два раза) что приведет к снижению вычислительных ресурсов и времениВыбор сокращения сингулярных значений диагональной матрицы (размерности k) при обратном перемножении матриц достаточно произвольно При вышеуказанной размерности матрицы оставляют несколько сотен (100-300) главных компонент При этом как показывает практика зависимость количества компонент и точность меняются нелинейно например если начинать увеличивать их число то точность будет падать но при некотором значении скажем 10000 ndash опять вырастет до оптимального случая

Применение

bull сравнение двух термов между собойbull сравнение двух документов между собойbull сравнение терма и документа

Так же иногда этот метод используют для нахождения laquoближайшего соседаraquo mdash наиболее близких по весу термов ассоциативно связанных с исходным Это свойство используют для поиска близких по смыслу термов Следует уточнить что близость по смыслу ndash это контекстнозависимая величина поэтому не всякий близкий терм будет соответствовать ассоциации (это может быть и синоним и антоним и просто часто встречающееся вместе с искомым термом слово или словосочетание)

bull Достоинством метода можно считать его замечательную способность выявлять зависимости между словами когда обычные статистические методы бессильны LSA также может быть применен как с обучением (с предварительной тематической классификацией документов) так и без обучения (произвольное разбиение произвольного текста) что зависит от решаемой задачи

bull Об основных недостатках значительное снижение скорости вычисления при увеличении объема входных данных (в частности при SVD-преобразовании)

bull Как показано в литературе скорость вычисления соответствует порядку где сумма количества документов и термов kndash размерность пространства факторов

На рисунке показано возникновение и изменение главных факторов при уменьшении числа сингулярных элементов диагональной матрицы от 100 до ~12 Трехмерные рисунки представляют собой симметричную матрицу полученную в результате вычисления скалярного произведения векторов каждого эталонного документа с каждым тестируемым Эталонный набор векторов ndash это заранее размеченный на 30 документов текст тестируемый ndash с уменьшением числа сингулярных значений диагональной матрицы полученной при SVD-анализе На осях X и Y откладывается количество документов (эталонных и тестируемых) на оси Z ndash объем лексиконаНа рисунках хорошо видно что при уменьшении числа сингулярных диагональных элементов на 20-30 факторы еще не достаточно ярко выявлены но при этом возникают корреляции похожих документов (небольшие пики вне диагонали) которые сначала незначительно увеличиваются а затем с уменьшением числа сингулярных значений (до 70-80) ndash исчезают При автоматической кластеризации такие пики являются шумом поэтому их желательно минимизировать Если же целью является получение ассоциативных связей внутри документов то следует найти оптимальное соотношение сохранения основного лексикона и примешивания ассоциативного

Имплементация в R - Package lsquolsarsquoalnumx - Regular expression for removal of non-alphanumeric characters (saving special characters)

astextmatrix - Display a latent semantic space generated by Latent Semantic Analysis (LSA)

associate - Find close terms in a textmatrix

corpora - Corpora (Essay Scoring) dimcalc Dimensionality Calculation Routines (LSA)

dimcalc - Dimensionality Calculation Routines (LSA)

lsa - Create a vector space with Latent Semantic Analysis (LSA)

printtextmatrix - Print a textmatrix (Matrices)

sampletextmatrix - Create a random sample of files

textmatrix - Создает Textmatrix (Matrices) из файлов

Пример 1

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) read files into a document-term matrixmyMatrix = textmatrix(td minWordLength=1) create the latent semantic spacemyLSAspace = lsa(myMatrix dims=dimcalc_raw()) display it as a textmatrix againround(astextmatrix(myLSAspace)2) should give the original create the latent semantic spacemyLSAspace = lsa(myMatrix dims=dimcalc_share())

Пример 2

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) create matricesmyMatrix = textmatrix(td minWordLength=1)myLSAspace = lsa(myMatrix dims=dimcalc_share())myNewMatrix = astextmatrix(myLSAspace) calc associations for mouseassociate(myNewMatrix mouse) clean upunlink(td recursive=TRUE)

Пример 3 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(ham mouse sushi) file=paste(td D2 sep=) )write( c(dog pet pet) file=paste(td D3 sep=) ) LSAdata(stopwords_en)myMatrix = textmatrix(td stopwords=stopwords_en)myMatrix = lw_logtf(myMatrix) gw_idf(myMatrix)myLSAspace = lsa(myMatrix dims=dimcalc_share())astextmatrix(myLSAspace) clean upunlink(td recursive=TRUE)

Пример 4 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(hamster mouse sushi) file=paste(td D2 sep=) )write( c(dog monster monster) file=paste(td D3 sep=) ) read them create a document-term matrixtextmatrix(td) read them drop german stopwordsdata(stopwords_de)textmatrix(td stopwords=stopwords_de) read them based on a controlled vocabularyvoc = c(dog mouse)textmatrix(td vocabulary=voc minWordLength=1) clean up

Вместо заключения Очевидным недостатком LSA является ненормальность (негаусовость) вероятностного распределения слов в любом естественном языке Но эту проблему можно решить сглаживанием выборки (например применив фонетические слова распределение становится более laquoнормальнымraquo) Либо используют вероятностный LSA тназ PLSA основанный на мультиноминальном распределении Другим менее очевидным недостаткам LSA (и ему подобных методов) применительно к обработке неструктурированной информации можно отнести laquoтуманностьraquo самого метода (в частности выбора кол-ва сингулярных значений диагональной матрицы) и интерпретации результата не говоря уже о проблеме сбалансированности обучающего текста

Как правило для качественного построения модели оставляют менее 1-2 процента от общего числа диагональных значений (после SVD преобразования но об это в следующем посте) И как показывает практика увеличение числа факторов приводит к ухудшению результата Но дойдя примерно до 10 процентов от общего числа диагональных значений опять может быть всплеск аналогичный результату полученному при 1

Сбалансированность корпуса ndash вечная проблема которая не имеет хорошего решения на сегодняшний день Поэтому про нее приято помалкивать

Интерпретируемость результатов LSA (как и DLA) также затруднительна человек еще может понять что за тематику будет содержать топик полученный в результате анализа а вот машине не понять (не аннотировать) тематику без привлечения большого числа хороших и разных тезаурусов

Таким образом несмотря на трудоемкость и непрозрачность LSA он может успешно применяться для разного рада задач где важно поймать семантику сообщения обобщить или расширить laquoсмыслыraquo поискового запроса

bull Стандарт основанный на XML для обмена моделями статистической обработки Data Mining

bull Поддерживается более 20 организациями и поставщиками ПО

bull Реализован в частности и в R

Поддерживаемые предиктивные алгоритмы в R

Состав pmml package

bull addLT

bull addMSAttributes

bull audit

bull fileToXMLNode

bull pmml

bull pmmlada

bull pmmlcoxph

bull pmmlcvglmnet

bull pmmlglm

bull pmmlhclust

bull pmmlkmeans

bull pmmlksvm

bull pmmllm bull pmmlmultinom bull pmmlnaiveBayes bull pmmlnnet bull pmmlrandomForest bull pmmlrfsrc bull pmmlrpart bull pmmlrules bull pmmlsvm bull pmmlCanExport bull pmmltoc

Пример

Good by R see you later alligator

WATSON ndash одно из наиболее впечатляющих применений предиктивной аналитики

Разрабатывался компанией IBM с 2006 по 2010 годПрославился победой в телешоу Jeopardy (в России ndash laquoСвоя играraquo) в 2011 годуПредшественник Deep Blue обыграл чемпиона мира по шахматам Гарри Каспарова в 1997 г

>

IBM Deep QA Project

bull Целью проекта было создать компьютерную систему (ИИ) для ответа на вопросы (QA) задаваемые в свободной форме в телешоу и показать результаты соизмеримые с человеческими

bull Задача более сложная чем шахматная программа Deep Blue выигравшая у Каспарова в 1997 г

bull Вопросы по категориямCategory General ScienceClue When hit by electrons a phosphor gives off electromagnetic energy in this formAnswer Light (or Photons)

Category Lincoln BlogsClue Secretary Chase just submitted this to me for the third time guess what pal This time Irsquom accepting itAnswer his resignation

Category Head NorthClue Theyrsquore the two states you could be reentering if yoursquore crossing Floridarsquos northern borderAnswer Georgia and Alabama

Вопросы могут касаться сразу нескольких фактов чтобы ответ был вернымCategory ldquoRaprdquo SheetClue This archaic term for a mischievous or annoying child can also mean a rogue or scampSubclue 1 This archaic term for a mischievous or annoying childSubclue 2 This term can also mean a rogue or scampAnswer Rapscallion

Category Diplomatic RelationsClue Of the four countries in the world that the United States does not have diplomatic relations with the one thatrsquos farthest northInner subclue The four countries in the world that the United States does not have diplomatic relations with (Bhutan Cuba Iran North Korea)Outer subclue Of Bhutan Cuba Iran and North Korea the one thatrsquos farthest northAnswer North Korea

Вопросы - пазлы

Category Before and After Goes to the MoviesClue Film of a typical day in the life of the Beatles which includes running from bloodthirsty zombie fans in a Romero classicSubclue 2 Film of a typical day in the life of the Beatles Answer 1 (A Hard Dayrsquos Night)Subclue 2 Running from bloodthirsty zombie fans in a Romero classicAnswer 2 (Night of the Living Dead)Answer A Hard Dayrsquos Night of the Living Dead

Category Rhyme TimeClue Itrsquos where Pele stores his ballSubclue 1 Pele ball (soccer)Subclue 2 where store (cabinet drawer locker and so on)Answer soccer locker

Недопустимые типы вопросов

oCategory Picture This(Contestants are shown a picture of a B-52 bomber)Clue Alphanumeric name of the fearsome machine seen hereAnswer B-52

oCategory Decode the Postal CodesVerbal instruction from host Wersquore going to give you a word comprising two postal abbreviations you have to identify the statesClue VainAnswer Virginia and Indiana

Лексические типы ответа ndash LAT (Lexical Answer Type)

Метрики качества ответов - результативность

Показатели двух теоретических QA систем

Показатели результативности чемпионов шоу (2000)

Облако победителей

Линия сравнения результативности (baseline performance)

Сравнение системы тестового поиска и поиска в базе знаний

Результативность Watson (по версиям)

Основы подхода Deep QA

bull Massive parallelism использование высокого параллелизма при рассмотрении множественных интерпретаций и гипотез

bull Many experts привлечение интеграции приложения и контекстуального оценивания в широком диапазоне слабосвязанных вероятностных вопросов и контентной аналитики

bull Pervasive confidence estimation повсеместная оценка доверия означает что ни один из компонентов не включается в ответ сразу все компоненты имеют признаки и связанные с ними уровни доверия производится скоринг различных вопросов и контентная интерпретация Основа confidence-processing состоит в обучении как стэкировать и комбинировать баллы

bull Integrate shallow and deep knowledge интеграция поверхностных и глубинных знаний состоит в балансе использования строгой семантики и мелких семантик использующих множества слабо сформированных онтологий

bull Content Acquisition - Сбор контентаСочетает ручные и автоматические этапы Первым шагом является анализ примеров вопросов проблемного пространства чтобы произвести описание видов вопросов на которые нужно ответить и характеризовать область применения Анализ примеров вопросов в первую очередь ручная задача в то время как анализ области может быть выполнен путем автоматических или статистических методов таких как анализ LAT показанный ранее Учитывая вопросы для широкого домена Jeopardy Challenge источники для Watson включают широкий ассортимент энциклопедий словарей тезаурусов Newswire статьи литературные произведения и тд Начиная с разумного размера базового корпуса DeepQA затем применяет автоматический процесс расширения корпуса Процесс включает в себя четыре этапа высокого уровня (1) выявления основных документов и получить соответствующие документы из Интернет (2) извлечь автономные текстовые ядра из связанных веб-документов (3) Оценка на основе ядер являются ли они информативны по отношению к исходному основному документу и (4) объединить наиболее информативные ядра в расширенном корпусе Работающая система использует этот расширенный корпус и не имеет доступа к Интернет во время игры

bull Question Analysis ndash Анализ вопроса

Первый шаг во время выполнения процесса вопрос-ответной системы При анализе вопроса система пытается понять что вопрос задан и выполняет начальный анализ определяющий как вопрос будет обработан на остальных этапах работы системы Подход DeepQA использует смешанный набор экспертов на данном этапе и в системе Watson производится мелкий парсинг глубокий парсинг строятся логические формы семантические этикетки ролей взаимные ссылки отношения именованные сущности и так далее а также конкретные виды анализа для ответа вопрос

bull Question classification - Классификация вопроса

Это задача выявления типа вопроса или частей вопроса которые требуют специальной обработки Это может включать в себя что-нибудь из отдельных слов с двойным смыслом и потенциально до выявления целых статей которые имеют определенную синтаксическую семантическую или риторические функциональные возможности которые могут инициировать нисходящий анализ Классификация может определить вопрос как вопрос- головоломку вопрос-математику -определение и так далее Это будет определять каламбуры ограничения компоненты определений или целые подвопросы в пределах вопросов

bull Focus and LAT Detection ndash Определение фокуса и лексического типа ответа

Лексический тип ответа - это слово или словосочетание в вопросе который определяет тип ответа без попытки понять семантику Определение LAT является важным видом выигрыша и общим источником критических ошибок Преимущество подхода DeepQA является использование многих самостоятельно разработанных алгоритмов laquoответ-типированияraquo Например фокус вопроса викторины laquoПри попадании электронов люминофор излучает электромагнитную энергию в этой формеraquo - является laquoэта формаraquo Фокус часто (но не всегда) содержит полезную информацию об ответе часто субъект или объект отношение в вопросе и может превратить вопрос в фактическое утверждение при замене возможным кандидатом Это представляет полезный способ собирать доказательства о каждом кандидате

bull Relation Detection ndash детектирование отношений

Большинство вопросов содержит отношения являются ли они синтаксическими предикатами субъект-глагол-объект или семантические отношения между субъектами Например в вопросе laquoЕсть два штата в которые вы могли бы войти повторно если вы пересекаете северную границу штата Флоридаraquo мы можем обнаружить отношение границы (Флорида Х к северу) Watson использует обнаружение отношения на протяжении всего процесса QA от фокуса и LAT определения до прохождению и скорингу ответов Watson также может использовать обнаруженные отношения для выделения хранилища триплетов и напрямую генерировать кандидатов в ответы В 20000 игр Jeopardy вопросы например обнаружили распределение Freebase отношений чрезвычайно плоского вида (см рисунок) Это приближение распределеня 50 наиболее частых отношений в 20 000 случайно выбранных вопросах викторины

bull Decomposition ndash декомпозиция

Важным требованием успеха анализа Jeopardy является способность отвечать на вопросы которые разложены на составляющие DeepQA использует основанный на правилах глубокий парсинг и статистические методы классификации чтобы наилучшим образом разложить вопросы на элементы и определить как лучше разбить их на подвопросы Операционная гипотеза что правильная интерпретация вопроса позволит лучше произвести скоринг ответов после того как все доказательства собраны Даже если вопрос не должен быть разложен для определения ответа этот метод может помочь улучшить общее доверие ответу системы DeepQA решает задачи параллельно для каждого разложения применяя алгоритмы от начала до конца каждого подвопроса и синтезирует окончательные ответы DeepQA также поддерживает вложенные декомпозиции вопросов через рекурсивное применение QA системы от начала до конца в внутреннем подвопросе а затем во внешнем Настраиваемые компоненты позволяют легко подключать специализированные алгоритмы синтеза в общую систему

bull Hypothesis Generation ndash генерация гипотез

Генерация гипотез принимает результаты анализа вопросов и производит кандидатов на ответы Каждый кандидат ответ включается обратно в вопрос и это считается как гипотеза Система должна доказать правильность этой гипотезы с некоторой степенью уверенности Как и во всех аспектах DeepQA используется смесь разных подходов для первичного поиска и генерации кандидата в системе Watson

bull Primary Search ndash первичный поиск

В этом поиске целью является найти столько потенциально кандидатов сколько это можно сделать на основе результатов анализа вопроса В течение проекта велись эмпирические исследования направленные на баланс скорости объема и точности Эти исследования позволили регулярно настраивать систему так чтобы найти такое количество кандидатов которые производят наилучший баланс точности и вычислительных ресурсов Оперативная цель основного поиска в конечном счете стабилизировалась на около 85 процентов для топ-250 кандидатов то есть система генерирует правильный ответ как кандидата ответа на 85 процентов вопросов где-то в верхних 250 ранжированных кандидатов Разнообразие методов поиска используются в том числе с использованием нескольких текст поисковых системах с различными базовыми подходами (например Indri и Lucene) поиск документов а также поиска маршрута база знаний поиска с помощью SPARQL хранилища триплетов Для небольшого количества латов которые были определены как закрытые латы кандидат на ответ может быть получен из фиксированного списка в каком-то хранилище известных экземпляров LAT таких как США Президент или Страна

Поиск доказательств

bull Поиск по фразе ndash число соответствий разного типав ответе и вопросеbull Популярность ndash как часто встречается этот вариант ответаbull Соответствие по типу ndash ответ и требование вопросаbull Соответствие по времениbull Надежность источника

bull Candidate Answer Generation ndash генерирование кандидатов на ответ

Результаты поиска применяются для генерирования возможных кандидатов в ответы с помощью различных подходящих техник Для поиска документов извлекаются заголовки и используются как кандидаты Число кандидатов при этом может быть не единственным и требовать использования анализа подстрок и ссылок Используя детектирование именованных сущностей в ряде случаев удается извлечь хороших кандидатов В зависимости от типа источника для генерирования кандидата требуется разный набор алгоритмов например база знаний или обратный словарь порождают кандидатов непосредственно как кандидата Этот этап критически важен и если кандидаты не найдены то фиксируется невозможность ответа В нормальном режиме на этом этапе Watson гененерирует несколько сотен андидатов

bull Soft Filtering ndash мягкая фильтрацияДля ускорения процесса скоринга кандидатов Watson использует различные алгоритмы разной точности Более легковесные (менее вычислительно интенсивные) применяются на первом этапе скоринга На этом этапе устанавливается порог оценки и кандидаты имеющие более высокую оценку считаются прошедшими мягкую фильтрацию Они поступают на выработку гипотез и скоринг доказательств Интересно что кандидаты не прошедшие порог мягкой фильтрации не забываются а направляются прямо на финальный этап слияния Модель скоринга мягкой фильтрации и порога определяются на основе machine learning используя обучающие данные Watson типично пропускает через мягкую фильтрацию 100 кандидатов но эта функция параметризована и их число можно изменить

Проблемы NLP

bull В мае 1898 года Португалия отмечала 400-летний юбилей со дня прибытия этого великого путешественника в Индию

В мае Гари прибыл в Индию после празднования своего юбилея в Португалии

21 мая 1498 года Васка де Гама высадился в местечке Каппад

bull Он был помилован президентом 8 сентября 1974 годаФорд помиловал Никсона 8 сентября 1974 года Никсон Форд

bull Говоря ldquogive a trinklerdquo что предлагают вам сделать британцы по приезду в город

bull Hypothesis and Evidence Scoring ndash скоринг гипотез и доказательств

Прошедшие порог мягкой фильтрации кандидаты поступают на скрупулезный процесс который включает сбор дополнительных поддерживающих доказательств для каждого кандидата на ответ или гипотезу Процесс использует широкий набор различных методов скоринговой аналитики чтобы исследовать все поддерживающие доказательства

bull Evidence Retrieval ndash извлечение доказательств

Чтобы лучше исследовать каждого кандидата прошедшего через мягкую фильтрацию система собирает дополнительные поддерживающие доказательства Архитектура поддерживает интеграцию различных evidence-gathering техник Один из применяемых способов состоит в том что проводится дополнительный поиск в котором кандидат добавляется в качестве required term к первичному запросу извлеченному из вопроса Это будет приводить к получению выражений содержащих кандидата в контексте первичных терминов вопросаПоддерживающие доказательства могут быть извлечены и из других источников например из RDF баз знаний Извлеченные поддерживающие доказательства направляются модули глубокого скоринга которые анализируют кандидата в контексте поддерживающего доказательства

bull Scoring ndash скоринг (количественное оценивание)

Алгоритмы скоринга определяют степень несомненности которую обеспечивают доказательства в поддержку кандидата The DeepQA framework поддерживает множество компонент для выработки оценки в различных измерениях каждого доказательства которая вырабатывает оценку связанную с тем насколько хорошо доказательство поддерживает кандидата на ответ в качестве ответа на заданный вопросDeepQA использует общий формат для оценок для принятых гипотез и подтверждающих оценок отражающих семантические и ограничивающие факторы Это позволяет разработчикам DeepQA быстро разворачивать перемешивать и настраивать сложные совокупности модуле для обработкиНапрмер Watson использует больше чем 50 скоринговых компонент Они производят оценки разноготипа от оценок вероятностей до подсчета категориальных свойств основанных на доказательствах от различных источников включая неструктурированные тексты полуструктурированные тексты и RDF хранилища Эти оценки используют такие данные как degree of match between a passagersquos predicate-argument structure and the question passage source reliability geospatial location temporal relationships taxonomic classification the lexical and semantic relations the candidate is known to participate in the candidatersquos correlation with question terms its popularity (or obscurity) its aliases and so on

Вопрос Чили имеет самую длинную общую границу со страной Сгенерировано несколько кандидатов среди них Аргентина и Боливия Первичный поиск даст приоритет Боливии из=а популярности обсуждений их отношений Однако собранные Watson доказательства из других источников показывают более высокую оценку для Аргентины

Скоринг (взвешивание) доказательств ndash предиктивная аналитика

- При делении клеток митозом называется деление ядра а цитокинезом ndash деление этой жидкости в которой находится ядро

Генерирование кандидатов Сбор доказательств Уверенность в доказательстве

ОрганеллыВакуольЦитоплазмаПлазмамитохондрии

Органеллы ndash не жидкостьВакуоль ndash не жидкостьЦитоплазма ndash возможно жидкостьПлазма ndash не жидкостьМитохондрии ndash не жидкость

Цитоплазма ndash 92Органеллы ndash 19Вакуоль ndash 10Плазма ndash 2Митохондрии ndash 2

Answer Merging ndash объединение ответов

Многие кандидаты в ответы на поставленный вопрос могут быть эквивалентны несмотря на различные внешне формыТехники ранжирования тем не менее рассматривают таких кандидатов как различные Без объединения алгоритмы ранжирования будут работать отдельно с эквивалентными сущностями и пытаться противопоставить одну форму другой Это приведет к проблемам принятия решений Watson содержит алгоритмы идентификации эквивалентных сущностей используя множественные сравнения нормализацию и методы разрешения совместных ссылок

Ranking and Confidence Estimation ndash ранжирование и оценивание доверияПосле объединения система должна произвести ранжирование гипотез и оценивает доверие основанное на объединенных оценках В системе подобран ML подход основанный на обучении на обучающем наборе вопросов с известными ответами и обучение модели основываясь на скоринге Применяется как весьма плоская модель и существующие алгоритмы ранжирования Для более тонких оценок применяется двухфазный процесс использующий группы оценок для оценивания профиля и для оценки доверия Используя эту промежуточную модель система производит ансамбль промежуточных оценок Здесь используется иерархическая техника метаучителя и коллектива экспертов Этот подход обеспечивает итеративное расширение обучения используя изощренные и глубокие иерархические модели обеспечивающие гибкость и робастность при выработке оценок и модифицирует системуМетаучитель в Watson использует набор многие обучаемые модели чтобы управлять различными классами вопросов которые могут быть критическими при идентификации правильных ответовНаконец важно что использование NLP-based скоринга дает весьма разреженные оценки и требует точного оценивания с применением confidence-weighted learning techniques

Развертывание Watson

bull DeepQA разработан используя Apache UIMA - framework implementation of the Unstructured Information Management Architecture (Ferrucci and Lally 2004) UIMA был разработан для поддержки взаимодействия и масштабирования приложений обработки текста и мультимодального анализа Все компоненты DeepQA имплементированы как UIMA annotators Это программные компоненты для анализа текста и получения аннотаций или заключений о тексте Watson развивался в процессе разработки от нескольких компонент до нескольких сотен UIMA обеспечивает быструю интеграцию компонент тестирование и исследование

bull Начальная имплементация Watson запускалась на одном процессоре и требовала 2 часа на ответ на один вопрос DeepQA развился в параллельную систему используя UIMA-AS часть Apache UIMA масштабируя приложения UIMA используя асинхронный механизм месседжинга UIMA-AS позволила масштабировать Watson более чем на 2500 вычислительных ядер UIMA-AS управляет коммуникациями месседжингом управлением запросами используя open JMS standard UIMA-AS позволил снизить латентность Watson до 3ndash5 секунд

bull Для препроцессинга корпуса текстов создания быстрых run-time indices использован Hadoop

UIMA annotators были развернуты как mapper ы в Hadoop map-reduce framework Hadoop распределяет контент по кластеру для обеспечения высокого использования CPU и обеспечивает подходящий набор инструментов для deploying managing and monitoring the corpus analysis process

bull Аппаратная платформа ndash это 90 серверов 2800 ядер 15 ТБ RAM 80 Тфлопс $3 000 000 10 R

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 13: !Predictive analytics part_3

Определения

Латентно-семантический анализ отображает документы и отдельные слова в так называемое laquoсемантическое пространствоraquo в котором и производятся все дальнейшие сравнения При этом делаются следующие предположения

1) Документы это просто набор слов Порядок слов в документах игнорируется Важно только то сколько раз то или иное слово встречается в документе2) Семантическое значение документа определяется набором слов которые как правило идут вместе Например в биржевых сводках часто встречаются слова laquoфондraquo laquoакцияraquo laquoдолларraquo3) Каждое слово имеет единственное значение Это безусловно сильное упрощение но именно оно делает проблему разрешимой

Основные этапы

bull Удаление слов из laquoстоп-спискаraquobull Стеммингbull Удаление уникальных словbull Построение частотной матрицы А индексируемых слов (TF-IDF)

строки ndash словастолбцы ndash тексты

bull Сингулярное разложение (SVD) матрицыbull Определение существенной размерности (главных компонент)bull Усечение размерности семантического пространстваbull Представление слов и текстов в усеченном пространствеbull Визуализация и ассоциативная кластеризация текстов

TF-IDF анализ

TF (term frequency mdash частота слова) mdash отношение числа вхождения некоторого слова к общему количеству слов документа Таким образом оценивается важность слова t_i в пределах отдельного документа

где есть число вхождений слова в документ а в знаменателе mdash общее число слов в данном документеIDF (inverse document frequency mdash обратная частота документа) mdash инверсия частоты с которой некоторое слово встречается в документах коллекции Основоположником данной концепции является Карен ДжонсУчёт IDF уменьшает вес широкоупотребительных слов Для каждого уникального слова в пределах конкретной коллекции документов существует только одно значение IDF

D -количество документов в корпусеколичество документов в которых встречается t

Частотная матрица для двух далеких текстов

Частотная матрица для двух более близких текстов

Карта слов для двух выбранных документов

Разложение матрицы laquoслова-документыraquo

Модель векторного пространства

bull Наиболее распространенный вариант LSA основан на использовании разложения вещественнозначной матрицы по сингулярным значениям или SVD-разложения (SVD ndash Singular Value Decomposition) С помощью него любую матрицу можно разложить в множество ортогональных матриц линейная комбинация которых является достаточно точным приближением к исходной матрице Обычно используют мультипликативное разложение

bull где матрицы U и V ndash ортогональные а S ndash диагональная матрица значения на диагонали которой называются сингулярными значениями матрицы A

bull Символ Т в обозначении матрицы означает транспонирование матрицы

bull Основная идея латентно-семантического анализа состоит в следующем

bull после перемножения матриц полученная матрица Ă содержащая только k первых линейно независимых компонент исходной матрицы A отражает структуру зависимостей (в данном случае ассоциативных) латентно присутствующих в исходной матрице Структура зависимостей определяется весовыми функциями термов для каждого документа

Особенность такого разложения в том что если в матрице S оставить только k наибольших сингулярных значений то линейная комбинация получившихся матриц будет наилучшим приближением исходной матрицы A к матрице Ă ранга k

Пример

bull c1 Human machine interface for ABC computer applicationsbull c2 A survey of user opinion of computer system response timebull c3 The EPS user interface management systembull c4 System and human system engineering testing of EPSbull c5 Relation of user perceived response time to error measurementbull m1 The generation of random binary ordered treesbull m2 The intersection graph of paths in treesbull m3 Graph minors IV Widths of trees and well-quasi-orderingbull m4 Graph minors A survey

Желтым отмечены слова встречающиеся хотя бы в двух заголовках

После SVD

Семантическое пространство

Матрица расстояний между словами

Результат снижения размерности кластеризация [human interface computer user EPS response time][survey trees graph minors]

Расстояния между заголовками до и после SVD

bull Объем корпуса для построения модели должен быть большим ndash желательно около трех-пяти миллионов словоупотреблений Но метод работает и на коллекциях меньшего объема правда несколько хужеПроизвольное разбиение текста на документы обычно производят от тысячи до нескольких десятков тысяч частей примерно одинакового объема Таким образом матрица термы-на-документы получается прямоугольной и может быть сильно разраженной Например при объеме 5 млн словоформ получается матрица 30-50 тысяч документов на 200-300 тысяч а иногда и более термов В действительности низкочастотные термы можно опустить тк это заметно снизит размерность матрицы (скажем если не использовать 5 от общего объема низкочастотных термов то размерность сократиться в два раза) что приведет к снижению вычислительных ресурсов и времениВыбор сокращения сингулярных значений диагональной матрицы (размерности k) при обратном перемножении матриц достаточно произвольно При вышеуказанной размерности матрицы оставляют несколько сотен (100-300) главных компонент При этом как показывает практика зависимость количества компонент и точность меняются нелинейно например если начинать увеличивать их число то точность будет падать но при некотором значении скажем 10000 ndash опять вырастет до оптимального случая

Применение

bull сравнение двух термов между собойbull сравнение двух документов между собойbull сравнение терма и документа

Так же иногда этот метод используют для нахождения laquoближайшего соседаraquo mdash наиболее близких по весу термов ассоциативно связанных с исходным Это свойство используют для поиска близких по смыслу термов Следует уточнить что близость по смыслу ndash это контекстнозависимая величина поэтому не всякий близкий терм будет соответствовать ассоциации (это может быть и синоним и антоним и просто часто встречающееся вместе с искомым термом слово или словосочетание)

bull Достоинством метода можно считать его замечательную способность выявлять зависимости между словами когда обычные статистические методы бессильны LSA также может быть применен как с обучением (с предварительной тематической классификацией документов) так и без обучения (произвольное разбиение произвольного текста) что зависит от решаемой задачи

bull Об основных недостатках значительное снижение скорости вычисления при увеличении объема входных данных (в частности при SVD-преобразовании)

bull Как показано в литературе скорость вычисления соответствует порядку где сумма количества документов и термов kndash размерность пространства факторов

На рисунке показано возникновение и изменение главных факторов при уменьшении числа сингулярных элементов диагональной матрицы от 100 до ~12 Трехмерные рисунки представляют собой симметричную матрицу полученную в результате вычисления скалярного произведения векторов каждого эталонного документа с каждым тестируемым Эталонный набор векторов ndash это заранее размеченный на 30 документов текст тестируемый ndash с уменьшением числа сингулярных значений диагональной матрицы полученной при SVD-анализе На осях X и Y откладывается количество документов (эталонных и тестируемых) на оси Z ndash объем лексиконаНа рисунках хорошо видно что при уменьшении числа сингулярных диагональных элементов на 20-30 факторы еще не достаточно ярко выявлены но при этом возникают корреляции похожих документов (небольшие пики вне диагонали) которые сначала незначительно увеличиваются а затем с уменьшением числа сингулярных значений (до 70-80) ndash исчезают При автоматической кластеризации такие пики являются шумом поэтому их желательно минимизировать Если же целью является получение ассоциативных связей внутри документов то следует найти оптимальное соотношение сохранения основного лексикона и примешивания ассоциативного

Имплементация в R - Package lsquolsarsquoalnumx - Regular expression for removal of non-alphanumeric characters (saving special characters)

astextmatrix - Display a latent semantic space generated by Latent Semantic Analysis (LSA)

associate - Find close terms in a textmatrix

corpora - Corpora (Essay Scoring) dimcalc Dimensionality Calculation Routines (LSA)

dimcalc - Dimensionality Calculation Routines (LSA)

lsa - Create a vector space with Latent Semantic Analysis (LSA)

printtextmatrix - Print a textmatrix (Matrices)

sampletextmatrix - Create a random sample of files

textmatrix - Создает Textmatrix (Matrices) из файлов

Пример 1

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) read files into a document-term matrixmyMatrix = textmatrix(td minWordLength=1) create the latent semantic spacemyLSAspace = lsa(myMatrix dims=dimcalc_raw()) display it as a textmatrix againround(astextmatrix(myLSAspace)2) should give the original create the latent semantic spacemyLSAspace = lsa(myMatrix dims=dimcalc_share())

Пример 2

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) create matricesmyMatrix = textmatrix(td minWordLength=1)myLSAspace = lsa(myMatrix dims=dimcalc_share())myNewMatrix = astextmatrix(myLSAspace) calc associations for mouseassociate(myNewMatrix mouse) clean upunlink(td recursive=TRUE)

Пример 3 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(ham mouse sushi) file=paste(td D2 sep=) )write( c(dog pet pet) file=paste(td D3 sep=) ) LSAdata(stopwords_en)myMatrix = textmatrix(td stopwords=stopwords_en)myMatrix = lw_logtf(myMatrix) gw_idf(myMatrix)myLSAspace = lsa(myMatrix dims=dimcalc_share())astextmatrix(myLSAspace) clean upunlink(td recursive=TRUE)

Пример 4 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(hamster mouse sushi) file=paste(td D2 sep=) )write( c(dog monster monster) file=paste(td D3 sep=) ) read them create a document-term matrixtextmatrix(td) read them drop german stopwordsdata(stopwords_de)textmatrix(td stopwords=stopwords_de) read them based on a controlled vocabularyvoc = c(dog mouse)textmatrix(td vocabulary=voc minWordLength=1) clean up

Вместо заключения Очевидным недостатком LSA является ненормальность (негаусовость) вероятностного распределения слов в любом естественном языке Но эту проблему можно решить сглаживанием выборки (например применив фонетические слова распределение становится более laquoнормальнымraquo) Либо используют вероятностный LSA тназ PLSA основанный на мультиноминальном распределении Другим менее очевидным недостаткам LSA (и ему подобных методов) применительно к обработке неструктурированной информации можно отнести laquoтуманностьraquo самого метода (в частности выбора кол-ва сингулярных значений диагональной матрицы) и интерпретации результата не говоря уже о проблеме сбалансированности обучающего текста

Как правило для качественного построения модели оставляют менее 1-2 процента от общего числа диагональных значений (после SVD преобразования но об это в следующем посте) И как показывает практика увеличение числа факторов приводит к ухудшению результата Но дойдя примерно до 10 процентов от общего числа диагональных значений опять может быть всплеск аналогичный результату полученному при 1

Сбалансированность корпуса ndash вечная проблема которая не имеет хорошего решения на сегодняшний день Поэтому про нее приято помалкивать

Интерпретируемость результатов LSA (как и DLA) также затруднительна человек еще может понять что за тематику будет содержать топик полученный в результате анализа а вот машине не понять (не аннотировать) тематику без привлечения большого числа хороших и разных тезаурусов

Таким образом несмотря на трудоемкость и непрозрачность LSA он может успешно применяться для разного рада задач где важно поймать семантику сообщения обобщить или расширить laquoсмыслыraquo поискового запроса

bull Стандарт основанный на XML для обмена моделями статистической обработки Data Mining

bull Поддерживается более 20 организациями и поставщиками ПО

bull Реализован в частности и в R

Поддерживаемые предиктивные алгоритмы в R

Состав pmml package

bull addLT

bull addMSAttributes

bull audit

bull fileToXMLNode

bull pmml

bull pmmlada

bull pmmlcoxph

bull pmmlcvglmnet

bull pmmlglm

bull pmmlhclust

bull pmmlkmeans

bull pmmlksvm

bull pmmllm bull pmmlmultinom bull pmmlnaiveBayes bull pmmlnnet bull pmmlrandomForest bull pmmlrfsrc bull pmmlrpart bull pmmlrules bull pmmlsvm bull pmmlCanExport bull pmmltoc

Пример

Good by R see you later alligator

WATSON ndash одно из наиболее впечатляющих применений предиктивной аналитики

Разрабатывался компанией IBM с 2006 по 2010 годПрославился победой в телешоу Jeopardy (в России ndash laquoСвоя играraquo) в 2011 годуПредшественник Deep Blue обыграл чемпиона мира по шахматам Гарри Каспарова в 1997 г

>

IBM Deep QA Project

bull Целью проекта было создать компьютерную систему (ИИ) для ответа на вопросы (QA) задаваемые в свободной форме в телешоу и показать результаты соизмеримые с человеческими

bull Задача более сложная чем шахматная программа Deep Blue выигравшая у Каспарова в 1997 г

bull Вопросы по категориямCategory General ScienceClue When hit by electrons a phosphor gives off electromagnetic energy in this formAnswer Light (or Photons)

Category Lincoln BlogsClue Secretary Chase just submitted this to me for the third time guess what pal This time Irsquom accepting itAnswer his resignation

Category Head NorthClue Theyrsquore the two states you could be reentering if yoursquore crossing Floridarsquos northern borderAnswer Georgia and Alabama

Вопросы могут касаться сразу нескольких фактов чтобы ответ был вернымCategory ldquoRaprdquo SheetClue This archaic term for a mischievous or annoying child can also mean a rogue or scampSubclue 1 This archaic term for a mischievous or annoying childSubclue 2 This term can also mean a rogue or scampAnswer Rapscallion

Category Diplomatic RelationsClue Of the four countries in the world that the United States does not have diplomatic relations with the one thatrsquos farthest northInner subclue The four countries in the world that the United States does not have diplomatic relations with (Bhutan Cuba Iran North Korea)Outer subclue Of Bhutan Cuba Iran and North Korea the one thatrsquos farthest northAnswer North Korea

Вопросы - пазлы

Category Before and After Goes to the MoviesClue Film of a typical day in the life of the Beatles which includes running from bloodthirsty zombie fans in a Romero classicSubclue 2 Film of a typical day in the life of the Beatles Answer 1 (A Hard Dayrsquos Night)Subclue 2 Running from bloodthirsty zombie fans in a Romero classicAnswer 2 (Night of the Living Dead)Answer A Hard Dayrsquos Night of the Living Dead

Category Rhyme TimeClue Itrsquos where Pele stores his ballSubclue 1 Pele ball (soccer)Subclue 2 where store (cabinet drawer locker and so on)Answer soccer locker

Недопустимые типы вопросов

oCategory Picture This(Contestants are shown a picture of a B-52 bomber)Clue Alphanumeric name of the fearsome machine seen hereAnswer B-52

oCategory Decode the Postal CodesVerbal instruction from host Wersquore going to give you a word comprising two postal abbreviations you have to identify the statesClue VainAnswer Virginia and Indiana

Лексические типы ответа ndash LAT (Lexical Answer Type)

Метрики качества ответов - результативность

Показатели двух теоретических QA систем

Показатели результативности чемпионов шоу (2000)

Облако победителей

Линия сравнения результативности (baseline performance)

Сравнение системы тестового поиска и поиска в базе знаний

Результативность Watson (по версиям)

Основы подхода Deep QA

bull Massive parallelism использование высокого параллелизма при рассмотрении множественных интерпретаций и гипотез

bull Many experts привлечение интеграции приложения и контекстуального оценивания в широком диапазоне слабосвязанных вероятностных вопросов и контентной аналитики

bull Pervasive confidence estimation повсеместная оценка доверия означает что ни один из компонентов не включается в ответ сразу все компоненты имеют признаки и связанные с ними уровни доверия производится скоринг различных вопросов и контентная интерпретация Основа confidence-processing состоит в обучении как стэкировать и комбинировать баллы

bull Integrate shallow and deep knowledge интеграция поверхностных и глубинных знаний состоит в балансе использования строгой семантики и мелких семантик использующих множества слабо сформированных онтологий

bull Content Acquisition - Сбор контентаСочетает ручные и автоматические этапы Первым шагом является анализ примеров вопросов проблемного пространства чтобы произвести описание видов вопросов на которые нужно ответить и характеризовать область применения Анализ примеров вопросов в первую очередь ручная задача в то время как анализ области может быть выполнен путем автоматических или статистических методов таких как анализ LAT показанный ранее Учитывая вопросы для широкого домена Jeopardy Challenge источники для Watson включают широкий ассортимент энциклопедий словарей тезаурусов Newswire статьи литературные произведения и тд Начиная с разумного размера базового корпуса DeepQA затем применяет автоматический процесс расширения корпуса Процесс включает в себя четыре этапа высокого уровня (1) выявления основных документов и получить соответствующие документы из Интернет (2) извлечь автономные текстовые ядра из связанных веб-документов (3) Оценка на основе ядер являются ли они информативны по отношению к исходному основному документу и (4) объединить наиболее информативные ядра в расширенном корпусе Работающая система использует этот расширенный корпус и не имеет доступа к Интернет во время игры

bull Question Analysis ndash Анализ вопроса

Первый шаг во время выполнения процесса вопрос-ответной системы При анализе вопроса система пытается понять что вопрос задан и выполняет начальный анализ определяющий как вопрос будет обработан на остальных этапах работы системы Подход DeepQA использует смешанный набор экспертов на данном этапе и в системе Watson производится мелкий парсинг глубокий парсинг строятся логические формы семантические этикетки ролей взаимные ссылки отношения именованные сущности и так далее а также конкретные виды анализа для ответа вопрос

bull Question classification - Классификация вопроса

Это задача выявления типа вопроса или частей вопроса которые требуют специальной обработки Это может включать в себя что-нибудь из отдельных слов с двойным смыслом и потенциально до выявления целых статей которые имеют определенную синтаксическую семантическую или риторические функциональные возможности которые могут инициировать нисходящий анализ Классификация может определить вопрос как вопрос- головоломку вопрос-математику -определение и так далее Это будет определять каламбуры ограничения компоненты определений или целые подвопросы в пределах вопросов

bull Focus and LAT Detection ndash Определение фокуса и лексического типа ответа

Лексический тип ответа - это слово или словосочетание в вопросе который определяет тип ответа без попытки понять семантику Определение LAT является важным видом выигрыша и общим источником критических ошибок Преимущество подхода DeepQA является использование многих самостоятельно разработанных алгоритмов laquoответ-типированияraquo Например фокус вопроса викторины laquoПри попадании электронов люминофор излучает электромагнитную энергию в этой формеraquo - является laquoэта формаraquo Фокус часто (но не всегда) содержит полезную информацию об ответе часто субъект или объект отношение в вопросе и может превратить вопрос в фактическое утверждение при замене возможным кандидатом Это представляет полезный способ собирать доказательства о каждом кандидате

bull Relation Detection ndash детектирование отношений

Большинство вопросов содержит отношения являются ли они синтаксическими предикатами субъект-глагол-объект или семантические отношения между субъектами Например в вопросе laquoЕсть два штата в которые вы могли бы войти повторно если вы пересекаете северную границу штата Флоридаraquo мы можем обнаружить отношение границы (Флорида Х к северу) Watson использует обнаружение отношения на протяжении всего процесса QA от фокуса и LAT определения до прохождению и скорингу ответов Watson также может использовать обнаруженные отношения для выделения хранилища триплетов и напрямую генерировать кандидатов в ответы В 20000 игр Jeopardy вопросы например обнаружили распределение Freebase отношений чрезвычайно плоского вида (см рисунок) Это приближение распределеня 50 наиболее частых отношений в 20 000 случайно выбранных вопросах викторины

bull Decomposition ndash декомпозиция

Важным требованием успеха анализа Jeopardy является способность отвечать на вопросы которые разложены на составляющие DeepQA использует основанный на правилах глубокий парсинг и статистические методы классификации чтобы наилучшим образом разложить вопросы на элементы и определить как лучше разбить их на подвопросы Операционная гипотеза что правильная интерпретация вопроса позволит лучше произвести скоринг ответов после того как все доказательства собраны Даже если вопрос не должен быть разложен для определения ответа этот метод может помочь улучшить общее доверие ответу системы DeepQA решает задачи параллельно для каждого разложения применяя алгоритмы от начала до конца каждого подвопроса и синтезирует окончательные ответы DeepQA также поддерживает вложенные декомпозиции вопросов через рекурсивное применение QA системы от начала до конца в внутреннем подвопросе а затем во внешнем Настраиваемые компоненты позволяют легко подключать специализированные алгоритмы синтеза в общую систему

bull Hypothesis Generation ndash генерация гипотез

Генерация гипотез принимает результаты анализа вопросов и производит кандидатов на ответы Каждый кандидат ответ включается обратно в вопрос и это считается как гипотеза Система должна доказать правильность этой гипотезы с некоторой степенью уверенности Как и во всех аспектах DeepQA используется смесь разных подходов для первичного поиска и генерации кандидата в системе Watson

bull Primary Search ndash первичный поиск

В этом поиске целью является найти столько потенциально кандидатов сколько это можно сделать на основе результатов анализа вопроса В течение проекта велись эмпирические исследования направленные на баланс скорости объема и точности Эти исследования позволили регулярно настраивать систему так чтобы найти такое количество кандидатов которые производят наилучший баланс точности и вычислительных ресурсов Оперативная цель основного поиска в конечном счете стабилизировалась на около 85 процентов для топ-250 кандидатов то есть система генерирует правильный ответ как кандидата ответа на 85 процентов вопросов где-то в верхних 250 ранжированных кандидатов Разнообразие методов поиска используются в том числе с использованием нескольких текст поисковых системах с различными базовыми подходами (например Indri и Lucene) поиск документов а также поиска маршрута база знаний поиска с помощью SPARQL хранилища триплетов Для небольшого количества латов которые были определены как закрытые латы кандидат на ответ может быть получен из фиксированного списка в каком-то хранилище известных экземпляров LAT таких как США Президент или Страна

Поиск доказательств

bull Поиск по фразе ndash число соответствий разного типав ответе и вопросеbull Популярность ndash как часто встречается этот вариант ответаbull Соответствие по типу ndash ответ и требование вопросаbull Соответствие по времениbull Надежность источника

bull Candidate Answer Generation ndash генерирование кандидатов на ответ

Результаты поиска применяются для генерирования возможных кандидатов в ответы с помощью различных подходящих техник Для поиска документов извлекаются заголовки и используются как кандидаты Число кандидатов при этом может быть не единственным и требовать использования анализа подстрок и ссылок Используя детектирование именованных сущностей в ряде случаев удается извлечь хороших кандидатов В зависимости от типа источника для генерирования кандидата требуется разный набор алгоритмов например база знаний или обратный словарь порождают кандидатов непосредственно как кандидата Этот этап критически важен и если кандидаты не найдены то фиксируется невозможность ответа В нормальном режиме на этом этапе Watson гененерирует несколько сотен андидатов

bull Soft Filtering ndash мягкая фильтрацияДля ускорения процесса скоринга кандидатов Watson использует различные алгоритмы разной точности Более легковесные (менее вычислительно интенсивные) применяются на первом этапе скоринга На этом этапе устанавливается порог оценки и кандидаты имеющие более высокую оценку считаются прошедшими мягкую фильтрацию Они поступают на выработку гипотез и скоринг доказательств Интересно что кандидаты не прошедшие порог мягкой фильтрации не забываются а направляются прямо на финальный этап слияния Модель скоринга мягкой фильтрации и порога определяются на основе machine learning используя обучающие данные Watson типично пропускает через мягкую фильтрацию 100 кандидатов но эта функция параметризована и их число можно изменить

Проблемы NLP

bull В мае 1898 года Португалия отмечала 400-летний юбилей со дня прибытия этого великого путешественника в Индию

В мае Гари прибыл в Индию после празднования своего юбилея в Португалии

21 мая 1498 года Васка де Гама высадился в местечке Каппад

bull Он был помилован президентом 8 сентября 1974 годаФорд помиловал Никсона 8 сентября 1974 года Никсон Форд

bull Говоря ldquogive a trinklerdquo что предлагают вам сделать британцы по приезду в город

bull Hypothesis and Evidence Scoring ndash скоринг гипотез и доказательств

Прошедшие порог мягкой фильтрации кандидаты поступают на скрупулезный процесс который включает сбор дополнительных поддерживающих доказательств для каждого кандидата на ответ или гипотезу Процесс использует широкий набор различных методов скоринговой аналитики чтобы исследовать все поддерживающие доказательства

bull Evidence Retrieval ndash извлечение доказательств

Чтобы лучше исследовать каждого кандидата прошедшего через мягкую фильтрацию система собирает дополнительные поддерживающие доказательства Архитектура поддерживает интеграцию различных evidence-gathering техник Один из применяемых способов состоит в том что проводится дополнительный поиск в котором кандидат добавляется в качестве required term к первичному запросу извлеченному из вопроса Это будет приводить к получению выражений содержащих кандидата в контексте первичных терминов вопросаПоддерживающие доказательства могут быть извлечены и из других источников например из RDF баз знаний Извлеченные поддерживающие доказательства направляются модули глубокого скоринга которые анализируют кандидата в контексте поддерживающего доказательства

bull Scoring ndash скоринг (количественное оценивание)

Алгоритмы скоринга определяют степень несомненности которую обеспечивают доказательства в поддержку кандидата The DeepQA framework поддерживает множество компонент для выработки оценки в различных измерениях каждого доказательства которая вырабатывает оценку связанную с тем насколько хорошо доказательство поддерживает кандидата на ответ в качестве ответа на заданный вопросDeepQA использует общий формат для оценок для принятых гипотез и подтверждающих оценок отражающих семантические и ограничивающие факторы Это позволяет разработчикам DeepQA быстро разворачивать перемешивать и настраивать сложные совокупности модуле для обработкиНапрмер Watson использует больше чем 50 скоринговых компонент Они производят оценки разноготипа от оценок вероятностей до подсчета категориальных свойств основанных на доказательствах от различных источников включая неструктурированные тексты полуструктурированные тексты и RDF хранилища Эти оценки используют такие данные как degree of match between a passagersquos predicate-argument structure and the question passage source reliability geospatial location temporal relationships taxonomic classification the lexical and semantic relations the candidate is known to participate in the candidatersquos correlation with question terms its popularity (or obscurity) its aliases and so on

Вопрос Чили имеет самую длинную общую границу со страной Сгенерировано несколько кандидатов среди них Аргентина и Боливия Первичный поиск даст приоритет Боливии из=а популярности обсуждений их отношений Однако собранные Watson доказательства из других источников показывают более высокую оценку для Аргентины

Скоринг (взвешивание) доказательств ndash предиктивная аналитика

- При делении клеток митозом называется деление ядра а цитокинезом ndash деление этой жидкости в которой находится ядро

Генерирование кандидатов Сбор доказательств Уверенность в доказательстве

ОрганеллыВакуольЦитоплазмаПлазмамитохондрии

Органеллы ndash не жидкостьВакуоль ndash не жидкостьЦитоплазма ndash возможно жидкостьПлазма ndash не жидкостьМитохондрии ndash не жидкость

Цитоплазма ndash 92Органеллы ndash 19Вакуоль ndash 10Плазма ndash 2Митохондрии ndash 2

Answer Merging ndash объединение ответов

Многие кандидаты в ответы на поставленный вопрос могут быть эквивалентны несмотря на различные внешне формыТехники ранжирования тем не менее рассматривают таких кандидатов как различные Без объединения алгоритмы ранжирования будут работать отдельно с эквивалентными сущностями и пытаться противопоставить одну форму другой Это приведет к проблемам принятия решений Watson содержит алгоритмы идентификации эквивалентных сущностей используя множественные сравнения нормализацию и методы разрешения совместных ссылок

Ranking and Confidence Estimation ndash ранжирование и оценивание доверияПосле объединения система должна произвести ранжирование гипотез и оценивает доверие основанное на объединенных оценках В системе подобран ML подход основанный на обучении на обучающем наборе вопросов с известными ответами и обучение модели основываясь на скоринге Применяется как весьма плоская модель и существующие алгоритмы ранжирования Для более тонких оценок применяется двухфазный процесс использующий группы оценок для оценивания профиля и для оценки доверия Используя эту промежуточную модель система производит ансамбль промежуточных оценок Здесь используется иерархическая техника метаучителя и коллектива экспертов Этот подход обеспечивает итеративное расширение обучения используя изощренные и глубокие иерархические модели обеспечивающие гибкость и робастность при выработке оценок и модифицирует системуМетаучитель в Watson использует набор многие обучаемые модели чтобы управлять различными классами вопросов которые могут быть критическими при идентификации правильных ответовНаконец важно что использование NLP-based скоринга дает весьма разреженные оценки и требует точного оценивания с применением confidence-weighted learning techniques

Развертывание Watson

bull DeepQA разработан используя Apache UIMA - framework implementation of the Unstructured Information Management Architecture (Ferrucci and Lally 2004) UIMA был разработан для поддержки взаимодействия и масштабирования приложений обработки текста и мультимодального анализа Все компоненты DeepQA имплементированы как UIMA annotators Это программные компоненты для анализа текста и получения аннотаций или заключений о тексте Watson развивался в процессе разработки от нескольких компонент до нескольких сотен UIMA обеспечивает быструю интеграцию компонент тестирование и исследование

bull Начальная имплементация Watson запускалась на одном процессоре и требовала 2 часа на ответ на один вопрос DeepQA развился в параллельную систему используя UIMA-AS часть Apache UIMA масштабируя приложения UIMA используя асинхронный механизм месседжинга UIMA-AS позволила масштабировать Watson более чем на 2500 вычислительных ядер UIMA-AS управляет коммуникациями месседжингом управлением запросами используя open JMS standard UIMA-AS позволил снизить латентность Watson до 3ndash5 секунд

bull Для препроцессинга корпуса текстов создания быстрых run-time indices использован Hadoop

UIMA annotators были развернуты как mapper ы в Hadoop map-reduce framework Hadoop распределяет контент по кластеру для обеспечения высокого использования CPU и обеспечивает подходящий набор инструментов для deploying managing and monitoring the corpus analysis process

bull Аппаратная платформа ndash это 90 серверов 2800 ядер 15 ТБ RAM 80 Тфлопс $3 000 000 10 R

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 14: !Predictive analytics part_3

Основные этапы

bull Удаление слов из laquoстоп-спискаraquobull Стеммингbull Удаление уникальных словbull Построение частотной матрицы А индексируемых слов (TF-IDF)

строки ndash словастолбцы ndash тексты

bull Сингулярное разложение (SVD) матрицыbull Определение существенной размерности (главных компонент)bull Усечение размерности семантического пространстваbull Представление слов и текстов в усеченном пространствеbull Визуализация и ассоциативная кластеризация текстов

TF-IDF анализ

TF (term frequency mdash частота слова) mdash отношение числа вхождения некоторого слова к общему количеству слов документа Таким образом оценивается важность слова t_i в пределах отдельного документа

где есть число вхождений слова в документ а в знаменателе mdash общее число слов в данном документеIDF (inverse document frequency mdash обратная частота документа) mdash инверсия частоты с которой некоторое слово встречается в документах коллекции Основоположником данной концепции является Карен ДжонсУчёт IDF уменьшает вес широкоупотребительных слов Для каждого уникального слова в пределах конкретной коллекции документов существует только одно значение IDF

D -количество документов в корпусеколичество документов в которых встречается t

Частотная матрица для двух далеких текстов

Частотная матрица для двух более близких текстов

Карта слов для двух выбранных документов

Разложение матрицы laquoслова-документыraquo

Модель векторного пространства

bull Наиболее распространенный вариант LSA основан на использовании разложения вещественнозначной матрицы по сингулярным значениям или SVD-разложения (SVD ndash Singular Value Decomposition) С помощью него любую матрицу можно разложить в множество ортогональных матриц линейная комбинация которых является достаточно точным приближением к исходной матрице Обычно используют мультипликативное разложение

bull где матрицы U и V ndash ортогональные а S ndash диагональная матрица значения на диагонали которой называются сингулярными значениями матрицы A

bull Символ Т в обозначении матрицы означает транспонирование матрицы

bull Основная идея латентно-семантического анализа состоит в следующем

bull после перемножения матриц полученная матрица Ă содержащая только k первых линейно независимых компонент исходной матрицы A отражает структуру зависимостей (в данном случае ассоциативных) латентно присутствующих в исходной матрице Структура зависимостей определяется весовыми функциями термов для каждого документа

Особенность такого разложения в том что если в матрице S оставить только k наибольших сингулярных значений то линейная комбинация получившихся матриц будет наилучшим приближением исходной матрицы A к матрице Ă ранга k

Пример

bull c1 Human machine interface for ABC computer applicationsbull c2 A survey of user opinion of computer system response timebull c3 The EPS user interface management systembull c4 System and human system engineering testing of EPSbull c5 Relation of user perceived response time to error measurementbull m1 The generation of random binary ordered treesbull m2 The intersection graph of paths in treesbull m3 Graph minors IV Widths of trees and well-quasi-orderingbull m4 Graph minors A survey

Желтым отмечены слова встречающиеся хотя бы в двух заголовках

После SVD

Семантическое пространство

Матрица расстояний между словами

Результат снижения размерности кластеризация [human interface computer user EPS response time][survey trees graph minors]

Расстояния между заголовками до и после SVD

bull Объем корпуса для построения модели должен быть большим ndash желательно около трех-пяти миллионов словоупотреблений Но метод работает и на коллекциях меньшего объема правда несколько хужеПроизвольное разбиение текста на документы обычно производят от тысячи до нескольких десятков тысяч частей примерно одинакового объема Таким образом матрица термы-на-документы получается прямоугольной и может быть сильно разраженной Например при объеме 5 млн словоформ получается матрица 30-50 тысяч документов на 200-300 тысяч а иногда и более термов В действительности низкочастотные термы можно опустить тк это заметно снизит размерность матрицы (скажем если не использовать 5 от общего объема низкочастотных термов то размерность сократиться в два раза) что приведет к снижению вычислительных ресурсов и времениВыбор сокращения сингулярных значений диагональной матрицы (размерности k) при обратном перемножении матриц достаточно произвольно При вышеуказанной размерности матрицы оставляют несколько сотен (100-300) главных компонент При этом как показывает практика зависимость количества компонент и точность меняются нелинейно например если начинать увеличивать их число то точность будет падать но при некотором значении скажем 10000 ndash опять вырастет до оптимального случая

Применение

bull сравнение двух термов между собойbull сравнение двух документов между собойbull сравнение терма и документа

Так же иногда этот метод используют для нахождения laquoближайшего соседаraquo mdash наиболее близких по весу термов ассоциативно связанных с исходным Это свойство используют для поиска близких по смыслу термов Следует уточнить что близость по смыслу ndash это контекстнозависимая величина поэтому не всякий близкий терм будет соответствовать ассоциации (это может быть и синоним и антоним и просто часто встречающееся вместе с искомым термом слово или словосочетание)

bull Достоинством метода можно считать его замечательную способность выявлять зависимости между словами когда обычные статистические методы бессильны LSA также может быть применен как с обучением (с предварительной тематической классификацией документов) так и без обучения (произвольное разбиение произвольного текста) что зависит от решаемой задачи

bull Об основных недостатках значительное снижение скорости вычисления при увеличении объема входных данных (в частности при SVD-преобразовании)

bull Как показано в литературе скорость вычисления соответствует порядку где сумма количества документов и термов kndash размерность пространства факторов

На рисунке показано возникновение и изменение главных факторов при уменьшении числа сингулярных элементов диагональной матрицы от 100 до ~12 Трехмерные рисунки представляют собой симметричную матрицу полученную в результате вычисления скалярного произведения векторов каждого эталонного документа с каждым тестируемым Эталонный набор векторов ndash это заранее размеченный на 30 документов текст тестируемый ndash с уменьшением числа сингулярных значений диагональной матрицы полученной при SVD-анализе На осях X и Y откладывается количество документов (эталонных и тестируемых) на оси Z ndash объем лексиконаНа рисунках хорошо видно что при уменьшении числа сингулярных диагональных элементов на 20-30 факторы еще не достаточно ярко выявлены но при этом возникают корреляции похожих документов (небольшие пики вне диагонали) которые сначала незначительно увеличиваются а затем с уменьшением числа сингулярных значений (до 70-80) ndash исчезают При автоматической кластеризации такие пики являются шумом поэтому их желательно минимизировать Если же целью является получение ассоциативных связей внутри документов то следует найти оптимальное соотношение сохранения основного лексикона и примешивания ассоциативного

Имплементация в R - Package lsquolsarsquoalnumx - Regular expression for removal of non-alphanumeric characters (saving special characters)

astextmatrix - Display a latent semantic space generated by Latent Semantic Analysis (LSA)

associate - Find close terms in a textmatrix

corpora - Corpora (Essay Scoring) dimcalc Dimensionality Calculation Routines (LSA)

dimcalc - Dimensionality Calculation Routines (LSA)

lsa - Create a vector space with Latent Semantic Analysis (LSA)

printtextmatrix - Print a textmatrix (Matrices)

sampletextmatrix - Create a random sample of files

textmatrix - Создает Textmatrix (Matrices) из файлов

Пример 1

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) read files into a document-term matrixmyMatrix = textmatrix(td minWordLength=1) create the latent semantic spacemyLSAspace = lsa(myMatrix dims=dimcalc_raw()) display it as a textmatrix againround(astextmatrix(myLSAspace)2) should give the original create the latent semantic spacemyLSAspace = lsa(myMatrix dims=dimcalc_share())

Пример 2

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) create matricesmyMatrix = textmatrix(td minWordLength=1)myLSAspace = lsa(myMatrix dims=dimcalc_share())myNewMatrix = astextmatrix(myLSAspace) calc associations for mouseassociate(myNewMatrix mouse) clean upunlink(td recursive=TRUE)

Пример 3 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(ham mouse sushi) file=paste(td D2 sep=) )write( c(dog pet pet) file=paste(td D3 sep=) ) LSAdata(stopwords_en)myMatrix = textmatrix(td stopwords=stopwords_en)myMatrix = lw_logtf(myMatrix) gw_idf(myMatrix)myLSAspace = lsa(myMatrix dims=dimcalc_share())astextmatrix(myLSAspace) clean upunlink(td recursive=TRUE)

Пример 4 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(hamster mouse sushi) file=paste(td D2 sep=) )write( c(dog monster monster) file=paste(td D3 sep=) ) read them create a document-term matrixtextmatrix(td) read them drop german stopwordsdata(stopwords_de)textmatrix(td stopwords=stopwords_de) read them based on a controlled vocabularyvoc = c(dog mouse)textmatrix(td vocabulary=voc minWordLength=1) clean up

Вместо заключения Очевидным недостатком LSA является ненормальность (негаусовость) вероятностного распределения слов в любом естественном языке Но эту проблему можно решить сглаживанием выборки (например применив фонетические слова распределение становится более laquoнормальнымraquo) Либо используют вероятностный LSA тназ PLSA основанный на мультиноминальном распределении Другим менее очевидным недостаткам LSA (и ему подобных методов) применительно к обработке неструктурированной информации можно отнести laquoтуманностьraquo самого метода (в частности выбора кол-ва сингулярных значений диагональной матрицы) и интерпретации результата не говоря уже о проблеме сбалансированности обучающего текста

Как правило для качественного построения модели оставляют менее 1-2 процента от общего числа диагональных значений (после SVD преобразования но об это в следующем посте) И как показывает практика увеличение числа факторов приводит к ухудшению результата Но дойдя примерно до 10 процентов от общего числа диагональных значений опять может быть всплеск аналогичный результату полученному при 1

Сбалансированность корпуса ndash вечная проблема которая не имеет хорошего решения на сегодняшний день Поэтому про нее приято помалкивать

Интерпретируемость результатов LSA (как и DLA) также затруднительна человек еще может понять что за тематику будет содержать топик полученный в результате анализа а вот машине не понять (не аннотировать) тематику без привлечения большого числа хороших и разных тезаурусов

Таким образом несмотря на трудоемкость и непрозрачность LSA он может успешно применяться для разного рада задач где важно поймать семантику сообщения обобщить или расширить laquoсмыслыraquo поискового запроса

bull Стандарт основанный на XML для обмена моделями статистической обработки Data Mining

bull Поддерживается более 20 организациями и поставщиками ПО

bull Реализован в частности и в R

Поддерживаемые предиктивные алгоритмы в R

Состав pmml package

bull addLT

bull addMSAttributes

bull audit

bull fileToXMLNode

bull pmml

bull pmmlada

bull pmmlcoxph

bull pmmlcvglmnet

bull pmmlglm

bull pmmlhclust

bull pmmlkmeans

bull pmmlksvm

bull pmmllm bull pmmlmultinom bull pmmlnaiveBayes bull pmmlnnet bull pmmlrandomForest bull pmmlrfsrc bull pmmlrpart bull pmmlrules bull pmmlsvm bull pmmlCanExport bull pmmltoc

Пример

Good by R see you later alligator

WATSON ndash одно из наиболее впечатляющих применений предиктивной аналитики

Разрабатывался компанией IBM с 2006 по 2010 годПрославился победой в телешоу Jeopardy (в России ndash laquoСвоя играraquo) в 2011 годуПредшественник Deep Blue обыграл чемпиона мира по шахматам Гарри Каспарова в 1997 г

>

IBM Deep QA Project

bull Целью проекта было создать компьютерную систему (ИИ) для ответа на вопросы (QA) задаваемые в свободной форме в телешоу и показать результаты соизмеримые с человеческими

bull Задача более сложная чем шахматная программа Deep Blue выигравшая у Каспарова в 1997 г

bull Вопросы по категориямCategory General ScienceClue When hit by electrons a phosphor gives off electromagnetic energy in this formAnswer Light (or Photons)

Category Lincoln BlogsClue Secretary Chase just submitted this to me for the third time guess what pal This time Irsquom accepting itAnswer his resignation

Category Head NorthClue Theyrsquore the two states you could be reentering if yoursquore crossing Floridarsquos northern borderAnswer Georgia and Alabama

Вопросы могут касаться сразу нескольких фактов чтобы ответ был вернымCategory ldquoRaprdquo SheetClue This archaic term for a mischievous or annoying child can also mean a rogue or scampSubclue 1 This archaic term for a mischievous or annoying childSubclue 2 This term can also mean a rogue or scampAnswer Rapscallion

Category Diplomatic RelationsClue Of the four countries in the world that the United States does not have diplomatic relations with the one thatrsquos farthest northInner subclue The four countries in the world that the United States does not have diplomatic relations with (Bhutan Cuba Iran North Korea)Outer subclue Of Bhutan Cuba Iran and North Korea the one thatrsquos farthest northAnswer North Korea

Вопросы - пазлы

Category Before and After Goes to the MoviesClue Film of a typical day in the life of the Beatles which includes running from bloodthirsty zombie fans in a Romero classicSubclue 2 Film of a typical day in the life of the Beatles Answer 1 (A Hard Dayrsquos Night)Subclue 2 Running from bloodthirsty zombie fans in a Romero classicAnswer 2 (Night of the Living Dead)Answer A Hard Dayrsquos Night of the Living Dead

Category Rhyme TimeClue Itrsquos where Pele stores his ballSubclue 1 Pele ball (soccer)Subclue 2 where store (cabinet drawer locker and so on)Answer soccer locker

Недопустимые типы вопросов

oCategory Picture This(Contestants are shown a picture of a B-52 bomber)Clue Alphanumeric name of the fearsome machine seen hereAnswer B-52

oCategory Decode the Postal CodesVerbal instruction from host Wersquore going to give you a word comprising two postal abbreviations you have to identify the statesClue VainAnswer Virginia and Indiana

Лексические типы ответа ndash LAT (Lexical Answer Type)

Метрики качества ответов - результативность

Показатели двух теоретических QA систем

Показатели результативности чемпионов шоу (2000)

Облако победителей

Линия сравнения результативности (baseline performance)

Сравнение системы тестового поиска и поиска в базе знаний

Результативность Watson (по версиям)

Основы подхода Deep QA

bull Massive parallelism использование высокого параллелизма при рассмотрении множественных интерпретаций и гипотез

bull Many experts привлечение интеграции приложения и контекстуального оценивания в широком диапазоне слабосвязанных вероятностных вопросов и контентной аналитики

bull Pervasive confidence estimation повсеместная оценка доверия означает что ни один из компонентов не включается в ответ сразу все компоненты имеют признаки и связанные с ними уровни доверия производится скоринг различных вопросов и контентная интерпретация Основа confidence-processing состоит в обучении как стэкировать и комбинировать баллы

bull Integrate shallow and deep knowledge интеграция поверхностных и глубинных знаний состоит в балансе использования строгой семантики и мелких семантик использующих множества слабо сформированных онтологий

bull Content Acquisition - Сбор контентаСочетает ручные и автоматические этапы Первым шагом является анализ примеров вопросов проблемного пространства чтобы произвести описание видов вопросов на которые нужно ответить и характеризовать область применения Анализ примеров вопросов в первую очередь ручная задача в то время как анализ области может быть выполнен путем автоматических или статистических методов таких как анализ LAT показанный ранее Учитывая вопросы для широкого домена Jeopardy Challenge источники для Watson включают широкий ассортимент энциклопедий словарей тезаурусов Newswire статьи литературные произведения и тд Начиная с разумного размера базового корпуса DeepQA затем применяет автоматический процесс расширения корпуса Процесс включает в себя четыре этапа высокого уровня (1) выявления основных документов и получить соответствующие документы из Интернет (2) извлечь автономные текстовые ядра из связанных веб-документов (3) Оценка на основе ядер являются ли они информативны по отношению к исходному основному документу и (4) объединить наиболее информативные ядра в расширенном корпусе Работающая система использует этот расширенный корпус и не имеет доступа к Интернет во время игры

bull Question Analysis ndash Анализ вопроса

Первый шаг во время выполнения процесса вопрос-ответной системы При анализе вопроса система пытается понять что вопрос задан и выполняет начальный анализ определяющий как вопрос будет обработан на остальных этапах работы системы Подход DeepQA использует смешанный набор экспертов на данном этапе и в системе Watson производится мелкий парсинг глубокий парсинг строятся логические формы семантические этикетки ролей взаимные ссылки отношения именованные сущности и так далее а также конкретные виды анализа для ответа вопрос

bull Question classification - Классификация вопроса

Это задача выявления типа вопроса или частей вопроса которые требуют специальной обработки Это может включать в себя что-нибудь из отдельных слов с двойным смыслом и потенциально до выявления целых статей которые имеют определенную синтаксическую семантическую или риторические функциональные возможности которые могут инициировать нисходящий анализ Классификация может определить вопрос как вопрос- головоломку вопрос-математику -определение и так далее Это будет определять каламбуры ограничения компоненты определений или целые подвопросы в пределах вопросов

bull Focus and LAT Detection ndash Определение фокуса и лексического типа ответа

Лексический тип ответа - это слово или словосочетание в вопросе который определяет тип ответа без попытки понять семантику Определение LAT является важным видом выигрыша и общим источником критических ошибок Преимущество подхода DeepQA является использование многих самостоятельно разработанных алгоритмов laquoответ-типированияraquo Например фокус вопроса викторины laquoПри попадании электронов люминофор излучает электромагнитную энергию в этой формеraquo - является laquoэта формаraquo Фокус часто (но не всегда) содержит полезную информацию об ответе часто субъект или объект отношение в вопросе и может превратить вопрос в фактическое утверждение при замене возможным кандидатом Это представляет полезный способ собирать доказательства о каждом кандидате

bull Relation Detection ndash детектирование отношений

Большинство вопросов содержит отношения являются ли они синтаксическими предикатами субъект-глагол-объект или семантические отношения между субъектами Например в вопросе laquoЕсть два штата в которые вы могли бы войти повторно если вы пересекаете северную границу штата Флоридаraquo мы можем обнаружить отношение границы (Флорида Х к северу) Watson использует обнаружение отношения на протяжении всего процесса QA от фокуса и LAT определения до прохождению и скорингу ответов Watson также может использовать обнаруженные отношения для выделения хранилища триплетов и напрямую генерировать кандидатов в ответы В 20000 игр Jeopardy вопросы например обнаружили распределение Freebase отношений чрезвычайно плоского вида (см рисунок) Это приближение распределеня 50 наиболее частых отношений в 20 000 случайно выбранных вопросах викторины

bull Decomposition ndash декомпозиция

Важным требованием успеха анализа Jeopardy является способность отвечать на вопросы которые разложены на составляющие DeepQA использует основанный на правилах глубокий парсинг и статистические методы классификации чтобы наилучшим образом разложить вопросы на элементы и определить как лучше разбить их на подвопросы Операционная гипотеза что правильная интерпретация вопроса позволит лучше произвести скоринг ответов после того как все доказательства собраны Даже если вопрос не должен быть разложен для определения ответа этот метод может помочь улучшить общее доверие ответу системы DeepQA решает задачи параллельно для каждого разложения применяя алгоритмы от начала до конца каждого подвопроса и синтезирует окончательные ответы DeepQA также поддерживает вложенные декомпозиции вопросов через рекурсивное применение QA системы от начала до конца в внутреннем подвопросе а затем во внешнем Настраиваемые компоненты позволяют легко подключать специализированные алгоритмы синтеза в общую систему

bull Hypothesis Generation ndash генерация гипотез

Генерация гипотез принимает результаты анализа вопросов и производит кандидатов на ответы Каждый кандидат ответ включается обратно в вопрос и это считается как гипотеза Система должна доказать правильность этой гипотезы с некоторой степенью уверенности Как и во всех аспектах DeepQA используется смесь разных подходов для первичного поиска и генерации кандидата в системе Watson

bull Primary Search ndash первичный поиск

В этом поиске целью является найти столько потенциально кандидатов сколько это можно сделать на основе результатов анализа вопроса В течение проекта велись эмпирические исследования направленные на баланс скорости объема и точности Эти исследования позволили регулярно настраивать систему так чтобы найти такое количество кандидатов которые производят наилучший баланс точности и вычислительных ресурсов Оперативная цель основного поиска в конечном счете стабилизировалась на около 85 процентов для топ-250 кандидатов то есть система генерирует правильный ответ как кандидата ответа на 85 процентов вопросов где-то в верхних 250 ранжированных кандидатов Разнообразие методов поиска используются в том числе с использованием нескольких текст поисковых системах с различными базовыми подходами (например Indri и Lucene) поиск документов а также поиска маршрута база знаний поиска с помощью SPARQL хранилища триплетов Для небольшого количества латов которые были определены как закрытые латы кандидат на ответ может быть получен из фиксированного списка в каком-то хранилище известных экземпляров LAT таких как США Президент или Страна

Поиск доказательств

bull Поиск по фразе ndash число соответствий разного типав ответе и вопросеbull Популярность ndash как часто встречается этот вариант ответаbull Соответствие по типу ndash ответ и требование вопросаbull Соответствие по времениbull Надежность источника

bull Candidate Answer Generation ndash генерирование кандидатов на ответ

Результаты поиска применяются для генерирования возможных кандидатов в ответы с помощью различных подходящих техник Для поиска документов извлекаются заголовки и используются как кандидаты Число кандидатов при этом может быть не единственным и требовать использования анализа подстрок и ссылок Используя детектирование именованных сущностей в ряде случаев удается извлечь хороших кандидатов В зависимости от типа источника для генерирования кандидата требуется разный набор алгоритмов например база знаний или обратный словарь порождают кандидатов непосредственно как кандидата Этот этап критически важен и если кандидаты не найдены то фиксируется невозможность ответа В нормальном режиме на этом этапе Watson гененерирует несколько сотен андидатов

bull Soft Filtering ndash мягкая фильтрацияДля ускорения процесса скоринга кандидатов Watson использует различные алгоритмы разной точности Более легковесные (менее вычислительно интенсивные) применяются на первом этапе скоринга На этом этапе устанавливается порог оценки и кандидаты имеющие более высокую оценку считаются прошедшими мягкую фильтрацию Они поступают на выработку гипотез и скоринг доказательств Интересно что кандидаты не прошедшие порог мягкой фильтрации не забываются а направляются прямо на финальный этап слияния Модель скоринга мягкой фильтрации и порога определяются на основе machine learning используя обучающие данные Watson типично пропускает через мягкую фильтрацию 100 кандидатов но эта функция параметризована и их число можно изменить

Проблемы NLP

bull В мае 1898 года Португалия отмечала 400-летний юбилей со дня прибытия этого великого путешественника в Индию

В мае Гари прибыл в Индию после празднования своего юбилея в Португалии

21 мая 1498 года Васка де Гама высадился в местечке Каппад

bull Он был помилован президентом 8 сентября 1974 годаФорд помиловал Никсона 8 сентября 1974 года Никсон Форд

bull Говоря ldquogive a trinklerdquo что предлагают вам сделать британцы по приезду в город

bull Hypothesis and Evidence Scoring ndash скоринг гипотез и доказательств

Прошедшие порог мягкой фильтрации кандидаты поступают на скрупулезный процесс который включает сбор дополнительных поддерживающих доказательств для каждого кандидата на ответ или гипотезу Процесс использует широкий набор различных методов скоринговой аналитики чтобы исследовать все поддерживающие доказательства

bull Evidence Retrieval ndash извлечение доказательств

Чтобы лучше исследовать каждого кандидата прошедшего через мягкую фильтрацию система собирает дополнительные поддерживающие доказательства Архитектура поддерживает интеграцию различных evidence-gathering техник Один из применяемых способов состоит в том что проводится дополнительный поиск в котором кандидат добавляется в качестве required term к первичному запросу извлеченному из вопроса Это будет приводить к получению выражений содержащих кандидата в контексте первичных терминов вопросаПоддерживающие доказательства могут быть извлечены и из других источников например из RDF баз знаний Извлеченные поддерживающие доказательства направляются модули глубокого скоринга которые анализируют кандидата в контексте поддерживающего доказательства

bull Scoring ndash скоринг (количественное оценивание)

Алгоритмы скоринга определяют степень несомненности которую обеспечивают доказательства в поддержку кандидата The DeepQA framework поддерживает множество компонент для выработки оценки в различных измерениях каждого доказательства которая вырабатывает оценку связанную с тем насколько хорошо доказательство поддерживает кандидата на ответ в качестве ответа на заданный вопросDeepQA использует общий формат для оценок для принятых гипотез и подтверждающих оценок отражающих семантические и ограничивающие факторы Это позволяет разработчикам DeepQA быстро разворачивать перемешивать и настраивать сложные совокупности модуле для обработкиНапрмер Watson использует больше чем 50 скоринговых компонент Они производят оценки разноготипа от оценок вероятностей до подсчета категориальных свойств основанных на доказательствах от различных источников включая неструктурированные тексты полуструктурированные тексты и RDF хранилища Эти оценки используют такие данные как degree of match between a passagersquos predicate-argument structure and the question passage source reliability geospatial location temporal relationships taxonomic classification the lexical and semantic relations the candidate is known to participate in the candidatersquos correlation with question terms its popularity (or obscurity) its aliases and so on

Вопрос Чили имеет самую длинную общую границу со страной Сгенерировано несколько кандидатов среди них Аргентина и Боливия Первичный поиск даст приоритет Боливии из=а популярности обсуждений их отношений Однако собранные Watson доказательства из других источников показывают более высокую оценку для Аргентины

Скоринг (взвешивание) доказательств ndash предиктивная аналитика

- При делении клеток митозом называется деление ядра а цитокинезом ndash деление этой жидкости в которой находится ядро

Генерирование кандидатов Сбор доказательств Уверенность в доказательстве

ОрганеллыВакуольЦитоплазмаПлазмамитохондрии

Органеллы ndash не жидкостьВакуоль ndash не жидкостьЦитоплазма ndash возможно жидкостьПлазма ndash не жидкостьМитохондрии ndash не жидкость

Цитоплазма ndash 92Органеллы ndash 19Вакуоль ndash 10Плазма ndash 2Митохондрии ndash 2

Answer Merging ndash объединение ответов

Многие кандидаты в ответы на поставленный вопрос могут быть эквивалентны несмотря на различные внешне формыТехники ранжирования тем не менее рассматривают таких кандидатов как различные Без объединения алгоритмы ранжирования будут работать отдельно с эквивалентными сущностями и пытаться противопоставить одну форму другой Это приведет к проблемам принятия решений Watson содержит алгоритмы идентификации эквивалентных сущностей используя множественные сравнения нормализацию и методы разрешения совместных ссылок

Ranking and Confidence Estimation ndash ранжирование и оценивание доверияПосле объединения система должна произвести ранжирование гипотез и оценивает доверие основанное на объединенных оценках В системе подобран ML подход основанный на обучении на обучающем наборе вопросов с известными ответами и обучение модели основываясь на скоринге Применяется как весьма плоская модель и существующие алгоритмы ранжирования Для более тонких оценок применяется двухфазный процесс использующий группы оценок для оценивания профиля и для оценки доверия Используя эту промежуточную модель система производит ансамбль промежуточных оценок Здесь используется иерархическая техника метаучителя и коллектива экспертов Этот подход обеспечивает итеративное расширение обучения используя изощренные и глубокие иерархические модели обеспечивающие гибкость и робастность при выработке оценок и модифицирует системуМетаучитель в Watson использует набор многие обучаемые модели чтобы управлять различными классами вопросов которые могут быть критическими при идентификации правильных ответовНаконец важно что использование NLP-based скоринга дает весьма разреженные оценки и требует точного оценивания с применением confidence-weighted learning techniques

Развертывание Watson

bull DeepQA разработан используя Apache UIMA - framework implementation of the Unstructured Information Management Architecture (Ferrucci and Lally 2004) UIMA был разработан для поддержки взаимодействия и масштабирования приложений обработки текста и мультимодального анализа Все компоненты DeepQA имплементированы как UIMA annotators Это программные компоненты для анализа текста и получения аннотаций или заключений о тексте Watson развивался в процессе разработки от нескольких компонент до нескольких сотен UIMA обеспечивает быструю интеграцию компонент тестирование и исследование

bull Начальная имплементация Watson запускалась на одном процессоре и требовала 2 часа на ответ на один вопрос DeepQA развился в параллельную систему используя UIMA-AS часть Apache UIMA масштабируя приложения UIMA используя асинхронный механизм месседжинга UIMA-AS позволила масштабировать Watson более чем на 2500 вычислительных ядер UIMA-AS управляет коммуникациями месседжингом управлением запросами используя open JMS standard UIMA-AS позволил снизить латентность Watson до 3ndash5 секунд

bull Для препроцессинга корпуса текстов создания быстрых run-time indices использован Hadoop

UIMA annotators были развернуты как mapper ы в Hadoop map-reduce framework Hadoop распределяет контент по кластеру для обеспечения высокого использования CPU и обеспечивает подходящий набор инструментов для deploying managing and monitoring the corpus analysis process

bull Аппаратная платформа ndash это 90 серверов 2800 ядер 15 ТБ RAM 80 Тфлопс $3 000 000 10 R

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 15: !Predictive analytics part_3

TF-IDF анализ

TF (term frequency mdash частота слова) mdash отношение числа вхождения некоторого слова к общему количеству слов документа Таким образом оценивается важность слова t_i в пределах отдельного документа

где есть число вхождений слова в документ а в знаменателе mdash общее число слов в данном документеIDF (inverse document frequency mdash обратная частота документа) mdash инверсия частоты с которой некоторое слово встречается в документах коллекции Основоположником данной концепции является Карен ДжонсУчёт IDF уменьшает вес широкоупотребительных слов Для каждого уникального слова в пределах конкретной коллекции документов существует только одно значение IDF

D -количество документов в корпусеколичество документов в которых встречается t

Частотная матрица для двух далеких текстов

Частотная матрица для двух более близких текстов

Карта слов для двух выбранных документов

Разложение матрицы laquoслова-документыraquo

Модель векторного пространства

bull Наиболее распространенный вариант LSA основан на использовании разложения вещественнозначной матрицы по сингулярным значениям или SVD-разложения (SVD ndash Singular Value Decomposition) С помощью него любую матрицу можно разложить в множество ортогональных матриц линейная комбинация которых является достаточно точным приближением к исходной матрице Обычно используют мультипликативное разложение

bull где матрицы U и V ndash ортогональные а S ndash диагональная матрица значения на диагонали которой называются сингулярными значениями матрицы A

bull Символ Т в обозначении матрицы означает транспонирование матрицы

bull Основная идея латентно-семантического анализа состоит в следующем

bull после перемножения матриц полученная матрица Ă содержащая только k первых линейно независимых компонент исходной матрицы A отражает структуру зависимостей (в данном случае ассоциативных) латентно присутствующих в исходной матрице Структура зависимостей определяется весовыми функциями термов для каждого документа

Особенность такого разложения в том что если в матрице S оставить только k наибольших сингулярных значений то линейная комбинация получившихся матриц будет наилучшим приближением исходной матрицы A к матрице Ă ранга k

Пример

bull c1 Human machine interface for ABC computer applicationsbull c2 A survey of user opinion of computer system response timebull c3 The EPS user interface management systembull c4 System and human system engineering testing of EPSbull c5 Relation of user perceived response time to error measurementbull m1 The generation of random binary ordered treesbull m2 The intersection graph of paths in treesbull m3 Graph minors IV Widths of trees and well-quasi-orderingbull m4 Graph minors A survey

Желтым отмечены слова встречающиеся хотя бы в двух заголовках

После SVD

Семантическое пространство

Матрица расстояний между словами

Результат снижения размерности кластеризация [human interface computer user EPS response time][survey trees graph minors]

Расстояния между заголовками до и после SVD

bull Объем корпуса для построения модели должен быть большим ndash желательно около трех-пяти миллионов словоупотреблений Но метод работает и на коллекциях меньшего объема правда несколько хужеПроизвольное разбиение текста на документы обычно производят от тысячи до нескольких десятков тысяч частей примерно одинакового объема Таким образом матрица термы-на-документы получается прямоугольной и может быть сильно разраженной Например при объеме 5 млн словоформ получается матрица 30-50 тысяч документов на 200-300 тысяч а иногда и более термов В действительности низкочастотные термы можно опустить тк это заметно снизит размерность матрицы (скажем если не использовать 5 от общего объема низкочастотных термов то размерность сократиться в два раза) что приведет к снижению вычислительных ресурсов и времениВыбор сокращения сингулярных значений диагональной матрицы (размерности k) при обратном перемножении матриц достаточно произвольно При вышеуказанной размерности матрицы оставляют несколько сотен (100-300) главных компонент При этом как показывает практика зависимость количества компонент и точность меняются нелинейно например если начинать увеличивать их число то точность будет падать но при некотором значении скажем 10000 ndash опять вырастет до оптимального случая

Применение

bull сравнение двух термов между собойbull сравнение двух документов между собойbull сравнение терма и документа

Так же иногда этот метод используют для нахождения laquoближайшего соседаraquo mdash наиболее близких по весу термов ассоциативно связанных с исходным Это свойство используют для поиска близких по смыслу термов Следует уточнить что близость по смыслу ndash это контекстнозависимая величина поэтому не всякий близкий терм будет соответствовать ассоциации (это может быть и синоним и антоним и просто часто встречающееся вместе с искомым термом слово или словосочетание)

bull Достоинством метода можно считать его замечательную способность выявлять зависимости между словами когда обычные статистические методы бессильны LSA также может быть применен как с обучением (с предварительной тематической классификацией документов) так и без обучения (произвольное разбиение произвольного текста) что зависит от решаемой задачи

bull Об основных недостатках значительное снижение скорости вычисления при увеличении объема входных данных (в частности при SVD-преобразовании)

bull Как показано в литературе скорость вычисления соответствует порядку где сумма количества документов и термов kndash размерность пространства факторов

На рисунке показано возникновение и изменение главных факторов при уменьшении числа сингулярных элементов диагональной матрицы от 100 до ~12 Трехмерные рисунки представляют собой симметричную матрицу полученную в результате вычисления скалярного произведения векторов каждого эталонного документа с каждым тестируемым Эталонный набор векторов ndash это заранее размеченный на 30 документов текст тестируемый ndash с уменьшением числа сингулярных значений диагональной матрицы полученной при SVD-анализе На осях X и Y откладывается количество документов (эталонных и тестируемых) на оси Z ndash объем лексиконаНа рисунках хорошо видно что при уменьшении числа сингулярных диагональных элементов на 20-30 факторы еще не достаточно ярко выявлены но при этом возникают корреляции похожих документов (небольшие пики вне диагонали) которые сначала незначительно увеличиваются а затем с уменьшением числа сингулярных значений (до 70-80) ndash исчезают При автоматической кластеризации такие пики являются шумом поэтому их желательно минимизировать Если же целью является получение ассоциативных связей внутри документов то следует найти оптимальное соотношение сохранения основного лексикона и примешивания ассоциативного

Имплементация в R - Package lsquolsarsquoalnumx - Regular expression for removal of non-alphanumeric characters (saving special characters)

astextmatrix - Display a latent semantic space generated by Latent Semantic Analysis (LSA)

associate - Find close terms in a textmatrix

corpora - Corpora (Essay Scoring) dimcalc Dimensionality Calculation Routines (LSA)

dimcalc - Dimensionality Calculation Routines (LSA)

lsa - Create a vector space with Latent Semantic Analysis (LSA)

printtextmatrix - Print a textmatrix (Matrices)

sampletextmatrix - Create a random sample of files

textmatrix - Создает Textmatrix (Matrices) из файлов

Пример 1

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) read files into a document-term matrixmyMatrix = textmatrix(td minWordLength=1) create the latent semantic spacemyLSAspace = lsa(myMatrix dims=dimcalc_raw()) display it as a textmatrix againround(astextmatrix(myLSAspace)2) should give the original create the latent semantic spacemyLSAspace = lsa(myMatrix dims=dimcalc_share())

Пример 2

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) create matricesmyMatrix = textmatrix(td minWordLength=1)myLSAspace = lsa(myMatrix dims=dimcalc_share())myNewMatrix = astextmatrix(myLSAspace) calc associations for mouseassociate(myNewMatrix mouse) clean upunlink(td recursive=TRUE)

Пример 3 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(ham mouse sushi) file=paste(td D2 sep=) )write( c(dog pet pet) file=paste(td D3 sep=) ) LSAdata(stopwords_en)myMatrix = textmatrix(td stopwords=stopwords_en)myMatrix = lw_logtf(myMatrix) gw_idf(myMatrix)myLSAspace = lsa(myMatrix dims=dimcalc_share())astextmatrix(myLSAspace) clean upunlink(td recursive=TRUE)

Пример 4 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(hamster mouse sushi) file=paste(td D2 sep=) )write( c(dog monster monster) file=paste(td D3 sep=) ) read them create a document-term matrixtextmatrix(td) read them drop german stopwordsdata(stopwords_de)textmatrix(td stopwords=stopwords_de) read them based on a controlled vocabularyvoc = c(dog mouse)textmatrix(td vocabulary=voc minWordLength=1) clean up

Вместо заключения Очевидным недостатком LSA является ненормальность (негаусовость) вероятностного распределения слов в любом естественном языке Но эту проблему можно решить сглаживанием выборки (например применив фонетические слова распределение становится более laquoнормальнымraquo) Либо используют вероятностный LSA тназ PLSA основанный на мультиноминальном распределении Другим менее очевидным недостаткам LSA (и ему подобных методов) применительно к обработке неструктурированной информации можно отнести laquoтуманностьraquo самого метода (в частности выбора кол-ва сингулярных значений диагональной матрицы) и интерпретации результата не говоря уже о проблеме сбалансированности обучающего текста

Как правило для качественного построения модели оставляют менее 1-2 процента от общего числа диагональных значений (после SVD преобразования но об это в следующем посте) И как показывает практика увеличение числа факторов приводит к ухудшению результата Но дойдя примерно до 10 процентов от общего числа диагональных значений опять может быть всплеск аналогичный результату полученному при 1

Сбалансированность корпуса ndash вечная проблема которая не имеет хорошего решения на сегодняшний день Поэтому про нее приято помалкивать

Интерпретируемость результатов LSA (как и DLA) также затруднительна человек еще может понять что за тематику будет содержать топик полученный в результате анализа а вот машине не понять (не аннотировать) тематику без привлечения большого числа хороших и разных тезаурусов

Таким образом несмотря на трудоемкость и непрозрачность LSA он может успешно применяться для разного рада задач где важно поймать семантику сообщения обобщить или расширить laquoсмыслыraquo поискового запроса

bull Стандарт основанный на XML для обмена моделями статистической обработки Data Mining

bull Поддерживается более 20 организациями и поставщиками ПО

bull Реализован в частности и в R

Поддерживаемые предиктивные алгоритмы в R

Состав pmml package

bull addLT

bull addMSAttributes

bull audit

bull fileToXMLNode

bull pmml

bull pmmlada

bull pmmlcoxph

bull pmmlcvglmnet

bull pmmlglm

bull pmmlhclust

bull pmmlkmeans

bull pmmlksvm

bull pmmllm bull pmmlmultinom bull pmmlnaiveBayes bull pmmlnnet bull pmmlrandomForest bull pmmlrfsrc bull pmmlrpart bull pmmlrules bull pmmlsvm bull pmmlCanExport bull pmmltoc

Пример

Good by R see you later alligator

WATSON ndash одно из наиболее впечатляющих применений предиктивной аналитики

Разрабатывался компанией IBM с 2006 по 2010 годПрославился победой в телешоу Jeopardy (в России ndash laquoСвоя играraquo) в 2011 годуПредшественник Deep Blue обыграл чемпиона мира по шахматам Гарри Каспарова в 1997 г

>

IBM Deep QA Project

bull Целью проекта было создать компьютерную систему (ИИ) для ответа на вопросы (QA) задаваемые в свободной форме в телешоу и показать результаты соизмеримые с человеческими

bull Задача более сложная чем шахматная программа Deep Blue выигравшая у Каспарова в 1997 г

bull Вопросы по категориямCategory General ScienceClue When hit by electrons a phosphor gives off electromagnetic energy in this formAnswer Light (or Photons)

Category Lincoln BlogsClue Secretary Chase just submitted this to me for the third time guess what pal This time Irsquom accepting itAnswer his resignation

Category Head NorthClue Theyrsquore the two states you could be reentering if yoursquore crossing Floridarsquos northern borderAnswer Georgia and Alabama

Вопросы могут касаться сразу нескольких фактов чтобы ответ был вернымCategory ldquoRaprdquo SheetClue This archaic term for a mischievous or annoying child can also mean a rogue or scampSubclue 1 This archaic term for a mischievous or annoying childSubclue 2 This term can also mean a rogue or scampAnswer Rapscallion

Category Diplomatic RelationsClue Of the four countries in the world that the United States does not have diplomatic relations with the one thatrsquos farthest northInner subclue The four countries in the world that the United States does not have diplomatic relations with (Bhutan Cuba Iran North Korea)Outer subclue Of Bhutan Cuba Iran and North Korea the one thatrsquos farthest northAnswer North Korea

Вопросы - пазлы

Category Before and After Goes to the MoviesClue Film of a typical day in the life of the Beatles which includes running from bloodthirsty zombie fans in a Romero classicSubclue 2 Film of a typical day in the life of the Beatles Answer 1 (A Hard Dayrsquos Night)Subclue 2 Running from bloodthirsty zombie fans in a Romero classicAnswer 2 (Night of the Living Dead)Answer A Hard Dayrsquos Night of the Living Dead

Category Rhyme TimeClue Itrsquos where Pele stores his ballSubclue 1 Pele ball (soccer)Subclue 2 where store (cabinet drawer locker and so on)Answer soccer locker

Недопустимые типы вопросов

oCategory Picture This(Contestants are shown a picture of a B-52 bomber)Clue Alphanumeric name of the fearsome machine seen hereAnswer B-52

oCategory Decode the Postal CodesVerbal instruction from host Wersquore going to give you a word comprising two postal abbreviations you have to identify the statesClue VainAnswer Virginia and Indiana

Лексические типы ответа ndash LAT (Lexical Answer Type)

Метрики качества ответов - результативность

Показатели двух теоретических QA систем

Показатели результативности чемпионов шоу (2000)

Облако победителей

Линия сравнения результативности (baseline performance)

Сравнение системы тестового поиска и поиска в базе знаний

Результативность Watson (по версиям)

Основы подхода Deep QA

bull Massive parallelism использование высокого параллелизма при рассмотрении множественных интерпретаций и гипотез

bull Many experts привлечение интеграции приложения и контекстуального оценивания в широком диапазоне слабосвязанных вероятностных вопросов и контентной аналитики

bull Pervasive confidence estimation повсеместная оценка доверия означает что ни один из компонентов не включается в ответ сразу все компоненты имеют признаки и связанные с ними уровни доверия производится скоринг различных вопросов и контентная интерпретация Основа confidence-processing состоит в обучении как стэкировать и комбинировать баллы

bull Integrate shallow and deep knowledge интеграция поверхностных и глубинных знаний состоит в балансе использования строгой семантики и мелких семантик использующих множества слабо сформированных онтологий

bull Content Acquisition - Сбор контентаСочетает ручные и автоматические этапы Первым шагом является анализ примеров вопросов проблемного пространства чтобы произвести описание видов вопросов на которые нужно ответить и характеризовать область применения Анализ примеров вопросов в первую очередь ручная задача в то время как анализ области может быть выполнен путем автоматических или статистических методов таких как анализ LAT показанный ранее Учитывая вопросы для широкого домена Jeopardy Challenge источники для Watson включают широкий ассортимент энциклопедий словарей тезаурусов Newswire статьи литературные произведения и тд Начиная с разумного размера базового корпуса DeepQA затем применяет автоматический процесс расширения корпуса Процесс включает в себя четыре этапа высокого уровня (1) выявления основных документов и получить соответствующие документы из Интернет (2) извлечь автономные текстовые ядра из связанных веб-документов (3) Оценка на основе ядер являются ли они информативны по отношению к исходному основному документу и (4) объединить наиболее информативные ядра в расширенном корпусе Работающая система использует этот расширенный корпус и не имеет доступа к Интернет во время игры

bull Question Analysis ndash Анализ вопроса

Первый шаг во время выполнения процесса вопрос-ответной системы При анализе вопроса система пытается понять что вопрос задан и выполняет начальный анализ определяющий как вопрос будет обработан на остальных этапах работы системы Подход DeepQA использует смешанный набор экспертов на данном этапе и в системе Watson производится мелкий парсинг глубокий парсинг строятся логические формы семантические этикетки ролей взаимные ссылки отношения именованные сущности и так далее а также конкретные виды анализа для ответа вопрос

bull Question classification - Классификация вопроса

Это задача выявления типа вопроса или частей вопроса которые требуют специальной обработки Это может включать в себя что-нибудь из отдельных слов с двойным смыслом и потенциально до выявления целых статей которые имеют определенную синтаксическую семантическую или риторические функциональные возможности которые могут инициировать нисходящий анализ Классификация может определить вопрос как вопрос- головоломку вопрос-математику -определение и так далее Это будет определять каламбуры ограничения компоненты определений или целые подвопросы в пределах вопросов

bull Focus and LAT Detection ndash Определение фокуса и лексического типа ответа

Лексический тип ответа - это слово или словосочетание в вопросе который определяет тип ответа без попытки понять семантику Определение LAT является важным видом выигрыша и общим источником критических ошибок Преимущество подхода DeepQA является использование многих самостоятельно разработанных алгоритмов laquoответ-типированияraquo Например фокус вопроса викторины laquoПри попадании электронов люминофор излучает электромагнитную энергию в этой формеraquo - является laquoэта формаraquo Фокус часто (но не всегда) содержит полезную информацию об ответе часто субъект или объект отношение в вопросе и может превратить вопрос в фактическое утверждение при замене возможным кандидатом Это представляет полезный способ собирать доказательства о каждом кандидате

bull Relation Detection ndash детектирование отношений

Большинство вопросов содержит отношения являются ли они синтаксическими предикатами субъект-глагол-объект или семантические отношения между субъектами Например в вопросе laquoЕсть два штата в которые вы могли бы войти повторно если вы пересекаете северную границу штата Флоридаraquo мы можем обнаружить отношение границы (Флорида Х к северу) Watson использует обнаружение отношения на протяжении всего процесса QA от фокуса и LAT определения до прохождению и скорингу ответов Watson также может использовать обнаруженные отношения для выделения хранилища триплетов и напрямую генерировать кандидатов в ответы В 20000 игр Jeopardy вопросы например обнаружили распределение Freebase отношений чрезвычайно плоского вида (см рисунок) Это приближение распределеня 50 наиболее частых отношений в 20 000 случайно выбранных вопросах викторины

bull Decomposition ndash декомпозиция

Важным требованием успеха анализа Jeopardy является способность отвечать на вопросы которые разложены на составляющие DeepQA использует основанный на правилах глубокий парсинг и статистические методы классификации чтобы наилучшим образом разложить вопросы на элементы и определить как лучше разбить их на подвопросы Операционная гипотеза что правильная интерпретация вопроса позволит лучше произвести скоринг ответов после того как все доказательства собраны Даже если вопрос не должен быть разложен для определения ответа этот метод может помочь улучшить общее доверие ответу системы DeepQA решает задачи параллельно для каждого разложения применяя алгоритмы от начала до конца каждого подвопроса и синтезирует окончательные ответы DeepQA также поддерживает вложенные декомпозиции вопросов через рекурсивное применение QA системы от начала до конца в внутреннем подвопросе а затем во внешнем Настраиваемые компоненты позволяют легко подключать специализированные алгоритмы синтеза в общую систему

bull Hypothesis Generation ndash генерация гипотез

Генерация гипотез принимает результаты анализа вопросов и производит кандидатов на ответы Каждый кандидат ответ включается обратно в вопрос и это считается как гипотеза Система должна доказать правильность этой гипотезы с некоторой степенью уверенности Как и во всех аспектах DeepQA используется смесь разных подходов для первичного поиска и генерации кандидата в системе Watson

bull Primary Search ndash первичный поиск

В этом поиске целью является найти столько потенциально кандидатов сколько это можно сделать на основе результатов анализа вопроса В течение проекта велись эмпирические исследования направленные на баланс скорости объема и точности Эти исследования позволили регулярно настраивать систему так чтобы найти такое количество кандидатов которые производят наилучший баланс точности и вычислительных ресурсов Оперативная цель основного поиска в конечном счете стабилизировалась на около 85 процентов для топ-250 кандидатов то есть система генерирует правильный ответ как кандидата ответа на 85 процентов вопросов где-то в верхних 250 ранжированных кандидатов Разнообразие методов поиска используются в том числе с использованием нескольких текст поисковых системах с различными базовыми подходами (например Indri и Lucene) поиск документов а также поиска маршрута база знаний поиска с помощью SPARQL хранилища триплетов Для небольшого количества латов которые были определены как закрытые латы кандидат на ответ может быть получен из фиксированного списка в каком-то хранилище известных экземпляров LAT таких как США Президент или Страна

Поиск доказательств

bull Поиск по фразе ndash число соответствий разного типав ответе и вопросеbull Популярность ndash как часто встречается этот вариант ответаbull Соответствие по типу ndash ответ и требование вопросаbull Соответствие по времениbull Надежность источника

bull Candidate Answer Generation ndash генерирование кандидатов на ответ

Результаты поиска применяются для генерирования возможных кандидатов в ответы с помощью различных подходящих техник Для поиска документов извлекаются заголовки и используются как кандидаты Число кандидатов при этом может быть не единственным и требовать использования анализа подстрок и ссылок Используя детектирование именованных сущностей в ряде случаев удается извлечь хороших кандидатов В зависимости от типа источника для генерирования кандидата требуется разный набор алгоритмов например база знаний или обратный словарь порождают кандидатов непосредственно как кандидата Этот этап критически важен и если кандидаты не найдены то фиксируется невозможность ответа В нормальном режиме на этом этапе Watson гененерирует несколько сотен андидатов

bull Soft Filtering ndash мягкая фильтрацияДля ускорения процесса скоринга кандидатов Watson использует различные алгоритмы разной точности Более легковесные (менее вычислительно интенсивные) применяются на первом этапе скоринга На этом этапе устанавливается порог оценки и кандидаты имеющие более высокую оценку считаются прошедшими мягкую фильтрацию Они поступают на выработку гипотез и скоринг доказательств Интересно что кандидаты не прошедшие порог мягкой фильтрации не забываются а направляются прямо на финальный этап слияния Модель скоринга мягкой фильтрации и порога определяются на основе machine learning используя обучающие данные Watson типично пропускает через мягкую фильтрацию 100 кандидатов но эта функция параметризована и их число можно изменить

Проблемы NLP

bull В мае 1898 года Португалия отмечала 400-летний юбилей со дня прибытия этого великого путешественника в Индию

В мае Гари прибыл в Индию после празднования своего юбилея в Португалии

21 мая 1498 года Васка де Гама высадился в местечке Каппад

bull Он был помилован президентом 8 сентября 1974 годаФорд помиловал Никсона 8 сентября 1974 года Никсон Форд

bull Говоря ldquogive a trinklerdquo что предлагают вам сделать британцы по приезду в город

bull Hypothesis and Evidence Scoring ndash скоринг гипотез и доказательств

Прошедшие порог мягкой фильтрации кандидаты поступают на скрупулезный процесс который включает сбор дополнительных поддерживающих доказательств для каждого кандидата на ответ или гипотезу Процесс использует широкий набор различных методов скоринговой аналитики чтобы исследовать все поддерживающие доказательства

bull Evidence Retrieval ndash извлечение доказательств

Чтобы лучше исследовать каждого кандидата прошедшего через мягкую фильтрацию система собирает дополнительные поддерживающие доказательства Архитектура поддерживает интеграцию различных evidence-gathering техник Один из применяемых способов состоит в том что проводится дополнительный поиск в котором кандидат добавляется в качестве required term к первичному запросу извлеченному из вопроса Это будет приводить к получению выражений содержащих кандидата в контексте первичных терминов вопросаПоддерживающие доказательства могут быть извлечены и из других источников например из RDF баз знаний Извлеченные поддерживающие доказательства направляются модули глубокого скоринга которые анализируют кандидата в контексте поддерживающего доказательства

bull Scoring ndash скоринг (количественное оценивание)

Алгоритмы скоринга определяют степень несомненности которую обеспечивают доказательства в поддержку кандидата The DeepQA framework поддерживает множество компонент для выработки оценки в различных измерениях каждого доказательства которая вырабатывает оценку связанную с тем насколько хорошо доказательство поддерживает кандидата на ответ в качестве ответа на заданный вопросDeepQA использует общий формат для оценок для принятых гипотез и подтверждающих оценок отражающих семантические и ограничивающие факторы Это позволяет разработчикам DeepQA быстро разворачивать перемешивать и настраивать сложные совокупности модуле для обработкиНапрмер Watson использует больше чем 50 скоринговых компонент Они производят оценки разноготипа от оценок вероятностей до подсчета категориальных свойств основанных на доказательствах от различных источников включая неструктурированные тексты полуструктурированные тексты и RDF хранилища Эти оценки используют такие данные как degree of match between a passagersquos predicate-argument structure and the question passage source reliability geospatial location temporal relationships taxonomic classification the lexical and semantic relations the candidate is known to participate in the candidatersquos correlation with question terms its popularity (or obscurity) its aliases and so on

Вопрос Чили имеет самую длинную общую границу со страной Сгенерировано несколько кандидатов среди них Аргентина и Боливия Первичный поиск даст приоритет Боливии из=а популярности обсуждений их отношений Однако собранные Watson доказательства из других источников показывают более высокую оценку для Аргентины

Скоринг (взвешивание) доказательств ndash предиктивная аналитика

- При делении клеток митозом называется деление ядра а цитокинезом ndash деление этой жидкости в которой находится ядро

Генерирование кандидатов Сбор доказательств Уверенность в доказательстве

ОрганеллыВакуольЦитоплазмаПлазмамитохондрии

Органеллы ndash не жидкостьВакуоль ndash не жидкостьЦитоплазма ndash возможно жидкостьПлазма ndash не жидкостьМитохондрии ndash не жидкость

Цитоплазма ndash 92Органеллы ndash 19Вакуоль ndash 10Плазма ndash 2Митохондрии ndash 2

Answer Merging ndash объединение ответов

Многие кандидаты в ответы на поставленный вопрос могут быть эквивалентны несмотря на различные внешне формыТехники ранжирования тем не менее рассматривают таких кандидатов как различные Без объединения алгоритмы ранжирования будут работать отдельно с эквивалентными сущностями и пытаться противопоставить одну форму другой Это приведет к проблемам принятия решений Watson содержит алгоритмы идентификации эквивалентных сущностей используя множественные сравнения нормализацию и методы разрешения совместных ссылок

Ranking and Confidence Estimation ndash ранжирование и оценивание доверияПосле объединения система должна произвести ранжирование гипотез и оценивает доверие основанное на объединенных оценках В системе подобран ML подход основанный на обучении на обучающем наборе вопросов с известными ответами и обучение модели основываясь на скоринге Применяется как весьма плоская модель и существующие алгоритмы ранжирования Для более тонких оценок применяется двухфазный процесс использующий группы оценок для оценивания профиля и для оценки доверия Используя эту промежуточную модель система производит ансамбль промежуточных оценок Здесь используется иерархическая техника метаучителя и коллектива экспертов Этот подход обеспечивает итеративное расширение обучения используя изощренные и глубокие иерархические модели обеспечивающие гибкость и робастность при выработке оценок и модифицирует системуМетаучитель в Watson использует набор многие обучаемые модели чтобы управлять различными классами вопросов которые могут быть критическими при идентификации правильных ответовНаконец важно что использование NLP-based скоринга дает весьма разреженные оценки и требует точного оценивания с применением confidence-weighted learning techniques

Развертывание Watson

bull DeepQA разработан используя Apache UIMA - framework implementation of the Unstructured Information Management Architecture (Ferrucci and Lally 2004) UIMA был разработан для поддержки взаимодействия и масштабирования приложений обработки текста и мультимодального анализа Все компоненты DeepQA имплементированы как UIMA annotators Это программные компоненты для анализа текста и получения аннотаций или заключений о тексте Watson развивался в процессе разработки от нескольких компонент до нескольких сотен UIMA обеспечивает быструю интеграцию компонент тестирование и исследование

bull Начальная имплементация Watson запускалась на одном процессоре и требовала 2 часа на ответ на один вопрос DeepQA развился в параллельную систему используя UIMA-AS часть Apache UIMA масштабируя приложения UIMA используя асинхронный механизм месседжинга UIMA-AS позволила масштабировать Watson более чем на 2500 вычислительных ядер UIMA-AS управляет коммуникациями месседжингом управлением запросами используя open JMS standard UIMA-AS позволил снизить латентность Watson до 3ndash5 секунд

bull Для препроцессинга корпуса текстов создания быстрых run-time indices использован Hadoop

UIMA annotators были развернуты как mapper ы в Hadoop map-reduce framework Hadoop распределяет контент по кластеру для обеспечения высокого использования CPU и обеспечивает подходящий набор инструментов для deploying managing and monitoring the corpus analysis process

bull Аппаратная платформа ndash это 90 серверов 2800 ядер 15 ТБ RAM 80 Тфлопс $3 000 000 10 R

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 16: !Predictive analytics part_3

Частотная матрица для двух далеких текстов

Частотная матрица для двух более близких текстов

Карта слов для двух выбранных документов

Разложение матрицы laquoслова-документыraquo

Модель векторного пространства

bull Наиболее распространенный вариант LSA основан на использовании разложения вещественнозначной матрицы по сингулярным значениям или SVD-разложения (SVD ndash Singular Value Decomposition) С помощью него любую матрицу можно разложить в множество ортогональных матриц линейная комбинация которых является достаточно точным приближением к исходной матрице Обычно используют мультипликативное разложение

bull где матрицы U и V ndash ортогональные а S ndash диагональная матрица значения на диагонали которой называются сингулярными значениями матрицы A

bull Символ Т в обозначении матрицы означает транспонирование матрицы

bull Основная идея латентно-семантического анализа состоит в следующем

bull после перемножения матриц полученная матрица Ă содержащая только k первых линейно независимых компонент исходной матрицы A отражает структуру зависимостей (в данном случае ассоциативных) латентно присутствующих в исходной матрице Структура зависимостей определяется весовыми функциями термов для каждого документа

Особенность такого разложения в том что если в матрице S оставить только k наибольших сингулярных значений то линейная комбинация получившихся матриц будет наилучшим приближением исходной матрицы A к матрице Ă ранга k

Пример

bull c1 Human machine interface for ABC computer applicationsbull c2 A survey of user opinion of computer system response timebull c3 The EPS user interface management systembull c4 System and human system engineering testing of EPSbull c5 Relation of user perceived response time to error measurementbull m1 The generation of random binary ordered treesbull m2 The intersection graph of paths in treesbull m3 Graph minors IV Widths of trees and well-quasi-orderingbull m4 Graph minors A survey

Желтым отмечены слова встречающиеся хотя бы в двух заголовках

После SVD

Семантическое пространство

Матрица расстояний между словами

Результат снижения размерности кластеризация [human interface computer user EPS response time][survey trees graph minors]

Расстояния между заголовками до и после SVD

bull Объем корпуса для построения модели должен быть большим ndash желательно около трех-пяти миллионов словоупотреблений Но метод работает и на коллекциях меньшего объема правда несколько хужеПроизвольное разбиение текста на документы обычно производят от тысячи до нескольких десятков тысяч частей примерно одинакового объема Таким образом матрица термы-на-документы получается прямоугольной и может быть сильно разраженной Например при объеме 5 млн словоформ получается матрица 30-50 тысяч документов на 200-300 тысяч а иногда и более термов В действительности низкочастотные термы можно опустить тк это заметно снизит размерность матрицы (скажем если не использовать 5 от общего объема низкочастотных термов то размерность сократиться в два раза) что приведет к снижению вычислительных ресурсов и времениВыбор сокращения сингулярных значений диагональной матрицы (размерности k) при обратном перемножении матриц достаточно произвольно При вышеуказанной размерности матрицы оставляют несколько сотен (100-300) главных компонент При этом как показывает практика зависимость количества компонент и точность меняются нелинейно например если начинать увеличивать их число то точность будет падать но при некотором значении скажем 10000 ndash опять вырастет до оптимального случая

Применение

bull сравнение двух термов между собойbull сравнение двух документов между собойbull сравнение терма и документа

Так же иногда этот метод используют для нахождения laquoближайшего соседаraquo mdash наиболее близких по весу термов ассоциативно связанных с исходным Это свойство используют для поиска близких по смыслу термов Следует уточнить что близость по смыслу ndash это контекстнозависимая величина поэтому не всякий близкий терм будет соответствовать ассоциации (это может быть и синоним и антоним и просто часто встречающееся вместе с искомым термом слово или словосочетание)

bull Достоинством метода можно считать его замечательную способность выявлять зависимости между словами когда обычные статистические методы бессильны LSA также может быть применен как с обучением (с предварительной тематической классификацией документов) так и без обучения (произвольное разбиение произвольного текста) что зависит от решаемой задачи

bull Об основных недостатках значительное снижение скорости вычисления при увеличении объема входных данных (в частности при SVD-преобразовании)

bull Как показано в литературе скорость вычисления соответствует порядку где сумма количества документов и термов kndash размерность пространства факторов

На рисунке показано возникновение и изменение главных факторов при уменьшении числа сингулярных элементов диагональной матрицы от 100 до ~12 Трехмерные рисунки представляют собой симметричную матрицу полученную в результате вычисления скалярного произведения векторов каждого эталонного документа с каждым тестируемым Эталонный набор векторов ndash это заранее размеченный на 30 документов текст тестируемый ndash с уменьшением числа сингулярных значений диагональной матрицы полученной при SVD-анализе На осях X и Y откладывается количество документов (эталонных и тестируемых) на оси Z ndash объем лексиконаНа рисунках хорошо видно что при уменьшении числа сингулярных диагональных элементов на 20-30 факторы еще не достаточно ярко выявлены но при этом возникают корреляции похожих документов (небольшие пики вне диагонали) которые сначала незначительно увеличиваются а затем с уменьшением числа сингулярных значений (до 70-80) ndash исчезают При автоматической кластеризации такие пики являются шумом поэтому их желательно минимизировать Если же целью является получение ассоциативных связей внутри документов то следует найти оптимальное соотношение сохранения основного лексикона и примешивания ассоциативного

Имплементация в R - Package lsquolsarsquoalnumx - Regular expression for removal of non-alphanumeric characters (saving special characters)

astextmatrix - Display a latent semantic space generated by Latent Semantic Analysis (LSA)

associate - Find close terms in a textmatrix

corpora - Corpora (Essay Scoring) dimcalc Dimensionality Calculation Routines (LSA)

dimcalc - Dimensionality Calculation Routines (LSA)

lsa - Create a vector space with Latent Semantic Analysis (LSA)

printtextmatrix - Print a textmatrix (Matrices)

sampletextmatrix - Create a random sample of files

textmatrix - Создает Textmatrix (Matrices) из файлов

Пример 1

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) read files into a document-term matrixmyMatrix = textmatrix(td minWordLength=1) create the latent semantic spacemyLSAspace = lsa(myMatrix dims=dimcalc_raw()) display it as a textmatrix againround(astextmatrix(myLSAspace)2) should give the original create the latent semantic spacemyLSAspace = lsa(myMatrix dims=dimcalc_share())

Пример 2

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) create matricesmyMatrix = textmatrix(td minWordLength=1)myLSAspace = lsa(myMatrix dims=dimcalc_share())myNewMatrix = astextmatrix(myLSAspace) calc associations for mouseassociate(myNewMatrix mouse) clean upunlink(td recursive=TRUE)

Пример 3 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(ham mouse sushi) file=paste(td D2 sep=) )write( c(dog pet pet) file=paste(td D3 sep=) ) LSAdata(stopwords_en)myMatrix = textmatrix(td stopwords=stopwords_en)myMatrix = lw_logtf(myMatrix) gw_idf(myMatrix)myLSAspace = lsa(myMatrix dims=dimcalc_share())astextmatrix(myLSAspace) clean upunlink(td recursive=TRUE)

Пример 4 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(hamster mouse sushi) file=paste(td D2 sep=) )write( c(dog monster monster) file=paste(td D3 sep=) ) read them create a document-term matrixtextmatrix(td) read them drop german stopwordsdata(stopwords_de)textmatrix(td stopwords=stopwords_de) read them based on a controlled vocabularyvoc = c(dog mouse)textmatrix(td vocabulary=voc minWordLength=1) clean up

Вместо заключения Очевидным недостатком LSA является ненормальность (негаусовость) вероятностного распределения слов в любом естественном языке Но эту проблему можно решить сглаживанием выборки (например применив фонетические слова распределение становится более laquoнормальнымraquo) Либо используют вероятностный LSA тназ PLSA основанный на мультиноминальном распределении Другим менее очевидным недостаткам LSA (и ему подобных методов) применительно к обработке неструктурированной информации можно отнести laquoтуманностьraquo самого метода (в частности выбора кол-ва сингулярных значений диагональной матрицы) и интерпретации результата не говоря уже о проблеме сбалансированности обучающего текста

Как правило для качественного построения модели оставляют менее 1-2 процента от общего числа диагональных значений (после SVD преобразования но об это в следующем посте) И как показывает практика увеличение числа факторов приводит к ухудшению результата Но дойдя примерно до 10 процентов от общего числа диагональных значений опять может быть всплеск аналогичный результату полученному при 1

Сбалансированность корпуса ndash вечная проблема которая не имеет хорошего решения на сегодняшний день Поэтому про нее приято помалкивать

Интерпретируемость результатов LSA (как и DLA) также затруднительна человек еще может понять что за тематику будет содержать топик полученный в результате анализа а вот машине не понять (не аннотировать) тематику без привлечения большого числа хороших и разных тезаурусов

Таким образом несмотря на трудоемкость и непрозрачность LSA он может успешно применяться для разного рада задач где важно поймать семантику сообщения обобщить или расширить laquoсмыслыraquo поискового запроса

bull Стандарт основанный на XML для обмена моделями статистической обработки Data Mining

bull Поддерживается более 20 организациями и поставщиками ПО

bull Реализован в частности и в R

Поддерживаемые предиктивные алгоритмы в R

Состав pmml package

bull addLT

bull addMSAttributes

bull audit

bull fileToXMLNode

bull pmml

bull pmmlada

bull pmmlcoxph

bull pmmlcvglmnet

bull pmmlglm

bull pmmlhclust

bull pmmlkmeans

bull pmmlksvm

bull pmmllm bull pmmlmultinom bull pmmlnaiveBayes bull pmmlnnet bull pmmlrandomForest bull pmmlrfsrc bull pmmlrpart bull pmmlrules bull pmmlsvm bull pmmlCanExport bull pmmltoc

Пример

Good by R see you later alligator

WATSON ndash одно из наиболее впечатляющих применений предиктивной аналитики

Разрабатывался компанией IBM с 2006 по 2010 годПрославился победой в телешоу Jeopardy (в России ndash laquoСвоя играraquo) в 2011 годуПредшественник Deep Blue обыграл чемпиона мира по шахматам Гарри Каспарова в 1997 г

>

IBM Deep QA Project

bull Целью проекта было создать компьютерную систему (ИИ) для ответа на вопросы (QA) задаваемые в свободной форме в телешоу и показать результаты соизмеримые с человеческими

bull Задача более сложная чем шахматная программа Deep Blue выигравшая у Каспарова в 1997 г

bull Вопросы по категориямCategory General ScienceClue When hit by electrons a phosphor gives off electromagnetic energy in this formAnswer Light (or Photons)

Category Lincoln BlogsClue Secretary Chase just submitted this to me for the third time guess what pal This time Irsquom accepting itAnswer his resignation

Category Head NorthClue Theyrsquore the two states you could be reentering if yoursquore crossing Floridarsquos northern borderAnswer Georgia and Alabama

Вопросы могут касаться сразу нескольких фактов чтобы ответ был вернымCategory ldquoRaprdquo SheetClue This archaic term for a mischievous or annoying child can also mean a rogue or scampSubclue 1 This archaic term for a mischievous or annoying childSubclue 2 This term can also mean a rogue or scampAnswer Rapscallion

Category Diplomatic RelationsClue Of the four countries in the world that the United States does not have diplomatic relations with the one thatrsquos farthest northInner subclue The four countries in the world that the United States does not have diplomatic relations with (Bhutan Cuba Iran North Korea)Outer subclue Of Bhutan Cuba Iran and North Korea the one thatrsquos farthest northAnswer North Korea

Вопросы - пазлы

Category Before and After Goes to the MoviesClue Film of a typical day in the life of the Beatles which includes running from bloodthirsty zombie fans in a Romero classicSubclue 2 Film of a typical day in the life of the Beatles Answer 1 (A Hard Dayrsquos Night)Subclue 2 Running from bloodthirsty zombie fans in a Romero classicAnswer 2 (Night of the Living Dead)Answer A Hard Dayrsquos Night of the Living Dead

Category Rhyme TimeClue Itrsquos where Pele stores his ballSubclue 1 Pele ball (soccer)Subclue 2 where store (cabinet drawer locker and so on)Answer soccer locker

Недопустимые типы вопросов

oCategory Picture This(Contestants are shown a picture of a B-52 bomber)Clue Alphanumeric name of the fearsome machine seen hereAnswer B-52

oCategory Decode the Postal CodesVerbal instruction from host Wersquore going to give you a word comprising two postal abbreviations you have to identify the statesClue VainAnswer Virginia and Indiana

Лексические типы ответа ndash LAT (Lexical Answer Type)

Метрики качества ответов - результативность

Показатели двух теоретических QA систем

Показатели результативности чемпионов шоу (2000)

Облако победителей

Линия сравнения результативности (baseline performance)

Сравнение системы тестового поиска и поиска в базе знаний

Результативность Watson (по версиям)

Основы подхода Deep QA

bull Massive parallelism использование высокого параллелизма при рассмотрении множественных интерпретаций и гипотез

bull Many experts привлечение интеграции приложения и контекстуального оценивания в широком диапазоне слабосвязанных вероятностных вопросов и контентной аналитики

bull Pervasive confidence estimation повсеместная оценка доверия означает что ни один из компонентов не включается в ответ сразу все компоненты имеют признаки и связанные с ними уровни доверия производится скоринг различных вопросов и контентная интерпретация Основа confidence-processing состоит в обучении как стэкировать и комбинировать баллы

bull Integrate shallow and deep knowledge интеграция поверхностных и глубинных знаний состоит в балансе использования строгой семантики и мелких семантик использующих множества слабо сформированных онтологий

bull Content Acquisition - Сбор контентаСочетает ручные и автоматические этапы Первым шагом является анализ примеров вопросов проблемного пространства чтобы произвести описание видов вопросов на которые нужно ответить и характеризовать область применения Анализ примеров вопросов в первую очередь ручная задача в то время как анализ области может быть выполнен путем автоматических или статистических методов таких как анализ LAT показанный ранее Учитывая вопросы для широкого домена Jeopardy Challenge источники для Watson включают широкий ассортимент энциклопедий словарей тезаурусов Newswire статьи литературные произведения и тд Начиная с разумного размера базового корпуса DeepQA затем применяет автоматический процесс расширения корпуса Процесс включает в себя четыре этапа высокого уровня (1) выявления основных документов и получить соответствующие документы из Интернет (2) извлечь автономные текстовые ядра из связанных веб-документов (3) Оценка на основе ядер являются ли они информативны по отношению к исходному основному документу и (4) объединить наиболее информативные ядра в расширенном корпусе Работающая система использует этот расширенный корпус и не имеет доступа к Интернет во время игры

bull Question Analysis ndash Анализ вопроса

Первый шаг во время выполнения процесса вопрос-ответной системы При анализе вопроса система пытается понять что вопрос задан и выполняет начальный анализ определяющий как вопрос будет обработан на остальных этапах работы системы Подход DeepQA использует смешанный набор экспертов на данном этапе и в системе Watson производится мелкий парсинг глубокий парсинг строятся логические формы семантические этикетки ролей взаимные ссылки отношения именованные сущности и так далее а также конкретные виды анализа для ответа вопрос

bull Question classification - Классификация вопроса

Это задача выявления типа вопроса или частей вопроса которые требуют специальной обработки Это может включать в себя что-нибудь из отдельных слов с двойным смыслом и потенциально до выявления целых статей которые имеют определенную синтаксическую семантическую или риторические функциональные возможности которые могут инициировать нисходящий анализ Классификация может определить вопрос как вопрос- головоломку вопрос-математику -определение и так далее Это будет определять каламбуры ограничения компоненты определений или целые подвопросы в пределах вопросов

bull Focus and LAT Detection ndash Определение фокуса и лексического типа ответа

Лексический тип ответа - это слово или словосочетание в вопросе который определяет тип ответа без попытки понять семантику Определение LAT является важным видом выигрыша и общим источником критических ошибок Преимущество подхода DeepQA является использование многих самостоятельно разработанных алгоритмов laquoответ-типированияraquo Например фокус вопроса викторины laquoПри попадании электронов люминофор излучает электромагнитную энергию в этой формеraquo - является laquoэта формаraquo Фокус часто (но не всегда) содержит полезную информацию об ответе часто субъект или объект отношение в вопросе и может превратить вопрос в фактическое утверждение при замене возможным кандидатом Это представляет полезный способ собирать доказательства о каждом кандидате

bull Relation Detection ndash детектирование отношений

Большинство вопросов содержит отношения являются ли они синтаксическими предикатами субъект-глагол-объект или семантические отношения между субъектами Например в вопросе laquoЕсть два штата в которые вы могли бы войти повторно если вы пересекаете северную границу штата Флоридаraquo мы можем обнаружить отношение границы (Флорида Х к северу) Watson использует обнаружение отношения на протяжении всего процесса QA от фокуса и LAT определения до прохождению и скорингу ответов Watson также может использовать обнаруженные отношения для выделения хранилища триплетов и напрямую генерировать кандидатов в ответы В 20000 игр Jeopardy вопросы например обнаружили распределение Freebase отношений чрезвычайно плоского вида (см рисунок) Это приближение распределеня 50 наиболее частых отношений в 20 000 случайно выбранных вопросах викторины

bull Decomposition ndash декомпозиция

Важным требованием успеха анализа Jeopardy является способность отвечать на вопросы которые разложены на составляющие DeepQA использует основанный на правилах глубокий парсинг и статистические методы классификации чтобы наилучшим образом разложить вопросы на элементы и определить как лучше разбить их на подвопросы Операционная гипотеза что правильная интерпретация вопроса позволит лучше произвести скоринг ответов после того как все доказательства собраны Даже если вопрос не должен быть разложен для определения ответа этот метод может помочь улучшить общее доверие ответу системы DeepQA решает задачи параллельно для каждого разложения применяя алгоритмы от начала до конца каждого подвопроса и синтезирует окончательные ответы DeepQA также поддерживает вложенные декомпозиции вопросов через рекурсивное применение QA системы от начала до конца в внутреннем подвопросе а затем во внешнем Настраиваемые компоненты позволяют легко подключать специализированные алгоритмы синтеза в общую систему

bull Hypothesis Generation ndash генерация гипотез

Генерация гипотез принимает результаты анализа вопросов и производит кандидатов на ответы Каждый кандидат ответ включается обратно в вопрос и это считается как гипотеза Система должна доказать правильность этой гипотезы с некоторой степенью уверенности Как и во всех аспектах DeepQA используется смесь разных подходов для первичного поиска и генерации кандидата в системе Watson

bull Primary Search ndash первичный поиск

В этом поиске целью является найти столько потенциально кандидатов сколько это можно сделать на основе результатов анализа вопроса В течение проекта велись эмпирические исследования направленные на баланс скорости объема и точности Эти исследования позволили регулярно настраивать систему так чтобы найти такое количество кандидатов которые производят наилучший баланс точности и вычислительных ресурсов Оперативная цель основного поиска в конечном счете стабилизировалась на около 85 процентов для топ-250 кандидатов то есть система генерирует правильный ответ как кандидата ответа на 85 процентов вопросов где-то в верхних 250 ранжированных кандидатов Разнообразие методов поиска используются в том числе с использованием нескольких текст поисковых системах с различными базовыми подходами (например Indri и Lucene) поиск документов а также поиска маршрута база знаний поиска с помощью SPARQL хранилища триплетов Для небольшого количества латов которые были определены как закрытые латы кандидат на ответ может быть получен из фиксированного списка в каком-то хранилище известных экземпляров LAT таких как США Президент или Страна

Поиск доказательств

bull Поиск по фразе ndash число соответствий разного типав ответе и вопросеbull Популярность ndash как часто встречается этот вариант ответаbull Соответствие по типу ndash ответ и требование вопросаbull Соответствие по времениbull Надежность источника

bull Candidate Answer Generation ndash генерирование кандидатов на ответ

Результаты поиска применяются для генерирования возможных кандидатов в ответы с помощью различных подходящих техник Для поиска документов извлекаются заголовки и используются как кандидаты Число кандидатов при этом может быть не единственным и требовать использования анализа подстрок и ссылок Используя детектирование именованных сущностей в ряде случаев удается извлечь хороших кандидатов В зависимости от типа источника для генерирования кандидата требуется разный набор алгоритмов например база знаний или обратный словарь порождают кандидатов непосредственно как кандидата Этот этап критически важен и если кандидаты не найдены то фиксируется невозможность ответа В нормальном режиме на этом этапе Watson гененерирует несколько сотен андидатов

bull Soft Filtering ndash мягкая фильтрацияДля ускорения процесса скоринга кандидатов Watson использует различные алгоритмы разной точности Более легковесные (менее вычислительно интенсивные) применяются на первом этапе скоринга На этом этапе устанавливается порог оценки и кандидаты имеющие более высокую оценку считаются прошедшими мягкую фильтрацию Они поступают на выработку гипотез и скоринг доказательств Интересно что кандидаты не прошедшие порог мягкой фильтрации не забываются а направляются прямо на финальный этап слияния Модель скоринга мягкой фильтрации и порога определяются на основе machine learning используя обучающие данные Watson типично пропускает через мягкую фильтрацию 100 кандидатов но эта функция параметризована и их число можно изменить

Проблемы NLP

bull В мае 1898 года Португалия отмечала 400-летний юбилей со дня прибытия этого великого путешественника в Индию

В мае Гари прибыл в Индию после празднования своего юбилея в Португалии

21 мая 1498 года Васка де Гама высадился в местечке Каппад

bull Он был помилован президентом 8 сентября 1974 годаФорд помиловал Никсона 8 сентября 1974 года Никсон Форд

bull Говоря ldquogive a trinklerdquo что предлагают вам сделать британцы по приезду в город

bull Hypothesis and Evidence Scoring ndash скоринг гипотез и доказательств

Прошедшие порог мягкой фильтрации кандидаты поступают на скрупулезный процесс который включает сбор дополнительных поддерживающих доказательств для каждого кандидата на ответ или гипотезу Процесс использует широкий набор различных методов скоринговой аналитики чтобы исследовать все поддерживающие доказательства

bull Evidence Retrieval ndash извлечение доказательств

Чтобы лучше исследовать каждого кандидата прошедшего через мягкую фильтрацию система собирает дополнительные поддерживающие доказательства Архитектура поддерживает интеграцию различных evidence-gathering техник Один из применяемых способов состоит в том что проводится дополнительный поиск в котором кандидат добавляется в качестве required term к первичному запросу извлеченному из вопроса Это будет приводить к получению выражений содержащих кандидата в контексте первичных терминов вопросаПоддерживающие доказательства могут быть извлечены и из других источников например из RDF баз знаний Извлеченные поддерживающие доказательства направляются модули глубокого скоринга которые анализируют кандидата в контексте поддерживающего доказательства

bull Scoring ndash скоринг (количественное оценивание)

Алгоритмы скоринга определяют степень несомненности которую обеспечивают доказательства в поддержку кандидата The DeepQA framework поддерживает множество компонент для выработки оценки в различных измерениях каждого доказательства которая вырабатывает оценку связанную с тем насколько хорошо доказательство поддерживает кандидата на ответ в качестве ответа на заданный вопросDeepQA использует общий формат для оценок для принятых гипотез и подтверждающих оценок отражающих семантические и ограничивающие факторы Это позволяет разработчикам DeepQA быстро разворачивать перемешивать и настраивать сложные совокупности модуле для обработкиНапрмер Watson использует больше чем 50 скоринговых компонент Они производят оценки разноготипа от оценок вероятностей до подсчета категориальных свойств основанных на доказательствах от различных источников включая неструктурированные тексты полуструктурированные тексты и RDF хранилища Эти оценки используют такие данные как degree of match between a passagersquos predicate-argument structure and the question passage source reliability geospatial location temporal relationships taxonomic classification the lexical and semantic relations the candidate is known to participate in the candidatersquos correlation with question terms its popularity (or obscurity) its aliases and so on

Вопрос Чили имеет самую длинную общую границу со страной Сгенерировано несколько кандидатов среди них Аргентина и Боливия Первичный поиск даст приоритет Боливии из=а популярности обсуждений их отношений Однако собранные Watson доказательства из других источников показывают более высокую оценку для Аргентины

Скоринг (взвешивание) доказательств ndash предиктивная аналитика

- При делении клеток митозом называется деление ядра а цитокинезом ndash деление этой жидкости в которой находится ядро

Генерирование кандидатов Сбор доказательств Уверенность в доказательстве

ОрганеллыВакуольЦитоплазмаПлазмамитохондрии

Органеллы ndash не жидкостьВакуоль ndash не жидкостьЦитоплазма ndash возможно жидкостьПлазма ndash не жидкостьМитохондрии ndash не жидкость

Цитоплазма ndash 92Органеллы ndash 19Вакуоль ndash 10Плазма ndash 2Митохондрии ndash 2

Answer Merging ndash объединение ответов

Многие кандидаты в ответы на поставленный вопрос могут быть эквивалентны несмотря на различные внешне формыТехники ранжирования тем не менее рассматривают таких кандидатов как различные Без объединения алгоритмы ранжирования будут работать отдельно с эквивалентными сущностями и пытаться противопоставить одну форму другой Это приведет к проблемам принятия решений Watson содержит алгоритмы идентификации эквивалентных сущностей используя множественные сравнения нормализацию и методы разрешения совместных ссылок

Ranking and Confidence Estimation ndash ранжирование и оценивание доверияПосле объединения система должна произвести ранжирование гипотез и оценивает доверие основанное на объединенных оценках В системе подобран ML подход основанный на обучении на обучающем наборе вопросов с известными ответами и обучение модели основываясь на скоринге Применяется как весьма плоская модель и существующие алгоритмы ранжирования Для более тонких оценок применяется двухфазный процесс использующий группы оценок для оценивания профиля и для оценки доверия Используя эту промежуточную модель система производит ансамбль промежуточных оценок Здесь используется иерархическая техника метаучителя и коллектива экспертов Этот подход обеспечивает итеративное расширение обучения используя изощренные и глубокие иерархические модели обеспечивающие гибкость и робастность при выработке оценок и модифицирует системуМетаучитель в Watson использует набор многие обучаемые модели чтобы управлять различными классами вопросов которые могут быть критическими при идентификации правильных ответовНаконец важно что использование NLP-based скоринга дает весьма разреженные оценки и требует точного оценивания с применением confidence-weighted learning techniques

Развертывание Watson

bull DeepQA разработан используя Apache UIMA - framework implementation of the Unstructured Information Management Architecture (Ferrucci and Lally 2004) UIMA был разработан для поддержки взаимодействия и масштабирования приложений обработки текста и мультимодального анализа Все компоненты DeepQA имплементированы как UIMA annotators Это программные компоненты для анализа текста и получения аннотаций или заключений о тексте Watson развивался в процессе разработки от нескольких компонент до нескольких сотен UIMA обеспечивает быструю интеграцию компонент тестирование и исследование

bull Начальная имплементация Watson запускалась на одном процессоре и требовала 2 часа на ответ на один вопрос DeepQA развился в параллельную систему используя UIMA-AS часть Apache UIMA масштабируя приложения UIMA используя асинхронный механизм месседжинга UIMA-AS позволила масштабировать Watson более чем на 2500 вычислительных ядер UIMA-AS управляет коммуникациями месседжингом управлением запросами используя open JMS standard UIMA-AS позволил снизить латентность Watson до 3ndash5 секунд

bull Для препроцессинга корпуса текстов создания быстрых run-time indices использован Hadoop

UIMA annotators были развернуты как mapper ы в Hadoop map-reduce framework Hadoop распределяет контент по кластеру для обеспечения высокого использования CPU и обеспечивает подходящий набор инструментов для deploying managing and monitoring the corpus analysis process

bull Аппаратная платформа ndash это 90 серверов 2800 ядер 15 ТБ RAM 80 Тфлопс $3 000 000 10 R

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 17: !Predictive analytics part_3

Частотная матрица для двух более близких текстов

Карта слов для двух выбранных документов

Разложение матрицы laquoслова-документыraquo

Модель векторного пространства

bull Наиболее распространенный вариант LSA основан на использовании разложения вещественнозначной матрицы по сингулярным значениям или SVD-разложения (SVD ndash Singular Value Decomposition) С помощью него любую матрицу можно разложить в множество ортогональных матриц линейная комбинация которых является достаточно точным приближением к исходной матрице Обычно используют мультипликативное разложение

bull где матрицы U и V ndash ортогональные а S ndash диагональная матрица значения на диагонали которой называются сингулярными значениями матрицы A

bull Символ Т в обозначении матрицы означает транспонирование матрицы

bull Основная идея латентно-семантического анализа состоит в следующем

bull после перемножения матриц полученная матрица Ă содержащая только k первых линейно независимых компонент исходной матрицы A отражает структуру зависимостей (в данном случае ассоциативных) латентно присутствующих в исходной матрице Структура зависимостей определяется весовыми функциями термов для каждого документа

Особенность такого разложения в том что если в матрице S оставить только k наибольших сингулярных значений то линейная комбинация получившихся матриц будет наилучшим приближением исходной матрицы A к матрице Ă ранга k

Пример

bull c1 Human machine interface for ABC computer applicationsbull c2 A survey of user opinion of computer system response timebull c3 The EPS user interface management systembull c4 System and human system engineering testing of EPSbull c5 Relation of user perceived response time to error measurementbull m1 The generation of random binary ordered treesbull m2 The intersection graph of paths in treesbull m3 Graph minors IV Widths of trees and well-quasi-orderingbull m4 Graph minors A survey

Желтым отмечены слова встречающиеся хотя бы в двух заголовках

После SVD

Семантическое пространство

Матрица расстояний между словами

Результат снижения размерности кластеризация [human interface computer user EPS response time][survey trees graph minors]

Расстояния между заголовками до и после SVD

bull Объем корпуса для построения модели должен быть большим ndash желательно около трех-пяти миллионов словоупотреблений Но метод работает и на коллекциях меньшего объема правда несколько хужеПроизвольное разбиение текста на документы обычно производят от тысячи до нескольких десятков тысяч частей примерно одинакового объема Таким образом матрица термы-на-документы получается прямоугольной и может быть сильно разраженной Например при объеме 5 млн словоформ получается матрица 30-50 тысяч документов на 200-300 тысяч а иногда и более термов В действительности низкочастотные термы можно опустить тк это заметно снизит размерность матрицы (скажем если не использовать 5 от общего объема низкочастотных термов то размерность сократиться в два раза) что приведет к снижению вычислительных ресурсов и времениВыбор сокращения сингулярных значений диагональной матрицы (размерности k) при обратном перемножении матриц достаточно произвольно При вышеуказанной размерности матрицы оставляют несколько сотен (100-300) главных компонент При этом как показывает практика зависимость количества компонент и точность меняются нелинейно например если начинать увеличивать их число то точность будет падать но при некотором значении скажем 10000 ndash опять вырастет до оптимального случая

Применение

bull сравнение двух термов между собойbull сравнение двух документов между собойbull сравнение терма и документа

Так же иногда этот метод используют для нахождения laquoближайшего соседаraquo mdash наиболее близких по весу термов ассоциативно связанных с исходным Это свойство используют для поиска близких по смыслу термов Следует уточнить что близость по смыслу ndash это контекстнозависимая величина поэтому не всякий близкий терм будет соответствовать ассоциации (это может быть и синоним и антоним и просто часто встречающееся вместе с искомым термом слово или словосочетание)

bull Достоинством метода можно считать его замечательную способность выявлять зависимости между словами когда обычные статистические методы бессильны LSA также может быть применен как с обучением (с предварительной тематической классификацией документов) так и без обучения (произвольное разбиение произвольного текста) что зависит от решаемой задачи

bull Об основных недостатках значительное снижение скорости вычисления при увеличении объема входных данных (в частности при SVD-преобразовании)

bull Как показано в литературе скорость вычисления соответствует порядку где сумма количества документов и термов kndash размерность пространства факторов

На рисунке показано возникновение и изменение главных факторов при уменьшении числа сингулярных элементов диагональной матрицы от 100 до ~12 Трехмерные рисунки представляют собой симметричную матрицу полученную в результате вычисления скалярного произведения векторов каждого эталонного документа с каждым тестируемым Эталонный набор векторов ndash это заранее размеченный на 30 документов текст тестируемый ndash с уменьшением числа сингулярных значений диагональной матрицы полученной при SVD-анализе На осях X и Y откладывается количество документов (эталонных и тестируемых) на оси Z ndash объем лексиконаНа рисунках хорошо видно что при уменьшении числа сингулярных диагональных элементов на 20-30 факторы еще не достаточно ярко выявлены но при этом возникают корреляции похожих документов (небольшие пики вне диагонали) которые сначала незначительно увеличиваются а затем с уменьшением числа сингулярных значений (до 70-80) ndash исчезают При автоматической кластеризации такие пики являются шумом поэтому их желательно минимизировать Если же целью является получение ассоциативных связей внутри документов то следует найти оптимальное соотношение сохранения основного лексикона и примешивания ассоциативного

Имплементация в R - Package lsquolsarsquoalnumx - Regular expression for removal of non-alphanumeric characters (saving special characters)

astextmatrix - Display a latent semantic space generated by Latent Semantic Analysis (LSA)

associate - Find close terms in a textmatrix

corpora - Corpora (Essay Scoring) dimcalc Dimensionality Calculation Routines (LSA)

dimcalc - Dimensionality Calculation Routines (LSA)

lsa - Create a vector space with Latent Semantic Analysis (LSA)

printtextmatrix - Print a textmatrix (Matrices)

sampletextmatrix - Create a random sample of files

textmatrix - Создает Textmatrix (Matrices) из файлов

Пример 1

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) read files into a document-term matrixmyMatrix = textmatrix(td minWordLength=1) create the latent semantic spacemyLSAspace = lsa(myMatrix dims=dimcalc_raw()) display it as a textmatrix againround(astextmatrix(myLSAspace)2) should give the original create the latent semantic spacemyLSAspace = lsa(myMatrix dims=dimcalc_share())

Пример 2

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) create matricesmyMatrix = textmatrix(td minWordLength=1)myLSAspace = lsa(myMatrix dims=dimcalc_share())myNewMatrix = astextmatrix(myLSAspace) calc associations for mouseassociate(myNewMatrix mouse) clean upunlink(td recursive=TRUE)

Пример 3 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(ham mouse sushi) file=paste(td D2 sep=) )write( c(dog pet pet) file=paste(td D3 sep=) ) LSAdata(stopwords_en)myMatrix = textmatrix(td stopwords=stopwords_en)myMatrix = lw_logtf(myMatrix) gw_idf(myMatrix)myLSAspace = lsa(myMatrix dims=dimcalc_share())astextmatrix(myLSAspace) clean upunlink(td recursive=TRUE)

Пример 4 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(hamster mouse sushi) file=paste(td D2 sep=) )write( c(dog monster monster) file=paste(td D3 sep=) ) read them create a document-term matrixtextmatrix(td) read them drop german stopwordsdata(stopwords_de)textmatrix(td stopwords=stopwords_de) read them based on a controlled vocabularyvoc = c(dog mouse)textmatrix(td vocabulary=voc minWordLength=1) clean up

Вместо заключения Очевидным недостатком LSA является ненормальность (негаусовость) вероятностного распределения слов в любом естественном языке Но эту проблему можно решить сглаживанием выборки (например применив фонетические слова распределение становится более laquoнормальнымraquo) Либо используют вероятностный LSA тназ PLSA основанный на мультиноминальном распределении Другим менее очевидным недостаткам LSA (и ему подобных методов) применительно к обработке неструктурированной информации можно отнести laquoтуманностьraquo самого метода (в частности выбора кол-ва сингулярных значений диагональной матрицы) и интерпретации результата не говоря уже о проблеме сбалансированности обучающего текста

Как правило для качественного построения модели оставляют менее 1-2 процента от общего числа диагональных значений (после SVD преобразования но об это в следующем посте) И как показывает практика увеличение числа факторов приводит к ухудшению результата Но дойдя примерно до 10 процентов от общего числа диагональных значений опять может быть всплеск аналогичный результату полученному при 1

Сбалансированность корпуса ndash вечная проблема которая не имеет хорошего решения на сегодняшний день Поэтому про нее приято помалкивать

Интерпретируемость результатов LSA (как и DLA) также затруднительна человек еще может понять что за тематику будет содержать топик полученный в результате анализа а вот машине не понять (не аннотировать) тематику без привлечения большого числа хороших и разных тезаурусов

Таким образом несмотря на трудоемкость и непрозрачность LSA он может успешно применяться для разного рада задач где важно поймать семантику сообщения обобщить или расширить laquoсмыслыraquo поискового запроса

bull Стандарт основанный на XML для обмена моделями статистической обработки Data Mining

bull Поддерживается более 20 организациями и поставщиками ПО

bull Реализован в частности и в R

Поддерживаемые предиктивные алгоритмы в R

Состав pmml package

bull addLT

bull addMSAttributes

bull audit

bull fileToXMLNode

bull pmml

bull pmmlada

bull pmmlcoxph

bull pmmlcvglmnet

bull pmmlglm

bull pmmlhclust

bull pmmlkmeans

bull pmmlksvm

bull pmmllm bull pmmlmultinom bull pmmlnaiveBayes bull pmmlnnet bull pmmlrandomForest bull pmmlrfsrc bull pmmlrpart bull pmmlrules bull pmmlsvm bull pmmlCanExport bull pmmltoc

Пример

Good by R see you later alligator

WATSON ndash одно из наиболее впечатляющих применений предиктивной аналитики

Разрабатывался компанией IBM с 2006 по 2010 годПрославился победой в телешоу Jeopardy (в России ndash laquoСвоя играraquo) в 2011 годуПредшественник Deep Blue обыграл чемпиона мира по шахматам Гарри Каспарова в 1997 г

>

IBM Deep QA Project

bull Целью проекта было создать компьютерную систему (ИИ) для ответа на вопросы (QA) задаваемые в свободной форме в телешоу и показать результаты соизмеримые с человеческими

bull Задача более сложная чем шахматная программа Deep Blue выигравшая у Каспарова в 1997 г

bull Вопросы по категориямCategory General ScienceClue When hit by electrons a phosphor gives off electromagnetic energy in this formAnswer Light (or Photons)

Category Lincoln BlogsClue Secretary Chase just submitted this to me for the third time guess what pal This time Irsquom accepting itAnswer his resignation

Category Head NorthClue Theyrsquore the two states you could be reentering if yoursquore crossing Floridarsquos northern borderAnswer Georgia and Alabama

Вопросы могут касаться сразу нескольких фактов чтобы ответ был вернымCategory ldquoRaprdquo SheetClue This archaic term for a mischievous or annoying child can also mean a rogue or scampSubclue 1 This archaic term for a mischievous or annoying childSubclue 2 This term can also mean a rogue or scampAnswer Rapscallion

Category Diplomatic RelationsClue Of the four countries in the world that the United States does not have diplomatic relations with the one thatrsquos farthest northInner subclue The four countries in the world that the United States does not have diplomatic relations with (Bhutan Cuba Iran North Korea)Outer subclue Of Bhutan Cuba Iran and North Korea the one thatrsquos farthest northAnswer North Korea

Вопросы - пазлы

Category Before and After Goes to the MoviesClue Film of a typical day in the life of the Beatles which includes running from bloodthirsty zombie fans in a Romero classicSubclue 2 Film of a typical day in the life of the Beatles Answer 1 (A Hard Dayrsquos Night)Subclue 2 Running from bloodthirsty zombie fans in a Romero classicAnswer 2 (Night of the Living Dead)Answer A Hard Dayrsquos Night of the Living Dead

Category Rhyme TimeClue Itrsquos where Pele stores his ballSubclue 1 Pele ball (soccer)Subclue 2 where store (cabinet drawer locker and so on)Answer soccer locker

Недопустимые типы вопросов

oCategory Picture This(Contestants are shown a picture of a B-52 bomber)Clue Alphanumeric name of the fearsome machine seen hereAnswer B-52

oCategory Decode the Postal CodesVerbal instruction from host Wersquore going to give you a word comprising two postal abbreviations you have to identify the statesClue VainAnswer Virginia and Indiana

Лексические типы ответа ndash LAT (Lexical Answer Type)

Метрики качества ответов - результативность

Показатели двух теоретических QA систем

Показатели результативности чемпионов шоу (2000)

Облако победителей

Линия сравнения результативности (baseline performance)

Сравнение системы тестового поиска и поиска в базе знаний

Результативность Watson (по версиям)

Основы подхода Deep QA

bull Massive parallelism использование высокого параллелизма при рассмотрении множественных интерпретаций и гипотез

bull Many experts привлечение интеграции приложения и контекстуального оценивания в широком диапазоне слабосвязанных вероятностных вопросов и контентной аналитики

bull Pervasive confidence estimation повсеместная оценка доверия означает что ни один из компонентов не включается в ответ сразу все компоненты имеют признаки и связанные с ними уровни доверия производится скоринг различных вопросов и контентная интерпретация Основа confidence-processing состоит в обучении как стэкировать и комбинировать баллы

bull Integrate shallow and deep knowledge интеграция поверхностных и глубинных знаний состоит в балансе использования строгой семантики и мелких семантик использующих множества слабо сформированных онтологий

bull Content Acquisition - Сбор контентаСочетает ручные и автоматические этапы Первым шагом является анализ примеров вопросов проблемного пространства чтобы произвести описание видов вопросов на которые нужно ответить и характеризовать область применения Анализ примеров вопросов в первую очередь ручная задача в то время как анализ области может быть выполнен путем автоматических или статистических методов таких как анализ LAT показанный ранее Учитывая вопросы для широкого домена Jeopardy Challenge источники для Watson включают широкий ассортимент энциклопедий словарей тезаурусов Newswire статьи литературные произведения и тд Начиная с разумного размера базового корпуса DeepQA затем применяет автоматический процесс расширения корпуса Процесс включает в себя четыре этапа высокого уровня (1) выявления основных документов и получить соответствующие документы из Интернет (2) извлечь автономные текстовые ядра из связанных веб-документов (3) Оценка на основе ядер являются ли они информативны по отношению к исходному основному документу и (4) объединить наиболее информативные ядра в расширенном корпусе Работающая система использует этот расширенный корпус и не имеет доступа к Интернет во время игры

bull Question Analysis ndash Анализ вопроса

Первый шаг во время выполнения процесса вопрос-ответной системы При анализе вопроса система пытается понять что вопрос задан и выполняет начальный анализ определяющий как вопрос будет обработан на остальных этапах работы системы Подход DeepQA использует смешанный набор экспертов на данном этапе и в системе Watson производится мелкий парсинг глубокий парсинг строятся логические формы семантические этикетки ролей взаимные ссылки отношения именованные сущности и так далее а также конкретные виды анализа для ответа вопрос

bull Question classification - Классификация вопроса

Это задача выявления типа вопроса или частей вопроса которые требуют специальной обработки Это может включать в себя что-нибудь из отдельных слов с двойным смыслом и потенциально до выявления целых статей которые имеют определенную синтаксическую семантическую или риторические функциональные возможности которые могут инициировать нисходящий анализ Классификация может определить вопрос как вопрос- головоломку вопрос-математику -определение и так далее Это будет определять каламбуры ограничения компоненты определений или целые подвопросы в пределах вопросов

bull Focus and LAT Detection ndash Определение фокуса и лексического типа ответа

Лексический тип ответа - это слово или словосочетание в вопросе который определяет тип ответа без попытки понять семантику Определение LAT является важным видом выигрыша и общим источником критических ошибок Преимущество подхода DeepQA является использование многих самостоятельно разработанных алгоритмов laquoответ-типированияraquo Например фокус вопроса викторины laquoПри попадании электронов люминофор излучает электромагнитную энергию в этой формеraquo - является laquoэта формаraquo Фокус часто (но не всегда) содержит полезную информацию об ответе часто субъект или объект отношение в вопросе и может превратить вопрос в фактическое утверждение при замене возможным кандидатом Это представляет полезный способ собирать доказательства о каждом кандидате

bull Relation Detection ndash детектирование отношений

Большинство вопросов содержит отношения являются ли они синтаксическими предикатами субъект-глагол-объект или семантические отношения между субъектами Например в вопросе laquoЕсть два штата в которые вы могли бы войти повторно если вы пересекаете северную границу штата Флоридаraquo мы можем обнаружить отношение границы (Флорида Х к северу) Watson использует обнаружение отношения на протяжении всего процесса QA от фокуса и LAT определения до прохождению и скорингу ответов Watson также может использовать обнаруженные отношения для выделения хранилища триплетов и напрямую генерировать кандидатов в ответы В 20000 игр Jeopardy вопросы например обнаружили распределение Freebase отношений чрезвычайно плоского вида (см рисунок) Это приближение распределеня 50 наиболее частых отношений в 20 000 случайно выбранных вопросах викторины

bull Decomposition ndash декомпозиция

Важным требованием успеха анализа Jeopardy является способность отвечать на вопросы которые разложены на составляющие DeepQA использует основанный на правилах глубокий парсинг и статистические методы классификации чтобы наилучшим образом разложить вопросы на элементы и определить как лучше разбить их на подвопросы Операционная гипотеза что правильная интерпретация вопроса позволит лучше произвести скоринг ответов после того как все доказательства собраны Даже если вопрос не должен быть разложен для определения ответа этот метод может помочь улучшить общее доверие ответу системы DeepQA решает задачи параллельно для каждого разложения применяя алгоритмы от начала до конца каждого подвопроса и синтезирует окончательные ответы DeepQA также поддерживает вложенные декомпозиции вопросов через рекурсивное применение QA системы от начала до конца в внутреннем подвопросе а затем во внешнем Настраиваемые компоненты позволяют легко подключать специализированные алгоритмы синтеза в общую систему

bull Hypothesis Generation ndash генерация гипотез

Генерация гипотез принимает результаты анализа вопросов и производит кандидатов на ответы Каждый кандидат ответ включается обратно в вопрос и это считается как гипотеза Система должна доказать правильность этой гипотезы с некоторой степенью уверенности Как и во всех аспектах DeepQA используется смесь разных подходов для первичного поиска и генерации кандидата в системе Watson

bull Primary Search ndash первичный поиск

В этом поиске целью является найти столько потенциально кандидатов сколько это можно сделать на основе результатов анализа вопроса В течение проекта велись эмпирические исследования направленные на баланс скорости объема и точности Эти исследования позволили регулярно настраивать систему так чтобы найти такое количество кандидатов которые производят наилучший баланс точности и вычислительных ресурсов Оперативная цель основного поиска в конечном счете стабилизировалась на около 85 процентов для топ-250 кандидатов то есть система генерирует правильный ответ как кандидата ответа на 85 процентов вопросов где-то в верхних 250 ранжированных кандидатов Разнообразие методов поиска используются в том числе с использованием нескольких текст поисковых системах с различными базовыми подходами (например Indri и Lucene) поиск документов а также поиска маршрута база знаний поиска с помощью SPARQL хранилища триплетов Для небольшого количества латов которые были определены как закрытые латы кандидат на ответ может быть получен из фиксированного списка в каком-то хранилище известных экземпляров LAT таких как США Президент или Страна

Поиск доказательств

bull Поиск по фразе ndash число соответствий разного типав ответе и вопросеbull Популярность ndash как часто встречается этот вариант ответаbull Соответствие по типу ndash ответ и требование вопросаbull Соответствие по времениbull Надежность источника

bull Candidate Answer Generation ndash генерирование кандидатов на ответ

Результаты поиска применяются для генерирования возможных кандидатов в ответы с помощью различных подходящих техник Для поиска документов извлекаются заголовки и используются как кандидаты Число кандидатов при этом может быть не единственным и требовать использования анализа подстрок и ссылок Используя детектирование именованных сущностей в ряде случаев удается извлечь хороших кандидатов В зависимости от типа источника для генерирования кандидата требуется разный набор алгоритмов например база знаний или обратный словарь порождают кандидатов непосредственно как кандидата Этот этап критически важен и если кандидаты не найдены то фиксируется невозможность ответа В нормальном режиме на этом этапе Watson гененерирует несколько сотен андидатов

bull Soft Filtering ndash мягкая фильтрацияДля ускорения процесса скоринга кандидатов Watson использует различные алгоритмы разной точности Более легковесные (менее вычислительно интенсивные) применяются на первом этапе скоринга На этом этапе устанавливается порог оценки и кандидаты имеющие более высокую оценку считаются прошедшими мягкую фильтрацию Они поступают на выработку гипотез и скоринг доказательств Интересно что кандидаты не прошедшие порог мягкой фильтрации не забываются а направляются прямо на финальный этап слияния Модель скоринга мягкой фильтрации и порога определяются на основе machine learning используя обучающие данные Watson типично пропускает через мягкую фильтрацию 100 кандидатов но эта функция параметризована и их число можно изменить

Проблемы NLP

bull В мае 1898 года Португалия отмечала 400-летний юбилей со дня прибытия этого великого путешественника в Индию

В мае Гари прибыл в Индию после празднования своего юбилея в Португалии

21 мая 1498 года Васка де Гама высадился в местечке Каппад

bull Он был помилован президентом 8 сентября 1974 годаФорд помиловал Никсона 8 сентября 1974 года Никсон Форд

bull Говоря ldquogive a trinklerdquo что предлагают вам сделать британцы по приезду в город

bull Hypothesis and Evidence Scoring ndash скоринг гипотез и доказательств

Прошедшие порог мягкой фильтрации кандидаты поступают на скрупулезный процесс который включает сбор дополнительных поддерживающих доказательств для каждого кандидата на ответ или гипотезу Процесс использует широкий набор различных методов скоринговой аналитики чтобы исследовать все поддерживающие доказательства

bull Evidence Retrieval ndash извлечение доказательств

Чтобы лучше исследовать каждого кандидата прошедшего через мягкую фильтрацию система собирает дополнительные поддерживающие доказательства Архитектура поддерживает интеграцию различных evidence-gathering техник Один из применяемых способов состоит в том что проводится дополнительный поиск в котором кандидат добавляется в качестве required term к первичному запросу извлеченному из вопроса Это будет приводить к получению выражений содержащих кандидата в контексте первичных терминов вопросаПоддерживающие доказательства могут быть извлечены и из других источников например из RDF баз знаний Извлеченные поддерживающие доказательства направляются модули глубокого скоринга которые анализируют кандидата в контексте поддерживающего доказательства

bull Scoring ndash скоринг (количественное оценивание)

Алгоритмы скоринга определяют степень несомненности которую обеспечивают доказательства в поддержку кандидата The DeepQA framework поддерживает множество компонент для выработки оценки в различных измерениях каждого доказательства которая вырабатывает оценку связанную с тем насколько хорошо доказательство поддерживает кандидата на ответ в качестве ответа на заданный вопросDeepQA использует общий формат для оценок для принятых гипотез и подтверждающих оценок отражающих семантические и ограничивающие факторы Это позволяет разработчикам DeepQA быстро разворачивать перемешивать и настраивать сложные совокупности модуле для обработкиНапрмер Watson использует больше чем 50 скоринговых компонент Они производят оценки разноготипа от оценок вероятностей до подсчета категориальных свойств основанных на доказательствах от различных источников включая неструктурированные тексты полуструктурированные тексты и RDF хранилища Эти оценки используют такие данные как degree of match between a passagersquos predicate-argument structure and the question passage source reliability geospatial location temporal relationships taxonomic classification the lexical and semantic relations the candidate is known to participate in the candidatersquos correlation with question terms its popularity (or obscurity) its aliases and so on

Вопрос Чили имеет самую длинную общую границу со страной Сгенерировано несколько кандидатов среди них Аргентина и Боливия Первичный поиск даст приоритет Боливии из=а популярности обсуждений их отношений Однако собранные Watson доказательства из других источников показывают более высокую оценку для Аргентины

Скоринг (взвешивание) доказательств ndash предиктивная аналитика

- При делении клеток митозом называется деление ядра а цитокинезом ndash деление этой жидкости в которой находится ядро

Генерирование кандидатов Сбор доказательств Уверенность в доказательстве

ОрганеллыВакуольЦитоплазмаПлазмамитохондрии

Органеллы ndash не жидкостьВакуоль ndash не жидкостьЦитоплазма ndash возможно жидкостьПлазма ndash не жидкостьМитохондрии ndash не жидкость

Цитоплазма ndash 92Органеллы ndash 19Вакуоль ndash 10Плазма ndash 2Митохондрии ndash 2

Answer Merging ndash объединение ответов

Многие кандидаты в ответы на поставленный вопрос могут быть эквивалентны несмотря на различные внешне формыТехники ранжирования тем не менее рассматривают таких кандидатов как различные Без объединения алгоритмы ранжирования будут работать отдельно с эквивалентными сущностями и пытаться противопоставить одну форму другой Это приведет к проблемам принятия решений Watson содержит алгоритмы идентификации эквивалентных сущностей используя множественные сравнения нормализацию и методы разрешения совместных ссылок

Ranking and Confidence Estimation ndash ранжирование и оценивание доверияПосле объединения система должна произвести ранжирование гипотез и оценивает доверие основанное на объединенных оценках В системе подобран ML подход основанный на обучении на обучающем наборе вопросов с известными ответами и обучение модели основываясь на скоринге Применяется как весьма плоская модель и существующие алгоритмы ранжирования Для более тонких оценок применяется двухфазный процесс использующий группы оценок для оценивания профиля и для оценки доверия Используя эту промежуточную модель система производит ансамбль промежуточных оценок Здесь используется иерархическая техника метаучителя и коллектива экспертов Этот подход обеспечивает итеративное расширение обучения используя изощренные и глубокие иерархические модели обеспечивающие гибкость и робастность при выработке оценок и модифицирует системуМетаучитель в Watson использует набор многие обучаемые модели чтобы управлять различными классами вопросов которые могут быть критическими при идентификации правильных ответовНаконец важно что использование NLP-based скоринга дает весьма разреженные оценки и требует точного оценивания с применением confidence-weighted learning techniques

Развертывание Watson

bull DeepQA разработан используя Apache UIMA - framework implementation of the Unstructured Information Management Architecture (Ferrucci and Lally 2004) UIMA был разработан для поддержки взаимодействия и масштабирования приложений обработки текста и мультимодального анализа Все компоненты DeepQA имплементированы как UIMA annotators Это программные компоненты для анализа текста и получения аннотаций или заключений о тексте Watson развивался в процессе разработки от нескольких компонент до нескольких сотен UIMA обеспечивает быструю интеграцию компонент тестирование и исследование

bull Начальная имплементация Watson запускалась на одном процессоре и требовала 2 часа на ответ на один вопрос DeepQA развился в параллельную систему используя UIMA-AS часть Apache UIMA масштабируя приложения UIMA используя асинхронный механизм месседжинга UIMA-AS позволила масштабировать Watson более чем на 2500 вычислительных ядер UIMA-AS управляет коммуникациями месседжингом управлением запросами используя open JMS standard UIMA-AS позволил снизить латентность Watson до 3ndash5 секунд

bull Для препроцессинга корпуса текстов создания быстрых run-time indices использован Hadoop

UIMA annotators были развернуты как mapper ы в Hadoop map-reduce framework Hadoop распределяет контент по кластеру для обеспечения высокого использования CPU и обеспечивает подходящий набор инструментов для deploying managing and monitoring the corpus analysis process

bull Аппаратная платформа ndash это 90 серверов 2800 ядер 15 ТБ RAM 80 Тфлопс $3 000 000 10 R

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 18: !Predictive analytics part_3

Карта слов для двух выбранных документов

Разложение матрицы laquoслова-документыraquo

Модель векторного пространства

bull Наиболее распространенный вариант LSA основан на использовании разложения вещественнозначной матрицы по сингулярным значениям или SVD-разложения (SVD ndash Singular Value Decomposition) С помощью него любую матрицу можно разложить в множество ортогональных матриц линейная комбинация которых является достаточно точным приближением к исходной матрице Обычно используют мультипликативное разложение

bull где матрицы U и V ndash ортогональные а S ndash диагональная матрица значения на диагонали которой называются сингулярными значениями матрицы A

bull Символ Т в обозначении матрицы означает транспонирование матрицы

bull Основная идея латентно-семантического анализа состоит в следующем

bull после перемножения матриц полученная матрица Ă содержащая только k первых линейно независимых компонент исходной матрицы A отражает структуру зависимостей (в данном случае ассоциативных) латентно присутствующих в исходной матрице Структура зависимостей определяется весовыми функциями термов для каждого документа

Особенность такого разложения в том что если в матрице S оставить только k наибольших сингулярных значений то линейная комбинация получившихся матриц будет наилучшим приближением исходной матрицы A к матрице Ă ранга k

Пример

bull c1 Human machine interface for ABC computer applicationsbull c2 A survey of user opinion of computer system response timebull c3 The EPS user interface management systembull c4 System and human system engineering testing of EPSbull c5 Relation of user perceived response time to error measurementbull m1 The generation of random binary ordered treesbull m2 The intersection graph of paths in treesbull m3 Graph minors IV Widths of trees and well-quasi-orderingbull m4 Graph minors A survey

Желтым отмечены слова встречающиеся хотя бы в двух заголовках

После SVD

Семантическое пространство

Матрица расстояний между словами

Результат снижения размерности кластеризация [human interface computer user EPS response time][survey trees graph minors]

Расстояния между заголовками до и после SVD

bull Объем корпуса для построения модели должен быть большим ndash желательно около трех-пяти миллионов словоупотреблений Но метод работает и на коллекциях меньшего объема правда несколько хужеПроизвольное разбиение текста на документы обычно производят от тысячи до нескольких десятков тысяч частей примерно одинакового объема Таким образом матрица термы-на-документы получается прямоугольной и может быть сильно разраженной Например при объеме 5 млн словоформ получается матрица 30-50 тысяч документов на 200-300 тысяч а иногда и более термов В действительности низкочастотные термы можно опустить тк это заметно снизит размерность матрицы (скажем если не использовать 5 от общего объема низкочастотных термов то размерность сократиться в два раза) что приведет к снижению вычислительных ресурсов и времениВыбор сокращения сингулярных значений диагональной матрицы (размерности k) при обратном перемножении матриц достаточно произвольно При вышеуказанной размерности матрицы оставляют несколько сотен (100-300) главных компонент При этом как показывает практика зависимость количества компонент и точность меняются нелинейно например если начинать увеличивать их число то точность будет падать но при некотором значении скажем 10000 ndash опять вырастет до оптимального случая

Применение

bull сравнение двух термов между собойbull сравнение двух документов между собойbull сравнение терма и документа

Так же иногда этот метод используют для нахождения laquoближайшего соседаraquo mdash наиболее близких по весу термов ассоциативно связанных с исходным Это свойство используют для поиска близких по смыслу термов Следует уточнить что близость по смыслу ndash это контекстнозависимая величина поэтому не всякий близкий терм будет соответствовать ассоциации (это может быть и синоним и антоним и просто часто встречающееся вместе с искомым термом слово или словосочетание)

bull Достоинством метода можно считать его замечательную способность выявлять зависимости между словами когда обычные статистические методы бессильны LSA также может быть применен как с обучением (с предварительной тематической классификацией документов) так и без обучения (произвольное разбиение произвольного текста) что зависит от решаемой задачи

bull Об основных недостатках значительное снижение скорости вычисления при увеличении объема входных данных (в частности при SVD-преобразовании)

bull Как показано в литературе скорость вычисления соответствует порядку где сумма количества документов и термов kndash размерность пространства факторов

На рисунке показано возникновение и изменение главных факторов при уменьшении числа сингулярных элементов диагональной матрицы от 100 до ~12 Трехмерные рисунки представляют собой симметричную матрицу полученную в результате вычисления скалярного произведения векторов каждого эталонного документа с каждым тестируемым Эталонный набор векторов ndash это заранее размеченный на 30 документов текст тестируемый ndash с уменьшением числа сингулярных значений диагональной матрицы полученной при SVD-анализе На осях X и Y откладывается количество документов (эталонных и тестируемых) на оси Z ndash объем лексиконаНа рисунках хорошо видно что при уменьшении числа сингулярных диагональных элементов на 20-30 факторы еще не достаточно ярко выявлены но при этом возникают корреляции похожих документов (небольшие пики вне диагонали) которые сначала незначительно увеличиваются а затем с уменьшением числа сингулярных значений (до 70-80) ndash исчезают При автоматической кластеризации такие пики являются шумом поэтому их желательно минимизировать Если же целью является получение ассоциативных связей внутри документов то следует найти оптимальное соотношение сохранения основного лексикона и примешивания ассоциативного

Имплементация в R - Package lsquolsarsquoalnumx - Regular expression for removal of non-alphanumeric characters (saving special characters)

astextmatrix - Display a latent semantic space generated by Latent Semantic Analysis (LSA)

associate - Find close terms in a textmatrix

corpora - Corpora (Essay Scoring) dimcalc Dimensionality Calculation Routines (LSA)

dimcalc - Dimensionality Calculation Routines (LSA)

lsa - Create a vector space with Latent Semantic Analysis (LSA)

printtextmatrix - Print a textmatrix (Matrices)

sampletextmatrix - Create a random sample of files

textmatrix - Создает Textmatrix (Matrices) из файлов

Пример 1

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) read files into a document-term matrixmyMatrix = textmatrix(td minWordLength=1) create the latent semantic spacemyLSAspace = lsa(myMatrix dims=dimcalc_raw()) display it as a textmatrix againround(astextmatrix(myLSAspace)2) should give the original create the latent semantic spacemyLSAspace = lsa(myMatrix dims=dimcalc_share())

Пример 2

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) create matricesmyMatrix = textmatrix(td minWordLength=1)myLSAspace = lsa(myMatrix dims=dimcalc_share())myNewMatrix = astextmatrix(myLSAspace) calc associations for mouseassociate(myNewMatrix mouse) clean upunlink(td recursive=TRUE)

Пример 3 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(ham mouse sushi) file=paste(td D2 sep=) )write( c(dog pet pet) file=paste(td D3 sep=) ) LSAdata(stopwords_en)myMatrix = textmatrix(td stopwords=stopwords_en)myMatrix = lw_logtf(myMatrix) gw_idf(myMatrix)myLSAspace = lsa(myMatrix dims=dimcalc_share())astextmatrix(myLSAspace) clean upunlink(td recursive=TRUE)

Пример 4 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(hamster mouse sushi) file=paste(td D2 sep=) )write( c(dog monster monster) file=paste(td D3 sep=) ) read them create a document-term matrixtextmatrix(td) read them drop german stopwordsdata(stopwords_de)textmatrix(td stopwords=stopwords_de) read them based on a controlled vocabularyvoc = c(dog mouse)textmatrix(td vocabulary=voc minWordLength=1) clean up

Вместо заключения Очевидным недостатком LSA является ненормальность (негаусовость) вероятностного распределения слов в любом естественном языке Но эту проблему можно решить сглаживанием выборки (например применив фонетические слова распределение становится более laquoнормальнымraquo) Либо используют вероятностный LSA тназ PLSA основанный на мультиноминальном распределении Другим менее очевидным недостаткам LSA (и ему подобных методов) применительно к обработке неструктурированной информации можно отнести laquoтуманностьraquo самого метода (в частности выбора кол-ва сингулярных значений диагональной матрицы) и интерпретации результата не говоря уже о проблеме сбалансированности обучающего текста

Как правило для качественного построения модели оставляют менее 1-2 процента от общего числа диагональных значений (после SVD преобразования но об это в следующем посте) И как показывает практика увеличение числа факторов приводит к ухудшению результата Но дойдя примерно до 10 процентов от общего числа диагональных значений опять может быть всплеск аналогичный результату полученному при 1

Сбалансированность корпуса ndash вечная проблема которая не имеет хорошего решения на сегодняшний день Поэтому про нее приято помалкивать

Интерпретируемость результатов LSA (как и DLA) также затруднительна человек еще может понять что за тематику будет содержать топик полученный в результате анализа а вот машине не понять (не аннотировать) тематику без привлечения большого числа хороших и разных тезаурусов

Таким образом несмотря на трудоемкость и непрозрачность LSA он может успешно применяться для разного рада задач где важно поймать семантику сообщения обобщить или расширить laquoсмыслыraquo поискового запроса

bull Стандарт основанный на XML для обмена моделями статистической обработки Data Mining

bull Поддерживается более 20 организациями и поставщиками ПО

bull Реализован в частности и в R

Поддерживаемые предиктивные алгоритмы в R

Состав pmml package

bull addLT

bull addMSAttributes

bull audit

bull fileToXMLNode

bull pmml

bull pmmlada

bull pmmlcoxph

bull pmmlcvglmnet

bull pmmlglm

bull pmmlhclust

bull pmmlkmeans

bull pmmlksvm

bull pmmllm bull pmmlmultinom bull pmmlnaiveBayes bull pmmlnnet bull pmmlrandomForest bull pmmlrfsrc bull pmmlrpart bull pmmlrules bull pmmlsvm bull pmmlCanExport bull pmmltoc

Пример

Good by R see you later alligator

WATSON ndash одно из наиболее впечатляющих применений предиктивной аналитики

Разрабатывался компанией IBM с 2006 по 2010 годПрославился победой в телешоу Jeopardy (в России ndash laquoСвоя играraquo) в 2011 годуПредшественник Deep Blue обыграл чемпиона мира по шахматам Гарри Каспарова в 1997 г

>

IBM Deep QA Project

bull Целью проекта было создать компьютерную систему (ИИ) для ответа на вопросы (QA) задаваемые в свободной форме в телешоу и показать результаты соизмеримые с человеческими

bull Задача более сложная чем шахматная программа Deep Blue выигравшая у Каспарова в 1997 г

bull Вопросы по категориямCategory General ScienceClue When hit by electrons a phosphor gives off electromagnetic energy in this formAnswer Light (or Photons)

Category Lincoln BlogsClue Secretary Chase just submitted this to me for the third time guess what pal This time Irsquom accepting itAnswer his resignation

Category Head NorthClue Theyrsquore the two states you could be reentering if yoursquore crossing Floridarsquos northern borderAnswer Georgia and Alabama

Вопросы могут касаться сразу нескольких фактов чтобы ответ был вернымCategory ldquoRaprdquo SheetClue This archaic term for a mischievous or annoying child can also mean a rogue or scampSubclue 1 This archaic term for a mischievous or annoying childSubclue 2 This term can also mean a rogue or scampAnswer Rapscallion

Category Diplomatic RelationsClue Of the four countries in the world that the United States does not have diplomatic relations with the one thatrsquos farthest northInner subclue The four countries in the world that the United States does not have diplomatic relations with (Bhutan Cuba Iran North Korea)Outer subclue Of Bhutan Cuba Iran and North Korea the one thatrsquos farthest northAnswer North Korea

Вопросы - пазлы

Category Before and After Goes to the MoviesClue Film of a typical day in the life of the Beatles which includes running from bloodthirsty zombie fans in a Romero classicSubclue 2 Film of a typical day in the life of the Beatles Answer 1 (A Hard Dayrsquos Night)Subclue 2 Running from bloodthirsty zombie fans in a Romero classicAnswer 2 (Night of the Living Dead)Answer A Hard Dayrsquos Night of the Living Dead

Category Rhyme TimeClue Itrsquos where Pele stores his ballSubclue 1 Pele ball (soccer)Subclue 2 where store (cabinet drawer locker and so on)Answer soccer locker

Недопустимые типы вопросов

oCategory Picture This(Contestants are shown a picture of a B-52 bomber)Clue Alphanumeric name of the fearsome machine seen hereAnswer B-52

oCategory Decode the Postal CodesVerbal instruction from host Wersquore going to give you a word comprising two postal abbreviations you have to identify the statesClue VainAnswer Virginia and Indiana

Лексические типы ответа ndash LAT (Lexical Answer Type)

Метрики качества ответов - результативность

Показатели двух теоретических QA систем

Показатели результативности чемпионов шоу (2000)

Облако победителей

Линия сравнения результативности (baseline performance)

Сравнение системы тестового поиска и поиска в базе знаний

Результативность Watson (по версиям)

Основы подхода Deep QA

bull Massive parallelism использование высокого параллелизма при рассмотрении множественных интерпретаций и гипотез

bull Many experts привлечение интеграции приложения и контекстуального оценивания в широком диапазоне слабосвязанных вероятностных вопросов и контентной аналитики

bull Pervasive confidence estimation повсеместная оценка доверия означает что ни один из компонентов не включается в ответ сразу все компоненты имеют признаки и связанные с ними уровни доверия производится скоринг различных вопросов и контентная интерпретация Основа confidence-processing состоит в обучении как стэкировать и комбинировать баллы

bull Integrate shallow and deep knowledge интеграция поверхностных и глубинных знаний состоит в балансе использования строгой семантики и мелких семантик использующих множества слабо сформированных онтологий

bull Content Acquisition - Сбор контентаСочетает ручные и автоматические этапы Первым шагом является анализ примеров вопросов проблемного пространства чтобы произвести описание видов вопросов на которые нужно ответить и характеризовать область применения Анализ примеров вопросов в первую очередь ручная задача в то время как анализ области может быть выполнен путем автоматических или статистических методов таких как анализ LAT показанный ранее Учитывая вопросы для широкого домена Jeopardy Challenge источники для Watson включают широкий ассортимент энциклопедий словарей тезаурусов Newswire статьи литературные произведения и тд Начиная с разумного размера базового корпуса DeepQA затем применяет автоматический процесс расширения корпуса Процесс включает в себя четыре этапа высокого уровня (1) выявления основных документов и получить соответствующие документы из Интернет (2) извлечь автономные текстовые ядра из связанных веб-документов (3) Оценка на основе ядер являются ли они информативны по отношению к исходному основному документу и (4) объединить наиболее информативные ядра в расширенном корпусе Работающая система использует этот расширенный корпус и не имеет доступа к Интернет во время игры

bull Question Analysis ndash Анализ вопроса

Первый шаг во время выполнения процесса вопрос-ответной системы При анализе вопроса система пытается понять что вопрос задан и выполняет начальный анализ определяющий как вопрос будет обработан на остальных этапах работы системы Подход DeepQA использует смешанный набор экспертов на данном этапе и в системе Watson производится мелкий парсинг глубокий парсинг строятся логические формы семантические этикетки ролей взаимные ссылки отношения именованные сущности и так далее а также конкретные виды анализа для ответа вопрос

bull Question classification - Классификация вопроса

Это задача выявления типа вопроса или частей вопроса которые требуют специальной обработки Это может включать в себя что-нибудь из отдельных слов с двойным смыслом и потенциально до выявления целых статей которые имеют определенную синтаксическую семантическую или риторические функциональные возможности которые могут инициировать нисходящий анализ Классификация может определить вопрос как вопрос- головоломку вопрос-математику -определение и так далее Это будет определять каламбуры ограничения компоненты определений или целые подвопросы в пределах вопросов

bull Focus and LAT Detection ndash Определение фокуса и лексического типа ответа

Лексический тип ответа - это слово или словосочетание в вопросе который определяет тип ответа без попытки понять семантику Определение LAT является важным видом выигрыша и общим источником критических ошибок Преимущество подхода DeepQA является использование многих самостоятельно разработанных алгоритмов laquoответ-типированияraquo Например фокус вопроса викторины laquoПри попадании электронов люминофор излучает электромагнитную энергию в этой формеraquo - является laquoэта формаraquo Фокус часто (но не всегда) содержит полезную информацию об ответе часто субъект или объект отношение в вопросе и может превратить вопрос в фактическое утверждение при замене возможным кандидатом Это представляет полезный способ собирать доказательства о каждом кандидате

bull Relation Detection ndash детектирование отношений

Большинство вопросов содержит отношения являются ли они синтаксическими предикатами субъект-глагол-объект или семантические отношения между субъектами Например в вопросе laquoЕсть два штата в которые вы могли бы войти повторно если вы пересекаете северную границу штата Флоридаraquo мы можем обнаружить отношение границы (Флорида Х к северу) Watson использует обнаружение отношения на протяжении всего процесса QA от фокуса и LAT определения до прохождению и скорингу ответов Watson также может использовать обнаруженные отношения для выделения хранилища триплетов и напрямую генерировать кандидатов в ответы В 20000 игр Jeopardy вопросы например обнаружили распределение Freebase отношений чрезвычайно плоского вида (см рисунок) Это приближение распределеня 50 наиболее частых отношений в 20 000 случайно выбранных вопросах викторины

bull Decomposition ndash декомпозиция

Важным требованием успеха анализа Jeopardy является способность отвечать на вопросы которые разложены на составляющие DeepQA использует основанный на правилах глубокий парсинг и статистические методы классификации чтобы наилучшим образом разложить вопросы на элементы и определить как лучше разбить их на подвопросы Операционная гипотеза что правильная интерпретация вопроса позволит лучше произвести скоринг ответов после того как все доказательства собраны Даже если вопрос не должен быть разложен для определения ответа этот метод может помочь улучшить общее доверие ответу системы DeepQA решает задачи параллельно для каждого разложения применяя алгоритмы от начала до конца каждого подвопроса и синтезирует окончательные ответы DeepQA также поддерживает вложенные декомпозиции вопросов через рекурсивное применение QA системы от начала до конца в внутреннем подвопросе а затем во внешнем Настраиваемые компоненты позволяют легко подключать специализированные алгоритмы синтеза в общую систему

bull Hypothesis Generation ndash генерация гипотез

Генерация гипотез принимает результаты анализа вопросов и производит кандидатов на ответы Каждый кандидат ответ включается обратно в вопрос и это считается как гипотеза Система должна доказать правильность этой гипотезы с некоторой степенью уверенности Как и во всех аспектах DeepQA используется смесь разных подходов для первичного поиска и генерации кандидата в системе Watson

bull Primary Search ndash первичный поиск

В этом поиске целью является найти столько потенциально кандидатов сколько это можно сделать на основе результатов анализа вопроса В течение проекта велись эмпирические исследования направленные на баланс скорости объема и точности Эти исследования позволили регулярно настраивать систему так чтобы найти такое количество кандидатов которые производят наилучший баланс точности и вычислительных ресурсов Оперативная цель основного поиска в конечном счете стабилизировалась на около 85 процентов для топ-250 кандидатов то есть система генерирует правильный ответ как кандидата ответа на 85 процентов вопросов где-то в верхних 250 ранжированных кандидатов Разнообразие методов поиска используются в том числе с использованием нескольких текст поисковых системах с различными базовыми подходами (например Indri и Lucene) поиск документов а также поиска маршрута база знаний поиска с помощью SPARQL хранилища триплетов Для небольшого количества латов которые были определены как закрытые латы кандидат на ответ может быть получен из фиксированного списка в каком-то хранилище известных экземпляров LAT таких как США Президент или Страна

Поиск доказательств

bull Поиск по фразе ndash число соответствий разного типав ответе и вопросеbull Популярность ndash как часто встречается этот вариант ответаbull Соответствие по типу ndash ответ и требование вопросаbull Соответствие по времениbull Надежность источника

bull Candidate Answer Generation ndash генерирование кандидатов на ответ

Результаты поиска применяются для генерирования возможных кандидатов в ответы с помощью различных подходящих техник Для поиска документов извлекаются заголовки и используются как кандидаты Число кандидатов при этом может быть не единственным и требовать использования анализа подстрок и ссылок Используя детектирование именованных сущностей в ряде случаев удается извлечь хороших кандидатов В зависимости от типа источника для генерирования кандидата требуется разный набор алгоритмов например база знаний или обратный словарь порождают кандидатов непосредственно как кандидата Этот этап критически важен и если кандидаты не найдены то фиксируется невозможность ответа В нормальном режиме на этом этапе Watson гененерирует несколько сотен андидатов

bull Soft Filtering ndash мягкая фильтрацияДля ускорения процесса скоринга кандидатов Watson использует различные алгоритмы разной точности Более легковесные (менее вычислительно интенсивные) применяются на первом этапе скоринга На этом этапе устанавливается порог оценки и кандидаты имеющие более высокую оценку считаются прошедшими мягкую фильтрацию Они поступают на выработку гипотез и скоринг доказательств Интересно что кандидаты не прошедшие порог мягкой фильтрации не забываются а направляются прямо на финальный этап слияния Модель скоринга мягкой фильтрации и порога определяются на основе machine learning используя обучающие данные Watson типично пропускает через мягкую фильтрацию 100 кандидатов но эта функция параметризована и их число можно изменить

Проблемы NLP

bull В мае 1898 года Португалия отмечала 400-летний юбилей со дня прибытия этого великого путешественника в Индию

В мае Гари прибыл в Индию после празднования своего юбилея в Португалии

21 мая 1498 года Васка де Гама высадился в местечке Каппад

bull Он был помилован президентом 8 сентября 1974 годаФорд помиловал Никсона 8 сентября 1974 года Никсон Форд

bull Говоря ldquogive a trinklerdquo что предлагают вам сделать британцы по приезду в город

bull Hypothesis and Evidence Scoring ndash скоринг гипотез и доказательств

Прошедшие порог мягкой фильтрации кандидаты поступают на скрупулезный процесс который включает сбор дополнительных поддерживающих доказательств для каждого кандидата на ответ или гипотезу Процесс использует широкий набор различных методов скоринговой аналитики чтобы исследовать все поддерживающие доказательства

bull Evidence Retrieval ndash извлечение доказательств

Чтобы лучше исследовать каждого кандидата прошедшего через мягкую фильтрацию система собирает дополнительные поддерживающие доказательства Архитектура поддерживает интеграцию различных evidence-gathering техник Один из применяемых способов состоит в том что проводится дополнительный поиск в котором кандидат добавляется в качестве required term к первичному запросу извлеченному из вопроса Это будет приводить к получению выражений содержащих кандидата в контексте первичных терминов вопросаПоддерживающие доказательства могут быть извлечены и из других источников например из RDF баз знаний Извлеченные поддерживающие доказательства направляются модули глубокого скоринга которые анализируют кандидата в контексте поддерживающего доказательства

bull Scoring ndash скоринг (количественное оценивание)

Алгоритмы скоринга определяют степень несомненности которую обеспечивают доказательства в поддержку кандидата The DeepQA framework поддерживает множество компонент для выработки оценки в различных измерениях каждого доказательства которая вырабатывает оценку связанную с тем насколько хорошо доказательство поддерживает кандидата на ответ в качестве ответа на заданный вопросDeepQA использует общий формат для оценок для принятых гипотез и подтверждающих оценок отражающих семантические и ограничивающие факторы Это позволяет разработчикам DeepQA быстро разворачивать перемешивать и настраивать сложные совокупности модуле для обработкиНапрмер Watson использует больше чем 50 скоринговых компонент Они производят оценки разноготипа от оценок вероятностей до подсчета категориальных свойств основанных на доказательствах от различных источников включая неструктурированные тексты полуструктурированные тексты и RDF хранилища Эти оценки используют такие данные как degree of match between a passagersquos predicate-argument structure and the question passage source reliability geospatial location temporal relationships taxonomic classification the lexical and semantic relations the candidate is known to participate in the candidatersquos correlation with question terms its popularity (or obscurity) its aliases and so on

Вопрос Чили имеет самую длинную общую границу со страной Сгенерировано несколько кандидатов среди них Аргентина и Боливия Первичный поиск даст приоритет Боливии из=а популярности обсуждений их отношений Однако собранные Watson доказательства из других источников показывают более высокую оценку для Аргентины

Скоринг (взвешивание) доказательств ndash предиктивная аналитика

- При делении клеток митозом называется деление ядра а цитокинезом ndash деление этой жидкости в которой находится ядро

Генерирование кандидатов Сбор доказательств Уверенность в доказательстве

ОрганеллыВакуольЦитоплазмаПлазмамитохондрии

Органеллы ndash не жидкостьВакуоль ndash не жидкостьЦитоплазма ndash возможно жидкостьПлазма ndash не жидкостьМитохондрии ndash не жидкость

Цитоплазма ndash 92Органеллы ndash 19Вакуоль ndash 10Плазма ndash 2Митохондрии ndash 2

Answer Merging ndash объединение ответов

Многие кандидаты в ответы на поставленный вопрос могут быть эквивалентны несмотря на различные внешне формыТехники ранжирования тем не менее рассматривают таких кандидатов как различные Без объединения алгоритмы ранжирования будут работать отдельно с эквивалентными сущностями и пытаться противопоставить одну форму другой Это приведет к проблемам принятия решений Watson содержит алгоритмы идентификации эквивалентных сущностей используя множественные сравнения нормализацию и методы разрешения совместных ссылок

Ranking and Confidence Estimation ndash ранжирование и оценивание доверияПосле объединения система должна произвести ранжирование гипотез и оценивает доверие основанное на объединенных оценках В системе подобран ML подход основанный на обучении на обучающем наборе вопросов с известными ответами и обучение модели основываясь на скоринге Применяется как весьма плоская модель и существующие алгоритмы ранжирования Для более тонких оценок применяется двухфазный процесс использующий группы оценок для оценивания профиля и для оценки доверия Используя эту промежуточную модель система производит ансамбль промежуточных оценок Здесь используется иерархическая техника метаучителя и коллектива экспертов Этот подход обеспечивает итеративное расширение обучения используя изощренные и глубокие иерархические модели обеспечивающие гибкость и робастность при выработке оценок и модифицирует системуМетаучитель в Watson использует набор многие обучаемые модели чтобы управлять различными классами вопросов которые могут быть критическими при идентификации правильных ответовНаконец важно что использование NLP-based скоринга дает весьма разреженные оценки и требует точного оценивания с применением confidence-weighted learning techniques

Развертывание Watson

bull DeepQA разработан используя Apache UIMA - framework implementation of the Unstructured Information Management Architecture (Ferrucci and Lally 2004) UIMA был разработан для поддержки взаимодействия и масштабирования приложений обработки текста и мультимодального анализа Все компоненты DeepQA имплементированы как UIMA annotators Это программные компоненты для анализа текста и получения аннотаций или заключений о тексте Watson развивался в процессе разработки от нескольких компонент до нескольких сотен UIMA обеспечивает быструю интеграцию компонент тестирование и исследование

bull Начальная имплементация Watson запускалась на одном процессоре и требовала 2 часа на ответ на один вопрос DeepQA развился в параллельную систему используя UIMA-AS часть Apache UIMA масштабируя приложения UIMA используя асинхронный механизм месседжинга UIMA-AS позволила масштабировать Watson более чем на 2500 вычислительных ядер UIMA-AS управляет коммуникациями месседжингом управлением запросами используя open JMS standard UIMA-AS позволил снизить латентность Watson до 3ndash5 секунд

bull Для препроцессинга корпуса текстов создания быстрых run-time indices использован Hadoop

UIMA annotators были развернуты как mapper ы в Hadoop map-reduce framework Hadoop распределяет контент по кластеру для обеспечения высокого использования CPU и обеспечивает подходящий набор инструментов для deploying managing and monitoring the corpus analysis process

bull Аппаратная платформа ndash это 90 серверов 2800 ядер 15 ТБ RAM 80 Тфлопс $3 000 000 10 R

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 19: !Predictive analytics part_3

Разложение матрицы laquoслова-документыraquo

Модель векторного пространства

bull Наиболее распространенный вариант LSA основан на использовании разложения вещественнозначной матрицы по сингулярным значениям или SVD-разложения (SVD ndash Singular Value Decomposition) С помощью него любую матрицу можно разложить в множество ортогональных матриц линейная комбинация которых является достаточно точным приближением к исходной матрице Обычно используют мультипликативное разложение

bull где матрицы U и V ndash ортогональные а S ndash диагональная матрица значения на диагонали которой называются сингулярными значениями матрицы A

bull Символ Т в обозначении матрицы означает транспонирование матрицы

bull Основная идея латентно-семантического анализа состоит в следующем

bull после перемножения матриц полученная матрица Ă содержащая только k первых линейно независимых компонент исходной матрицы A отражает структуру зависимостей (в данном случае ассоциативных) латентно присутствующих в исходной матрице Структура зависимостей определяется весовыми функциями термов для каждого документа

Особенность такого разложения в том что если в матрице S оставить только k наибольших сингулярных значений то линейная комбинация получившихся матриц будет наилучшим приближением исходной матрицы A к матрице Ă ранга k

Пример

bull c1 Human machine interface for ABC computer applicationsbull c2 A survey of user opinion of computer system response timebull c3 The EPS user interface management systembull c4 System and human system engineering testing of EPSbull c5 Relation of user perceived response time to error measurementbull m1 The generation of random binary ordered treesbull m2 The intersection graph of paths in treesbull m3 Graph minors IV Widths of trees and well-quasi-orderingbull m4 Graph minors A survey

Желтым отмечены слова встречающиеся хотя бы в двух заголовках

После SVD

Семантическое пространство

Матрица расстояний между словами

Результат снижения размерности кластеризация [human interface computer user EPS response time][survey trees graph minors]

Расстояния между заголовками до и после SVD

bull Объем корпуса для построения модели должен быть большим ndash желательно около трех-пяти миллионов словоупотреблений Но метод работает и на коллекциях меньшего объема правда несколько хужеПроизвольное разбиение текста на документы обычно производят от тысячи до нескольких десятков тысяч частей примерно одинакового объема Таким образом матрица термы-на-документы получается прямоугольной и может быть сильно разраженной Например при объеме 5 млн словоформ получается матрица 30-50 тысяч документов на 200-300 тысяч а иногда и более термов В действительности низкочастотные термы можно опустить тк это заметно снизит размерность матрицы (скажем если не использовать 5 от общего объема низкочастотных термов то размерность сократиться в два раза) что приведет к снижению вычислительных ресурсов и времениВыбор сокращения сингулярных значений диагональной матрицы (размерности k) при обратном перемножении матриц достаточно произвольно При вышеуказанной размерности матрицы оставляют несколько сотен (100-300) главных компонент При этом как показывает практика зависимость количества компонент и точность меняются нелинейно например если начинать увеличивать их число то точность будет падать но при некотором значении скажем 10000 ndash опять вырастет до оптимального случая

Применение

bull сравнение двух термов между собойbull сравнение двух документов между собойbull сравнение терма и документа

Так же иногда этот метод используют для нахождения laquoближайшего соседаraquo mdash наиболее близких по весу термов ассоциативно связанных с исходным Это свойство используют для поиска близких по смыслу термов Следует уточнить что близость по смыслу ndash это контекстнозависимая величина поэтому не всякий близкий терм будет соответствовать ассоциации (это может быть и синоним и антоним и просто часто встречающееся вместе с искомым термом слово или словосочетание)

bull Достоинством метода можно считать его замечательную способность выявлять зависимости между словами когда обычные статистические методы бессильны LSA также может быть применен как с обучением (с предварительной тематической классификацией документов) так и без обучения (произвольное разбиение произвольного текста) что зависит от решаемой задачи

bull Об основных недостатках значительное снижение скорости вычисления при увеличении объема входных данных (в частности при SVD-преобразовании)

bull Как показано в литературе скорость вычисления соответствует порядку где сумма количества документов и термов kndash размерность пространства факторов

На рисунке показано возникновение и изменение главных факторов при уменьшении числа сингулярных элементов диагональной матрицы от 100 до ~12 Трехмерные рисунки представляют собой симметричную матрицу полученную в результате вычисления скалярного произведения векторов каждого эталонного документа с каждым тестируемым Эталонный набор векторов ndash это заранее размеченный на 30 документов текст тестируемый ndash с уменьшением числа сингулярных значений диагональной матрицы полученной при SVD-анализе На осях X и Y откладывается количество документов (эталонных и тестируемых) на оси Z ndash объем лексиконаНа рисунках хорошо видно что при уменьшении числа сингулярных диагональных элементов на 20-30 факторы еще не достаточно ярко выявлены но при этом возникают корреляции похожих документов (небольшие пики вне диагонали) которые сначала незначительно увеличиваются а затем с уменьшением числа сингулярных значений (до 70-80) ndash исчезают При автоматической кластеризации такие пики являются шумом поэтому их желательно минимизировать Если же целью является получение ассоциативных связей внутри документов то следует найти оптимальное соотношение сохранения основного лексикона и примешивания ассоциативного

Имплементация в R - Package lsquolsarsquoalnumx - Regular expression for removal of non-alphanumeric characters (saving special characters)

astextmatrix - Display a latent semantic space generated by Latent Semantic Analysis (LSA)

associate - Find close terms in a textmatrix

corpora - Corpora (Essay Scoring) dimcalc Dimensionality Calculation Routines (LSA)

dimcalc - Dimensionality Calculation Routines (LSA)

lsa - Create a vector space with Latent Semantic Analysis (LSA)

printtextmatrix - Print a textmatrix (Matrices)

sampletextmatrix - Create a random sample of files

textmatrix - Создает Textmatrix (Matrices) из файлов

Пример 1

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) read files into a document-term matrixmyMatrix = textmatrix(td minWordLength=1) create the latent semantic spacemyLSAspace = lsa(myMatrix dims=dimcalc_raw()) display it as a textmatrix againround(astextmatrix(myLSAspace)2) should give the original create the latent semantic spacemyLSAspace = lsa(myMatrix dims=dimcalc_share())

Пример 2

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) create matricesmyMatrix = textmatrix(td minWordLength=1)myLSAspace = lsa(myMatrix dims=dimcalc_share())myNewMatrix = astextmatrix(myLSAspace) calc associations for mouseassociate(myNewMatrix mouse) clean upunlink(td recursive=TRUE)

Пример 3 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(ham mouse sushi) file=paste(td D2 sep=) )write( c(dog pet pet) file=paste(td D3 sep=) ) LSAdata(stopwords_en)myMatrix = textmatrix(td stopwords=stopwords_en)myMatrix = lw_logtf(myMatrix) gw_idf(myMatrix)myLSAspace = lsa(myMatrix dims=dimcalc_share())astextmatrix(myLSAspace) clean upunlink(td recursive=TRUE)

Пример 4 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(hamster mouse sushi) file=paste(td D2 sep=) )write( c(dog monster monster) file=paste(td D3 sep=) ) read them create a document-term matrixtextmatrix(td) read them drop german stopwordsdata(stopwords_de)textmatrix(td stopwords=stopwords_de) read them based on a controlled vocabularyvoc = c(dog mouse)textmatrix(td vocabulary=voc minWordLength=1) clean up

Вместо заключения Очевидным недостатком LSA является ненормальность (негаусовость) вероятностного распределения слов в любом естественном языке Но эту проблему можно решить сглаживанием выборки (например применив фонетические слова распределение становится более laquoнормальнымraquo) Либо используют вероятностный LSA тназ PLSA основанный на мультиноминальном распределении Другим менее очевидным недостаткам LSA (и ему подобных методов) применительно к обработке неструктурированной информации можно отнести laquoтуманностьraquo самого метода (в частности выбора кол-ва сингулярных значений диагональной матрицы) и интерпретации результата не говоря уже о проблеме сбалансированности обучающего текста

Как правило для качественного построения модели оставляют менее 1-2 процента от общего числа диагональных значений (после SVD преобразования но об это в следующем посте) И как показывает практика увеличение числа факторов приводит к ухудшению результата Но дойдя примерно до 10 процентов от общего числа диагональных значений опять может быть всплеск аналогичный результату полученному при 1

Сбалансированность корпуса ndash вечная проблема которая не имеет хорошего решения на сегодняшний день Поэтому про нее приято помалкивать

Интерпретируемость результатов LSA (как и DLA) также затруднительна человек еще может понять что за тематику будет содержать топик полученный в результате анализа а вот машине не понять (не аннотировать) тематику без привлечения большого числа хороших и разных тезаурусов

Таким образом несмотря на трудоемкость и непрозрачность LSA он может успешно применяться для разного рада задач где важно поймать семантику сообщения обобщить или расширить laquoсмыслыraquo поискового запроса

bull Стандарт основанный на XML для обмена моделями статистической обработки Data Mining

bull Поддерживается более 20 организациями и поставщиками ПО

bull Реализован в частности и в R

Поддерживаемые предиктивные алгоритмы в R

Состав pmml package

bull addLT

bull addMSAttributes

bull audit

bull fileToXMLNode

bull pmml

bull pmmlada

bull pmmlcoxph

bull pmmlcvglmnet

bull pmmlglm

bull pmmlhclust

bull pmmlkmeans

bull pmmlksvm

bull pmmllm bull pmmlmultinom bull pmmlnaiveBayes bull pmmlnnet bull pmmlrandomForest bull pmmlrfsrc bull pmmlrpart bull pmmlrules bull pmmlsvm bull pmmlCanExport bull pmmltoc

Пример

Good by R see you later alligator

WATSON ndash одно из наиболее впечатляющих применений предиктивной аналитики

Разрабатывался компанией IBM с 2006 по 2010 годПрославился победой в телешоу Jeopardy (в России ndash laquoСвоя играraquo) в 2011 годуПредшественник Deep Blue обыграл чемпиона мира по шахматам Гарри Каспарова в 1997 г

>

IBM Deep QA Project

bull Целью проекта было создать компьютерную систему (ИИ) для ответа на вопросы (QA) задаваемые в свободной форме в телешоу и показать результаты соизмеримые с человеческими

bull Задача более сложная чем шахматная программа Deep Blue выигравшая у Каспарова в 1997 г

bull Вопросы по категориямCategory General ScienceClue When hit by electrons a phosphor gives off electromagnetic energy in this formAnswer Light (or Photons)

Category Lincoln BlogsClue Secretary Chase just submitted this to me for the third time guess what pal This time Irsquom accepting itAnswer his resignation

Category Head NorthClue Theyrsquore the two states you could be reentering if yoursquore crossing Floridarsquos northern borderAnswer Georgia and Alabama

Вопросы могут касаться сразу нескольких фактов чтобы ответ был вернымCategory ldquoRaprdquo SheetClue This archaic term for a mischievous or annoying child can also mean a rogue or scampSubclue 1 This archaic term for a mischievous or annoying childSubclue 2 This term can also mean a rogue or scampAnswer Rapscallion

Category Diplomatic RelationsClue Of the four countries in the world that the United States does not have diplomatic relations with the one thatrsquos farthest northInner subclue The four countries in the world that the United States does not have diplomatic relations with (Bhutan Cuba Iran North Korea)Outer subclue Of Bhutan Cuba Iran and North Korea the one thatrsquos farthest northAnswer North Korea

Вопросы - пазлы

Category Before and After Goes to the MoviesClue Film of a typical day in the life of the Beatles which includes running from bloodthirsty zombie fans in a Romero classicSubclue 2 Film of a typical day in the life of the Beatles Answer 1 (A Hard Dayrsquos Night)Subclue 2 Running from bloodthirsty zombie fans in a Romero classicAnswer 2 (Night of the Living Dead)Answer A Hard Dayrsquos Night of the Living Dead

Category Rhyme TimeClue Itrsquos where Pele stores his ballSubclue 1 Pele ball (soccer)Subclue 2 where store (cabinet drawer locker and so on)Answer soccer locker

Недопустимые типы вопросов

oCategory Picture This(Contestants are shown a picture of a B-52 bomber)Clue Alphanumeric name of the fearsome machine seen hereAnswer B-52

oCategory Decode the Postal CodesVerbal instruction from host Wersquore going to give you a word comprising two postal abbreviations you have to identify the statesClue VainAnswer Virginia and Indiana

Лексические типы ответа ndash LAT (Lexical Answer Type)

Метрики качества ответов - результативность

Показатели двух теоретических QA систем

Показатели результативности чемпионов шоу (2000)

Облако победителей

Линия сравнения результативности (baseline performance)

Сравнение системы тестового поиска и поиска в базе знаний

Результативность Watson (по версиям)

Основы подхода Deep QA

bull Massive parallelism использование высокого параллелизма при рассмотрении множественных интерпретаций и гипотез

bull Many experts привлечение интеграции приложения и контекстуального оценивания в широком диапазоне слабосвязанных вероятностных вопросов и контентной аналитики

bull Pervasive confidence estimation повсеместная оценка доверия означает что ни один из компонентов не включается в ответ сразу все компоненты имеют признаки и связанные с ними уровни доверия производится скоринг различных вопросов и контентная интерпретация Основа confidence-processing состоит в обучении как стэкировать и комбинировать баллы

bull Integrate shallow and deep knowledge интеграция поверхностных и глубинных знаний состоит в балансе использования строгой семантики и мелких семантик использующих множества слабо сформированных онтологий

bull Content Acquisition - Сбор контентаСочетает ручные и автоматические этапы Первым шагом является анализ примеров вопросов проблемного пространства чтобы произвести описание видов вопросов на которые нужно ответить и характеризовать область применения Анализ примеров вопросов в первую очередь ручная задача в то время как анализ области может быть выполнен путем автоматических или статистических методов таких как анализ LAT показанный ранее Учитывая вопросы для широкого домена Jeopardy Challenge источники для Watson включают широкий ассортимент энциклопедий словарей тезаурусов Newswire статьи литературные произведения и тд Начиная с разумного размера базового корпуса DeepQA затем применяет автоматический процесс расширения корпуса Процесс включает в себя четыре этапа высокого уровня (1) выявления основных документов и получить соответствующие документы из Интернет (2) извлечь автономные текстовые ядра из связанных веб-документов (3) Оценка на основе ядер являются ли они информативны по отношению к исходному основному документу и (4) объединить наиболее информативные ядра в расширенном корпусе Работающая система использует этот расширенный корпус и не имеет доступа к Интернет во время игры

bull Question Analysis ndash Анализ вопроса

Первый шаг во время выполнения процесса вопрос-ответной системы При анализе вопроса система пытается понять что вопрос задан и выполняет начальный анализ определяющий как вопрос будет обработан на остальных этапах работы системы Подход DeepQA использует смешанный набор экспертов на данном этапе и в системе Watson производится мелкий парсинг глубокий парсинг строятся логические формы семантические этикетки ролей взаимные ссылки отношения именованные сущности и так далее а также конкретные виды анализа для ответа вопрос

bull Question classification - Классификация вопроса

Это задача выявления типа вопроса или частей вопроса которые требуют специальной обработки Это может включать в себя что-нибудь из отдельных слов с двойным смыслом и потенциально до выявления целых статей которые имеют определенную синтаксическую семантическую или риторические функциональные возможности которые могут инициировать нисходящий анализ Классификация может определить вопрос как вопрос- головоломку вопрос-математику -определение и так далее Это будет определять каламбуры ограничения компоненты определений или целые подвопросы в пределах вопросов

bull Focus and LAT Detection ndash Определение фокуса и лексического типа ответа

Лексический тип ответа - это слово или словосочетание в вопросе который определяет тип ответа без попытки понять семантику Определение LAT является важным видом выигрыша и общим источником критических ошибок Преимущество подхода DeepQA является использование многих самостоятельно разработанных алгоритмов laquoответ-типированияraquo Например фокус вопроса викторины laquoПри попадании электронов люминофор излучает электромагнитную энергию в этой формеraquo - является laquoэта формаraquo Фокус часто (но не всегда) содержит полезную информацию об ответе часто субъект или объект отношение в вопросе и может превратить вопрос в фактическое утверждение при замене возможным кандидатом Это представляет полезный способ собирать доказательства о каждом кандидате

bull Relation Detection ndash детектирование отношений

Большинство вопросов содержит отношения являются ли они синтаксическими предикатами субъект-глагол-объект или семантические отношения между субъектами Например в вопросе laquoЕсть два штата в которые вы могли бы войти повторно если вы пересекаете северную границу штата Флоридаraquo мы можем обнаружить отношение границы (Флорида Х к северу) Watson использует обнаружение отношения на протяжении всего процесса QA от фокуса и LAT определения до прохождению и скорингу ответов Watson также может использовать обнаруженные отношения для выделения хранилища триплетов и напрямую генерировать кандидатов в ответы В 20000 игр Jeopardy вопросы например обнаружили распределение Freebase отношений чрезвычайно плоского вида (см рисунок) Это приближение распределеня 50 наиболее частых отношений в 20 000 случайно выбранных вопросах викторины

bull Decomposition ndash декомпозиция

Важным требованием успеха анализа Jeopardy является способность отвечать на вопросы которые разложены на составляющие DeepQA использует основанный на правилах глубокий парсинг и статистические методы классификации чтобы наилучшим образом разложить вопросы на элементы и определить как лучше разбить их на подвопросы Операционная гипотеза что правильная интерпретация вопроса позволит лучше произвести скоринг ответов после того как все доказательства собраны Даже если вопрос не должен быть разложен для определения ответа этот метод может помочь улучшить общее доверие ответу системы DeepQA решает задачи параллельно для каждого разложения применяя алгоритмы от начала до конца каждого подвопроса и синтезирует окончательные ответы DeepQA также поддерживает вложенные декомпозиции вопросов через рекурсивное применение QA системы от начала до конца в внутреннем подвопросе а затем во внешнем Настраиваемые компоненты позволяют легко подключать специализированные алгоритмы синтеза в общую систему

bull Hypothesis Generation ndash генерация гипотез

Генерация гипотез принимает результаты анализа вопросов и производит кандидатов на ответы Каждый кандидат ответ включается обратно в вопрос и это считается как гипотеза Система должна доказать правильность этой гипотезы с некоторой степенью уверенности Как и во всех аспектах DeepQA используется смесь разных подходов для первичного поиска и генерации кандидата в системе Watson

bull Primary Search ndash первичный поиск

В этом поиске целью является найти столько потенциально кандидатов сколько это можно сделать на основе результатов анализа вопроса В течение проекта велись эмпирические исследования направленные на баланс скорости объема и точности Эти исследования позволили регулярно настраивать систему так чтобы найти такое количество кандидатов которые производят наилучший баланс точности и вычислительных ресурсов Оперативная цель основного поиска в конечном счете стабилизировалась на около 85 процентов для топ-250 кандидатов то есть система генерирует правильный ответ как кандидата ответа на 85 процентов вопросов где-то в верхних 250 ранжированных кандидатов Разнообразие методов поиска используются в том числе с использованием нескольких текст поисковых системах с различными базовыми подходами (например Indri и Lucene) поиск документов а также поиска маршрута база знаний поиска с помощью SPARQL хранилища триплетов Для небольшого количества латов которые были определены как закрытые латы кандидат на ответ может быть получен из фиксированного списка в каком-то хранилище известных экземпляров LAT таких как США Президент или Страна

Поиск доказательств

bull Поиск по фразе ndash число соответствий разного типав ответе и вопросеbull Популярность ndash как часто встречается этот вариант ответаbull Соответствие по типу ndash ответ и требование вопросаbull Соответствие по времениbull Надежность источника

bull Candidate Answer Generation ndash генерирование кандидатов на ответ

Результаты поиска применяются для генерирования возможных кандидатов в ответы с помощью различных подходящих техник Для поиска документов извлекаются заголовки и используются как кандидаты Число кандидатов при этом может быть не единственным и требовать использования анализа подстрок и ссылок Используя детектирование именованных сущностей в ряде случаев удается извлечь хороших кандидатов В зависимости от типа источника для генерирования кандидата требуется разный набор алгоритмов например база знаний или обратный словарь порождают кандидатов непосредственно как кандидата Этот этап критически важен и если кандидаты не найдены то фиксируется невозможность ответа В нормальном режиме на этом этапе Watson гененерирует несколько сотен андидатов

bull Soft Filtering ndash мягкая фильтрацияДля ускорения процесса скоринга кандидатов Watson использует различные алгоритмы разной точности Более легковесные (менее вычислительно интенсивные) применяются на первом этапе скоринга На этом этапе устанавливается порог оценки и кандидаты имеющие более высокую оценку считаются прошедшими мягкую фильтрацию Они поступают на выработку гипотез и скоринг доказательств Интересно что кандидаты не прошедшие порог мягкой фильтрации не забываются а направляются прямо на финальный этап слияния Модель скоринга мягкой фильтрации и порога определяются на основе machine learning используя обучающие данные Watson типично пропускает через мягкую фильтрацию 100 кандидатов но эта функция параметризована и их число можно изменить

Проблемы NLP

bull В мае 1898 года Португалия отмечала 400-летний юбилей со дня прибытия этого великого путешественника в Индию

В мае Гари прибыл в Индию после празднования своего юбилея в Португалии

21 мая 1498 года Васка де Гама высадился в местечке Каппад

bull Он был помилован президентом 8 сентября 1974 годаФорд помиловал Никсона 8 сентября 1974 года Никсон Форд

bull Говоря ldquogive a trinklerdquo что предлагают вам сделать британцы по приезду в город

bull Hypothesis and Evidence Scoring ndash скоринг гипотез и доказательств

Прошедшие порог мягкой фильтрации кандидаты поступают на скрупулезный процесс который включает сбор дополнительных поддерживающих доказательств для каждого кандидата на ответ или гипотезу Процесс использует широкий набор различных методов скоринговой аналитики чтобы исследовать все поддерживающие доказательства

bull Evidence Retrieval ndash извлечение доказательств

Чтобы лучше исследовать каждого кандидата прошедшего через мягкую фильтрацию система собирает дополнительные поддерживающие доказательства Архитектура поддерживает интеграцию различных evidence-gathering техник Один из применяемых способов состоит в том что проводится дополнительный поиск в котором кандидат добавляется в качестве required term к первичному запросу извлеченному из вопроса Это будет приводить к получению выражений содержащих кандидата в контексте первичных терминов вопросаПоддерживающие доказательства могут быть извлечены и из других источников например из RDF баз знаний Извлеченные поддерживающие доказательства направляются модули глубокого скоринга которые анализируют кандидата в контексте поддерживающего доказательства

bull Scoring ndash скоринг (количественное оценивание)

Алгоритмы скоринга определяют степень несомненности которую обеспечивают доказательства в поддержку кандидата The DeepQA framework поддерживает множество компонент для выработки оценки в различных измерениях каждого доказательства которая вырабатывает оценку связанную с тем насколько хорошо доказательство поддерживает кандидата на ответ в качестве ответа на заданный вопросDeepQA использует общий формат для оценок для принятых гипотез и подтверждающих оценок отражающих семантические и ограничивающие факторы Это позволяет разработчикам DeepQA быстро разворачивать перемешивать и настраивать сложные совокупности модуле для обработкиНапрмер Watson использует больше чем 50 скоринговых компонент Они производят оценки разноготипа от оценок вероятностей до подсчета категориальных свойств основанных на доказательствах от различных источников включая неструктурированные тексты полуструктурированные тексты и RDF хранилища Эти оценки используют такие данные как degree of match between a passagersquos predicate-argument structure and the question passage source reliability geospatial location temporal relationships taxonomic classification the lexical and semantic relations the candidate is known to participate in the candidatersquos correlation with question terms its popularity (or obscurity) its aliases and so on

Вопрос Чили имеет самую длинную общую границу со страной Сгенерировано несколько кандидатов среди них Аргентина и Боливия Первичный поиск даст приоритет Боливии из=а популярности обсуждений их отношений Однако собранные Watson доказательства из других источников показывают более высокую оценку для Аргентины

Скоринг (взвешивание) доказательств ndash предиктивная аналитика

- При делении клеток митозом называется деление ядра а цитокинезом ndash деление этой жидкости в которой находится ядро

Генерирование кандидатов Сбор доказательств Уверенность в доказательстве

ОрганеллыВакуольЦитоплазмаПлазмамитохондрии

Органеллы ndash не жидкостьВакуоль ndash не жидкостьЦитоплазма ndash возможно жидкостьПлазма ndash не жидкостьМитохондрии ndash не жидкость

Цитоплазма ndash 92Органеллы ndash 19Вакуоль ndash 10Плазма ndash 2Митохондрии ndash 2

Answer Merging ndash объединение ответов

Многие кандидаты в ответы на поставленный вопрос могут быть эквивалентны несмотря на различные внешне формыТехники ранжирования тем не менее рассматривают таких кандидатов как различные Без объединения алгоритмы ранжирования будут работать отдельно с эквивалентными сущностями и пытаться противопоставить одну форму другой Это приведет к проблемам принятия решений Watson содержит алгоритмы идентификации эквивалентных сущностей используя множественные сравнения нормализацию и методы разрешения совместных ссылок

Ranking and Confidence Estimation ndash ранжирование и оценивание доверияПосле объединения система должна произвести ранжирование гипотез и оценивает доверие основанное на объединенных оценках В системе подобран ML подход основанный на обучении на обучающем наборе вопросов с известными ответами и обучение модели основываясь на скоринге Применяется как весьма плоская модель и существующие алгоритмы ранжирования Для более тонких оценок применяется двухфазный процесс использующий группы оценок для оценивания профиля и для оценки доверия Используя эту промежуточную модель система производит ансамбль промежуточных оценок Здесь используется иерархическая техника метаучителя и коллектива экспертов Этот подход обеспечивает итеративное расширение обучения используя изощренные и глубокие иерархические модели обеспечивающие гибкость и робастность при выработке оценок и модифицирует системуМетаучитель в Watson использует набор многие обучаемые модели чтобы управлять различными классами вопросов которые могут быть критическими при идентификации правильных ответовНаконец важно что использование NLP-based скоринга дает весьма разреженные оценки и требует точного оценивания с применением confidence-weighted learning techniques

Развертывание Watson

bull DeepQA разработан используя Apache UIMA - framework implementation of the Unstructured Information Management Architecture (Ferrucci and Lally 2004) UIMA был разработан для поддержки взаимодействия и масштабирования приложений обработки текста и мультимодального анализа Все компоненты DeepQA имплементированы как UIMA annotators Это программные компоненты для анализа текста и получения аннотаций или заключений о тексте Watson развивался в процессе разработки от нескольких компонент до нескольких сотен UIMA обеспечивает быструю интеграцию компонент тестирование и исследование

bull Начальная имплементация Watson запускалась на одном процессоре и требовала 2 часа на ответ на один вопрос DeepQA развился в параллельную систему используя UIMA-AS часть Apache UIMA масштабируя приложения UIMA используя асинхронный механизм месседжинга UIMA-AS позволила масштабировать Watson более чем на 2500 вычислительных ядер UIMA-AS управляет коммуникациями месседжингом управлением запросами используя open JMS standard UIMA-AS позволил снизить латентность Watson до 3ndash5 секунд

bull Для препроцессинга корпуса текстов создания быстрых run-time indices использован Hadoop

UIMA annotators были развернуты как mapper ы в Hadoop map-reduce framework Hadoop распределяет контент по кластеру для обеспечения высокого использования CPU и обеспечивает подходящий набор инструментов для deploying managing and monitoring the corpus analysis process

bull Аппаратная платформа ndash это 90 серверов 2800 ядер 15 ТБ RAM 80 Тфлопс $3 000 000 10 R

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 20: !Predictive analytics part_3

Модель векторного пространства

bull Наиболее распространенный вариант LSA основан на использовании разложения вещественнозначной матрицы по сингулярным значениям или SVD-разложения (SVD ndash Singular Value Decomposition) С помощью него любую матрицу можно разложить в множество ортогональных матриц линейная комбинация которых является достаточно точным приближением к исходной матрице Обычно используют мультипликативное разложение

bull где матрицы U и V ndash ортогональные а S ndash диагональная матрица значения на диагонали которой называются сингулярными значениями матрицы A

bull Символ Т в обозначении матрицы означает транспонирование матрицы

bull Основная идея латентно-семантического анализа состоит в следующем

bull после перемножения матриц полученная матрица Ă содержащая только k первых линейно независимых компонент исходной матрицы A отражает структуру зависимостей (в данном случае ассоциативных) латентно присутствующих в исходной матрице Структура зависимостей определяется весовыми функциями термов для каждого документа

Особенность такого разложения в том что если в матрице S оставить только k наибольших сингулярных значений то линейная комбинация получившихся матриц будет наилучшим приближением исходной матрицы A к матрице Ă ранга k

Пример

bull c1 Human machine interface for ABC computer applicationsbull c2 A survey of user opinion of computer system response timebull c3 The EPS user interface management systembull c4 System and human system engineering testing of EPSbull c5 Relation of user perceived response time to error measurementbull m1 The generation of random binary ordered treesbull m2 The intersection graph of paths in treesbull m3 Graph minors IV Widths of trees and well-quasi-orderingbull m4 Graph minors A survey

Желтым отмечены слова встречающиеся хотя бы в двух заголовках

После SVD

Семантическое пространство

Матрица расстояний между словами

Результат снижения размерности кластеризация [human interface computer user EPS response time][survey trees graph minors]

Расстояния между заголовками до и после SVD

bull Объем корпуса для построения модели должен быть большим ndash желательно около трех-пяти миллионов словоупотреблений Но метод работает и на коллекциях меньшего объема правда несколько хужеПроизвольное разбиение текста на документы обычно производят от тысячи до нескольких десятков тысяч частей примерно одинакового объема Таким образом матрица термы-на-документы получается прямоугольной и может быть сильно разраженной Например при объеме 5 млн словоформ получается матрица 30-50 тысяч документов на 200-300 тысяч а иногда и более термов В действительности низкочастотные термы можно опустить тк это заметно снизит размерность матрицы (скажем если не использовать 5 от общего объема низкочастотных термов то размерность сократиться в два раза) что приведет к снижению вычислительных ресурсов и времениВыбор сокращения сингулярных значений диагональной матрицы (размерности k) при обратном перемножении матриц достаточно произвольно При вышеуказанной размерности матрицы оставляют несколько сотен (100-300) главных компонент При этом как показывает практика зависимость количества компонент и точность меняются нелинейно например если начинать увеличивать их число то точность будет падать но при некотором значении скажем 10000 ndash опять вырастет до оптимального случая

Применение

bull сравнение двух термов между собойbull сравнение двух документов между собойbull сравнение терма и документа

Так же иногда этот метод используют для нахождения laquoближайшего соседаraquo mdash наиболее близких по весу термов ассоциативно связанных с исходным Это свойство используют для поиска близких по смыслу термов Следует уточнить что близость по смыслу ndash это контекстнозависимая величина поэтому не всякий близкий терм будет соответствовать ассоциации (это может быть и синоним и антоним и просто часто встречающееся вместе с искомым термом слово или словосочетание)

bull Достоинством метода можно считать его замечательную способность выявлять зависимости между словами когда обычные статистические методы бессильны LSA также может быть применен как с обучением (с предварительной тематической классификацией документов) так и без обучения (произвольное разбиение произвольного текста) что зависит от решаемой задачи

bull Об основных недостатках значительное снижение скорости вычисления при увеличении объема входных данных (в частности при SVD-преобразовании)

bull Как показано в литературе скорость вычисления соответствует порядку где сумма количества документов и термов kndash размерность пространства факторов

На рисунке показано возникновение и изменение главных факторов при уменьшении числа сингулярных элементов диагональной матрицы от 100 до ~12 Трехмерные рисунки представляют собой симметричную матрицу полученную в результате вычисления скалярного произведения векторов каждого эталонного документа с каждым тестируемым Эталонный набор векторов ndash это заранее размеченный на 30 документов текст тестируемый ndash с уменьшением числа сингулярных значений диагональной матрицы полученной при SVD-анализе На осях X и Y откладывается количество документов (эталонных и тестируемых) на оси Z ndash объем лексиконаНа рисунках хорошо видно что при уменьшении числа сингулярных диагональных элементов на 20-30 факторы еще не достаточно ярко выявлены но при этом возникают корреляции похожих документов (небольшие пики вне диагонали) которые сначала незначительно увеличиваются а затем с уменьшением числа сингулярных значений (до 70-80) ndash исчезают При автоматической кластеризации такие пики являются шумом поэтому их желательно минимизировать Если же целью является получение ассоциативных связей внутри документов то следует найти оптимальное соотношение сохранения основного лексикона и примешивания ассоциативного

Имплементация в R - Package lsquolsarsquoalnumx - Regular expression for removal of non-alphanumeric characters (saving special characters)

astextmatrix - Display a latent semantic space generated by Latent Semantic Analysis (LSA)

associate - Find close terms in a textmatrix

corpora - Corpora (Essay Scoring) dimcalc Dimensionality Calculation Routines (LSA)

dimcalc - Dimensionality Calculation Routines (LSA)

lsa - Create a vector space with Latent Semantic Analysis (LSA)

printtextmatrix - Print a textmatrix (Matrices)

sampletextmatrix - Create a random sample of files

textmatrix - Создает Textmatrix (Matrices) из файлов

Пример 1

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) read files into a document-term matrixmyMatrix = textmatrix(td minWordLength=1) create the latent semantic spacemyLSAspace = lsa(myMatrix dims=dimcalc_raw()) display it as a textmatrix againround(astextmatrix(myLSAspace)2) should give the original create the latent semantic spacemyLSAspace = lsa(myMatrix dims=dimcalc_share())

Пример 2

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) create matricesmyMatrix = textmatrix(td minWordLength=1)myLSAspace = lsa(myMatrix dims=dimcalc_share())myNewMatrix = astextmatrix(myLSAspace) calc associations for mouseassociate(myNewMatrix mouse) clean upunlink(td recursive=TRUE)

Пример 3 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(ham mouse sushi) file=paste(td D2 sep=) )write( c(dog pet pet) file=paste(td D3 sep=) ) LSAdata(stopwords_en)myMatrix = textmatrix(td stopwords=stopwords_en)myMatrix = lw_logtf(myMatrix) gw_idf(myMatrix)myLSAspace = lsa(myMatrix dims=dimcalc_share())astextmatrix(myLSAspace) clean upunlink(td recursive=TRUE)

Пример 4 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(hamster mouse sushi) file=paste(td D2 sep=) )write( c(dog monster monster) file=paste(td D3 sep=) ) read them create a document-term matrixtextmatrix(td) read them drop german stopwordsdata(stopwords_de)textmatrix(td stopwords=stopwords_de) read them based on a controlled vocabularyvoc = c(dog mouse)textmatrix(td vocabulary=voc minWordLength=1) clean up

Вместо заключения Очевидным недостатком LSA является ненормальность (негаусовость) вероятностного распределения слов в любом естественном языке Но эту проблему можно решить сглаживанием выборки (например применив фонетические слова распределение становится более laquoнормальнымraquo) Либо используют вероятностный LSA тназ PLSA основанный на мультиноминальном распределении Другим менее очевидным недостаткам LSA (и ему подобных методов) применительно к обработке неструктурированной информации можно отнести laquoтуманностьraquo самого метода (в частности выбора кол-ва сингулярных значений диагональной матрицы) и интерпретации результата не говоря уже о проблеме сбалансированности обучающего текста

Как правило для качественного построения модели оставляют менее 1-2 процента от общего числа диагональных значений (после SVD преобразования но об это в следующем посте) И как показывает практика увеличение числа факторов приводит к ухудшению результата Но дойдя примерно до 10 процентов от общего числа диагональных значений опять может быть всплеск аналогичный результату полученному при 1

Сбалансированность корпуса ndash вечная проблема которая не имеет хорошего решения на сегодняшний день Поэтому про нее приято помалкивать

Интерпретируемость результатов LSA (как и DLA) также затруднительна человек еще может понять что за тематику будет содержать топик полученный в результате анализа а вот машине не понять (не аннотировать) тематику без привлечения большого числа хороших и разных тезаурусов

Таким образом несмотря на трудоемкость и непрозрачность LSA он может успешно применяться для разного рада задач где важно поймать семантику сообщения обобщить или расширить laquoсмыслыraquo поискового запроса

bull Стандарт основанный на XML для обмена моделями статистической обработки Data Mining

bull Поддерживается более 20 организациями и поставщиками ПО

bull Реализован в частности и в R

Поддерживаемые предиктивные алгоритмы в R

Состав pmml package

bull addLT

bull addMSAttributes

bull audit

bull fileToXMLNode

bull pmml

bull pmmlada

bull pmmlcoxph

bull pmmlcvglmnet

bull pmmlglm

bull pmmlhclust

bull pmmlkmeans

bull pmmlksvm

bull pmmllm bull pmmlmultinom bull pmmlnaiveBayes bull pmmlnnet bull pmmlrandomForest bull pmmlrfsrc bull pmmlrpart bull pmmlrules bull pmmlsvm bull pmmlCanExport bull pmmltoc

Пример

Good by R see you later alligator

WATSON ndash одно из наиболее впечатляющих применений предиктивной аналитики

Разрабатывался компанией IBM с 2006 по 2010 годПрославился победой в телешоу Jeopardy (в России ndash laquoСвоя играraquo) в 2011 годуПредшественник Deep Blue обыграл чемпиона мира по шахматам Гарри Каспарова в 1997 г

>

IBM Deep QA Project

bull Целью проекта было создать компьютерную систему (ИИ) для ответа на вопросы (QA) задаваемые в свободной форме в телешоу и показать результаты соизмеримые с человеческими

bull Задача более сложная чем шахматная программа Deep Blue выигравшая у Каспарова в 1997 г

bull Вопросы по категориямCategory General ScienceClue When hit by electrons a phosphor gives off electromagnetic energy in this formAnswer Light (or Photons)

Category Lincoln BlogsClue Secretary Chase just submitted this to me for the third time guess what pal This time Irsquom accepting itAnswer his resignation

Category Head NorthClue Theyrsquore the two states you could be reentering if yoursquore crossing Floridarsquos northern borderAnswer Georgia and Alabama

Вопросы могут касаться сразу нескольких фактов чтобы ответ был вернымCategory ldquoRaprdquo SheetClue This archaic term for a mischievous or annoying child can also mean a rogue or scampSubclue 1 This archaic term for a mischievous or annoying childSubclue 2 This term can also mean a rogue or scampAnswer Rapscallion

Category Diplomatic RelationsClue Of the four countries in the world that the United States does not have diplomatic relations with the one thatrsquos farthest northInner subclue The four countries in the world that the United States does not have diplomatic relations with (Bhutan Cuba Iran North Korea)Outer subclue Of Bhutan Cuba Iran and North Korea the one thatrsquos farthest northAnswer North Korea

Вопросы - пазлы

Category Before and After Goes to the MoviesClue Film of a typical day in the life of the Beatles which includes running from bloodthirsty zombie fans in a Romero classicSubclue 2 Film of a typical day in the life of the Beatles Answer 1 (A Hard Dayrsquos Night)Subclue 2 Running from bloodthirsty zombie fans in a Romero classicAnswer 2 (Night of the Living Dead)Answer A Hard Dayrsquos Night of the Living Dead

Category Rhyme TimeClue Itrsquos where Pele stores his ballSubclue 1 Pele ball (soccer)Subclue 2 where store (cabinet drawer locker and so on)Answer soccer locker

Недопустимые типы вопросов

oCategory Picture This(Contestants are shown a picture of a B-52 bomber)Clue Alphanumeric name of the fearsome machine seen hereAnswer B-52

oCategory Decode the Postal CodesVerbal instruction from host Wersquore going to give you a word comprising two postal abbreviations you have to identify the statesClue VainAnswer Virginia and Indiana

Лексические типы ответа ndash LAT (Lexical Answer Type)

Метрики качества ответов - результативность

Показатели двух теоретических QA систем

Показатели результативности чемпионов шоу (2000)

Облако победителей

Линия сравнения результативности (baseline performance)

Сравнение системы тестового поиска и поиска в базе знаний

Результативность Watson (по версиям)

Основы подхода Deep QA

bull Massive parallelism использование высокого параллелизма при рассмотрении множественных интерпретаций и гипотез

bull Many experts привлечение интеграции приложения и контекстуального оценивания в широком диапазоне слабосвязанных вероятностных вопросов и контентной аналитики

bull Pervasive confidence estimation повсеместная оценка доверия означает что ни один из компонентов не включается в ответ сразу все компоненты имеют признаки и связанные с ними уровни доверия производится скоринг различных вопросов и контентная интерпретация Основа confidence-processing состоит в обучении как стэкировать и комбинировать баллы

bull Integrate shallow and deep knowledge интеграция поверхностных и глубинных знаний состоит в балансе использования строгой семантики и мелких семантик использующих множества слабо сформированных онтологий

bull Content Acquisition - Сбор контентаСочетает ручные и автоматические этапы Первым шагом является анализ примеров вопросов проблемного пространства чтобы произвести описание видов вопросов на которые нужно ответить и характеризовать область применения Анализ примеров вопросов в первую очередь ручная задача в то время как анализ области может быть выполнен путем автоматических или статистических методов таких как анализ LAT показанный ранее Учитывая вопросы для широкого домена Jeopardy Challenge источники для Watson включают широкий ассортимент энциклопедий словарей тезаурусов Newswire статьи литературные произведения и тд Начиная с разумного размера базового корпуса DeepQA затем применяет автоматический процесс расширения корпуса Процесс включает в себя четыре этапа высокого уровня (1) выявления основных документов и получить соответствующие документы из Интернет (2) извлечь автономные текстовые ядра из связанных веб-документов (3) Оценка на основе ядер являются ли они информативны по отношению к исходному основному документу и (4) объединить наиболее информативные ядра в расширенном корпусе Работающая система использует этот расширенный корпус и не имеет доступа к Интернет во время игры

bull Question Analysis ndash Анализ вопроса

Первый шаг во время выполнения процесса вопрос-ответной системы При анализе вопроса система пытается понять что вопрос задан и выполняет начальный анализ определяющий как вопрос будет обработан на остальных этапах работы системы Подход DeepQA использует смешанный набор экспертов на данном этапе и в системе Watson производится мелкий парсинг глубокий парсинг строятся логические формы семантические этикетки ролей взаимные ссылки отношения именованные сущности и так далее а также конкретные виды анализа для ответа вопрос

bull Question classification - Классификация вопроса

Это задача выявления типа вопроса или частей вопроса которые требуют специальной обработки Это может включать в себя что-нибудь из отдельных слов с двойным смыслом и потенциально до выявления целых статей которые имеют определенную синтаксическую семантическую или риторические функциональные возможности которые могут инициировать нисходящий анализ Классификация может определить вопрос как вопрос- головоломку вопрос-математику -определение и так далее Это будет определять каламбуры ограничения компоненты определений или целые подвопросы в пределах вопросов

bull Focus and LAT Detection ndash Определение фокуса и лексического типа ответа

Лексический тип ответа - это слово или словосочетание в вопросе который определяет тип ответа без попытки понять семантику Определение LAT является важным видом выигрыша и общим источником критических ошибок Преимущество подхода DeepQA является использование многих самостоятельно разработанных алгоритмов laquoответ-типированияraquo Например фокус вопроса викторины laquoПри попадании электронов люминофор излучает электромагнитную энергию в этой формеraquo - является laquoэта формаraquo Фокус часто (но не всегда) содержит полезную информацию об ответе часто субъект или объект отношение в вопросе и может превратить вопрос в фактическое утверждение при замене возможным кандидатом Это представляет полезный способ собирать доказательства о каждом кандидате

bull Relation Detection ndash детектирование отношений

Большинство вопросов содержит отношения являются ли они синтаксическими предикатами субъект-глагол-объект или семантические отношения между субъектами Например в вопросе laquoЕсть два штата в которые вы могли бы войти повторно если вы пересекаете северную границу штата Флоридаraquo мы можем обнаружить отношение границы (Флорида Х к северу) Watson использует обнаружение отношения на протяжении всего процесса QA от фокуса и LAT определения до прохождению и скорингу ответов Watson также может использовать обнаруженные отношения для выделения хранилища триплетов и напрямую генерировать кандидатов в ответы В 20000 игр Jeopardy вопросы например обнаружили распределение Freebase отношений чрезвычайно плоского вида (см рисунок) Это приближение распределеня 50 наиболее частых отношений в 20 000 случайно выбранных вопросах викторины

bull Decomposition ndash декомпозиция

Важным требованием успеха анализа Jeopardy является способность отвечать на вопросы которые разложены на составляющие DeepQA использует основанный на правилах глубокий парсинг и статистические методы классификации чтобы наилучшим образом разложить вопросы на элементы и определить как лучше разбить их на подвопросы Операционная гипотеза что правильная интерпретация вопроса позволит лучше произвести скоринг ответов после того как все доказательства собраны Даже если вопрос не должен быть разложен для определения ответа этот метод может помочь улучшить общее доверие ответу системы DeepQA решает задачи параллельно для каждого разложения применяя алгоритмы от начала до конца каждого подвопроса и синтезирует окончательные ответы DeepQA также поддерживает вложенные декомпозиции вопросов через рекурсивное применение QA системы от начала до конца в внутреннем подвопросе а затем во внешнем Настраиваемые компоненты позволяют легко подключать специализированные алгоритмы синтеза в общую систему

bull Hypothesis Generation ndash генерация гипотез

Генерация гипотез принимает результаты анализа вопросов и производит кандидатов на ответы Каждый кандидат ответ включается обратно в вопрос и это считается как гипотеза Система должна доказать правильность этой гипотезы с некоторой степенью уверенности Как и во всех аспектах DeepQA используется смесь разных подходов для первичного поиска и генерации кандидата в системе Watson

bull Primary Search ndash первичный поиск

В этом поиске целью является найти столько потенциально кандидатов сколько это можно сделать на основе результатов анализа вопроса В течение проекта велись эмпирические исследования направленные на баланс скорости объема и точности Эти исследования позволили регулярно настраивать систему так чтобы найти такое количество кандидатов которые производят наилучший баланс точности и вычислительных ресурсов Оперативная цель основного поиска в конечном счете стабилизировалась на около 85 процентов для топ-250 кандидатов то есть система генерирует правильный ответ как кандидата ответа на 85 процентов вопросов где-то в верхних 250 ранжированных кандидатов Разнообразие методов поиска используются в том числе с использованием нескольких текст поисковых системах с различными базовыми подходами (например Indri и Lucene) поиск документов а также поиска маршрута база знаний поиска с помощью SPARQL хранилища триплетов Для небольшого количества латов которые были определены как закрытые латы кандидат на ответ может быть получен из фиксированного списка в каком-то хранилище известных экземпляров LAT таких как США Президент или Страна

Поиск доказательств

bull Поиск по фразе ndash число соответствий разного типав ответе и вопросеbull Популярность ndash как часто встречается этот вариант ответаbull Соответствие по типу ndash ответ и требование вопросаbull Соответствие по времениbull Надежность источника

bull Candidate Answer Generation ndash генерирование кандидатов на ответ

Результаты поиска применяются для генерирования возможных кандидатов в ответы с помощью различных подходящих техник Для поиска документов извлекаются заголовки и используются как кандидаты Число кандидатов при этом может быть не единственным и требовать использования анализа подстрок и ссылок Используя детектирование именованных сущностей в ряде случаев удается извлечь хороших кандидатов В зависимости от типа источника для генерирования кандидата требуется разный набор алгоритмов например база знаний или обратный словарь порождают кандидатов непосредственно как кандидата Этот этап критически важен и если кандидаты не найдены то фиксируется невозможность ответа В нормальном режиме на этом этапе Watson гененерирует несколько сотен андидатов

bull Soft Filtering ndash мягкая фильтрацияДля ускорения процесса скоринга кандидатов Watson использует различные алгоритмы разной точности Более легковесные (менее вычислительно интенсивные) применяются на первом этапе скоринга На этом этапе устанавливается порог оценки и кандидаты имеющие более высокую оценку считаются прошедшими мягкую фильтрацию Они поступают на выработку гипотез и скоринг доказательств Интересно что кандидаты не прошедшие порог мягкой фильтрации не забываются а направляются прямо на финальный этап слияния Модель скоринга мягкой фильтрации и порога определяются на основе machine learning используя обучающие данные Watson типично пропускает через мягкую фильтрацию 100 кандидатов но эта функция параметризована и их число можно изменить

Проблемы NLP

bull В мае 1898 года Португалия отмечала 400-летний юбилей со дня прибытия этого великого путешественника в Индию

В мае Гари прибыл в Индию после празднования своего юбилея в Португалии

21 мая 1498 года Васка де Гама высадился в местечке Каппад

bull Он был помилован президентом 8 сентября 1974 годаФорд помиловал Никсона 8 сентября 1974 года Никсон Форд

bull Говоря ldquogive a trinklerdquo что предлагают вам сделать британцы по приезду в город

bull Hypothesis and Evidence Scoring ndash скоринг гипотез и доказательств

Прошедшие порог мягкой фильтрации кандидаты поступают на скрупулезный процесс который включает сбор дополнительных поддерживающих доказательств для каждого кандидата на ответ или гипотезу Процесс использует широкий набор различных методов скоринговой аналитики чтобы исследовать все поддерживающие доказательства

bull Evidence Retrieval ndash извлечение доказательств

Чтобы лучше исследовать каждого кандидата прошедшего через мягкую фильтрацию система собирает дополнительные поддерживающие доказательства Архитектура поддерживает интеграцию различных evidence-gathering техник Один из применяемых способов состоит в том что проводится дополнительный поиск в котором кандидат добавляется в качестве required term к первичному запросу извлеченному из вопроса Это будет приводить к получению выражений содержащих кандидата в контексте первичных терминов вопросаПоддерживающие доказательства могут быть извлечены и из других источников например из RDF баз знаний Извлеченные поддерживающие доказательства направляются модули глубокого скоринга которые анализируют кандидата в контексте поддерживающего доказательства

bull Scoring ndash скоринг (количественное оценивание)

Алгоритмы скоринга определяют степень несомненности которую обеспечивают доказательства в поддержку кандидата The DeepQA framework поддерживает множество компонент для выработки оценки в различных измерениях каждого доказательства которая вырабатывает оценку связанную с тем насколько хорошо доказательство поддерживает кандидата на ответ в качестве ответа на заданный вопросDeepQA использует общий формат для оценок для принятых гипотез и подтверждающих оценок отражающих семантические и ограничивающие факторы Это позволяет разработчикам DeepQA быстро разворачивать перемешивать и настраивать сложные совокупности модуле для обработкиНапрмер Watson использует больше чем 50 скоринговых компонент Они производят оценки разноготипа от оценок вероятностей до подсчета категориальных свойств основанных на доказательствах от различных источников включая неструктурированные тексты полуструктурированные тексты и RDF хранилища Эти оценки используют такие данные как degree of match between a passagersquos predicate-argument structure and the question passage source reliability geospatial location temporal relationships taxonomic classification the lexical and semantic relations the candidate is known to participate in the candidatersquos correlation with question terms its popularity (or obscurity) its aliases and so on

Вопрос Чили имеет самую длинную общую границу со страной Сгенерировано несколько кандидатов среди них Аргентина и Боливия Первичный поиск даст приоритет Боливии из=а популярности обсуждений их отношений Однако собранные Watson доказательства из других источников показывают более высокую оценку для Аргентины

Скоринг (взвешивание) доказательств ndash предиктивная аналитика

- При делении клеток митозом называется деление ядра а цитокинезом ndash деление этой жидкости в которой находится ядро

Генерирование кандидатов Сбор доказательств Уверенность в доказательстве

ОрганеллыВакуольЦитоплазмаПлазмамитохондрии

Органеллы ndash не жидкостьВакуоль ndash не жидкостьЦитоплазма ndash возможно жидкостьПлазма ndash не жидкостьМитохондрии ndash не жидкость

Цитоплазма ndash 92Органеллы ndash 19Вакуоль ndash 10Плазма ndash 2Митохондрии ndash 2

Answer Merging ndash объединение ответов

Многие кандидаты в ответы на поставленный вопрос могут быть эквивалентны несмотря на различные внешне формыТехники ранжирования тем не менее рассматривают таких кандидатов как различные Без объединения алгоритмы ранжирования будут работать отдельно с эквивалентными сущностями и пытаться противопоставить одну форму другой Это приведет к проблемам принятия решений Watson содержит алгоритмы идентификации эквивалентных сущностей используя множественные сравнения нормализацию и методы разрешения совместных ссылок

Ranking and Confidence Estimation ndash ранжирование и оценивание доверияПосле объединения система должна произвести ранжирование гипотез и оценивает доверие основанное на объединенных оценках В системе подобран ML подход основанный на обучении на обучающем наборе вопросов с известными ответами и обучение модели основываясь на скоринге Применяется как весьма плоская модель и существующие алгоритмы ранжирования Для более тонких оценок применяется двухфазный процесс использующий группы оценок для оценивания профиля и для оценки доверия Используя эту промежуточную модель система производит ансамбль промежуточных оценок Здесь используется иерархическая техника метаучителя и коллектива экспертов Этот подход обеспечивает итеративное расширение обучения используя изощренные и глубокие иерархические модели обеспечивающие гибкость и робастность при выработке оценок и модифицирует системуМетаучитель в Watson использует набор многие обучаемые модели чтобы управлять различными классами вопросов которые могут быть критическими при идентификации правильных ответовНаконец важно что использование NLP-based скоринга дает весьма разреженные оценки и требует точного оценивания с применением confidence-weighted learning techniques

Развертывание Watson

bull DeepQA разработан используя Apache UIMA - framework implementation of the Unstructured Information Management Architecture (Ferrucci and Lally 2004) UIMA был разработан для поддержки взаимодействия и масштабирования приложений обработки текста и мультимодального анализа Все компоненты DeepQA имплементированы как UIMA annotators Это программные компоненты для анализа текста и получения аннотаций или заключений о тексте Watson развивался в процессе разработки от нескольких компонент до нескольких сотен UIMA обеспечивает быструю интеграцию компонент тестирование и исследование

bull Начальная имплементация Watson запускалась на одном процессоре и требовала 2 часа на ответ на один вопрос DeepQA развился в параллельную систему используя UIMA-AS часть Apache UIMA масштабируя приложения UIMA используя асинхронный механизм месседжинга UIMA-AS позволила масштабировать Watson более чем на 2500 вычислительных ядер UIMA-AS управляет коммуникациями месседжингом управлением запросами используя open JMS standard UIMA-AS позволил снизить латентность Watson до 3ndash5 секунд

bull Для препроцессинга корпуса текстов создания быстрых run-time indices использован Hadoop

UIMA annotators были развернуты как mapper ы в Hadoop map-reduce framework Hadoop распределяет контент по кластеру для обеспечения высокого использования CPU и обеспечивает подходящий набор инструментов для deploying managing and monitoring the corpus analysis process

bull Аппаратная платформа ndash это 90 серверов 2800 ядер 15 ТБ RAM 80 Тфлопс $3 000 000 10 R

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 21: !Predictive analytics part_3

bull Основная идея латентно-семантического анализа состоит в следующем

bull после перемножения матриц полученная матрица Ă содержащая только k первых линейно независимых компонент исходной матрицы A отражает структуру зависимостей (в данном случае ассоциативных) латентно присутствующих в исходной матрице Структура зависимостей определяется весовыми функциями термов для каждого документа

Особенность такого разложения в том что если в матрице S оставить только k наибольших сингулярных значений то линейная комбинация получившихся матриц будет наилучшим приближением исходной матрицы A к матрице Ă ранга k

Пример

bull c1 Human machine interface for ABC computer applicationsbull c2 A survey of user opinion of computer system response timebull c3 The EPS user interface management systembull c4 System and human system engineering testing of EPSbull c5 Relation of user perceived response time to error measurementbull m1 The generation of random binary ordered treesbull m2 The intersection graph of paths in treesbull m3 Graph minors IV Widths of trees and well-quasi-orderingbull m4 Graph minors A survey

Желтым отмечены слова встречающиеся хотя бы в двух заголовках

После SVD

Семантическое пространство

Матрица расстояний между словами

Результат снижения размерности кластеризация [human interface computer user EPS response time][survey trees graph minors]

Расстояния между заголовками до и после SVD

bull Объем корпуса для построения модели должен быть большим ndash желательно около трех-пяти миллионов словоупотреблений Но метод работает и на коллекциях меньшего объема правда несколько хужеПроизвольное разбиение текста на документы обычно производят от тысячи до нескольких десятков тысяч частей примерно одинакового объема Таким образом матрица термы-на-документы получается прямоугольной и может быть сильно разраженной Например при объеме 5 млн словоформ получается матрица 30-50 тысяч документов на 200-300 тысяч а иногда и более термов В действительности низкочастотные термы можно опустить тк это заметно снизит размерность матрицы (скажем если не использовать 5 от общего объема низкочастотных термов то размерность сократиться в два раза) что приведет к снижению вычислительных ресурсов и времениВыбор сокращения сингулярных значений диагональной матрицы (размерности k) при обратном перемножении матриц достаточно произвольно При вышеуказанной размерности матрицы оставляют несколько сотен (100-300) главных компонент При этом как показывает практика зависимость количества компонент и точность меняются нелинейно например если начинать увеличивать их число то точность будет падать но при некотором значении скажем 10000 ndash опять вырастет до оптимального случая

Применение

bull сравнение двух термов между собойbull сравнение двух документов между собойbull сравнение терма и документа

Так же иногда этот метод используют для нахождения laquoближайшего соседаraquo mdash наиболее близких по весу термов ассоциативно связанных с исходным Это свойство используют для поиска близких по смыслу термов Следует уточнить что близость по смыслу ndash это контекстнозависимая величина поэтому не всякий близкий терм будет соответствовать ассоциации (это может быть и синоним и антоним и просто часто встречающееся вместе с искомым термом слово или словосочетание)

bull Достоинством метода можно считать его замечательную способность выявлять зависимости между словами когда обычные статистические методы бессильны LSA также может быть применен как с обучением (с предварительной тематической классификацией документов) так и без обучения (произвольное разбиение произвольного текста) что зависит от решаемой задачи

bull Об основных недостатках значительное снижение скорости вычисления при увеличении объема входных данных (в частности при SVD-преобразовании)

bull Как показано в литературе скорость вычисления соответствует порядку где сумма количества документов и термов kndash размерность пространства факторов

На рисунке показано возникновение и изменение главных факторов при уменьшении числа сингулярных элементов диагональной матрицы от 100 до ~12 Трехмерные рисунки представляют собой симметричную матрицу полученную в результате вычисления скалярного произведения векторов каждого эталонного документа с каждым тестируемым Эталонный набор векторов ndash это заранее размеченный на 30 документов текст тестируемый ndash с уменьшением числа сингулярных значений диагональной матрицы полученной при SVD-анализе На осях X и Y откладывается количество документов (эталонных и тестируемых) на оси Z ndash объем лексиконаНа рисунках хорошо видно что при уменьшении числа сингулярных диагональных элементов на 20-30 факторы еще не достаточно ярко выявлены но при этом возникают корреляции похожих документов (небольшие пики вне диагонали) которые сначала незначительно увеличиваются а затем с уменьшением числа сингулярных значений (до 70-80) ndash исчезают При автоматической кластеризации такие пики являются шумом поэтому их желательно минимизировать Если же целью является получение ассоциативных связей внутри документов то следует найти оптимальное соотношение сохранения основного лексикона и примешивания ассоциативного

Имплементация в R - Package lsquolsarsquoalnumx - Regular expression for removal of non-alphanumeric characters (saving special characters)

astextmatrix - Display a latent semantic space generated by Latent Semantic Analysis (LSA)

associate - Find close terms in a textmatrix

corpora - Corpora (Essay Scoring) dimcalc Dimensionality Calculation Routines (LSA)

dimcalc - Dimensionality Calculation Routines (LSA)

lsa - Create a vector space with Latent Semantic Analysis (LSA)

printtextmatrix - Print a textmatrix (Matrices)

sampletextmatrix - Create a random sample of files

textmatrix - Создает Textmatrix (Matrices) из файлов

Пример 1

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) read files into a document-term matrixmyMatrix = textmatrix(td minWordLength=1) create the latent semantic spacemyLSAspace = lsa(myMatrix dims=dimcalc_raw()) display it as a textmatrix againround(astextmatrix(myLSAspace)2) should give the original create the latent semantic spacemyLSAspace = lsa(myMatrix dims=dimcalc_share())

Пример 2

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) create matricesmyMatrix = textmatrix(td minWordLength=1)myLSAspace = lsa(myMatrix dims=dimcalc_share())myNewMatrix = astextmatrix(myLSAspace) calc associations for mouseassociate(myNewMatrix mouse) clean upunlink(td recursive=TRUE)

Пример 3 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(ham mouse sushi) file=paste(td D2 sep=) )write( c(dog pet pet) file=paste(td D3 sep=) ) LSAdata(stopwords_en)myMatrix = textmatrix(td stopwords=stopwords_en)myMatrix = lw_logtf(myMatrix) gw_idf(myMatrix)myLSAspace = lsa(myMatrix dims=dimcalc_share())astextmatrix(myLSAspace) clean upunlink(td recursive=TRUE)

Пример 4 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(hamster mouse sushi) file=paste(td D2 sep=) )write( c(dog monster monster) file=paste(td D3 sep=) ) read them create a document-term matrixtextmatrix(td) read them drop german stopwordsdata(stopwords_de)textmatrix(td stopwords=stopwords_de) read them based on a controlled vocabularyvoc = c(dog mouse)textmatrix(td vocabulary=voc minWordLength=1) clean up

Вместо заключения Очевидным недостатком LSA является ненормальность (негаусовость) вероятностного распределения слов в любом естественном языке Но эту проблему можно решить сглаживанием выборки (например применив фонетические слова распределение становится более laquoнормальнымraquo) Либо используют вероятностный LSA тназ PLSA основанный на мультиноминальном распределении Другим менее очевидным недостаткам LSA (и ему подобных методов) применительно к обработке неструктурированной информации можно отнести laquoтуманностьraquo самого метода (в частности выбора кол-ва сингулярных значений диагональной матрицы) и интерпретации результата не говоря уже о проблеме сбалансированности обучающего текста

Как правило для качественного построения модели оставляют менее 1-2 процента от общего числа диагональных значений (после SVD преобразования но об это в следующем посте) И как показывает практика увеличение числа факторов приводит к ухудшению результата Но дойдя примерно до 10 процентов от общего числа диагональных значений опять может быть всплеск аналогичный результату полученному при 1

Сбалансированность корпуса ndash вечная проблема которая не имеет хорошего решения на сегодняшний день Поэтому про нее приято помалкивать

Интерпретируемость результатов LSA (как и DLA) также затруднительна человек еще может понять что за тематику будет содержать топик полученный в результате анализа а вот машине не понять (не аннотировать) тематику без привлечения большого числа хороших и разных тезаурусов

Таким образом несмотря на трудоемкость и непрозрачность LSA он может успешно применяться для разного рада задач где важно поймать семантику сообщения обобщить или расширить laquoсмыслыraquo поискового запроса

bull Стандарт основанный на XML для обмена моделями статистической обработки Data Mining

bull Поддерживается более 20 организациями и поставщиками ПО

bull Реализован в частности и в R

Поддерживаемые предиктивные алгоритмы в R

Состав pmml package

bull addLT

bull addMSAttributes

bull audit

bull fileToXMLNode

bull pmml

bull pmmlada

bull pmmlcoxph

bull pmmlcvglmnet

bull pmmlglm

bull pmmlhclust

bull pmmlkmeans

bull pmmlksvm

bull pmmllm bull pmmlmultinom bull pmmlnaiveBayes bull pmmlnnet bull pmmlrandomForest bull pmmlrfsrc bull pmmlrpart bull pmmlrules bull pmmlsvm bull pmmlCanExport bull pmmltoc

Пример

Good by R see you later alligator

WATSON ndash одно из наиболее впечатляющих применений предиктивной аналитики

Разрабатывался компанией IBM с 2006 по 2010 годПрославился победой в телешоу Jeopardy (в России ndash laquoСвоя играraquo) в 2011 годуПредшественник Deep Blue обыграл чемпиона мира по шахматам Гарри Каспарова в 1997 г

>

IBM Deep QA Project

bull Целью проекта было создать компьютерную систему (ИИ) для ответа на вопросы (QA) задаваемые в свободной форме в телешоу и показать результаты соизмеримые с человеческими

bull Задача более сложная чем шахматная программа Deep Blue выигравшая у Каспарова в 1997 г

bull Вопросы по категориямCategory General ScienceClue When hit by electrons a phosphor gives off electromagnetic energy in this formAnswer Light (or Photons)

Category Lincoln BlogsClue Secretary Chase just submitted this to me for the third time guess what pal This time Irsquom accepting itAnswer his resignation

Category Head NorthClue Theyrsquore the two states you could be reentering if yoursquore crossing Floridarsquos northern borderAnswer Georgia and Alabama

Вопросы могут касаться сразу нескольких фактов чтобы ответ был вернымCategory ldquoRaprdquo SheetClue This archaic term for a mischievous or annoying child can also mean a rogue or scampSubclue 1 This archaic term for a mischievous or annoying childSubclue 2 This term can also mean a rogue or scampAnswer Rapscallion

Category Diplomatic RelationsClue Of the four countries in the world that the United States does not have diplomatic relations with the one thatrsquos farthest northInner subclue The four countries in the world that the United States does not have diplomatic relations with (Bhutan Cuba Iran North Korea)Outer subclue Of Bhutan Cuba Iran and North Korea the one thatrsquos farthest northAnswer North Korea

Вопросы - пазлы

Category Before and After Goes to the MoviesClue Film of a typical day in the life of the Beatles which includes running from bloodthirsty zombie fans in a Romero classicSubclue 2 Film of a typical day in the life of the Beatles Answer 1 (A Hard Dayrsquos Night)Subclue 2 Running from bloodthirsty zombie fans in a Romero classicAnswer 2 (Night of the Living Dead)Answer A Hard Dayrsquos Night of the Living Dead

Category Rhyme TimeClue Itrsquos where Pele stores his ballSubclue 1 Pele ball (soccer)Subclue 2 where store (cabinet drawer locker and so on)Answer soccer locker

Недопустимые типы вопросов

oCategory Picture This(Contestants are shown a picture of a B-52 bomber)Clue Alphanumeric name of the fearsome machine seen hereAnswer B-52

oCategory Decode the Postal CodesVerbal instruction from host Wersquore going to give you a word comprising two postal abbreviations you have to identify the statesClue VainAnswer Virginia and Indiana

Лексические типы ответа ndash LAT (Lexical Answer Type)

Метрики качества ответов - результативность

Показатели двух теоретических QA систем

Показатели результативности чемпионов шоу (2000)

Облако победителей

Линия сравнения результативности (baseline performance)

Сравнение системы тестового поиска и поиска в базе знаний

Результативность Watson (по версиям)

Основы подхода Deep QA

bull Massive parallelism использование высокого параллелизма при рассмотрении множественных интерпретаций и гипотез

bull Many experts привлечение интеграции приложения и контекстуального оценивания в широком диапазоне слабосвязанных вероятностных вопросов и контентной аналитики

bull Pervasive confidence estimation повсеместная оценка доверия означает что ни один из компонентов не включается в ответ сразу все компоненты имеют признаки и связанные с ними уровни доверия производится скоринг различных вопросов и контентная интерпретация Основа confidence-processing состоит в обучении как стэкировать и комбинировать баллы

bull Integrate shallow and deep knowledge интеграция поверхностных и глубинных знаний состоит в балансе использования строгой семантики и мелких семантик использующих множества слабо сформированных онтологий

bull Content Acquisition - Сбор контентаСочетает ручные и автоматические этапы Первым шагом является анализ примеров вопросов проблемного пространства чтобы произвести описание видов вопросов на которые нужно ответить и характеризовать область применения Анализ примеров вопросов в первую очередь ручная задача в то время как анализ области может быть выполнен путем автоматических или статистических методов таких как анализ LAT показанный ранее Учитывая вопросы для широкого домена Jeopardy Challenge источники для Watson включают широкий ассортимент энциклопедий словарей тезаурусов Newswire статьи литературные произведения и тд Начиная с разумного размера базового корпуса DeepQA затем применяет автоматический процесс расширения корпуса Процесс включает в себя четыре этапа высокого уровня (1) выявления основных документов и получить соответствующие документы из Интернет (2) извлечь автономные текстовые ядра из связанных веб-документов (3) Оценка на основе ядер являются ли они информативны по отношению к исходному основному документу и (4) объединить наиболее информативные ядра в расширенном корпусе Работающая система использует этот расширенный корпус и не имеет доступа к Интернет во время игры

bull Question Analysis ndash Анализ вопроса

Первый шаг во время выполнения процесса вопрос-ответной системы При анализе вопроса система пытается понять что вопрос задан и выполняет начальный анализ определяющий как вопрос будет обработан на остальных этапах работы системы Подход DeepQA использует смешанный набор экспертов на данном этапе и в системе Watson производится мелкий парсинг глубокий парсинг строятся логические формы семантические этикетки ролей взаимные ссылки отношения именованные сущности и так далее а также конкретные виды анализа для ответа вопрос

bull Question classification - Классификация вопроса

Это задача выявления типа вопроса или частей вопроса которые требуют специальной обработки Это может включать в себя что-нибудь из отдельных слов с двойным смыслом и потенциально до выявления целых статей которые имеют определенную синтаксическую семантическую или риторические функциональные возможности которые могут инициировать нисходящий анализ Классификация может определить вопрос как вопрос- головоломку вопрос-математику -определение и так далее Это будет определять каламбуры ограничения компоненты определений или целые подвопросы в пределах вопросов

bull Focus and LAT Detection ndash Определение фокуса и лексического типа ответа

Лексический тип ответа - это слово или словосочетание в вопросе который определяет тип ответа без попытки понять семантику Определение LAT является важным видом выигрыша и общим источником критических ошибок Преимущество подхода DeepQA является использование многих самостоятельно разработанных алгоритмов laquoответ-типированияraquo Например фокус вопроса викторины laquoПри попадании электронов люминофор излучает электромагнитную энергию в этой формеraquo - является laquoэта формаraquo Фокус часто (но не всегда) содержит полезную информацию об ответе часто субъект или объект отношение в вопросе и может превратить вопрос в фактическое утверждение при замене возможным кандидатом Это представляет полезный способ собирать доказательства о каждом кандидате

bull Relation Detection ndash детектирование отношений

Большинство вопросов содержит отношения являются ли они синтаксическими предикатами субъект-глагол-объект или семантические отношения между субъектами Например в вопросе laquoЕсть два штата в которые вы могли бы войти повторно если вы пересекаете северную границу штата Флоридаraquo мы можем обнаружить отношение границы (Флорида Х к северу) Watson использует обнаружение отношения на протяжении всего процесса QA от фокуса и LAT определения до прохождению и скорингу ответов Watson также может использовать обнаруженные отношения для выделения хранилища триплетов и напрямую генерировать кандидатов в ответы В 20000 игр Jeopardy вопросы например обнаружили распределение Freebase отношений чрезвычайно плоского вида (см рисунок) Это приближение распределеня 50 наиболее частых отношений в 20 000 случайно выбранных вопросах викторины

bull Decomposition ndash декомпозиция

Важным требованием успеха анализа Jeopardy является способность отвечать на вопросы которые разложены на составляющие DeepQA использует основанный на правилах глубокий парсинг и статистические методы классификации чтобы наилучшим образом разложить вопросы на элементы и определить как лучше разбить их на подвопросы Операционная гипотеза что правильная интерпретация вопроса позволит лучше произвести скоринг ответов после того как все доказательства собраны Даже если вопрос не должен быть разложен для определения ответа этот метод может помочь улучшить общее доверие ответу системы DeepQA решает задачи параллельно для каждого разложения применяя алгоритмы от начала до конца каждого подвопроса и синтезирует окончательные ответы DeepQA также поддерживает вложенные декомпозиции вопросов через рекурсивное применение QA системы от начала до конца в внутреннем подвопросе а затем во внешнем Настраиваемые компоненты позволяют легко подключать специализированные алгоритмы синтеза в общую систему

bull Hypothesis Generation ndash генерация гипотез

Генерация гипотез принимает результаты анализа вопросов и производит кандидатов на ответы Каждый кандидат ответ включается обратно в вопрос и это считается как гипотеза Система должна доказать правильность этой гипотезы с некоторой степенью уверенности Как и во всех аспектах DeepQA используется смесь разных подходов для первичного поиска и генерации кандидата в системе Watson

bull Primary Search ndash первичный поиск

В этом поиске целью является найти столько потенциально кандидатов сколько это можно сделать на основе результатов анализа вопроса В течение проекта велись эмпирические исследования направленные на баланс скорости объема и точности Эти исследования позволили регулярно настраивать систему так чтобы найти такое количество кандидатов которые производят наилучший баланс точности и вычислительных ресурсов Оперативная цель основного поиска в конечном счете стабилизировалась на около 85 процентов для топ-250 кандидатов то есть система генерирует правильный ответ как кандидата ответа на 85 процентов вопросов где-то в верхних 250 ранжированных кандидатов Разнообразие методов поиска используются в том числе с использованием нескольких текст поисковых системах с различными базовыми подходами (например Indri и Lucene) поиск документов а также поиска маршрута база знаний поиска с помощью SPARQL хранилища триплетов Для небольшого количества латов которые были определены как закрытые латы кандидат на ответ может быть получен из фиксированного списка в каком-то хранилище известных экземпляров LAT таких как США Президент или Страна

Поиск доказательств

bull Поиск по фразе ndash число соответствий разного типав ответе и вопросеbull Популярность ndash как часто встречается этот вариант ответаbull Соответствие по типу ndash ответ и требование вопросаbull Соответствие по времениbull Надежность источника

bull Candidate Answer Generation ndash генерирование кандидатов на ответ

Результаты поиска применяются для генерирования возможных кандидатов в ответы с помощью различных подходящих техник Для поиска документов извлекаются заголовки и используются как кандидаты Число кандидатов при этом может быть не единственным и требовать использования анализа подстрок и ссылок Используя детектирование именованных сущностей в ряде случаев удается извлечь хороших кандидатов В зависимости от типа источника для генерирования кандидата требуется разный набор алгоритмов например база знаний или обратный словарь порождают кандидатов непосредственно как кандидата Этот этап критически важен и если кандидаты не найдены то фиксируется невозможность ответа В нормальном режиме на этом этапе Watson гененерирует несколько сотен андидатов

bull Soft Filtering ndash мягкая фильтрацияДля ускорения процесса скоринга кандидатов Watson использует различные алгоритмы разной точности Более легковесные (менее вычислительно интенсивные) применяются на первом этапе скоринга На этом этапе устанавливается порог оценки и кандидаты имеющие более высокую оценку считаются прошедшими мягкую фильтрацию Они поступают на выработку гипотез и скоринг доказательств Интересно что кандидаты не прошедшие порог мягкой фильтрации не забываются а направляются прямо на финальный этап слияния Модель скоринга мягкой фильтрации и порога определяются на основе machine learning используя обучающие данные Watson типично пропускает через мягкую фильтрацию 100 кандидатов но эта функция параметризована и их число можно изменить

Проблемы NLP

bull В мае 1898 года Португалия отмечала 400-летний юбилей со дня прибытия этого великого путешественника в Индию

В мае Гари прибыл в Индию после празднования своего юбилея в Португалии

21 мая 1498 года Васка де Гама высадился в местечке Каппад

bull Он был помилован президентом 8 сентября 1974 годаФорд помиловал Никсона 8 сентября 1974 года Никсон Форд

bull Говоря ldquogive a trinklerdquo что предлагают вам сделать британцы по приезду в город

bull Hypothesis and Evidence Scoring ndash скоринг гипотез и доказательств

Прошедшие порог мягкой фильтрации кандидаты поступают на скрупулезный процесс который включает сбор дополнительных поддерживающих доказательств для каждого кандидата на ответ или гипотезу Процесс использует широкий набор различных методов скоринговой аналитики чтобы исследовать все поддерживающие доказательства

bull Evidence Retrieval ndash извлечение доказательств

Чтобы лучше исследовать каждого кандидата прошедшего через мягкую фильтрацию система собирает дополнительные поддерживающие доказательства Архитектура поддерживает интеграцию различных evidence-gathering техник Один из применяемых способов состоит в том что проводится дополнительный поиск в котором кандидат добавляется в качестве required term к первичному запросу извлеченному из вопроса Это будет приводить к получению выражений содержащих кандидата в контексте первичных терминов вопросаПоддерживающие доказательства могут быть извлечены и из других источников например из RDF баз знаний Извлеченные поддерживающие доказательства направляются модули глубокого скоринга которые анализируют кандидата в контексте поддерживающего доказательства

bull Scoring ndash скоринг (количественное оценивание)

Алгоритмы скоринга определяют степень несомненности которую обеспечивают доказательства в поддержку кандидата The DeepQA framework поддерживает множество компонент для выработки оценки в различных измерениях каждого доказательства которая вырабатывает оценку связанную с тем насколько хорошо доказательство поддерживает кандидата на ответ в качестве ответа на заданный вопросDeepQA использует общий формат для оценок для принятых гипотез и подтверждающих оценок отражающих семантические и ограничивающие факторы Это позволяет разработчикам DeepQA быстро разворачивать перемешивать и настраивать сложные совокупности модуле для обработкиНапрмер Watson использует больше чем 50 скоринговых компонент Они производят оценки разноготипа от оценок вероятностей до подсчета категориальных свойств основанных на доказательствах от различных источников включая неструктурированные тексты полуструктурированные тексты и RDF хранилища Эти оценки используют такие данные как degree of match between a passagersquos predicate-argument structure and the question passage source reliability geospatial location temporal relationships taxonomic classification the lexical and semantic relations the candidate is known to participate in the candidatersquos correlation with question terms its popularity (or obscurity) its aliases and so on

Вопрос Чили имеет самую длинную общую границу со страной Сгенерировано несколько кандидатов среди них Аргентина и Боливия Первичный поиск даст приоритет Боливии из=а популярности обсуждений их отношений Однако собранные Watson доказательства из других источников показывают более высокую оценку для Аргентины

Скоринг (взвешивание) доказательств ndash предиктивная аналитика

- При делении клеток митозом называется деление ядра а цитокинезом ndash деление этой жидкости в которой находится ядро

Генерирование кандидатов Сбор доказательств Уверенность в доказательстве

ОрганеллыВакуольЦитоплазмаПлазмамитохондрии

Органеллы ndash не жидкостьВакуоль ndash не жидкостьЦитоплазма ndash возможно жидкостьПлазма ndash не жидкостьМитохондрии ndash не жидкость

Цитоплазма ndash 92Органеллы ndash 19Вакуоль ndash 10Плазма ndash 2Митохондрии ndash 2

Answer Merging ndash объединение ответов

Многие кандидаты в ответы на поставленный вопрос могут быть эквивалентны несмотря на различные внешне формыТехники ранжирования тем не менее рассматривают таких кандидатов как различные Без объединения алгоритмы ранжирования будут работать отдельно с эквивалентными сущностями и пытаться противопоставить одну форму другой Это приведет к проблемам принятия решений Watson содержит алгоритмы идентификации эквивалентных сущностей используя множественные сравнения нормализацию и методы разрешения совместных ссылок

Ranking and Confidence Estimation ndash ранжирование и оценивание доверияПосле объединения система должна произвести ранжирование гипотез и оценивает доверие основанное на объединенных оценках В системе подобран ML подход основанный на обучении на обучающем наборе вопросов с известными ответами и обучение модели основываясь на скоринге Применяется как весьма плоская модель и существующие алгоритмы ранжирования Для более тонких оценок применяется двухфазный процесс использующий группы оценок для оценивания профиля и для оценки доверия Используя эту промежуточную модель система производит ансамбль промежуточных оценок Здесь используется иерархическая техника метаучителя и коллектива экспертов Этот подход обеспечивает итеративное расширение обучения используя изощренные и глубокие иерархические модели обеспечивающие гибкость и робастность при выработке оценок и модифицирует системуМетаучитель в Watson использует набор многие обучаемые модели чтобы управлять различными классами вопросов которые могут быть критическими при идентификации правильных ответовНаконец важно что использование NLP-based скоринга дает весьма разреженные оценки и требует точного оценивания с применением confidence-weighted learning techniques

Развертывание Watson

bull DeepQA разработан используя Apache UIMA - framework implementation of the Unstructured Information Management Architecture (Ferrucci and Lally 2004) UIMA был разработан для поддержки взаимодействия и масштабирования приложений обработки текста и мультимодального анализа Все компоненты DeepQA имплементированы как UIMA annotators Это программные компоненты для анализа текста и получения аннотаций или заключений о тексте Watson развивался в процессе разработки от нескольких компонент до нескольких сотен UIMA обеспечивает быструю интеграцию компонент тестирование и исследование

bull Начальная имплементация Watson запускалась на одном процессоре и требовала 2 часа на ответ на один вопрос DeepQA развился в параллельную систему используя UIMA-AS часть Apache UIMA масштабируя приложения UIMA используя асинхронный механизм месседжинга UIMA-AS позволила масштабировать Watson более чем на 2500 вычислительных ядер UIMA-AS управляет коммуникациями месседжингом управлением запросами используя open JMS standard UIMA-AS позволил снизить латентность Watson до 3ndash5 секунд

bull Для препроцессинга корпуса текстов создания быстрых run-time indices использован Hadoop

UIMA annotators были развернуты как mapper ы в Hadoop map-reduce framework Hadoop распределяет контент по кластеру для обеспечения высокого использования CPU и обеспечивает подходящий набор инструментов для deploying managing and monitoring the corpus analysis process

bull Аппаратная платформа ndash это 90 серверов 2800 ядер 15 ТБ RAM 80 Тфлопс $3 000 000 10 R

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 22: !Predictive analytics part_3

Пример

bull c1 Human machine interface for ABC computer applicationsbull c2 A survey of user opinion of computer system response timebull c3 The EPS user interface management systembull c4 System and human system engineering testing of EPSbull c5 Relation of user perceived response time to error measurementbull m1 The generation of random binary ordered treesbull m2 The intersection graph of paths in treesbull m3 Graph minors IV Widths of trees and well-quasi-orderingbull m4 Graph minors A survey

Желтым отмечены слова встречающиеся хотя бы в двух заголовках

После SVD

Семантическое пространство

Матрица расстояний между словами

Результат снижения размерности кластеризация [human interface computer user EPS response time][survey trees graph minors]

Расстояния между заголовками до и после SVD

bull Объем корпуса для построения модели должен быть большим ndash желательно около трех-пяти миллионов словоупотреблений Но метод работает и на коллекциях меньшего объема правда несколько хужеПроизвольное разбиение текста на документы обычно производят от тысячи до нескольких десятков тысяч частей примерно одинакового объема Таким образом матрица термы-на-документы получается прямоугольной и может быть сильно разраженной Например при объеме 5 млн словоформ получается матрица 30-50 тысяч документов на 200-300 тысяч а иногда и более термов В действительности низкочастотные термы можно опустить тк это заметно снизит размерность матрицы (скажем если не использовать 5 от общего объема низкочастотных термов то размерность сократиться в два раза) что приведет к снижению вычислительных ресурсов и времениВыбор сокращения сингулярных значений диагональной матрицы (размерности k) при обратном перемножении матриц достаточно произвольно При вышеуказанной размерности матрицы оставляют несколько сотен (100-300) главных компонент При этом как показывает практика зависимость количества компонент и точность меняются нелинейно например если начинать увеличивать их число то точность будет падать но при некотором значении скажем 10000 ndash опять вырастет до оптимального случая

Применение

bull сравнение двух термов между собойbull сравнение двух документов между собойbull сравнение терма и документа

Так же иногда этот метод используют для нахождения laquoближайшего соседаraquo mdash наиболее близких по весу термов ассоциативно связанных с исходным Это свойство используют для поиска близких по смыслу термов Следует уточнить что близость по смыслу ndash это контекстнозависимая величина поэтому не всякий близкий терм будет соответствовать ассоциации (это может быть и синоним и антоним и просто часто встречающееся вместе с искомым термом слово или словосочетание)

bull Достоинством метода можно считать его замечательную способность выявлять зависимости между словами когда обычные статистические методы бессильны LSA также может быть применен как с обучением (с предварительной тематической классификацией документов) так и без обучения (произвольное разбиение произвольного текста) что зависит от решаемой задачи

bull Об основных недостатках значительное снижение скорости вычисления при увеличении объема входных данных (в частности при SVD-преобразовании)

bull Как показано в литературе скорость вычисления соответствует порядку где сумма количества документов и термов kndash размерность пространства факторов

На рисунке показано возникновение и изменение главных факторов при уменьшении числа сингулярных элементов диагональной матрицы от 100 до ~12 Трехмерные рисунки представляют собой симметричную матрицу полученную в результате вычисления скалярного произведения векторов каждого эталонного документа с каждым тестируемым Эталонный набор векторов ndash это заранее размеченный на 30 документов текст тестируемый ndash с уменьшением числа сингулярных значений диагональной матрицы полученной при SVD-анализе На осях X и Y откладывается количество документов (эталонных и тестируемых) на оси Z ndash объем лексиконаНа рисунках хорошо видно что при уменьшении числа сингулярных диагональных элементов на 20-30 факторы еще не достаточно ярко выявлены но при этом возникают корреляции похожих документов (небольшие пики вне диагонали) которые сначала незначительно увеличиваются а затем с уменьшением числа сингулярных значений (до 70-80) ndash исчезают При автоматической кластеризации такие пики являются шумом поэтому их желательно минимизировать Если же целью является получение ассоциативных связей внутри документов то следует найти оптимальное соотношение сохранения основного лексикона и примешивания ассоциативного

Имплементация в R - Package lsquolsarsquoalnumx - Regular expression for removal of non-alphanumeric characters (saving special characters)

astextmatrix - Display a latent semantic space generated by Latent Semantic Analysis (LSA)

associate - Find close terms in a textmatrix

corpora - Corpora (Essay Scoring) dimcalc Dimensionality Calculation Routines (LSA)

dimcalc - Dimensionality Calculation Routines (LSA)

lsa - Create a vector space with Latent Semantic Analysis (LSA)

printtextmatrix - Print a textmatrix (Matrices)

sampletextmatrix - Create a random sample of files

textmatrix - Создает Textmatrix (Matrices) из файлов

Пример 1

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) read files into a document-term matrixmyMatrix = textmatrix(td minWordLength=1) create the latent semantic spacemyLSAspace = lsa(myMatrix dims=dimcalc_raw()) display it as a textmatrix againround(astextmatrix(myLSAspace)2) should give the original create the latent semantic spacemyLSAspace = lsa(myMatrix dims=dimcalc_share())

Пример 2

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) create matricesmyMatrix = textmatrix(td minWordLength=1)myLSAspace = lsa(myMatrix dims=dimcalc_share())myNewMatrix = astextmatrix(myLSAspace) calc associations for mouseassociate(myNewMatrix mouse) clean upunlink(td recursive=TRUE)

Пример 3 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(ham mouse sushi) file=paste(td D2 sep=) )write( c(dog pet pet) file=paste(td D3 sep=) ) LSAdata(stopwords_en)myMatrix = textmatrix(td stopwords=stopwords_en)myMatrix = lw_logtf(myMatrix) gw_idf(myMatrix)myLSAspace = lsa(myMatrix dims=dimcalc_share())astextmatrix(myLSAspace) clean upunlink(td recursive=TRUE)

Пример 4 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(hamster mouse sushi) file=paste(td D2 sep=) )write( c(dog monster monster) file=paste(td D3 sep=) ) read them create a document-term matrixtextmatrix(td) read them drop german stopwordsdata(stopwords_de)textmatrix(td stopwords=stopwords_de) read them based on a controlled vocabularyvoc = c(dog mouse)textmatrix(td vocabulary=voc minWordLength=1) clean up

Вместо заключения Очевидным недостатком LSA является ненормальность (негаусовость) вероятностного распределения слов в любом естественном языке Но эту проблему можно решить сглаживанием выборки (например применив фонетические слова распределение становится более laquoнормальнымraquo) Либо используют вероятностный LSA тназ PLSA основанный на мультиноминальном распределении Другим менее очевидным недостаткам LSA (и ему подобных методов) применительно к обработке неструктурированной информации можно отнести laquoтуманностьraquo самого метода (в частности выбора кол-ва сингулярных значений диагональной матрицы) и интерпретации результата не говоря уже о проблеме сбалансированности обучающего текста

Как правило для качественного построения модели оставляют менее 1-2 процента от общего числа диагональных значений (после SVD преобразования но об это в следующем посте) И как показывает практика увеличение числа факторов приводит к ухудшению результата Но дойдя примерно до 10 процентов от общего числа диагональных значений опять может быть всплеск аналогичный результату полученному при 1

Сбалансированность корпуса ndash вечная проблема которая не имеет хорошего решения на сегодняшний день Поэтому про нее приято помалкивать

Интерпретируемость результатов LSA (как и DLA) также затруднительна человек еще может понять что за тематику будет содержать топик полученный в результате анализа а вот машине не понять (не аннотировать) тематику без привлечения большого числа хороших и разных тезаурусов

Таким образом несмотря на трудоемкость и непрозрачность LSA он может успешно применяться для разного рада задач где важно поймать семантику сообщения обобщить или расширить laquoсмыслыraquo поискового запроса

bull Стандарт основанный на XML для обмена моделями статистической обработки Data Mining

bull Поддерживается более 20 организациями и поставщиками ПО

bull Реализован в частности и в R

Поддерживаемые предиктивные алгоритмы в R

Состав pmml package

bull addLT

bull addMSAttributes

bull audit

bull fileToXMLNode

bull pmml

bull pmmlada

bull pmmlcoxph

bull pmmlcvglmnet

bull pmmlglm

bull pmmlhclust

bull pmmlkmeans

bull pmmlksvm

bull pmmllm bull pmmlmultinom bull pmmlnaiveBayes bull pmmlnnet bull pmmlrandomForest bull pmmlrfsrc bull pmmlrpart bull pmmlrules bull pmmlsvm bull pmmlCanExport bull pmmltoc

Пример

Good by R see you later alligator

WATSON ndash одно из наиболее впечатляющих применений предиктивной аналитики

Разрабатывался компанией IBM с 2006 по 2010 годПрославился победой в телешоу Jeopardy (в России ndash laquoСвоя играraquo) в 2011 годуПредшественник Deep Blue обыграл чемпиона мира по шахматам Гарри Каспарова в 1997 г

>

IBM Deep QA Project

bull Целью проекта было создать компьютерную систему (ИИ) для ответа на вопросы (QA) задаваемые в свободной форме в телешоу и показать результаты соизмеримые с человеческими

bull Задача более сложная чем шахматная программа Deep Blue выигравшая у Каспарова в 1997 г

bull Вопросы по категориямCategory General ScienceClue When hit by electrons a phosphor gives off electromagnetic energy in this formAnswer Light (or Photons)

Category Lincoln BlogsClue Secretary Chase just submitted this to me for the third time guess what pal This time Irsquom accepting itAnswer his resignation

Category Head NorthClue Theyrsquore the two states you could be reentering if yoursquore crossing Floridarsquos northern borderAnswer Georgia and Alabama

Вопросы могут касаться сразу нескольких фактов чтобы ответ был вернымCategory ldquoRaprdquo SheetClue This archaic term for a mischievous or annoying child can also mean a rogue or scampSubclue 1 This archaic term for a mischievous or annoying childSubclue 2 This term can also mean a rogue or scampAnswer Rapscallion

Category Diplomatic RelationsClue Of the four countries in the world that the United States does not have diplomatic relations with the one thatrsquos farthest northInner subclue The four countries in the world that the United States does not have diplomatic relations with (Bhutan Cuba Iran North Korea)Outer subclue Of Bhutan Cuba Iran and North Korea the one thatrsquos farthest northAnswer North Korea

Вопросы - пазлы

Category Before and After Goes to the MoviesClue Film of a typical day in the life of the Beatles which includes running from bloodthirsty zombie fans in a Romero classicSubclue 2 Film of a typical day in the life of the Beatles Answer 1 (A Hard Dayrsquos Night)Subclue 2 Running from bloodthirsty zombie fans in a Romero classicAnswer 2 (Night of the Living Dead)Answer A Hard Dayrsquos Night of the Living Dead

Category Rhyme TimeClue Itrsquos where Pele stores his ballSubclue 1 Pele ball (soccer)Subclue 2 where store (cabinet drawer locker and so on)Answer soccer locker

Недопустимые типы вопросов

oCategory Picture This(Contestants are shown a picture of a B-52 bomber)Clue Alphanumeric name of the fearsome machine seen hereAnswer B-52

oCategory Decode the Postal CodesVerbal instruction from host Wersquore going to give you a word comprising two postal abbreviations you have to identify the statesClue VainAnswer Virginia and Indiana

Лексические типы ответа ndash LAT (Lexical Answer Type)

Метрики качества ответов - результативность

Показатели двух теоретических QA систем

Показатели результативности чемпионов шоу (2000)

Облако победителей

Линия сравнения результативности (baseline performance)

Сравнение системы тестового поиска и поиска в базе знаний

Результативность Watson (по версиям)

Основы подхода Deep QA

bull Massive parallelism использование высокого параллелизма при рассмотрении множественных интерпретаций и гипотез

bull Many experts привлечение интеграции приложения и контекстуального оценивания в широком диапазоне слабосвязанных вероятностных вопросов и контентной аналитики

bull Pervasive confidence estimation повсеместная оценка доверия означает что ни один из компонентов не включается в ответ сразу все компоненты имеют признаки и связанные с ними уровни доверия производится скоринг различных вопросов и контентная интерпретация Основа confidence-processing состоит в обучении как стэкировать и комбинировать баллы

bull Integrate shallow and deep knowledge интеграция поверхностных и глубинных знаний состоит в балансе использования строгой семантики и мелких семантик использующих множества слабо сформированных онтологий

bull Content Acquisition - Сбор контентаСочетает ручные и автоматические этапы Первым шагом является анализ примеров вопросов проблемного пространства чтобы произвести описание видов вопросов на которые нужно ответить и характеризовать область применения Анализ примеров вопросов в первую очередь ручная задача в то время как анализ области может быть выполнен путем автоматических или статистических методов таких как анализ LAT показанный ранее Учитывая вопросы для широкого домена Jeopardy Challenge источники для Watson включают широкий ассортимент энциклопедий словарей тезаурусов Newswire статьи литературные произведения и тд Начиная с разумного размера базового корпуса DeepQA затем применяет автоматический процесс расширения корпуса Процесс включает в себя четыре этапа высокого уровня (1) выявления основных документов и получить соответствующие документы из Интернет (2) извлечь автономные текстовые ядра из связанных веб-документов (3) Оценка на основе ядер являются ли они информативны по отношению к исходному основному документу и (4) объединить наиболее информативные ядра в расширенном корпусе Работающая система использует этот расширенный корпус и не имеет доступа к Интернет во время игры

bull Question Analysis ndash Анализ вопроса

Первый шаг во время выполнения процесса вопрос-ответной системы При анализе вопроса система пытается понять что вопрос задан и выполняет начальный анализ определяющий как вопрос будет обработан на остальных этапах работы системы Подход DeepQA использует смешанный набор экспертов на данном этапе и в системе Watson производится мелкий парсинг глубокий парсинг строятся логические формы семантические этикетки ролей взаимные ссылки отношения именованные сущности и так далее а также конкретные виды анализа для ответа вопрос

bull Question classification - Классификация вопроса

Это задача выявления типа вопроса или частей вопроса которые требуют специальной обработки Это может включать в себя что-нибудь из отдельных слов с двойным смыслом и потенциально до выявления целых статей которые имеют определенную синтаксическую семантическую или риторические функциональные возможности которые могут инициировать нисходящий анализ Классификация может определить вопрос как вопрос- головоломку вопрос-математику -определение и так далее Это будет определять каламбуры ограничения компоненты определений или целые подвопросы в пределах вопросов

bull Focus and LAT Detection ndash Определение фокуса и лексического типа ответа

Лексический тип ответа - это слово или словосочетание в вопросе который определяет тип ответа без попытки понять семантику Определение LAT является важным видом выигрыша и общим источником критических ошибок Преимущество подхода DeepQA является использование многих самостоятельно разработанных алгоритмов laquoответ-типированияraquo Например фокус вопроса викторины laquoПри попадании электронов люминофор излучает электромагнитную энергию в этой формеraquo - является laquoэта формаraquo Фокус часто (но не всегда) содержит полезную информацию об ответе часто субъект или объект отношение в вопросе и может превратить вопрос в фактическое утверждение при замене возможным кандидатом Это представляет полезный способ собирать доказательства о каждом кандидате

bull Relation Detection ndash детектирование отношений

Большинство вопросов содержит отношения являются ли они синтаксическими предикатами субъект-глагол-объект или семантические отношения между субъектами Например в вопросе laquoЕсть два штата в которые вы могли бы войти повторно если вы пересекаете северную границу штата Флоридаraquo мы можем обнаружить отношение границы (Флорида Х к северу) Watson использует обнаружение отношения на протяжении всего процесса QA от фокуса и LAT определения до прохождению и скорингу ответов Watson также может использовать обнаруженные отношения для выделения хранилища триплетов и напрямую генерировать кандидатов в ответы В 20000 игр Jeopardy вопросы например обнаружили распределение Freebase отношений чрезвычайно плоского вида (см рисунок) Это приближение распределеня 50 наиболее частых отношений в 20 000 случайно выбранных вопросах викторины

bull Decomposition ndash декомпозиция

Важным требованием успеха анализа Jeopardy является способность отвечать на вопросы которые разложены на составляющие DeepQA использует основанный на правилах глубокий парсинг и статистические методы классификации чтобы наилучшим образом разложить вопросы на элементы и определить как лучше разбить их на подвопросы Операционная гипотеза что правильная интерпретация вопроса позволит лучше произвести скоринг ответов после того как все доказательства собраны Даже если вопрос не должен быть разложен для определения ответа этот метод может помочь улучшить общее доверие ответу системы DeepQA решает задачи параллельно для каждого разложения применяя алгоритмы от начала до конца каждого подвопроса и синтезирует окончательные ответы DeepQA также поддерживает вложенные декомпозиции вопросов через рекурсивное применение QA системы от начала до конца в внутреннем подвопросе а затем во внешнем Настраиваемые компоненты позволяют легко подключать специализированные алгоритмы синтеза в общую систему

bull Hypothesis Generation ndash генерация гипотез

Генерация гипотез принимает результаты анализа вопросов и производит кандидатов на ответы Каждый кандидат ответ включается обратно в вопрос и это считается как гипотеза Система должна доказать правильность этой гипотезы с некоторой степенью уверенности Как и во всех аспектах DeepQA используется смесь разных подходов для первичного поиска и генерации кандидата в системе Watson

bull Primary Search ndash первичный поиск

В этом поиске целью является найти столько потенциально кандидатов сколько это можно сделать на основе результатов анализа вопроса В течение проекта велись эмпирические исследования направленные на баланс скорости объема и точности Эти исследования позволили регулярно настраивать систему так чтобы найти такое количество кандидатов которые производят наилучший баланс точности и вычислительных ресурсов Оперативная цель основного поиска в конечном счете стабилизировалась на около 85 процентов для топ-250 кандидатов то есть система генерирует правильный ответ как кандидата ответа на 85 процентов вопросов где-то в верхних 250 ранжированных кандидатов Разнообразие методов поиска используются в том числе с использованием нескольких текст поисковых системах с различными базовыми подходами (например Indri и Lucene) поиск документов а также поиска маршрута база знаний поиска с помощью SPARQL хранилища триплетов Для небольшого количества латов которые были определены как закрытые латы кандидат на ответ может быть получен из фиксированного списка в каком-то хранилище известных экземпляров LAT таких как США Президент или Страна

Поиск доказательств

bull Поиск по фразе ndash число соответствий разного типав ответе и вопросеbull Популярность ndash как часто встречается этот вариант ответаbull Соответствие по типу ndash ответ и требование вопросаbull Соответствие по времениbull Надежность источника

bull Candidate Answer Generation ndash генерирование кандидатов на ответ

Результаты поиска применяются для генерирования возможных кандидатов в ответы с помощью различных подходящих техник Для поиска документов извлекаются заголовки и используются как кандидаты Число кандидатов при этом может быть не единственным и требовать использования анализа подстрок и ссылок Используя детектирование именованных сущностей в ряде случаев удается извлечь хороших кандидатов В зависимости от типа источника для генерирования кандидата требуется разный набор алгоритмов например база знаний или обратный словарь порождают кандидатов непосредственно как кандидата Этот этап критически важен и если кандидаты не найдены то фиксируется невозможность ответа В нормальном режиме на этом этапе Watson гененерирует несколько сотен андидатов

bull Soft Filtering ndash мягкая фильтрацияДля ускорения процесса скоринга кандидатов Watson использует различные алгоритмы разной точности Более легковесные (менее вычислительно интенсивные) применяются на первом этапе скоринга На этом этапе устанавливается порог оценки и кандидаты имеющие более высокую оценку считаются прошедшими мягкую фильтрацию Они поступают на выработку гипотез и скоринг доказательств Интересно что кандидаты не прошедшие порог мягкой фильтрации не забываются а направляются прямо на финальный этап слияния Модель скоринга мягкой фильтрации и порога определяются на основе machine learning используя обучающие данные Watson типично пропускает через мягкую фильтрацию 100 кандидатов но эта функция параметризована и их число можно изменить

Проблемы NLP

bull В мае 1898 года Португалия отмечала 400-летний юбилей со дня прибытия этого великого путешественника в Индию

В мае Гари прибыл в Индию после празднования своего юбилея в Португалии

21 мая 1498 года Васка де Гама высадился в местечке Каппад

bull Он был помилован президентом 8 сентября 1974 годаФорд помиловал Никсона 8 сентября 1974 года Никсон Форд

bull Говоря ldquogive a trinklerdquo что предлагают вам сделать британцы по приезду в город

bull Hypothesis and Evidence Scoring ndash скоринг гипотез и доказательств

Прошедшие порог мягкой фильтрации кандидаты поступают на скрупулезный процесс который включает сбор дополнительных поддерживающих доказательств для каждого кандидата на ответ или гипотезу Процесс использует широкий набор различных методов скоринговой аналитики чтобы исследовать все поддерживающие доказательства

bull Evidence Retrieval ndash извлечение доказательств

Чтобы лучше исследовать каждого кандидата прошедшего через мягкую фильтрацию система собирает дополнительные поддерживающие доказательства Архитектура поддерживает интеграцию различных evidence-gathering техник Один из применяемых способов состоит в том что проводится дополнительный поиск в котором кандидат добавляется в качестве required term к первичному запросу извлеченному из вопроса Это будет приводить к получению выражений содержащих кандидата в контексте первичных терминов вопросаПоддерживающие доказательства могут быть извлечены и из других источников например из RDF баз знаний Извлеченные поддерживающие доказательства направляются модули глубокого скоринга которые анализируют кандидата в контексте поддерживающего доказательства

bull Scoring ndash скоринг (количественное оценивание)

Алгоритмы скоринга определяют степень несомненности которую обеспечивают доказательства в поддержку кандидата The DeepQA framework поддерживает множество компонент для выработки оценки в различных измерениях каждого доказательства которая вырабатывает оценку связанную с тем насколько хорошо доказательство поддерживает кандидата на ответ в качестве ответа на заданный вопросDeepQA использует общий формат для оценок для принятых гипотез и подтверждающих оценок отражающих семантические и ограничивающие факторы Это позволяет разработчикам DeepQA быстро разворачивать перемешивать и настраивать сложные совокупности модуле для обработкиНапрмер Watson использует больше чем 50 скоринговых компонент Они производят оценки разноготипа от оценок вероятностей до подсчета категориальных свойств основанных на доказательствах от различных источников включая неструктурированные тексты полуструктурированные тексты и RDF хранилища Эти оценки используют такие данные как degree of match between a passagersquos predicate-argument structure and the question passage source reliability geospatial location temporal relationships taxonomic classification the lexical and semantic relations the candidate is known to participate in the candidatersquos correlation with question terms its popularity (or obscurity) its aliases and so on

Вопрос Чили имеет самую длинную общую границу со страной Сгенерировано несколько кандидатов среди них Аргентина и Боливия Первичный поиск даст приоритет Боливии из=а популярности обсуждений их отношений Однако собранные Watson доказательства из других источников показывают более высокую оценку для Аргентины

Скоринг (взвешивание) доказательств ndash предиктивная аналитика

- При делении клеток митозом называется деление ядра а цитокинезом ndash деление этой жидкости в которой находится ядро

Генерирование кандидатов Сбор доказательств Уверенность в доказательстве

ОрганеллыВакуольЦитоплазмаПлазмамитохондрии

Органеллы ndash не жидкостьВакуоль ndash не жидкостьЦитоплазма ndash возможно жидкостьПлазма ndash не жидкостьМитохондрии ndash не жидкость

Цитоплазма ndash 92Органеллы ndash 19Вакуоль ndash 10Плазма ndash 2Митохондрии ndash 2

Answer Merging ndash объединение ответов

Многие кандидаты в ответы на поставленный вопрос могут быть эквивалентны несмотря на различные внешне формыТехники ранжирования тем не менее рассматривают таких кандидатов как различные Без объединения алгоритмы ранжирования будут работать отдельно с эквивалентными сущностями и пытаться противопоставить одну форму другой Это приведет к проблемам принятия решений Watson содержит алгоритмы идентификации эквивалентных сущностей используя множественные сравнения нормализацию и методы разрешения совместных ссылок

Ranking and Confidence Estimation ndash ранжирование и оценивание доверияПосле объединения система должна произвести ранжирование гипотез и оценивает доверие основанное на объединенных оценках В системе подобран ML подход основанный на обучении на обучающем наборе вопросов с известными ответами и обучение модели основываясь на скоринге Применяется как весьма плоская модель и существующие алгоритмы ранжирования Для более тонких оценок применяется двухфазный процесс использующий группы оценок для оценивания профиля и для оценки доверия Используя эту промежуточную модель система производит ансамбль промежуточных оценок Здесь используется иерархическая техника метаучителя и коллектива экспертов Этот подход обеспечивает итеративное расширение обучения используя изощренные и глубокие иерархические модели обеспечивающие гибкость и робастность при выработке оценок и модифицирует системуМетаучитель в Watson использует набор многие обучаемые модели чтобы управлять различными классами вопросов которые могут быть критическими при идентификации правильных ответовНаконец важно что использование NLP-based скоринга дает весьма разреженные оценки и требует точного оценивания с применением confidence-weighted learning techniques

Развертывание Watson

bull DeepQA разработан используя Apache UIMA - framework implementation of the Unstructured Information Management Architecture (Ferrucci and Lally 2004) UIMA был разработан для поддержки взаимодействия и масштабирования приложений обработки текста и мультимодального анализа Все компоненты DeepQA имплементированы как UIMA annotators Это программные компоненты для анализа текста и получения аннотаций или заключений о тексте Watson развивался в процессе разработки от нескольких компонент до нескольких сотен UIMA обеспечивает быструю интеграцию компонент тестирование и исследование

bull Начальная имплементация Watson запускалась на одном процессоре и требовала 2 часа на ответ на один вопрос DeepQA развился в параллельную систему используя UIMA-AS часть Apache UIMA масштабируя приложения UIMA используя асинхронный механизм месседжинга UIMA-AS позволила масштабировать Watson более чем на 2500 вычислительных ядер UIMA-AS управляет коммуникациями месседжингом управлением запросами используя open JMS standard UIMA-AS позволил снизить латентность Watson до 3ndash5 секунд

bull Для препроцессинга корпуса текстов создания быстрых run-time indices использован Hadoop

UIMA annotators были развернуты как mapper ы в Hadoop map-reduce framework Hadoop распределяет контент по кластеру для обеспечения высокого использования CPU и обеспечивает подходящий набор инструментов для deploying managing and monitoring the corpus analysis process

bull Аппаратная платформа ndash это 90 серверов 2800 ядер 15 ТБ RAM 80 Тфлопс $3 000 000 10 R

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 23: !Predictive analytics part_3

Желтым отмечены слова встречающиеся хотя бы в двух заголовках

После SVD

Семантическое пространство

Матрица расстояний между словами

Результат снижения размерности кластеризация [human interface computer user EPS response time][survey trees graph minors]

Расстояния между заголовками до и после SVD

bull Объем корпуса для построения модели должен быть большим ndash желательно около трех-пяти миллионов словоупотреблений Но метод работает и на коллекциях меньшего объема правда несколько хужеПроизвольное разбиение текста на документы обычно производят от тысячи до нескольких десятков тысяч частей примерно одинакового объема Таким образом матрица термы-на-документы получается прямоугольной и может быть сильно разраженной Например при объеме 5 млн словоформ получается матрица 30-50 тысяч документов на 200-300 тысяч а иногда и более термов В действительности низкочастотные термы можно опустить тк это заметно снизит размерность матрицы (скажем если не использовать 5 от общего объема низкочастотных термов то размерность сократиться в два раза) что приведет к снижению вычислительных ресурсов и времениВыбор сокращения сингулярных значений диагональной матрицы (размерности k) при обратном перемножении матриц достаточно произвольно При вышеуказанной размерности матрицы оставляют несколько сотен (100-300) главных компонент При этом как показывает практика зависимость количества компонент и точность меняются нелинейно например если начинать увеличивать их число то точность будет падать но при некотором значении скажем 10000 ndash опять вырастет до оптимального случая

Применение

bull сравнение двух термов между собойbull сравнение двух документов между собойbull сравнение терма и документа

Так же иногда этот метод используют для нахождения laquoближайшего соседаraquo mdash наиболее близких по весу термов ассоциативно связанных с исходным Это свойство используют для поиска близких по смыслу термов Следует уточнить что близость по смыслу ndash это контекстнозависимая величина поэтому не всякий близкий терм будет соответствовать ассоциации (это может быть и синоним и антоним и просто часто встречающееся вместе с искомым термом слово или словосочетание)

bull Достоинством метода можно считать его замечательную способность выявлять зависимости между словами когда обычные статистические методы бессильны LSA также может быть применен как с обучением (с предварительной тематической классификацией документов) так и без обучения (произвольное разбиение произвольного текста) что зависит от решаемой задачи

bull Об основных недостатках значительное снижение скорости вычисления при увеличении объема входных данных (в частности при SVD-преобразовании)

bull Как показано в литературе скорость вычисления соответствует порядку где сумма количества документов и термов kndash размерность пространства факторов

На рисунке показано возникновение и изменение главных факторов при уменьшении числа сингулярных элементов диагональной матрицы от 100 до ~12 Трехмерные рисунки представляют собой симметричную матрицу полученную в результате вычисления скалярного произведения векторов каждого эталонного документа с каждым тестируемым Эталонный набор векторов ndash это заранее размеченный на 30 документов текст тестируемый ndash с уменьшением числа сингулярных значений диагональной матрицы полученной при SVD-анализе На осях X и Y откладывается количество документов (эталонных и тестируемых) на оси Z ndash объем лексиконаНа рисунках хорошо видно что при уменьшении числа сингулярных диагональных элементов на 20-30 факторы еще не достаточно ярко выявлены но при этом возникают корреляции похожих документов (небольшие пики вне диагонали) которые сначала незначительно увеличиваются а затем с уменьшением числа сингулярных значений (до 70-80) ndash исчезают При автоматической кластеризации такие пики являются шумом поэтому их желательно минимизировать Если же целью является получение ассоциативных связей внутри документов то следует найти оптимальное соотношение сохранения основного лексикона и примешивания ассоциативного

Имплементация в R - Package lsquolsarsquoalnumx - Regular expression for removal of non-alphanumeric characters (saving special characters)

astextmatrix - Display a latent semantic space generated by Latent Semantic Analysis (LSA)

associate - Find close terms in a textmatrix

corpora - Corpora (Essay Scoring) dimcalc Dimensionality Calculation Routines (LSA)

dimcalc - Dimensionality Calculation Routines (LSA)

lsa - Create a vector space with Latent Semantic Analysis (LSA)

printtextmatrix - Print a textmatrix (Matrices)

sampletextmatrix - Create a random sample of files

textmatrix - Создает Textmatrix (Matrices) из файлов

Пример 1

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) read files into a document-term matrixmyMatrix = textmatrix(td minWordLength=1) create the latent semantic spacemyLSAspace = lsa(myMatrix dims=dimcalc_raw()) display it as a textmatrix againround(astextmatrix(myLSAspace)2) should give the original create the latent semantic spacemyLSAspace = lsa(myMatrix dims=dimcalc_share())

Пример 2

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) create matricesmyMatrix = textmatrix(td minWordLength=1)myLSAspace = lsa(myMatrix dims=dimcalc_share())myNewMatrix = astextmatrix(myLSAspace) calc associations for mouseassociate(myNewMatrix mouse) clean upunlink(td recursive=TRUE)

Пример 3 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(ham mouse sushi) file=paste(td D2 sep=) )write( c(dog pet pet) file=paste(td D3 sep=) ) LSAdata(stopwords_en)myMatrix = textmatrix(td stopwords=stopwords_en)myMatrix = lw_logtf(myMatrix) gw_idf(myMatrix)myLSAspace = lsa(myMatrix dims=dimcalc_share())astextmatrix(myLSAspace) clean upunlink(td recursive=TRUE)

Пример 4 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(hamster mouse sushi) file=paste(td D2 sep=) )write( c(dog monster monster) file=paste(td D3 sep=) ) read them create a document-term matrixtextmatrix(td) read them drop german stopwordsdata(stopwords_de)textmatrix(td stopwords=stopwords_de) read them based on a controlled vocabularyvoc = c(dog mouse)textmatrix(td vocabulary=voc minWordLength=1) clean up

Вместо заключения Очевидным недостатком LSA является ненормальность (негаусовость) вероятностного распределения слов в любом естественном языке Но эту проблему можно решить сглаживанием выборки (например применив фонетические слова распределение становится более laquoнормальнымraquo) Либо используют вероятностный LSA тназ PLSA основанный на мультиноминальном распределении Другим менее очевидным недостаткам LSA (и ему подобных методов) применительно к обработке неструктурированной информации можно отнести laquoтуманностьraquo самого метода (в частности выбора кол-ва сингулярных значений диагональной матрицы) и интерпретации результата не говоря уже о проблеме сбалансированности обучающего текста

Как правило для качественного построения модели оставляют менее 1-2 процента от общего числа диагональных значений (после SVD преобразования но об это в следующем посте) И как показывает практика увеличение числа факторов приводит к ухудшению результата Но дойдя примерно до 10 процентов от общего числа диагональных значений опять может быть всплеск аналогичный результату полученному при 1

Сбалансированность корпуса ndash вечная проблема которая не имеет хорошего решения на сегодняшний день Поэтому про нее приято помалкивать

Интерпретируемость результатов LSA (как и DLA) также затруднительна человек еще может понять что за тематику будет содержать топик полученный в результате анализа а вот машине не понять (не аннотировать) тематику без привлечения большого числа хороших и разных тезаурусов

Таким образом несмотря на трудоемкость и непрозрачность LSA он может успешно применяться для разного рада задач где важно поймать семантику сообщения обобщить или расширить laquoсмыслыraquo поискового запроса

bull Стандарт основанный на XML для обмена моделями статистической обработки Data Mining

bull Поддерживается более 20 организациями и поставщиками ПО

bull Реализован в частности и в R

Поддерживаемые предиктивные алгоритмы в R

Состав pmml package

bull addLT

bull addMSAttributes

bull audit

bull fileToXMLNode

bull pmml

bull pmmlada

bull pmmlcoxph

bull pmmlcvglmnet

bull pmmlglm

bull pmmlhclust

bull pmmlkmeans

bull pmmlksvm

bull pmmllm bull pmmlmultinom bull pmmlnaiveBayes bull pmmlnnet bull pmmlrandomForest bull pmmlrfsrc bull pmmlrpart bull pmmlrules bull pmmlsvm bull pmmlCanExport bull pmmltoc

Пример

Good by R see you later alligator

WATSON ndash одно из наиболее впечатляющих применений предиктивной аналитики

Разрабатывался компанией IBM с 2006 по 2010 годПрославился победой в телешоу Jeopardy (в России ndash laquoСвоя играraquo) в 2011 годуПредшественник Deep Blue обыграл чемпиона мира по шахматам Гарри Каспарова в 1997 г

>

IBM Deep QA Project

bull Целью проекта было создать компьютерную систему (ИИ) для ответа на вопросы (QA) задаваемые в свободной форме в телешоу и показать результаты соизмеримые с человеческими

bull Задача более сложная чем шахматная программа Deep Blue выигравшая у Каспарова в 1997 г

bull Вопросы по категориямCategory General ScienceClue When hit by electrons a phosphor gives off electromagnetic energy in this formAnswer Light (or Photons)

Category Lincoln BlogsClue Secretary Chase just submitted this to me for the third time guess what pal This time Irsquom accepting itAnswer his resignation

Category Head NorthClue Theyrsquore the two states you could be reentering if yoursquore crossing Floridarsquos northern borderAnswer Georgia and Alabama

Вопросы могут касаться сразу нескольких фактов чтобы ответ был вернымCategory ldquoRaprdquo SheetClue This archaic term for a mischievous or annoying child can also mean a rogue or scampSubclue 1 This archaic term for a mischievous or annoying childSubclue 2 This term can also mean a rogue or scampAnswer Rapscallion

Category Diplomatic RelationsClue Of the four countries in the world that the United States does not have diplomatic relations with the one thatrsquos farthest northInner subclue The four countries in the world that the United States does not have diplomatic relations with (Bhutan Cuba Iran North Korea)Outer subclue Of Bhutan Cuba Iran and North Korea the one thatrsquos farthest northAnswer North Korea

Вопросы - пазлы

Category Before and After Goes to the MoviesClue Film of a typical day in the life of the Beatles which includes running from bloodthirsty zombie fans in a Romero classicSubclue 2 Film of a typical day in the life of the Beatles Answer 1 (A Hard Dayrsquos Night)Subclue 2 Running from bloodthirsty zombie fans in a Romero classicAnswer 2 (Night of the Living Dead)Answer A Hard Dayrsquos Night of the Living Dead

Category Rhyme TimeClue Itrsquos where Pele stores his ballSubclue 1 Pele ball (soccer)Subclue 2 where store (cabinet drawer locker and so on)Answer soccer locker

Недопустимые типы вопросов

oCategory Picture This(Contestants are shown a picture of a B-52 bomber)Clue Alphanumeric name of the fearsome machine seen hereAnswer B-52

oCategory Decode the Postal CodesVerbal instruction from host Wersquore going to give you a word comprising two postal abbreviations you have to identify the statesClue VainAnswer Virginia and Indiana

Лексические типы ответа ndash LAT (Lexical Answer Type)

Метрики качества ответов - результативность

Показатели двух теоретических QA систем

Показатели результативности чемпионов шоу (2000)

Облако победителей

Линия сравнения результативности (baseline performance)

Сравнение системы тестового поиска и поиска в базе знаний

Результативность Watson (по версиям)

Основы подхода Deep QA

bull Massive parallelism использование высокого параллелизма при рассмотрении множественных интерпретаций и гипотез

bull Many experts привлечение интеграции приложения и контекстуального оценивания в широком диапазоне слабосвязанных вероятностных вопросов и контентной аналитики

bull Pervasive confidence estimation повсеместная оценка доверия означает что ни один из компонентов не включается в ответ сразу все компоненты имеют признаки и связанные с ними уровни доверия производится скоринг различных вопросов и контентная интерпретация Основа confidence-processing состоит в обучении как стэкировать и комбинировать баллы

bull Integrate shallow and deep knowledge интеграция поверхностных и глубинных знаний состоит в балансе использования строгой семантики и мелких семантик использующих множества слабо сформированных онтологий

bull Content Acquisition - Сбор контентаСочетает ручные и автоматические этапы Первым шагом является анализ примеров вопросов проблемного пространства чтобы произвести описание видов вопросов на которые нужно ответить и характеризовать область применения Анализ примеров вопросов в первую очередь ручная задача в то время как анализ области может быть выполнен путем автоматических или статистических методов таких как анализ LAT показанный ранее Учитывая вопросы для широкого домена Jeopardy Challenge источники для Watson включают широкий ассортимент энциклопедий словарей тезаурусов Newswire статьи литературные произведения и тд Начиная с разумного размера базового корпуса DeepQA затем применяет автоматический процесс расширения корпуса Процесс включает в себя четыре этапа высокого уровня (1) выявления основных документов и получить соответствующие документы из Интернет (2) извлечь автономные текстовые ядра из связанных веб-документов (3) Оценка на основе ядер являются ли они информативны по отношению к исходному основному документу и (4) объединить наиболее информативные ядра в расширенном корпусе Работающая система использует этот расширенный корпус и не имеет доступа к Интернет во время игры

bull Question Analysis ndash Анализ вопроса

Первый шаг во время выполнения процесса вопрос-ответной системы При анализе вопроса система пытается понять что вопрос задан и выполняет начальный анализ определяющий как вопрос будет обработан на остальных этапах работы системы Подход DeepQA использует смешанный набор экспертов на данном этапе и в системе Watson производится мелкий парсинг глубокий парсинг строятся логические формы семантические этикетки ролей взаимные ссылки отношения именованные сущности и так далее а также конкретные виды анализа для ответа вопрос

bull Question classification - Классификация вопроса

Это задача выявления типа вопроса или частей вопроса которые требуют специальной обработки Это может включать в себя что-нибудь из отдельных слов с двойным смыслом и потенциально до выявления целых статей которые имеют определенную синтаксическую семантическую или риторические функциональные возможности которые могут инициировать нисходящий анализ Классификация может определить вопрос как вопрос- головоломку вопрос-математику -определение и так далее Это будет определять каламбуры ограничения компоненты определений или целые подвопросы в пределах вопросов

bull Focus and LAT Detection ndash Определение фокуса и лексического типа ответа

Лексический тип ответа - это слово или словосочетание в вопросе который определяет тип ответа без попытки понять семантику Определение LAT является важным видом выигрыша и общим источником критических ошибок Преимущество подхода DeepQA является использование многих самостоятельно разработанных алгоритмов laquoответ-типированияraquo Например фокус вопроса викторины laquoПри попадании электронов люминофор излучает электромагнитную энергию в этой формеraquo - является laquoэта формаraquo Фокус часто (но не всегда) содержит полезную информацию об ответе часто субъект или объект отношение в вопросе и может превратить вопрос в фактическое утверждение при замене возможным кандидатом Это представляет полезный способ собирать доказательства о каждом кандидате

bull Relation Detection ndash детектирование отношений

Большинство вопросов содержит отношения являются ли они синтаксическими предикатами субъект-глагол-объект или семантические отношения между субъектами Например в вопросе laquoЕсть два штата в которые вы могли бы войти повторно если вы пересекаете северную границу штата Флоридаraquo мы можем обнаружить отношение границы (Флорида Х к северу) Watson использует обнаружение отношения на протяжении всего процесса QA от фокуса и LAT определения до прохождению и скорингу ответов Watson также может использовать обнаруженные отношения для выделения хранилища триплетов и напрямую генерировать кандидатов в ответы В 20000 игр Jeopardy вопросы например обнаружили распределение Freebase отношений чрезвычайно плоского вида (см рисунок) Это приближение распределеня 50 наиболее частых отношений в 20 000 случайно выбранных вопросах викторины

bull Decomposition ndash декомпозиция

Важным требованием успеха анализа Jeopardy является способность отвечать на вопросы которые разложены на составляющие DeepQA использует основанный на правилах глубокий парсинг и статистические методы классификации чтобы наилучшим образом разложить вопросы на элементы и определить как лучше разбить их на подвопросы Операционная гипотеза что правильная интерпретация вопроса позволит лучше произвести скоринг ответов после того как все доказательства собраны Даже если вопрос не должен быть разложен для определения ответа этот метод может помочь улучшить общее доверие ответу системы DeepQA решает задачи параллельно для каждого разложения применяя алгоритмы от начала до конца каждого подвопроса и синтезирует окончательные ответы DeepQA также поддерживает вложенные декомпозиции вопросов через рекурсивное применение QA системы от начала до конца в внутреннем подвопросе а затем во внешнем Настраиваемые компоненты позволяют легко подключать специализированные алгоритмы синтеза в общую систему

bull Hypothesis Generation ndash генерация гипотез

Генерация гипотез принимает результаты анализа вопросов и производит кандидатов на ответы Каждый кандидат ответ включается обратно в вопрос и это считается как гипотеза Система должна доказать правильность этой гипотезы с некоторой степенью уверенности Как и во всех аспектах DeepQA используется смесь разных подходов для первичного поиска и генерации кандидата в системе Watson

bull Primary Search ndash первичный поиск

В этом поиске целью является найти столько потенциально кандидатов сколько это можно сделать на основе результатов анализа вопроса В течение проекта велись эмпирические исследования направленные на баланс скорости объема и точности Эти исследования позволили регулярно настраивать систему так чтобы найти такое количество кандидатов которые производят наилучший баланс точности и вычислительных ресурсов Оперативная цель основного поиска в конечном счете стабилизировалась на около 85 процентов для топ-250 кандидатов то есть система генерирует правильный ответ как кандидата ответа на 85 процентов вопросов где-то в верхних 250 ранжированных кандидатов Разнообразие методов поиска используются в том числе с использованием нескольких текст поисковых системах с различными базовыми подходами (например Indri и Lucene) поиск документов а также поиска маршрута база знаний поиска с помощью SPARQL хранилища триплетов Для небольшого количества латов которые были определены как закрытые латы кандидат на ответ может быть получен из фиксированного списка в каком-то хранилище известных экземпляров LAT таких как США Президент или Страна

Поиск доказательств

bull Поиск по фразе ndash число соответствий разного типав ответе и вопросеbull Популярность ndash как часто встречается этот вариант ответаbull Соответствие по типу ndash ответ и требование вопросаbull Соответствие по времениbull Надежность источника

bull Candidate Answer Generation ndash генерирование кандидатов на ответ

Результаты поиска применяются для генерирования возможных кандидатов в ответы с помощью различных подходящих техник Для поиска документов извлекаются заголовки и используются как кандидаты Число кандидатов при этом может быть не единственным и требовать использования анализа подстрок и ссылок Используя детектирование именованных сущностей в ряде случаев удается извлечь хороших кандидатов В зависимости от типа источника для генерирования кандидата требуется разный набор алгоритмов например база знаний или обратный словарь порождают кандидатов непосредственно как кандидата Этот этап критически важен и если кандидаты не найдены то фиксируется невозможность ответа В нормальном режиме на этом этапе Watson гененерирует несколько сотен андидатов

bull Soft Filtering ndash мягкая фильтрацияДля ускорения процесса скоринга кандидатов Watson использует различные алгоритмы разной точности Более легковесные (менее вычислительно интенсивные) применяются на первом этапе скоринга На этом этапе устанавливается порог оценки и кандидаты имеющие более высокую оценку считаются прошедшими мягкую фильтрацию Они поступают на выработку гипотез и скоринг доказательств Интересно что кандидаты не прошедшие порог мягкой фильтрации не забываются а направляются прямо на финальный этап слияния Модель скоринга мягкой фильтрации и порога определяются на основе machine learning используя обучающие данные Watson типично пропускает через мягкую фильтрацию 100 кандидатов но эта функция параметризована и их число можно изменить

Проблемы NLP

bull В мае 1898 года Португалия отмечала 400-летний юбилей со дня прибытия этого великого путешественника в Индию

В мае Гари прибыл в Индию после празднования своего юбилея в Португалии

21 мая 1498 года Васка де Гама высадился в местечке Каппад

bull Он был помилован президентом 8 сентября 1974 годаФорд помиловал Никсона 8 сентября 1974 года Никсон Форд

bull Говоря ldquogive a trinklerdquo что предлагают вам сделать британцы по приезду в город

bull Hypothesis and Evidence Scoring ndash скоринг гипотез и доказательств

Прошедшие порог мягкой фильтрации кандидаты поступают на скрупулезный процесс который включает сбор дополнительных поддерживающих доказательств для каждого кандидата на ответ или гипотезу Процесс использует широкий набор различных методов скоринговой аналитики чтобы исследовать все поддерживающие доказательства

bull Evidence Retrieval ndash извлечение доказательств

Чтобы лучше исследовать каждого кандидата прошедшего через мягкую фильтрацию система собирает дополнительные поддерживающие доказательства Архитектура поддерживает интеграцию различных evidence-gathering техник Один из применяемых способов состоит в том что проводится дополнительный поиск в котором кандидат добавляется в качестве required term к первичному запросу извлеченному из вопроса Это будет приводить к получению выражений содержащих кандидата в контексте первичных терминов вопросаПоддерживающие доказательства могут быть извлечены и из других источников например из RDF баз знаний Извлеченные поддерживающие доказательства направляются модули глубокого скоринга которые анализируют кандидата в контексте поддерживающего доказательства

bull Scoring ndash скоринг (количественное оценивание)

Алгоритмы скоринга определяют степень несомненности которую обеспечивают доказательства в поддержку кандидата The DeepQA framework поддерживает множество компонент для выработки оценки в различных измерениях каждого доказательства которая вырабатывает оценку связанную с тем насколько хорошо доказательство поддерживает кандидата на ответ в качестве ответа на заданный вопросDeepQA использует общий формат для оценок для принятых гипотез и подтверждающих оценок отражающих семантические и ограничивающие факторы Это позволяет разработчикам DeepQA быстро разворачивать перемешивать и настраивать сложные совокупности модуле для обработкиНапрмер Watson использует больше чем 50 скоринговых компонент Они производят оценки разноготипа от оценок вероятностей до подсчета категориальных свойств основанных на доказательствах от различных источников включая неструктурированные тексты полуструктурированные тексты и RDF хранилища Эти оценки используют такие данные как degree of match between a passagersquos predicate-argument structure and the question passage source reliability geospatial location temporal relationships taxonomic classification the lexical and semantic relations the candidate is known to participate in the candidatersquos correlation with question terms its popularity (or obscurity) its aliases and so on

Вопрос Чили имеет самую длинную общую границу со страной Сгенерировано несколько кандидатов среди них Аргентина и Боливия Первичный поиск даст приоритет Боливии из=а популярности обсуждений их отношений Однако собранные Watson доказательства из других источников показывают более высокую оценку для Аргентины

Скоринг (взвешивание) доказательств ndash предиктивная аналитика

- При делении клеток митозом называется деление ядра а цитокинезом ndash деление этой жидкости в которой находится ядро

Генерирование кандидатов Сбор доказательств Уверенность в доказательстве

ОрганеллыВакуольЦитоплазмаПлазмамитохондрии

Органеллы ndash не жидкостьВакуоль ndash не жидкостьЦитоплазма ndash возможно жидкостьПлазма ndash не жидкостьМитохондрии ndash не жидкость

Цитоплазма ndash 92Органеллы ndash 19Вакуоль ndash 10Плазма ndash 2Митохондрии ndash 2

Answer Merging ndash объединение ответов

Многие кандидаты в ответы на поставленный вопрос могут быть эквивалентны несмотря на различные внешне формыТехники ранжирования тем не менее рассматривают таких кандидатов как различные Без объединения алгоритмы ранжирования будут работать отдельно с эквивалентными сущностями и пытаться противопоставить одну форму другой Это приведет к проблемам принятия решений Watson содержит алгоритмы идентификации эквивалентных сущностей используя множественные сравнения нормализацию и методы разрешения совместных ссылок

Ranking and Confidence Estimation ndash ранжирование и оценивание доверияПосле объединения система должна произвести ранжирование гипотез и оценивает доверие основанное на объединенных оценках В системе подобран ML подход основанный на обучении на обучающем наборе вопросов с известными ответами и обучение модели основываясь на скоринге Применяется как весьма плоская модель и существующие алгоритмы ранжирования Для более тонких оценок применяется двухфазный процесс использующий группы оценок для оценивания профиля и для оценки доверия Используя эту промежуточную модель система производит ансамбль промежуточных оценок Здесь используется иерархическая техника метаучителя и коллектива экспертов Этот подход обеспечивает итеративное расширение обучения используя изощренные и глубокие иерархические модели обеспечивающие гибкость и робастность при выработке оценок и модифицирует системуМетаучитель в Watson использует набор многие обучаемые модели чтобы управлять различными классами вопросов которые могут быть критическими при идентификации правильных ответовНаконец важно что использование NLP-based скоринга дает весьма разреженные оценки и требует точного оценивания с применением confidence-weighted learning techniques

Развертывание Watson

bull DeepQA разработан используя Apache UIMA - framework implementation of the Unstructured Information Management Architecture (Ferrucci and Lally 2004) UIMA был разработан для поддержки взаимодействия и масштабирования приложений обработки текста и мультимодального анализа Все компоненты DeepQA имплементированы как UIMA annotators Это программные компоненты для анализа текста и получения аннотаций или заключений о тексте Watson развивался в процессе разработки от нескольких компонент до нескольких сотен UIMA обеспечивает быструю интеграцию компонент тестирование и исследование

bull Начальная имплементация Watson запускалась на одном процессоре и требовала 2 часа на ответ на один вопрос DeepQA развился в параллельную систему используя UIMA-AS часть Apache UIMA масштабируя приложения UIMA используя асинхронный механизм месседжинга UIMA-AS позволила масштабировать Watson более чем на 2500 вычислительных ядер UIMA-AS управляет коммуникациями месседжингом управлением запросами используя open JMS standard UIMA-AS позволил снизить латентность Watson до 3ndash5 секунд

bull Для препроцессинга корпуса текстов создания быстрых run-time indices использован Hadoop

UIMA annotators были развернуты как mapper ы в Hadoop map-reduce framework Hadoop распределяет контент по кластеру для обеспечения высокого использования CPU и обеспечивает подходящий набор инструментов для deploying managing and monitoring the corpus analysis process

bull Аппаратная платформа ndash это 90 серверов 2800 ядер 15 ТБ RAM 80 Тфлопс $3 000 000 10 R

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 24: !Predictive analytics part_3

После SVD

Семантическое пространство

Матрица расстояний между словами

Результат снижения размерности кластеризация [human interface computer user EPS response time][survey trees graph minors]

Расстояния между заголовками до и после SVD

bull Объем корпуса для построения модели должен быть большим ndash желательно около трех-пяти миллионов словоупотреблений Но метод работает и на коллекциях меньшего объема правда несколько хужеПроизвольное разбиение текста на документы обычно производят от тысячи до нескольких десятков тысяч частей примерно одинакового объема Таким образом матрица термы-на-документы получается прямоугольной и может быть сильно разраженной Например при объеме 5 млн словоформ получается матрица 30-50 тысяч документов на 200-300 тысяч а иногда и более термов В действительности низкочастотные термы можно опустить тк это заметно снизит размерность матрицы (скажем если не использовать 5 от общего объема низкочастотных термов то размерность сократиться в два раза) что приведет к снижению вычислительных ресурсов и времениВыбор сокращения сингулярных значений диагональной матрицы (размерности k) при обратном перемножении матриц достаточно произвольно При вышеуказанной размерности матрицы оставляют несколько сотен (100-300) главных компонент При этом как показывает практика зависимость количества компонент и точность меняются нелинейно например если начинать увеличивать их число то точность будет падать но при некотором значении скажем 10000 ndash опять вырастет до оптимального случая

Применение

bull сравнение двух термов между собойbull сравнение двух документов между собойbull сравнение терма и документа

Так же иногда этот метод используют для нахождения laquoближайшего соседаraquo mdash наиболее близких по весу термов ассоциативно связанных с исходным Это свойство используют для поиска близких по смыслу термов Следует уточнить что близость по смыслу ndash это контекстнозависимая величина поэтому не всякий близкий терм будет соответствовать ассоциации (это может быть и синоним и антоним и просто часто встречающееся вместе с искомым термом слово или словосочетание)

bull Достоинством метода можно считать его замечательную способность выявлять зависимости между словами когда обычные статистические методы бессильны LSA также может быть применен как с обучением (с предварительной тематической классификацией документов) так и без обучения (произвольное разбиение произвольного текста) что зависит от решаемой задачи

bull Об основных недостатках значительное снижение скорости вычисления при увеличении объема входных данных (в частности при SVD-преобразовании)

bull Как показано в литературе скорость вычисления соответствует порядку где сумма количества документов и термов kndash размерность пространства факторов

На рисунке показано возникновение и изменение главных факторов при уменьшении числа сингулярных элементов диагональной матрицы от 100 до ~12 Трехмерные рисунки представляют собой симметричную матрицу полученную в результате вычисления скалярного произведения векторов каждого эталонного документа с каждым тестируемым Эталонный набор векторов ndash это заранее размеченный на 30 документов текст тестируемый ndash с уменьшением числа сингулярных значений диагональной матрицы полученной при SVD-анализе На осях X и Y откладывается количество документов (эталонных и тестируемых) на оси Z ndash объем лексиконаНа рисунках хорошо видно что при уменьшении числа сингулярных диагональных элементов на 20-30 факторы еще не достаточно ярко выявлены но при этом возникают корреляции похожих документов (небольшие пики вне диагонали) которые сначала незначительно увеличиваются а затем с уменьшением числа сингулярных значений (до 70-80) ndash исчезают При автоматической кластеризации такие пики являются шумом поэтому их желательно минимизировать Если же целью является получение ассоциативных связей внутри документов то следует найти оптимальное соотношение сохранения основного лексикона и примешивания ассоциативного

Имплементация в R - Package lsquolsarsquoalnumx - Regular expression for removal of non-alphanumeric characters (saving special characters)

astextmatrix - Display a latent semantic space generated by Latent Semantic Analysis (LSA)

associate - Find close terms in a textmatrix

corpora - Corpora (Essay Scoring) dimcalc Dimensionality Calculation Routines (LSA)

dimcalc - Dimensionality Calculation Routines (LSA)

lsa - Create a vector space with Latent Semantic Analysis (LSA)

printtextmatrix - Print a textmatrix (Matrices)

sampletextmatrix - Create a random sample of files

textmatrix - Создает Textmatrix (Matrices) из файлов

Пример 1

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) read files into a document-term matrixmyMatrix = textmatrix(td minWordLength=1) create the latent semantic spacemyLSAspace = lsa(myMatrix dims=dimcalc_raw()) display it as a textmatrix againround(astextmatrix(myLSAspace)2) should give the original create the latent semantic spacemyLSAspace = lsa(myMatrix dims=dimcalc_share())

Пример 2

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) create matricesmyMatrix = textmatrix(td minWordLength=1)myLSAspace = lsa(myMatrix dims=dimcalc_share())myNewMatrix = astextmatrix(myLSAspace) calc associations for mouseassociate(myNewMatrix mouse) clean upunlink(td recursive=TRUE)

Пример 3 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(ham mouse sushi) file=paste(td D2 sep=) )write( c(dog pet pet) file=paste(td D3 sep=) ) LSAdata(stopwords_en)myMatrix = textmatrix(td stopwords=stopwords_en)myMatrix = lw_logtf(myMatrix) gw_idf(myMatrix)myLSAspace = lsa(myMatrix dims=dimcalc_share())astextmatrix(myLSAspace) clean upunlink(td recursive=TRUE)

Пример 4 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(hamster mouse sushi) file=paste(td D2 sep=) )write( c(dog monster monster) file=paste(td D3 sep=) ) read them create a document-term matrixtextmatrix(td) read them drop german stopwordsdata(stopwords_de)textmatrix(td stopwords=stopwords_de) read them based on a controlled vocabularyvoc = c(dog mouse)textmatrix(td vocabulary=voc minWordLength=1) clean up

Вместо заключения Очевидным недостатком LSA является ненормальность (негаусовость) вероятностного распределения слов в любом естественном языке Но эту проблему можно решить сглаживанием выборки (например применив фонетические слова распределение становится более laquoнормальнымraquo) Либо используют вероятностный LSA тназ PLSA основанный на мультиноминальном распределении Другим менее очевидным недостаткам LSA (и ему подобных методов) применительно к обработке неструктурированной информации можно отнести laquoтуманностьraquo самого метода (в частности выбора кол-ва сингулярных значений диагональной матрицы) и интерпретации результата не говоря уже о проблеме сбалансированности обучающего текста

Как правило для качественного построения модели оставляют менее 1-2 процента от общего числа диагональных значений (после SVD преобразования но об это в следующем посте) И как показывает практика увеличение числа факторов приводит к ухудшению результата Но дойдя примерно до 10 процентов от общего числа диагональных значений опять может быть всплеск аналогичный результату полученному при 1

Сбалансированность корпуса ndash вечная проблема которая не имеет хорошего решения на сегодняшний день Поэтому про нее приято помалкивать

Интерпретируемость результатов LSA (как и DLA) также затруднительна человек еще может понять что за тематику будет содержать топик полученный в результате анализа а вот машине не понять (не аннотировать) тематику без привлечения большого числа хороших и разных тезаурусов

Таким образом несмотря на трудоемкость и непрозрачность LSA он может успешно применяться для разного рада задач где важно поймать семантику сообщения обобщить или расширить laquoсмыслыraquo поискового запроса

bull Стандарт основанный на XML для обмена моделями статистической обработки Data Mining

bull Поддерживается более 20 организациями и поставщиками ПО

bull Реализован в частности и в R

Поддерживаемые предиктивные алгоритмы в R

Состав pmml package

bull addLT

bull addMSAttributes

bull audit

bull fileToXMLNode

bull pmml

bull pmmlada

bull pmmlcoxph

bull pmmlcvglmnet

bull pmmlglm

bull pmmlhclust

bull pmmlkmeans

bull pmmlksvm

bull pmmllm bull pmmlmultinom bull pmmlnaiveBayes bull pmmlnnet bull pmmlrandomForest bull pmmlrfsrc bull pmmlrpart bull pmmlrules bull pmmlsvm bull pmmlCanExport bull pmmltoc

Пример

Good by R see you later alligator

WATSON ndash одно из наиболее впечатляющих применений предиктивной аналитики

Разрабатывался компанией IBM с 2006 по 2010 годПрославился победой в телешоу Jeopardy (в России ndash laquoСвоя играraquo) в 2011 годуПредшественник Deep Blue обыграл чемпиона мира по шахматам Гарри Каспарова в 1997 г

>

IBM Deep QA Project

bull Целью проекта было создать компьютерную систему (ИИ) для ответа на вопросы (QA) задаваемые в свободной форме в телешоу и показать результаты соизмеримые с человеческими

bull Задача более сложная чем шахматная программа Deep Blue выигравшая у Каспарова в 1997 г

bull Вопросы по категориямCategory General ScienceClue When hit by electrons a phosphor gives off electromagnetic energy in this formAnswer Light (or Photons)

Category Lincoln BlogsClue Secretary Chase just submitted this to me for the third time guess what pal This time Irsquom accepting itAnswer his resignation

Category Head NorthClue Theyrsquore the two states you could be reentering if yoursquore crossing Floridarsquos northern borderAnswer Georgia and Alabama

Вопросы могут касаться сразу нескольких фактов чтобы ответ был вернымCategory ldquoRaprdquo SheetClue This archaic term for a mischievous or annoying child can also mean a rogue or scampSubclue 1 This archaic term for a mischievous or annoying childSubclue 2 This term can also mean a rogue or scampAnswer Rapscallion

Category Diplomatic RelationsClue Of the four countries in the world that the United States does not have diplomatic relations with the one thatrsquos farthest northInner subclue The four countries in the world that the United States does not have diplomatic relations with (Bhutan Cuba Iran North Korea)Outer subclue Of Bhutan Cuba Iran and North Korea the one thatrsquos farthest northAnswer North Korea

Вопросы - пазлы

Category Before and After Goes to the MoviesClue Film of a typical day in the life of the Beatles which includes running from bloodthirsty zombie fans in a Romero classicSubclue 2 Film of a typical day in the life of the Beatles Answer 1 (A Hard Dayrsquos Night)Subclue 2 Running from bloodthirsty zombie fans in a Romero classicAnswer 2 (Night of the Living Dead)Answer A Hard Dayrsquos Night of the Living Dead

Category Rhyme TimeClue Itrsquos where Pele stores his ballSubclue 1 Pele ball (soccer)Subclue 2 where store (cabinet drawer locker and so on)Answer soccer locker

Недопустимые типы вопросов

oCategory Picture This(Contestants are shown a picture of a B-52 bomber)Clue Alphanumeric name of the fearsome machine seen hereAnswer B-52

oCategory Decode the Postal CodesVerbal instruction from host Wersquore going to give you a word comprising two postal abbreviations you have to identify the statesClue VainAnswer Virginia and Indiana

Лексические типы ответа ndash LAT (Lexical Answer Type)

Метрики качества ответов - результативность

Показатели двух теоретических QA систем

Показатели результативности чемпионов шоу (2000)

Облако победителей

Линия сравнения результативности (baseline performance)

Сравнение системы тестового поиска и поиска в базе знаний

Результативность Watson (по версиям)

Основы подхода Deep QA

bull Massive parallelism использование высокого параллелизма при рассмотрении множественных интерпретаций и гипотез

bull Many experts привлечение интеграции приложения и контекстуального оценивания в широком диапазоне слабосвязанных вероятностных вопросов и контентной аналитики

bull Pervasive confidence estimation повсеместная оценка доверия означает что ни один из компонентов не включается в ответ сразу все компоненты имеют признаки и связанные с ними уровни доверия производится скоринг различных вопросов и контентная интерпретация Основа confidence-processing состоит в обучении как стэкировать и комбинировать баллы

bull Integrate shallow and deep knowledge интеграция поверхностных и глубинных знаний состоит в балансе использования строгой семантики и мелких семантик использующих множества слабо сформированных онтологий

bull Content Acquisition - Сбор контентаСочетает ручные и автоматические этапы Первым шагом является анализ примеров вопросов проблемного пространства чтобы произвести описание видов вопросов на которые нужно ответить и характеризовать область применения Анализ примеров вопросов в первую очередь ручная задача в то время как анализ области может быть выполнен путем автоматических или статистических методов таких как анализ LAT показанный ранее Учитывая вопросы для широкого домена Jeopardy Challenge источники для Watson включают широкий ассортимент энциклопедий словарей тезаурусов Newswire статьи литературные произведения и тд Начиная с разумного размера базового корпуса DeepQA затем применяет автоматический процесс расширения корпуса Процесс включает в себя четыре этапа высокого уровня (1) выявления основных документов и получить соответствующие документы из Интернет (2) извлечь автономные текстовые ядра из связанных веб-документов (3) Оценка на основе ядер являются ли они информативны по отношению к исходному основному документу и (4) объединить наиболее информативные ядра в расширенном корпусе Работающая система использует этот расширенный корпус и не имеет доступа к Интернет во время игры

bull Question Analysis ndash Анализ вопроса

Первый шаг во время выполнения процесса вопрос-ответной системы При анализе вопроса система пытается понять что вопрос задан и выполняет начальный анализ определяющий как вопрос будет обработан на остальных этапах работы системы Подход DeepQA использует смешанный набор экспертов на данном этапе и в системе Watson производится мелкий парсинг глубокий парсинг строятся логические формы семантические этикетки ролей взаимные ссылки отношения именованные сущности и так далее а также конкретные виды анализа для ответа вопрос

bull Question classification - Классификация вопроса

Это задача выявления типа вопроса или частей вопроса которые требуют специальной обработки Это может включать в себя что-нибудь из отдельных слов с двойным смыслом и потенциально до выявления целых статей которые имеют определенную синтаксическую семантическую или риторические функциональные возможности которые могут инициировать нисходящий анализ Классификация может определить вопрос как вопрос- головоломку вопрос-математику -определение и так далее Это будет определять каламбуры ограничения компоненты определений или целые подвопросы в пределах вопросов

bull Focus and LAT Detection ndash Определение фокуса и лексического типа ответа

Лексический тип ответа - это слово или словосочетание в вопросе который определяет тип ответа без попытки понять семантику Определение LAT является важным видом выигрыша и общим источником критических ошибок Преимущество подхода DeepQA является использование многих самостоятельно разработанных алгоритмов laquoответ-типированияraquo Например фокус вопроса викторины laquoПри попадании электронов люминофор излучает электромагнитную энергию в этой формеraquo - является laquoэта формаraquo Фокус часто (но не всегда) содержит полезную информацию об ответе часто субъект или объект отношение в вопросе и может превратить вопрос в фактическое утверждение при замене возможным кандидатом Это представляет полезный способ собирать доказательства о каждом кандидате

bull Relation Detection ndash детектирование отношений

Большинство вопросов содержит отношения являются ли они синтаксическими предикатами субъект-глагол-объект или семантические отношения между субъектами Например в вопросе laquoЕсть два штата в которые вы могли бы войти повторно если вы пересекаете северную границу штата Флоридаraquo мы можем обнаружить отношение границы (Флорида Х к северу) Watson использует обнаружение отношения на протяжении всего процесса QA от фокуса и LAT определения до прохождению и скорингу ответов Watson также может использовать обнаруженные отношения для выделения хранилища триплетов и напрямую генерировать кандидатов в ответы В 20000 игр Jeopardy вопросы например обнаружили распределение Freebase отношений чрезвычайно плоского вида (см рисунок) Это приближение распределеня 50 наиболее частых отношений в 20 000 случайно выбранных вопросах викторины

bull Decomposition ndash декомпозиция

Важным требованием успеха анализа Jeopardy является способность отвечать на вопросы которые разложены на составляющие DeepQA использует основанный на правилах глубокий парсинг и статистические методы классификации чтобы наилучшим образом разложить вопросы на элементы и определить как лучше разбить их на подвопросы Операционная гипотеза что правильная интерпретация вопроса позволит лучше произвести скоринг ответов после того как все доказательства собраны Даже если вопрос не должен быть разложен для определения ответа этот метод может помочь улучшить общее доверие ответу системы DeepQA решает задачи параллельно для каждого разложения применяя алгоритмы от начала до конца каждого подвопроса и синтезирует окончательные ответы DeepQA также поддерживает вложенные декомпозиции вопросов через рекурсивное применение QA системы от начала до конца в внутреннем подвопросе а затем во внешнем Настраиваемые компоненты позволяют легко подключать специализированные алгоритмы синтеза в общую систему

bull Hypothesis Generation ndash генерация гипотез

Генерация гипотез принимает результаты анализа вопросов и производит кандидатов на ответы Каждый кандидат ответ включается обратно в вопрос и это считается как гипотеза Система должна доказать правильность этой гипотезы с некоторой степенью уверенности Как и во всех аспектах DeepQA используется смесь разных подходов для первичного поиска и генерации кандидата в системе Watson

bull Primary Search ndash первичный поиск

В этом поиске целью является найти столько потенциально кандидатов сколько это можно сделать на основе результатов анализа вопроса В течение проекта велись эмпирические исследования направленные на баланс скорости объема и точности Эти исследования позволили регулярно настраивать систему так чтобы найти такое количество кандидатов которые производят наилучший баланс точности и вычислительных ресурсов Оперативная цель основного поиска в конечном счете стабилизировалась на около 85 процентов для топ-250 кандидатов то есть система генерирует правильный ответ как кандидата ответа на 85 процентов вопросов где-то в верхних 250 ранжированных кандидатов Разнообразие методов поиска используются в том числе с использованием нескольких текст поисковых системах с различными базовыми подходами (например Indri и Lucene) поиск документов а также поиска маршрута база знаний поиска с помощью SPARQL хранилища триплетов Для небольшого количества латов которые были определены как закрытые латы кандидат на ответ может быть получен из фиксированного списка в каком-то хранилище известных экземпляров LAT таких как США Президент или Страна

Поиск доказательств

bull Поиск по фразе ndash число соответствий разного типав ответе и вопросеbull Популярность ndash как часто встречается этот вариант ответаbull Соответствие по типу ndash ответ и требование вопросаbull Соответствие по времениbull Надежность источника

bull Candidate Answer Generation ndash генерирование кандидатов на ответ

Результаты поиска применяются для генерирования возможных кандидатов в ответы с помощью различных подходящих техник Для поиска документов извлекаются заголовки и используются как кандидаты Число кандидатов при этом может быть не единственным и требовать использования анализа подстрок и ссылок Используя детектирование именованных сущностей в ряде случаев удается извлечь хороших кандидатов В зависимости от типа источника для генерирования кандидата требуется разный набор алгоритмов например база знаний или обратный словарь порождают кандидатов непосредственно как кандидата Этот этап критически важен и если кандидаты не найдены то фиксируется невозможность ответа В нормальном режиме на этом этапе Watson гененерирует несколько сотен андидатов

bull Soft Filtering ndash мягкая фильтрацияДля ускорения процесса скоринга кандидатов Watson использует различные алгоритмы разной точности Более легковесные (менее вычислительно интенсивные) применяются на первом этапе скоринга На этом этапе устанавливается порог оценки и кандидаты имеющие более высокую оценку считаются прошедшими мягкую фильтрацию Они поступают на выработку гипотез и скоринг доказательств Интересно что кандидаты не прошедшие порог мягкой фильтрации не забываются а направляются прямо на финальный этап слияния Модель скоринга мягкой фильтрации и порога определяются на основе machine learning используя обучающие данные Watson типично пропускает через мягкую фильтрацию 100 кандидатов но эта функция параметризована и их число можно изменить

Проблемы NLP

bull В мае 1898 года Португалия отмечала 400-летний юбилей со дня прибытия этого великого путешественника в Индию

В мае Гари прибыл в Индию после празднования своего юбилея в Португалии

21 мая 1498 года Васка де Гама высадился в местечке Каппад

bull Он был помилован президентом 8 сентября 1974 годаФорд помиловал Никсона 8 сентября 1974 года Никсон Форд

bull Говоря ldquogive a trinklerdquo что предлагают вам сделать британцы по приезду в город

bull Hypothesis and Evidence Scoring ndash скоринг гипотез и доказательств

Прошедшие порог мягкой фильтрации кандидаты поступают на скрупулезный процесс который включает сбор дополнительных поддерживающих доказательств для каждого кандидата на ответ или гипотезу Процесс использует широкий набор различных методов скоринговой аналитики чтобы исследовать все поддерживающие доказательства

bull Evidence Retrieval ndash извлечение доказательств

Чтобы лучше исследовать каждого кандидата прошедшего через мягкую фильтрацию система собирает дополнительные поддерживающие доказательства Архитектура поддерживает интеграцию различных evidence-gathering техник Один из применяемых способов состоит в том что проводится дополнительный поиск в котором кандидат добавляется в качестве required term к первичному запросу извлеченному из вопроса Это будет приводить к получению выражений содержащих кандидата в контексте первичных терминов вопросаПоддерживающие доказательства могут быть извлечены и из других источников например из RDF баз знаний Извлеченные поддерживающие доказательства направляются модули глубокого скоринга которые анализируют кандидата в контексте поддерживающего доказательства

bull Scoring ndash скоринг (количественное оценивание)

Алгоритмы скоринга определяют степень несомненности которую обеспечивают доказательства в поддержку кандидата The DeepQA framework поддерживает множество компонент для выработки оценки в различных измерениях каждого доказательства которая вырабатывает оценку связанную с тем насколько хорошо доказательство поддерживает кандидата на ответ в качестве ответа на заданный вопросDeepQA использует общий формат для оценок для принятых гипотез и подтверждающих оценок отражающих семантические и ограничивающие факторы Это позволяет разработчикам DeepQA быстро разворачивать перемешивать и настраивать сложные совокупности модуле для обработкиНапрмер Watson использует больше чем 50 скоринговых компонент Они производят оценки разноготипа от оценок вероятностей до подсчета категориальных свойств основанных на доказательствах от различных источников включая неструктурированные тексты полуструктурированные тексты и RDF хранилища Эти оценки используют такие данные как degree of match between a passagersquos predicate-argument structure and the question passage source reliability geospatial location temporal relationships taxonomic classification the lexical and semantic relations the candidate is known to participate in the candidatersquos correlation with question terms its popularity (or obscurity) its aliases and so on

Вопрос Чили имеет самую длинную общую границу со страной Сгенерировано несколько кандидатов среди них Аргентина и Боливия Первичный поиск даст приоритет Боливии из=а популярности обсуждений их отношений Однако собранные Watson доказательства из других источников показывают более высокую оценку для Аргентины

Скоринг (взвешивание) доказательств ndash предиктивная аналитика

- При делении клеток митозом называется деление ядра а цитокинезом ndash деление этой жидкости в которой находится ядро

Генерирование кандидатов Сбор доказательств Уверенность в доказательстве

ОрганеллыВакуольЦитоплазмаПлазмамитохондрии

Органеллы ndash не жидкостьВакуоль ndash не жидкостьЦитоплазма ndash возможно жидкостьПлазма ndash не жидкостьМитохондрии ndash не жидкость

Цитоплазма ndash 92Органеллы ndash 19Вакуоль ndash 10Плазма ndash 2Митохондрии ndash 2

Answer Merging ndash объединение ответов

Многие кандидаты в ответы на поставленный вопрос могут быть эквивалентны несмотря на различные внешне формыТехники ранжирования тем не менее рассматривают таких кандидатов как различные Без объединения алгоритмы ранжирования будут работать отдельно с эквивалентными сущностями и пытаться противопоставить одну форму другой Это приведет к проблемам принятия решений Watson содержит алгоритмы идентификации эквивалентных сущностей используя множественные сравнения нормализацию и методы разрешения совместных ссылок

Ranking and Confidence Estimation ndash ранжирование и оценивание доверияПосле объединения система должна произвести ранжирование гипотез и оценивает доверие основанное на объединенных оценках В системе подобран ML подход основанный на обучении на обучающем наборе вопросов с известными ответами и обучение модели основываясь на скоринге Применяется как весьма плоская модель и существующие алгоритмы ранжирования Для более тонких оценок применяется двухфазный процесс использующий группы оценок для оценивания профиля и для оценки доверия Используя эту промежуточную модель система производит ансамбль промежуточных оценок Здесь используется иерархическая техника метаучителя и коллектива экспертов Этот подход обеспечивает итеративное расширение обучения используя изощренные и глубокие иерархические модели обеспечивающие гибкость и робастность при выработке оценок и модифицирует системуМетаучитель в Watson использует набор многие обучаемые модели чтобы управлять различными классами вопросов которые могут быть критическими при идентификации правильных ответовНаконец важно что использование NLP-based скоринга дает весьма разреженные оценки и требует точного оценивания с применением confidence-weighted learning techniques

Развертывание Watson

bull DeepQA разработан используя Apache UIMA - framework implementation of the Unstructured Information Management Architecture (Ferrucci and Lally 2004) UIMA был разработан для поддержки взаимодействия и масштабирования приложений обработки текста и мультимодального анализа Все компоненты DeepQA имплементированы как UIMA annotators Это программные компоненты для анализа текста и получения аннотаций или заключений о тексте Watson развивался в процессе разработки от нескольких компонент до нескольких сотен UIMA обеспечивает быструю интеграцию компонент тестирование и исследование

bull Начальная имплементация Watson запускалась на одном процессоре и требовала 2 часа на ответ на один вопрос DeepQA развился в параллельную систему используя UIMA-AS часть Apache UIMA масштабируя приложения UIMA используя асинхронный механизм месседжинга UIMA-AS позволила масштабировать Watson более чем на 2500 вычислительных ядер UIMA-AS управляет коммуникациями месседжингом управлением запросами используя open JMS standard UIMA-AS позволил снизить латентность Watson до 3ndash5 секунд

bull Для препроцессинга корпуса текстов создания быстрых run-time indices использован Hadoop

UIMA annotators были развернуты как mapper ы в Hadoop map-reduce framework Hadoop распределяет контент по кластеру для обеспечения высокого использования CPU и обеспечивает подходящий набор инструментов для deploying managing and monitoring the corpus analysis process

bull Аппаратная платформа ndash это 90 серверов 2800 ядер 15 ТБ RAM 80 Тфлопс $3 000 000 10 R

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 25: !Predictive analytics part_3

Семантическое пространство

Матрица расстояний между словами

Результат снижения размерности кластеризация [human interface computer user EPS response time][survey trees graph minors]

Расстояния между заголовками до и после SVD

bull Объем корпуса для построения модели должен быть большим ndash желательно около трех-пяти миллионов словоупотреблений Но метод работает и на коллекциях меньшего объема правда несколько хужеПроизвольное разбиение текста на документы обычно производят от тысячи до нескольких десятков тысяч частей примерно одинакового объема Таким образом матрица термы-на-документы получается прямоугольной и может быть сильно разраженной Например при объеме 5 млн словоформ получается матрица 30-50 тысяч документов на 200-300 тысяч а иногда и более термов В действительности низкочастотные термы можно опустить тк это заметно снизит размерность матрицы (скажем если не использовать 5 от общего объема низкочастотных термов то размерность сократиться в два раза) что приведет к снижению вычислительных ресурсов и времениВыбор сокращения сингулярных значений диагональной матрицы (размерности k) при обратном перемножении матриц достаточно произвольно При вышеуказанной размерности матрицы оставляют несколько сотен (100-300) главных компонент При этом как показывает практика зависимость количества компонент и точность меняются нелинейно например если начинать увеличивать их число то точность будет падать но при некотором значении скажем 10000 ndash опять вырастет до оптимального случая

Применение

bull сравнение двух термов между собойbull сравнение двух документов между собойbull сравнение терма и документа

Так же иногда этот метод используют для нахождения laquoближайшего соседаraquo mdash наиболее близких по весу термов ассоциативно связанных с исходным Это свойство используют для поиска близких по смыслу термов Следует уточнить что близость по смыслу ndash это контекстнозависимая величина поэтому не всякий близкий терм будет соответствовать ассоциации (это может быть и синоним и антоним и просто часто встречающееся вместе с искомым термом слово или словосочетание)

bull Достоинством метода можно считать его замечательную способность выявлять зависимости между словами когда обычные статистические методы бессильны LSA также может быть применен как с обучением (с предварительной тематической классификацией документов) так и без обучения (произвольное разбиение произвольного текста) что зависит от решаемой задачи

bull Об основных недостатках значительное снижение скорости вычисления при увеличении объема входных данных (в частности при SVD-преобразовании)

bull Как показано в литературе скорость вычисления соответствует порядку где сумма количества документов и термов kndash размерность пространства факторов

На рисунке показано возникновение и изменение главных факторов при уменьшении числа сингулярных элементов диагональной матрицы от 100 до ~12 Трехмерные рисунки представляют собой симметричную матрицу полученную в результате вычисления скалярного произведения векторов каждого эталонного документа с каждым тестируемым Эталонный набор векторов ndash это заранее размеченный на 30 документов текст тестируемый ndash с уменьшением числа сингулярных значений диагональной матрицы полученной при SVD-анализе На осях X и Y откладывается количество документов (эталонных и тестируемых) на оси Z ndash объем лексиконаНа рисунках хорошо видно что при уменьшении числа сингулярных диагональных элементов на 20-30 факторы еще не достаточно ярко выявлены но при этом возникают корреляции похожих документов (небольшие пики вне диагонали) которые сначала незначительно увеличиваются а затем с уменьшением числа сингулярных значений (до 70-80) ndash исчезают При автоматической кластеризации такие пики являются шумом поэтому их желательно минимизировать Если же целью является получение ассоциативных связей внутри документов то следует найти оптимальное соотношение сохранения основного лексикона и примешивания ассоциативного

Имплементация в R - Package lsquolsarsquoalnumx - Regular expression for removal of non-alphanumeric characters (saving special characters)

astextmatrix - Display a latent semantic space generated by Latent Semantic Analysis (LSA)

associate - Find close terms in a textmatrix

corpora - Corpora (Essay Scoring) dimcalc Dimensionality Calculation Routines (LSA)

dimcalc - Dimensionality Calculation Routines (LSA)

lsa - Create a vector space with Latent Semantic Analysis (LSA)

printtextmatrix - Print a textmatrix (Matrices)

sampletextmatrix - Create a random sample of files

textmatrix - Создает Textmatrix (Matrices) из файлов

Пример 1

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) read files into a document-term matrixmyMatrix = textmatrix(td minWordLength=1) create the latent semantic spacemyLSAspace = lsa(myMatrix dims=dimcalc_raw()) display it as a textmatrix againround(astextmatrix(myLSAspace)2) should give the original create the latent semantic spacemyLSAspace = lsa(myMatrix dims=dimcalc_share())

Пример 2

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) create matricesmyMatrix = textmatrix(td minWordLength=1)myLSAspace = lsa(myMatrix dims=dimcalc_share())myNewMatrix = astextmatrix(myLSAspace) calc associations for mouseassociate(myNewMatrix mouse) clean upunlink(td recursive=TRUE)

Пример 3 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(ham mouse sushi) file=paste(td D2 sep=) )write( c(dog pet pet) file=paste(td D3 sep=) ) LSAdata(stopwords_en)myMatrix = textmatrix(td stopwords=stopwords_en)myMatrix = lw_logtf(myMatrix) gw_idf(myMatrix)myLSAspace = lsa(myMatrix dims=dimcalc_share())astextmatrix(myLSAspace) clean upunlink(td recursive=TRUE)

Пример 4 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(hamster mouse sushi) file=paste(td D2 sep=) )write( c(dog monster monster) file=paste(td D3 sep=) ) read them create a document-term matrixtextmatrix(td) read them drop german stopwordsdata(stopwords_de)textmatrix(td stopwords=stopwords_de) read them based on a controlled vocabularyvoc = c(dog mouse)textmatrix(td vocabulary=voc minWordLength=1) clean up

Вместо заключения Очевидным недостатком LSA является ненормальность (негаусовость) вероятностного распределения слов в любом естественном языке Но эту проблему можно решить сглаживанием выборки (например применив фонетические слова распределение становится более laquoнормальнымraquo) Либо используют вероятностный LSA тназ PLSA основанный на мультиноминальном распределении Другим менее очевидным недостаткам LSA (и ему подобных методов) применительно к обработке неструктурированной информации можно отнести laquoтуманностьraquo самого метода (в частности выбора кол-ва сингулярных значений диагональной матрицы) и интерпретации результата не говоря уже о проблеме сбалансированности обучающего текста

Как правило для качественного построения модели оставляют менее 1-2 процента от общего числа диагональных значений (после SVD преобразования но об это в следующем посте) И как показывает практика увеличение числа факторов приводит к ухудшению результата Но дойдя примерно до 10 процентов от общего числа диагональных значений опять может быть всплеск аналогичный результату полученному при 1

Сбалансированность корпуса ndash вечная проблема которая не имеет хорошего решения на сегодняшний день Поэтому про нее приято помалкивать

Интерпретируемость результатов LSA (как и DLA) также затруднительна человек еще может понять что за тематику будет содержать топик полученный в результате анализа а вот машине не понять (не аннотировать) тематику без привлечения большого числа хороших и разных тезаурусов

Таким образом несмотря на трудоемкость и непрозрачность LSA он может успешно применяться для разного рада задач где важно поймать семантику сообщения обобщить или расширить laquoсмыслыraquo поискового запроса

bull Стандарт основанный на XML для обмена моделями статистической обработки Data Mining

bull Поддерживается более 20 организациями и поставщиками ПО

bull Реализован в частности и в R

Поддерживаемые предиктивные алгоритмы в R

Состав pmml package

bull addLT

bull addMSAttributes

bull audit

bull fileToXMLNode

bull pmml

bull pmmlada

bull pmmlcoxph

bull pmmlcvglmnet

bull pmmlglm

bull pmmlhclust

bull pmmlkmeans

bull pmmlksvm

bull pmmllm bull pmmlmultinom bull pmmlnaiveBayes bull pmmlnnet bull pmmlrandomForest bull pmmlrfsrc bull pmmlrpart bull pmmlrules bull pmmlsvm bull pmmlCanExport bull pmmltoc

Пример

Good by R see you later alligator

WATSON ndash одно из наиболее впечатляющих применений предиктивной аналитики

Разрабатывался компанией IBM с 2006 по 2010 годПрославился победой в телешоу Jeopardy (в России ndash laquoСвоя играraquo) в 2011 годуПредшественник Deep Blue обыграл чемпиона мира по шахматам Гарри Каспарова в 1997 г

>

IBM Deep QA Project

bull Целью проекта было создать компьютерную систему (ИИ) для ответа на вопросы (QA) задаваемые в свободной форме в телешоу и показать результаты соизмеримые с человеческими

bull Задача более сложная чем шахматная программа Deep Blue выигравшая у Каспарова в 1997 г

bull Вопросы по категориямCategory General ScienceClue When hit by electrons a phosphor gives off electromagnetic energy in this formAnswer Light (or Photons)

Category Lincoln BlogsClue Secretary Chase just submitted this to me for the third time guess what pal This time Irsquom accepting itAnswer his resignation

Category Head NorthClue Theyrsquore the two states you could be reentering if yoursquore crossing Floridarsquos northern borderAnswer Georgia and Alabama

Вопросы могут касаться сразу нескольких фактов чтобы ответ был вернымCategory ldquoRaprdquo SheetClue This archaic term for a mischievous or annoying child can also mean a rogue or scampSubclue 1 This archaic term for a mischievous or annoying childSubclue 2 This term can also mean a rogue or scampAnswer Rapscallion

Category Diplomatic RelationsClue Of the four countries in the world that the United States does not have diplomatic relations with the one thatrsquos farthest northInner subclue The four countries in the world that the United States does not have diplomatic relations with (Bhutan Cuba Iran North Korea)Outer subclue Of Bhutan Cuba Iran and North Korea the one thatrsquos farthest northAnswer North Korea

Вопросы - пазлы

Category Before and After Goes to the MoviesClue Film of a typical day in the life of the Beatles which includes running from bloodthirsty zombie fans in a Romero classicSubclue 2 Film of a typical day in the life of the Beatles Answer 1 (A Hard Dayrsquos Night)Subclue 2 Running from bloodthirsty zombie fans in a Romero classicAnswer 2 (Night of the Living Dead)Answer A Hard Dayrsquos Night of the Living Dead

Category Rhyme TimeClue Itrsquos where Pele stores his ballSubclue 1 Pele ball (soccer)Subclue 2 where store (cabinet drawer locker and so on)Answer soccer locker

Недопустимые типы вопросов

oCategory Picture This(Contestants are shown a picture of a B-52 bomber)Clue Alphanumeric name of the fearsome machine seen hereAnswer B-52

oCategory Decode the Postal CodesVerbal instruction from host Wersquore going to give you a word comprising two postal abbreviations you have to identify the statesClue VainAnswer Virginia and Indiana

Лексические типы ответа ndash LAT (Lexical Answer Type)

Метрики качества ответов - результативность

Показатели двух теоретических QA систем

Показатели результативности чемпионов шоу (2000)

Облако победителей

Линия сравнения результативности (baseline performance)

Сравнение системы тестового поиска и поиска в базе знаний

Результативность Watson (по версиям)

Основы подхода Deep QA

bull Massive parallelism использование высокого параллелизма при рассмотрении множественных интерпретаций и гипотез

bull Many experts привлечение интеграции приложения и контекстуального оценивания в широком диапазоне слабосвязанных вероятностных вопросов и контентной аналитики

bull Pervasive confidence estimation повсеместная оценка доверия означает что ни один из компонентов не включается в ответ сразу все компоненты имеют признаки и связанные с ними уровни доверия производится скоринг различных вопросов и контентная интерпретация Основа confidence-processing состоит в обучении как стэкировать и комбинировать баллы

bull Integrate shallow and deep knowledge интеграция поверхностных и глубинных знаний состоит в балансе использования строгой семантики и мелких семантик использующих множества слабо сформированных онтологий

bull Content Acquisition - Сбор контентаСочетает ручные и автоматические этапы Первым шагом является анализ примеров вопросов проблемного пространства чтобы произвести описание видов вопросов на которые нужно ответить и характеризовать область применения Анализ примеров вопросов в первую очередь ручная задача в то время как анализ области может быть выполнен путем автоматических или статистических методов таких как анализ LAT показанный ранее Учитывая вопросы для широкого домена Jeopardy Challenge источники для Watson включают широкий ассортимент энциклопедий словарей тезаурусов Newswire статьи литературные произведения и тд Начиная с разумного размера базового корпуса DeepQA затем применяет автоматический процесс расширения корпуса Процесс включает в себя четыре этапа высокого уровня (1) выявления основных документов и получить соответствующие документы из Интернет (2) извлечь автономные текстовые ядра из связанных веб-документов (3) Оценка на основе ядер являются ли они информативны по отношению к исходному основному документу и (4) объединить наиболее информативные ядра в расширенном корпусе Работающая система использует этот расширенный корпус и не имеет доступа к Интернет во время игры

bull Question Analysis ndash Анализ вопроса

Первый шаг во время выполнения процесса вопрос-ответной системы При анализе вопроса система пытается понять что вопрос задан и выполняет начальный анализ определяющий как вопрос будет обработан на остальных этапах работы системы Подход DeepQA использует смешанный набор экспертов на данном этапе и в системе Watson производится мелкий парсинг глубокий парсинг строятся логические формы семантические этикетки ролей взаимные ссылки отношения именованные сущности и так далее а также конкретные виды анализа для ответа вопрос

bull Question classification - Классификация вопроса

Это задача выявления типа вопроса или частей вопроса которые требуют специальной обработки Это может включать в себя что-нибудь из отдельных слов с двойным смыслом и потенциально до выявления целых статей которые имеют определенную синтаксическую семантическую или риторические функциональные возможности которые могут инициировать нисходящий анализ Классификация может определить вопрос как вопрос- головоломку вопрос-математику -определение и так далее Это будет определять каламбуры ограничения компоненты определений или целые подвопросы в пределах вопросов

bull Focus and LAT Detection ndash Определение фокуса и лексического типа ответа

Лексический тип ответа - это слово или словосочетание в вопросе который определяет тип ответа без попытки понять семантику Определение LAT является важным видом выигрыша и общим источником критических ошибок Преимущество подхода DeepQA является использование многих самостоятельно разработанных алгоритмов laquoответ-типированияraquo Например фокус вопроса викторины laquoПри попадании электронов люминофор излучает электромагнитную энергию в этой формеraquo - является laquoэта формаraquo Фокус часто (но не всегда) содержит полезную информацию об ответе часто субъект или объект отношение в вопросе и может превратить вопрос в фактическое утверждение при замене возможным кандидатом Это представляет полезный способ собирать доказательства о каждом кандидате

bull Relation Detection ndash детектирование отношений

Большинство вопросов содержит отношения являются ли они синтаксическими предикатами субъект-глагол-объект или семантические отношения между субъектами Например в вопросе laquoЕсть два штата в которые вы могли бы войти повторно если вы пересекаете северную границу штата Флоридаraquo мы можем обнаружить отношение границы (Флорида Х к северу) Watson использует обнаружение отношения на протяжении всего процесса QA от фокуса и LAT определения до прохождению и скорингу ответов Watson также может использовать обнаруженные отношения для выделения хранилища триплетов и напрямую генерировать кандидатов в ответы В 20000 игр Jeopardy вопросы например обнаружили распределение Freebase отношений чрезвычайно плоского вида (см рисунок) Это приближение распределеня 50 наиболее частых отношений в 20 000 случайно выбранных вопросах викторины

bull Decomposition ndash декомпозиция

Важным требованием успеха анализа Jeopardy является способность отвечать на вопросы которые разложены на составляющие DeepQA использует основанный на правилах глубокий парсинг и статистические методы классификации чтобы наилучшим образом разложить вопросы на элементы и определить как лучше разбить их на подвопросы Операционная гипотеза что правильная интерпретация вопроса позволит лучше произвести скоринг ответов после того как все доказательства собраны Даже если вопрос не должен быть разложен для определения ответа этот метод может помочь улучшить общее доверие ответу системы DeepQA решает задачи параллельно для каждого разложения применяя алгоритмы от начала до конца каждого подвопроса и синтезирует окончательные ответы DeepQA также поддерживает вложенные декомпозиции вопросов через рекурсивное применение QA системы от начала до конца в внутреннем подвопросе а затем во внешнем Настраиваемые компоненты позволяют легко подключать специализированные алгоритмы синтеза в общую систему

bull Hypothesis Generation ndash генерация гипотез

Генерация гипотез принимает результаты анализа вопросов и производит кандидатов на ответы Каждый кандидат ответ включается обратно в вопрос и это считается как гипотеза Система должна доказать правильность этой гипотезы с некоторой степенью уверенности Как и во всех аспектах DeepQA используется смесь разных подходов для первичного поиска и генерации кандидата в системе Watson

bull Primary Search ndash первичный поиск

В этом поиске целью является найти столько потенциально кандидатов сколько это можно сделать на основе результатов анализа вопроса В течение проекта велись эмпирические исследования направленные на баланс скорости объема и точности Эти исследования позволили регулярно настраивать систему так чтобы найти такое количество кандидатов которые производят наилучший баланс точности и вычислительных ресурсов Оперативная цель основного поиска в конечном счете стабилизировалась на около 85 процентов для топ-250 кандидатов то есть система генерирует правильный ответ как кандидата ответа на 85 процентов вопросов где-то в верхних 250 ранжированных кандидатов Разнообразие методов поиска используются в том числе с использованием нескольких текст поисковых системах с различными базовыми подходами (например Indri и Lucene) поиск документов а также поиска маршрута база знаний поиска с помощью SPARQL хранилища триплетов Для небольшого количества латов которые были определены как закрытые латы кандидат на ответ может быть получен из фиксированного списка в каком-то хранилище известных экземпляров LAT таких как США Президент или Страна

Поиск доказательств

bull Поиск по фразе ndash число соответствий разного типав ответе и вопросеbull Популярность ndash как часто встречается этот вариант ответаbull Соответствие по типу ndash ответ и требование вопросаbull Соответствие по времениbull Надежность источника

bull Candidate Answer Generation ndash генерирование кандидатов на ответ

Результаты поиска применяются для генерирования возможных кандидатов в ответы с помощью различных подходящих техник Для поиска документов извлекаются заголовки и используются как кандидаты Число кандидатов при этом может быть не единственным и требовать использования анализа подстрок и ссылок Используя детектирование именованных сущностей в ряде случаев удается извлечь хороших кандидатов В зависимости от типа источника для генерирования кандидата требуется разный набор алгоритмов например база знаний или обратный словарь порождают кандидатов непосредственно как кандидата Этот этап критически важен и если кандидаты не найдены то фиксируется невозможность ответа В нормальном режиме на этом этапе Watson гененерирует несколько сотен андидатов

bull Soft Filtering ndash мягкая фильтрацияДля ускорения процесса скоринга кандидатов Watson использует различные алгоритмы разной точности Более легковесные (менее вычислительно интенсивные) применяются на первом этапе скоринга На этом этапе устанавливается порог оценки и кандидаты имеющие более высокую оценку считаются прошедшими мягкую фильтрацию Они поступают на выработку гипотез и скоринг доказательств Интересно что кандидаты не прошедшие порог мягкой фильтрации не забываются а направляются прямо на финальный этап слияния Модель скоринга мягкой фильтрации и порога определяются на основе machine learning используя обучающие данные Watson типично пропускает через мягкую фильтрацию 100 кандидатов но эта функция параметризована и их число можно изменить

Проблемы NLP

bull В мае 1898 года Португалия отмечала 400-летний юбилей со дня прибытия этого великого путешественника в Индию

В мае Гари прибыл в Индию после празднования своего юбилея в Португалии

21 мая 1498 года Васка де Гама высадился в местечке Каппад

bull Он был помилован президентом 8 сентября 1974 годаФорд помиловал Никсона 8 сентября 1974 года Никсон Форд

bull Говоря ldquogive a trinklerdquo что предлагают вам сделать британцы по приезду в город

bull Hypothesis and Evidence Scoring ndash скоринг гипотез и доказательств

Прошедшие порог мягкой фильтрации кандидаты поступают на скрупулезный процесс который включает сбор дополнительных поддерживающих доказательств для каждого кандидата на ответ или гипотезу Процесс использует широкий набор различных методов скоринговой аналитики чтобы исследовать все поддерживающие доказательства

bull Evidence Retrieval ndash извлечение доказательств

Чтобы лучше исследовать каждого кандидата прошедшего через мягкую фильтрацию система собирает дополнительные поддерживающие доказательства Архитектура поддерживает интеграцию различных evidence-gathering техник Один из применяемых способов состоит в том что проводится дополнительный поиск в котором кандидат добавляется в качестве required term к первичному запросу извлеченному из вопроса Это будет приводить к получению выражений содержащих кандидата в контексте первичных терминов вопросаПоддерживающие доказательства могут быть извлечены и из других источников например из RDF баз знаний Извлеченные поддерживающие доказательства направляются модули глубокого скоринга которые анализируют кандидата в контексте поддерживающего доказательства

bull Scoring ndash скоринг (количественное оценивание)

Алгоритмы скоринга определяют степень несомненности которую обеспечивают доказательства в поддержку кандидата The DeepQA framework поддерживает множество компонент для выработки оценки в различных измерениях каждого доказательства которая вырабатывает оценку связанную с тем насколько хорошо доказательство поддерживает кандидата на ответ в качестве ответа на заданный вопросDeepQA использует общий формат для оценок для принятых гипотез и подтверждающих оценок отражающих семантические и ограничивающие факторы Это позволяет разработчикам DeepQA быстро разворачивать перемешивать и настраивать сложные совокупности модуле для обработкиНапрмер Watson использует больше чем 50 скоринговых компонент Они производят оценки разноготипа от оценок вероятностей до подсчета категориальных свойств основанных на доказательствах от различных источников включая неструктурированные тексты полуструктурированные тексты и RDF хранилища Эти оценки используют такие данные как degree of match between a passagersquos predicate-argument structure and the question passage source reliability geospatial location temporal relationships taxonomic classification the lexical and semantic relations the candidate is known to participate in the candidatersquos correlation with question terms its popularity (or obscurity) its aliases and so on

Вопрос Чили имеет самую длинную общую границу со страной Сгенерировано несколько кандидатов среди них Аргентина и Боливия Первичный поиск даст приоритет Боливии из=а популярности обсуждений их отношений Однако собранные Watson доказательства из других источников показывают более высокую оценку для Аргентины

Скоринг (взвешивание) доказательств ndash предиктивная аналитика

- При делении клеток митозом называется деление ядра а цитокинезом ndash деление этой жидкости в которой находится ядро

Генерирование кандидатов Сбор доказательств Уверенность в доказательстве

ОрганеллыВакуольЦитоплазмаПлазмамитохондрии

Органеллы ndash не жидкостьВакуоль ndash не жидкостьЦитоплазма ndash возможно жидкостьПлазма ndash не жидкостьМитохондрии ndash не жидкость

Цитоплазма ndash 92Органеллы ndash 19Вакуоль ndash 10Плазма ndash 2Митохондрии ndash 2

Answer Merging ndash объединение ответов

Многие кандидаты в ответы на поставленный вопрос могут быть эквивалентны несмотря на различные внешне формыТехники ранжирования тем не менее рассматривают таких кандидатов как различные Без объединения алгоритмы ранжирования будут работать отдельно с эквивалентными сущностями и пытаться противопоставить одну форму другой Это приведет к проблемам принятия решений Watson содержит алгоритмы идентификации эквивалентных сущностей используя множественные сравнения нормализацию и методы разрешения совместных ссылок

Ranking and Confidence Estimation ndash ранжирование и оценивание доверияПосле объединения система должна произвести ранжирование гипотез и оценивает доверие основанное на объединенных оценках В системе подобран ML подход основанный на обучении на обучающем наборе вопросов с известными ответами и обучение модели основываясь на скоринге Применяется как весьма плоская модель и существующие алгоритмы ранжирования Для более тонких оценок применяется двухфазный процесс использующий группы оценок для оценивания профиля и для оценки доверия Используя эту промежуточную модель система производит ансамбль промежуточных оценок Здесь используется иерархическая техника метаучителя и коллектива экспертов Этот подход обеспечивает итеративное расширение обучения используя изощренные и глубокие иерархические модели обеспечивающие гибкость и робастность при выработке оценок и модифицирует системуМетаучитель в Watson использует набор многие обучаемые модели чтобы управлять различными классами вопросов которые могут быть критическими при идентификации правильных ответовНаконец важно что использование NLP-based скоринга дает весьма разреженные оценки и требует точного оценивания с применением confidence-weighted learning techniques

Развертывание Watson

bull DeepQA разработан используя Apache UIMA - framework implementation of the Unstructured Information Management Architecture (Ferrucci and Lally 2004) UIMA был разработан для поддержки взаимодействия и масштабирования приложений обработки текста и мультимодального анализа Все компоненты DeepQA имплементированы как UIMA annotators Это программные компоненты для анализа текста и получения аннотаций или заключений о тексте Watson развивался в процессе разработки от нескольких компонент до нескольких сотен UIMA обеспечивает быструю интеграцию компонент тестирование и исследование

bull Начальная имплементация Watson запускалась на одном процессоре и требовала 2 часа на ответ на один вопрос DeepQA развился в параллельную систему используя UIMA-AS часть Apache UIMA масштабируя приложения UIMA используя асинхронный механизм месседжинга UIMA-AS позволила масштабировать Watson более чем на 2500 вычислительных ядер UIMA-AS управляет коммуникациями месседжингом управлением запросами используя open JMS standard UIMA-AS позволил снизить латентность Watson до 3ndash5 секунд

bull Для препроцессинга корпуса текстов создания быстрых run-time indices использован Hadoop

UIMA annotators были развернуты как mapper ы в Hadoop map-reduce framework Hadoop распределяет контент по кластеру для обеспечения высокого использования CPU и обеспечивает подходящий набор инструментов для deploying managing and monitoring the corpus analysis process

bull Аппаратная платформа ndash это 90 серверов 2800 ядер 15 ТБ RAM 80 Тфлопс $3 000 000 10 R

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 26: !Predictive analytics part_3

Матрица расстояний между словами

Результат снижения размерности кластеризация [human interface computer user EPS response time][survey trees graph minors]

Расстояния между заголовками до и после SVD

bull Объем корпуса для построения модели должен быть большим ndash желательно около трех-пяти миллионов словоупотреблений Но метод работает и на коллекциях меньшего объема правда несколько хужеПроизвольное разбиение текста на документы обычно производят от тысячи до нескольких десятков тысяч частей примерно одинакового объема Таким образом матрица термы-на-документы получается прямоугольной и может быть сильно разраженной Например при объеме 5 млн словоформ получается матрица 30-50 тысяч документов на 200-300 тысяч а иногда и более термов В действительности низкочастотные термы можно опустить тк это заметно снизит размерность матрицы (скажем если не использовать 5 от общего объема низкочастотных термов то размерность сократиться в два раза) что приведет к снижению вычислительных ресурсов и времениВыбор сокращения сингулярных значений диагональной матрицы (размерности k) при обратном перемножении матриц достаточно произвольно При вышеуказанной размерности матрицы оставляют несколько сотен (100-300) главных компонент При этом как показывает практика зависимость количества компонент и точность меняются нелинейно например если начинать увеличивать их число то точность будет падать но при некотором значении скажем 10000 ndash опять вырастет до оптимального случая

Применение

bull сравнение двух термов между собойbull сравнение двух документов между собойbull сравнение терма и документа

Так же иногда этот метод используют для нахождения laquoближайшего соседаraquo mdash наиболее близких по весу термов ассоциативно связанных с исходным Это свойство используют для поиска близких по смыслу термов Следует уточнить что близость по смыслу ndash это контекстнозависимая величина поэтому не всякий близкий терм будет соответствовать ассоциации (это может быть и синоним и антоним и просто часто встречающееся вместе с искомым термом слово или словосочетание)

bull Достоинством метода можно считать его замечательную способность выявлять зависимости между словами когда обычные статистические методы бессильны LSA также может быть применен как с обучением (с предварительной тематической классификацией документов) так и без обучения (произвольное разбиение произвольного текста) что зависит от решаемой задачи

bull Об основных недостатках значительное снижение скорости вычисления при увеличении объема входных данных (в частности при SVD-преобразовании)

bull Как показано в литературе скорость вычисления соответствует порядку где сумма количества документов и термов kndash размерность пространства факторов

На рисунке показано возникновение и изменение главных факторов при уменьшении числа сингулярных элементов диагональной матрицы от 100 до ~12 Трехмерные рисунки представляют собой симметричную матрицу полученную в результате вычисления скалярного произведения векторов каждого эталонного документа с каждым тестируемым Эталонный набор векторов ndash это заранее размеченный на 30 документов текст тестируемый ndash с уменьшением числа сингулярных значений диагональной матрицы полученной при SVD-анализе На осях X и Y откладывается количество документов (эталонных и тестируемых) на оси Z ndash объем лексиконаНа рисунках хорошо видно что при уменьшении числа сингулярных диагональных элементов на 20-30 факторы еще не достаточно ярко выявлены но при этом возникают корреляции похожих документов (небольшие пики вне диагонали) которые сначала незначительно увеличиваются а затем с уменьшением числа сингулярных значений (до 70-80) ndash исчезают При автоматической кластеризации такие пики являются шумом поэтому их желательно минимизировать Если же целью является получение ассоциативных связей внутри документов то следует найти оптимальное соотношение сохранения основного лексикона и примешивания ассоциативного

Имплементация в R - Package lsquolsarsquoalnumx - Regular expression for removal of non-alphanumeric characters (saving special characters)

astextmatrix - Display a latent semantic space generated by Latent Semantic Analysis (LSA)

associate - Find close terms in a textmatrix

corpora - Corpora (Essay Scoring) dimcalc Dimensionality Calculation Routines (LSA)

dimcalc - Dimensionality Calculation Routines (LSA)

lsa - Create a vector space with Latent Semantic Analysis (LSA)

printtextmatrix - Print a textmatrix (Matrices)

sampletextmatrix - Create a random sample of files

textmatrix - Создает Textmatrix (Matrices) из файлов

Пример 1

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) read files into a document-term matrixmyMatrix = textmatrix(td minWordLength=1) create the latent semantic spacemyLSAspace = lsa(myMatrix dims=dimcalc_raw()) display it as a textmatrix againround(astextmatrix(myLSAspace)2) should give the original create the latent semantic spacemyLSAspace = lsa(myMatrix dims=dimcalc_share())

Пример 2

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) create matricesmyMatrix = textmatrix(td minWordLength=1)myLSAspace = lsa(myMatrix dims=dimcalc_share())myNewMatrix = astextmatrix(myLSAspace) calc associations for mouseassociate(myNewMatrix mouse) clean upunlink(td recursive=TRUE)

Пример 3 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(ham mouse sushi) file=paste(td D2 sep=) )write( c(dog pet pet) file=paste(td D3 sep=) ) LSAdata(stopwords_en)myMatrix = textmatrix(td stopwords=stopwords_en)myMatrix = lw_logtf(myMatrix) gw_idf(myMatrix)myLSAspace = lsa(myMatrix dims=dimcalc_share())astextmatrix(myLSAspace) clean upunlink(td recursive=TRUE)

Пример 4 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(hamster mouse sushi) file=paste(td D2 sep=) )write( c(dog monster monster) file=paste(td D3 sep=) ) read them create a document-term matrixtextmatrix(td) read them drop german stopwordsdata(stopwords_de)textmatrix(td stopwords=stopwords_de) read them based on a controlled vocabularyvoc = c(dog mouse)textmatrix(td vocabulary=voc minWordLength=1) clean up

Вместо заключения Очевидным недостатком LSA является ненормальность (негаусовость) вероятностного распределения слов в любом естественном языке Но эту проблему можно решить сглаживанием выборки (например применив фонетические слова распределение становится более laquoнормальнымraquo) Либо используют вероятностный LSA тназ PLSA основанный на мультиноминальном распределении Другим менее очевидным недостаткам LSA (и ему подобных методов) применительно к обработке неструктурированной информации можно отнести laquoтуманностьraquo самого метода (в частности выбора кол-ва сингулярных значений диагональной матрицы) и интерпретации результата не говоря уже о проблеме сбалансированности обучающего текста

Как правило для качественного построения модели оставляют менее 1-2 процента от общего числа диагональных значений (после SVD преобразования но об это в следующем посте) И как показывает практика увеличение числа факторов приводит к ухудшению результата Но дойдя примерно до 10 процентов от общего числа диагональных значений опять может быть всплеск аналогичный результату полученному при 1

Сбалансированность корпуса ndash вечная проблема которая не имеет хорошего решения на сегодняшний день Поэтому про нее приято помалкивать

Интерпретируемость результатов LSA (как и DLA) также затруднительна человек еще может понять что за тематику будет содержать топик полученный в результате анализа а вот машине не понять (не аннотировать) тематику без привлечения большого числа хороших и разных тезаурусов

Таким образом несмотря на трудоемкость и непрозрачность LSA он может успешно применяться для разного рада задач где важно поймать семантику сообщения обобщить или расширить laquoсмыслыraquo поискового запроса

bull Стандарт основанный на XML для обмена моделями статистической обработки Data Mining

bull Поддерживается более 20 организациями и поставщиками ПО

bull Реализован в частности и в R

Поддерживаемые предиктивные алгоритмы в R

Состав pmml package

bull addLT

bull addMSAttributes

bull audit

bull fileToXMLNode

bull pmml

bull pmmlada

bull pmmlcoxph

bull pmmlcvglmnet

bull pmmlglm

bull pmmlhclust

bull pmmlkmeans

bull pmmlksvm

bull pmmllm bull pmmlmultinom bull pmmlnaiveBayes bull pmmlnnet bull pmmlrandomForest bull pmmlrfsrc bull pmmlrpart bull pmmlrules bull pmmlsvm bull pmmlCanExport bull pmmltoc

Пример

Good by R see you later alligator

WATSON ndash одно из наиболее впечатляющих применений предиктивной аналитики

Разрабатывался компанией IBM с 2006 по 2010 годПрославился победой в телешоу Jeopardy (в России ndash laquoСвоя играraquo) в 2011 годуПредшественник Deep Blue обыграл чемпиона мира по шахматам Гарри Каспарова в 1997 г

>

IBM Deep QA Project

bull Целью проекта было создать компьютерную систему (ИИ) для ответа на вопросы (QA) задаваемые в свободной форме в телешоу и показать результаты соизмеримые с человеческими

bull Задача более сложная чем шахматная программа Deep Blue выигравшая у Каспарова в 1997 г

bull Вопросы по категориямCategory General ScienceClue When hit by electrons a phosphor gives off electromagnetic energy in this formAnswer Light (or Photons)

Category Lincoln BlogsClue Secretary Chase just submitted this to me for the third time guess what pal This time Irsquom accepting itAnswer his resignation

Category Head NorthClue Theyrsquore the two states you could be reentering if yoursquore crossing Floridarsquos northern borderAnswer Georgia and Alabama

Вопросы могут касаться сразу нескольких фактов чтобы ответ был вернымCategory ldquoRaprdquo SheetClue This archaic term for a mischievous or annoying child can also mean a rogue or scampSubclue 1 This archaic term for a mischievous or annoying childSubclue 2 This term can also mean a rogue or scampAnswer Rapscallion

Category Diplomatic RelationsClue Of the four countries in the world that the United States does not have diplomatic relations with the one thatrsquos farthest northInner subclue The four countries in the world that the United States does not have diplomatic relations with (Bhutan Cuba Iran North Korea)Outer subclue Of Bhutan Cuba Iran and North Korea the one thatrsquos farthest northAnswer North Korea

Вопросы - пазлы

Category Before and After Goes to the MoviesClue Film of a typical day in the life of the Beatles which includes running from bloodthirsty zombie fans in a Romero classicSubclue 2 Film of a typical day in the life of the Beatles Answer 1 (A Hard Dayrsquos Night)Subclue 2 Running from bloodthirsty zombie fans in a Romero classicAnswer 2 (Night of the Living Dead)Answer A Hard Dayrsquos Night of the Living Dead

Category Rhyme TimeClue Itrsquos where Pele stores his ballSubclue 1 Pele ball (soccer)Subclue 2 where store (cabinet drawer locker and so on)Answer soccer locker

Недопустимые типы вопросов

oCategory Picture This(Contestants are shown a picture of a B-52 bomber)Clue Alphanumeric name of the fearsome machine seen hereAnswer B-52

oCategory Decode the Postal CodesVerbal instruction from host Wersquore going to give you a word comprising two postal abbreviations you have to identify the statesClue VainAnswer Virginia and Indiana

Лексические типы ответа ndash LAT (Lexical Answer Type)

Метрики качества ответов - результативность

Показатели двух теоретических QA систем

Показатели результативности чемпионов шоу (2000)

Облако победителей

Линия сравнения результативности (baseline performance)

Сравнение системы тестового поиска и поиска в базе знаний

Результативность Watson (по версиям)

Основы подхода Deep QA

bull Massive parallelism использование высокого параллелизма при рассмотрении множественных интерпретаций и гипотез

bull Many experts привлечение интеграции приложения и контекстуального оценивания в широком диапазоне слабосвязанных вероятностных вопросов и контентной аналитики

bull Pervasive confidence estimation повсеместная оценка доверия означает что ни один из компонентов не включается в ответ сразу все компоненты имеют признаки и связанные с ними уровни доверия производится скоринг различных вопросов и контентная интерпретация Основа confidence-processing состоит в обучении как стэкировать и комбинировать баллы

bull Integrate shallow and deep knowledge интеграция поверхностных и глубинных знаний состоит в балансе использования строгой семантики и мелких семантик использующих множества слабо сформированных онтологий

bull Content Acquisition - Сбор контентаСочетает ручные и автоматические этапы Первым шагом является анализ примеров вопросов проблемного пространства чтобы произвести описание видов вопросов на которые нужно ответить и характеризовать область применения Анализ примеров вопросов в первую очередь ручная задача в то время как анализ области может быть выполнен путем автоматических или статистических методов таких как анализ LAT показанный ранее Учитывая вопросы для широкого домена Jeopardy Challenge источники для Watson включают широкий ассортимент энциклопедий словарей тезаурусов Newswire статьи литературные произведения и тд Начиная с разумного размера базового корпуса DeepQA затем применяет автоматический процесс расширения корпуса Процесс включает в себя четыре этапа высокого уровня (1) выявления основных документов и получить соответствующие документы из Интернет (2) извлечь автономные текстовые ядра из связанных веб-документов (3) Оценка на основе ядер являются ли они информативны по отношению к исходному основному документу и (4) объединить наиболее информативные ядра в расширенном корпусе Работающая система использует этот расширенный корпус и не имеет доступа к Интернет во время игры

bull Question Analysis ndash Анализ вопроса

Первый шаг во время выполнения процесса вопрос-ответной системы При анализе вопроса система пытается понять что вопрос задан и выполняет начальный анализ определяющий как вопрос будет обработан на остальных этапах работы системы Подход DeepQA использует смешанный набор экспертов на данном этапе и в системе Watson производится мелкий парсинг глубокий парсинг строятся логические формы семантические этикетки ролей взаимные ссылки отношения именованные сущности и так далее а также конкретные виды анализа для ответа вопрос

bull Question classification - Классификация вопроса

Это задача выявления типа вопроса или частей вопроса которые требуют специальной обработки Это может включать в себя что-нибудь из отдельных слов с двойным смыслом и потенциально до выявления целых статей которые имеют определенную синтаксическую семантическую или риторические функциональные возможности которые могут инициировать нисходящий анализ Классификация может определить вопрос как вопрос- головоломку вопрос-математику -определение и так далее Это будет определять каламбуры ограничения компоненты определений или целые подвопросы в пределах вопросов

bull Focus and LAT Detection ndash Определение фокуса и лексического типа ответа

Лексический тип ответа - это слово или словосочетание в вопросе который определяет тип ответа без попытки понять семантику Определение LAT является важным видом выигрыша и общим источником критических ошибок Преимущество подхода DeepQA является использование многих самостоятельно разработанных алгоритмов laquoответ-типированияraquo Например фокус вопроса викторины laquoПри попадании электронов люминофор излучает электромагнитную энергию в этой формеraquo - является laquoэта формаraquo Фокус часто (но не всегда) содержит полезную информацию об ответе часто субъект или объект отношение в вопросе и может превратить вопрос в фактическое утверждение при замене возможным кандидатом Это представляет полезный способ собирать доказательства о каждом кандидате

bull Relation Detection ndash детектирование отношений

Большинство вопросов содержит отношения являются ли они синтаксическими предикатами субъект-глагол-объект или семантические отношения между субъектами Например в вопросе laquoЕсть два штата в которые вы могли бы войти повторно если вы пересекаете северную границу штата Флоридаraquo мы можем обнаружить отношение границы (Флорида Х к северу) Watson использует обнаружение отношения на протяжении всего процесса QA от фокуса и LAT определения до прохождению и скорингу ответов Watson также может использовать обнаруженные отношения для выделения хранилища триплетов и напрямую генерировать кандидатов в ответы В 20000 игр Jeopardy вопросы например обнаружили распределение Freebase отношений чрезвычайно плоского вида (см рисунок) Это приближение распределеня 50 наиболее частых отношений в 20 000 случайно выбранных вопросах викторины

bull Decomposition ndash декомпозиция

Важным требованием успеха анализа Jeopardy является способность отвечать на вопросы которые разложены на составляющие DeepQA использует основанный на правилах глубокий парсинг и статистические методы классификации чтобы наилучшим образом разложить вопросы на элементы и определить как лучше разбить их на подвопросы Операционная гипотеза что правильная интерпретация вопроса позволит лучше произвести скоринг ответов после того как все доказательства собраны Даже если вопрос не должен быть разложен для определения ответа этот метод может помочь улучшить общее доверие ответу системы DeepQA решает задачи параллельно для каждого разложения применяя алгоритмы от начала до конца каждого подвопроса и синтезирует окончательные ответы DeepQA также поддерживает вложенные декомпозиции вопросов через рекурсивное применение QA системы от начала до конца в внутреннем подвопросе а затем во внешнем Настраиваемые компоненты позволяют легко подключать специализированные алгоритмы синтеза в общую систему

bull Hypothesis Generation ndash генерация гипотез

Генерация гипотез принимает результаты анализа вопросов и производит кандидатов на ответы Каждый кандидат ответ включается обратно в вопрос и это считается как гипотеза Система должна доказать правильность этой гипотезы с некоторой степенью уверенности Как и во всех аспектах DeepQA используется смесь разных подходов для первичного поиска и генерации кандидата в системе Watson

bull Primary Search ndash первичный поиск

В этом поиске целью является найти столько потенциально кандидатов сколько это можно сделать на основе результатов анализа вопроса В течение проекта велись эмпирические исследования направленные на баланс скорости объема и точности Эти исследования позволили регулярно настраивать систему так чтобы найти такое количество кандидатов которые производят наилучший баланс точности и вычислительных ресурсов Оперативная цель основного поиска в конечном счете стабилизировалась на около 85 процентов для топ-250 кандидатов то есть система генерирует правильный ответ как кандидата ответа на 85 процентов вопросов где-то в верхних 250 ранжированных кандидатов Разнообразие методов поиска используются в том числе с использованием нескольких текст поисковых системах с различными базовыми подходами (например Indri и Lucene) поиск документов а также поиска маршрута база знаний поиска с помощью SPARQL хранилища триплетов Для небольшого количества латов которые были определены как закрытые латы кандидат на ответ может быть получен из фиксированного списка в каком-то хранилище известных экземпляров LAT таких как США Президент или Страна

Поиск доказательств

bull Поиск по фразе ndash число соответствий разного типав ответе и вопросеbull Популярность ndash как часто встречается этот вариант ответаbull Соответствие по типу ndash ответ и требование вопросаbull Соответствие по времениbull Надежность источника

bull Candidate Answer Generation ndash генерирование кандидатов на ответ

Результаты поиска применяются для генерирования возможных кандидатов в ответы с помощью различных подходящих техник Для поиска документов извлекаются заголовки и используются как кандидаты Число кандидатов при этом может быть не единственным и требовать использования анализа подстрок и ссылок Используя детектирование именованных сущностей в ряде случаев удается извлечь хороших кандидатов В зависимости от типа источника для генерирования кандидата требуется разный набор алгоритмов например база знаний или обратный словарь порождают кандидатов непосредственно как кандидата Этот этап критически важен и если кандидаты не найдены то фиксируется невозможность ответа В нормальном режиме на этом этапе Watson гененерирует несколько сотен андидатов

bull Soft Filtering ndash мягкая фильтрацияДля ускорения процесса скоринга кандидатов Watson использует различные алгоритмы разной точности Более легковесные (менее вычислительно интенсивные) применяются на первом этапе скоринга На этом этапе устанавливается порог оценки и кандидаты имеющие более высокую оценку считаются прошедшими мягкую фильтрацию Они поступают на выработку гипотез и скоринг доказательств Интересно что кандидаты не прошедшие порог мягкой фильтрации не забываются а направляются прямо на финальный этап слияния Модель скоринга мягкой фильтрации и порога определяются на основе machine learning используя обучающие данные Watson типично пропускает через мягкую фильтрацию 100 кандидатов но эта функция параметризована и их число можно изменить

Проблемы NLP

bull В мае 1898 года Португалия отмечала 400-летний юбилей со дня прибытия этого великого путешественника в Индию

В мае Гари прибыл в Индию после празднования своего юбилея в Португалии

21 мая 1498 года Васка де Гама высадился в местечке Каппад

bull Он был помилован президентом 8 сентября 1974 годаФорд помиловал Никсона 8 сентября 1974 года Никсон Форд

bull Говоря ldquogive a trinklerdquo что предлагают вам сделать британцы по приезду в город

bull Hypothesis and Evidence Scoring ndash скоринг гипотез и доказательств

Прошедшие порог мягкой фильтрации кандидаты поступают на скрупулезный процесс который включает сбор дополнительных поддерживающих доказательств для каждого кандидата на ответ или гипотезу Процесс использует широкий набор различных методов скоринговой аналитики чтобы исследовать все поддерживающие доказательства

bull Evidence Retrieval ndash извлечение доказательств

Чтобы лучше исследовать каждого кандидата прошедшего через мягкую фильтрацию система собирает дополнительные поддерживающие доказательства Архитектура поддерживает интеграцию различных evidence-gathering техник Один из применяемых способов состоит в том что проводится дополнительный поиск в котором кандидат добавляется в качестве required term к первичному запросу извлеченному из вопроса Это будет приводить к получению выражений содержащих кандидата в контексте первичных терминов вопросаПоддерживающие доказательства могут быть извлечены и из других источников например из RDF баз знаний Извлеченные поддерживающие доказательства направляются модули глубокого скоринга которые анализируют кандидата в контексте поддерживающего доказательства

bull Scoring ndash скоринг (количественное оценивание)

Алгоритмы скоринга определяют степень несомненности которую обеспечивают доказательства в поддержку кандидата The DeepQA framework поддерживает множество компонент для выработки оценки в различных измерениях каждого доказательства которая вырабатывает оценку связанную с тем насколько хорошо доказательство поддерживает кандидата на ответ в качестве ответа на заданный вопросDeepQA использует общий формат для оценок для принятых гипотез и подтверждающих оценок отражающих семантические и ограничивающие факторы Это позволяет разработчикам DeepQA быстро разворачивать перемешивать и настраивать сложные совокупности модуле для обработкиНапрмер Watson использует больше чем 50 скоринговых компонент Они производят оценки разноготипа от оценок вероятностей до подсчета категориальных свойств основанных на доказательствах от различных источников включая неструктурированные тексты полуструктурированные тексты и RDF хранилища Эти оценки используют такие данные как degree of match between a passagersquos predicate-argument structure and the question passage source reliability geospatial location temporal relationships taxonomic classification the lexical and semantic relations the candidate is known to participate in the candidatersquos correlation with question terms its popularity (or obscurity) its aliases and so on

Вопрос Чили имеет самую длинную общую границу со страной Сгенерировано несколько кандидатов среди них Аргентина и Боливия Первичный поиск даст приоритет Боливии из=а популярности обсуждений их отношений Однако собранные Watson доказательства из других источников показывают более высокую оценку для Аргентины

Скоринг (взвешивание) доказательств ndash предиктивная аналитика

- При делении клеток митозом называется деление ядра а цитокинезом ndash деление этой жидкости в которой находится ядро

Генерирование кандидатов Сбор доказательств Уверенность в доказательстве

ОрганеллыВакуольЦитоплазмаПлазмамитохондрии

Органеллы ndash не жидкостьВакуоль ndash не жидкостьЦитоплазма ndash возможно жидкостьПлазма ndash не жидкостьМитохондрии ndash не жидкость

Цитоплазма ndash 92Органеллы ndash 19Вакуоль ndash 10Плазма ndash 2Митохондрии ndash 2

Answer Merging ndash объединение ответов

Многие кандидаты в ответы на поставленный вопрос могут быть эквивалентны несмотря на различные внешне формыТехники ранжирования тем не менее рассматривают таких кандидатов как различные Без объединения алгоритмы ранжирования будут работать отдельно с эквивалентными сущностями и пытаться противопоставить одну форму другой Это приведет к проблемам принятия решений Watson содержит алгоритмы идентификации эквивалентных сущностей используя множественные сравнения нормализацию и методы разрешения совместных ссылок

Ranking and Confidence Estimation ndash ранжирование и оценивание доверияПосле объединения система должна произвести ранжирование гипотез и оценивает доверие основанное на объединенных оценках В системе подобран ML подход основанный на обучении на обучающем наборе вопросов с известными ответами и обучение модели основываясь на скоринге Применяется как весьма плоская модель и существующие алгоритмы ранжирования Для более тонких оценок применяется двухфазный процесс использующий группы оценок для оценивания профиля и для оценки доверия Используя эту промежуточную модель система производит ансамбль промежуточных оценок Здесь используется иерархическая техника метаучителя и коллектива экспертов Этот подход обеспечивает итеративное расширение обучения используя изощренные и глубокие иерархические модели обеспечивающие гибкость и робастность при выработке оценок и модифицирует системуМетаучитель в Watson использует набор многие обучаемые модели чтобы управлять различными классами вопросов которые могут быть критическими при идентификации правильных ответовНаконец важно что использование NLP-based скоринга дает весьма разреженные оценки и требует точного оценивания с применением confidence-weighted learning techniques

Развертывание Watson

bull DeepQA разработан используя Apache UIMA - framework implementation of the Unstructured Information Management Architecture (Ferrucci and Lally 2004) UIMA был разработан для поддержки взаимодействия и масштабирования приложений обработки текста и мультимодального анализа Все компоненты DeepQA имплементированы как UIMA annotators Это программные компоненты для анализа текста и получения аннотаций или заключений о тексте Watson развивался в процессе разработки от нескольких компонент до нескольких сотен UIMA обеспечивает быструю интеграцию компонент тестирование и исследование

bull Начальная имплементация Watson запускалась на одном процессоре и требовала 2 часа на ответ на один вопрос DeepQA развился в параллельную систему используя UIMA-AS часть Apache UIMA масштабируя приложения UIMA используя асинхронный механизм месседжинга UIMA-AS позволила масштабировать Watson более чем на 2500 вычислительных ядер UIMA-AS управляет коммуникациями месседжингом управлением запросами используя open JMS standard UIMA-AS позволил снизить латентность Watson до 3ndash5 секунд

bull Для препроцессинга корпуса текстов создания быстрых run-time indices использован Hadoop

UIMA annotators были развернуты как mapper ы в Hadoop map-reduce framework Hadoop распределяет контент по кластеру для обеспечения высокого использования CPU и обеспечивает подходящий набор инструментов для deploying managing and monitoring the corpus analysis process

bull Аппаратная платформа ndash это 90 серверов 2800 ядер 15 ТБ RAM 80 Тфлопс $3 000 000 10 R

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 27: !Predictive analytics part_3

Результат снижения размерности кластеризация [human interface computer user EPS response time][survey trees graph minors]

Расстояния между заголовками до и после SVD

bull Объем корпуса для построения модели должен быть большим ndash желательно около трех-пяти миллионов словоупотреблений Но метод работает и на коллекциях меньшего объема правда несколько хужеПроизвольное разбиение текста на документы обычно производят от тысячи до нескольких десятков тысяч частей примерно одинакового объема Таким образом матрица термы-на-документы получается прямоугольной и может быть сильно разраженной Например при объеме 5 млн словоформ получается матрица 30-50 тысяч документов на 200-300 тысяч а иногда и более термов В действительности низкочастотные термы можно опустить тк это заметно снизит размерность матрицы (скажем если не использовать 5 от общего объема низкочастотных термов то размерность сократиться в два раза) что приведет к снижению вычислительных ресурсов и времениВыбор сокращения сингулярных значений диагональной матрицы (размерности k) при обратном перемножении матриц достаточно произвольно При вышеуказанной размерности матрицы оставляют несколько сотен (100-300) главных компонент При этом как показывает практика зависимость количества компонент и точность меняются нелинейно например если начинать увеличивать их число то точность будет падать но при некотором значении скажем 10000 ndash опять вырастет до оптимального случая

Применение

bull сравнение двух термов между собойbull сравнение двух документов между собойbull сравнение терма и документа

Так же иногда этот метод используют для нахождения laquoближайшего соседаraquo mdash наиболее близких по весу термов ассоциативно связанных с исходным Это свойство используют для поиска близких по смыслу термов Следует уточнить что близость по смыслу ndash это контекстнозависимая величина поэтому не всякий близкий терм будет соответствовать ассоциации (это может быть и синоним и антоним и просто часто встречающееся вместе с искомым термом слово или словосочетание)

bull Достоинством метода можно считать его замечательную способность выявлять зависимости между словами когда обычные статистические методы бессильны LSA также может быть применен как с обучением (с предварительной тематической классификацией документов) так и без обучения (произвольное разбиение произвольного текста) что зависит от решаемой задачи

bull Об основных недостатках значительное снижение скорости вычисления при увеличении объема входных данных (в частности при SVD-преобразовании)

bull Как показано в литературе скорость вычисления соответствует порядку где сумма количества документов и термов kndash размерность пространства факторов

На рисунке показано возникновение и изменение главных факторов при уменьшении числа сингулярных элементов диагональной матрицы от 100 до ~12 Трехмерные рисунки представляют собой симметричную матрицу полученную в результате вычисления скалярного произведения векторов каждого эталонного документа с каждым тестируемым Эталонный набор векторов ndash это заранее размеченный на 30 документов текст тестируемый ndash с уменьшением числа сингулярных значений диагональной матрицы полученной при SVD-анализе На осях X и Y откладывается количество документов (эталонных и тестируемых) на оси Z ndash объем лексиконаНа рисунках хорошо видно что при уменьшении числа сингулярных диагональных элементов на 20-30 факторы еще не достаточно ярко выявлены но при этом возникают корреляции похожих документов (небольшие пики вне диагонали) которые сначала незначительно увеличиваются а затем с уменьшением числа сингулярных значений (до 70-80) ndash исчезают При автоматической кластеризации такие пики являются шумом поэтому их желательно минимизировать Если же целью является получение ассоциативных связей внутри документов то следует найти оптимальное соотношение сохранения основного лексикона и примешивания ассоциативного

Имплементация в R - Package lsquolsarsquoalnumx - Regular expression for removal of non-alphanumeric characters (saving special characters)

astextmatrix - Display a latent semantic space generated by Latent Semantic Analysis (LSA)

associate - Find close terms in a textmatrix

corpora - Corpora (Essay Scoring) dimcalc Dimensionality Calculation Routines (LSA)

dimcalc - Dimensionality Calculation Routines (LSA)

lsa - Create a vector space with Latent Semantic Analysis (LSA)

printtextmatrix - Print a textmatrix (Matrices)

sampletextmatrix - Create a random sample of files

textmatrix - Создает Textmatrix (Matrices) из файлов

Пример 1

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) read files into a document-term matrixmyMatrix = textmatrix(td minWordLength=1) create the latent semantic spacemyLSAspace = lsa(myMatrix dims=dimcalc_raw()) display it as a textmatrix againround(astextmatrix(myLSAspace)2) should give the original create the latent semantic spacemyLSAspace = lsa(myMatrix dims=dimcalc_share())

Пример 2

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) create matricesmyMatrix = textmatrix(td minWordLength=1)myLSAspace = lsa(myMatrix dims=dimcalc_share())myNewMatrix = astextmatrix(myLSAspace) calc associations for mouseassociate(myNewMatrix mouse) clean upunlink(td recursive=TRUE)

Пример 3 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(ham mouse sushi) file=paste(td D2 sep=) )write( c(dog pet pet) file=paste(td D3 sep=) ) LSAdata(stopwords_en)myMatrix = textmatrix(td stopwords=stopwords_en)myMatrix = lw_logtf(myMatrix) gw_idf(myMatrix)myLSAspace = lsa(myMatrix dims=dimcalc_share())astextmatrix(myLSAspace) clean upunlink(td recursive=TRUE)

Пример 4 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(hamster mouse sushi) file=paste(td D2 sep=) )write( c(dog monster monster) file=paste(td D3 sep=) ) read them create a document-term matrixtextmatrix(td) read them drop german stopwordsdata(stopwords_de)textmatrix(td stopwords=stopwords_de) read them based on a controlled vocabularyvoc = c(dog mouse)textmatrix(td vocabulary=voc minWordLength=1) clean up

Вместо заключения Очевидным недостатком LSA является ненормальность (негаусовость) вероятностного распределения слов в любом естественном языке Но эту проблему можно решить сглаживанием выборки (например применив фонетические слова распределение становится более laquoнормальнымraquo) Либо используют вероятностный LSA тназ PLSA основанный на мультиноминальном распределении Другим менее очевидным недостаткам LSA (и ему подобных методов) применительно к обработке неструктурированной информации можно отнести laquoтуманностьraquo самого метода (в частности выбора кол-ва сингулярных значений диагональной матрицы) и интерпретации результата не говоря уже о проблеме сбалансированности обучающего текста

Как правило для качественного построения модели оставляют менее 1-2 процента от общего числа диагональных значений (после SVD преобразования но об это в следующем посте) И как показывает практика увеличение числа факторов приводит к ухудшению результата Но дойдя примерно до 10 процентов от общего числа диагональных значений опять может быть всплеск аналогичный результату полученному при 1

Сбалансированность корпуса ndash вечная проблема которая не имеет хорошего решения на сегодняшний день Поэтому про нее приято помалкивать

Интерпретируемость результатов LSA (как и DLA) также затруднительна человек еще может понять что за тематику будет содержать топик полученный в результате анализа а вот машине не понять (не аннотировать) тематику без привлечения большого числа хороших и разных тезаурусов

Таким образом несмотря на трудоемкость и непрозрачность LSA он может успешно применяться для разного рада задач где важно поймать семантику сообщения обобщить или расширить laquoсмыслыraquo поискового запроса

bull Стандарт основанный на XML для обмена моделями статистической обработки Data Mining

bull Поддерживается более 20 организациями и поставщиками ПО

bull Реализован в частности и в R

Поддерживаемые предиктивные алгоритмы в R

Состав pmml package

bull addLT

bull addMSAttributes

bull audit

bull fileToXMLNode

bull pmml

bull pmmlada

bull pmmlcoxph

bull pmmlcvglmnet

bull pmmlglm

bull pmmlhclust

bull pmmlkmeans

bull pmmlksvm

bull pmmllm bull pmmlmultinom bull pmmlnaiveBayes bull pmmlnnet bull pmmlrandomForest bull pmmlrfsrc bull pmmlrpart bull pmmlrules bull pmmlsvm bull pmmlCanExport bull pmmltoc

Пример

Good by R see you later alligator

WATSON ndash одно из наиболее впечатляющих применений предиктивной аналитики

Разрабатывался компанией IBM с 2006 по 2010 годПрославился победой в телешоу Jeopardy (в России ndash laquoСвоя играraquo) в 2011 годуПредшественник Deep Blue обыграл чемпиона мира по шахматам Гарри Каспарова в 1997 г

>

IBM Deep QA Project

bull Целью проекта было создать компьютерную систему (ИИ) для ответа на вопросы (QA) задаваемые в свободной форме в телешоу и показать результаты соизмеримые с человеческими

bull Задача более сложная чем шахматная программа Deep Blue выигравшая у Каспарова в 1997 г

bull Вопросы по категориямCategory General ScienceClue When hit by electrons a phosphor gives off electromagnetic energy in this formAnswer Light (or Photons)

Category Lincoln BlogsClue Secretary Chase just submitted this to me for the third time guess what pal This time Irsquom accepting itAnswer his resignation

Category Head NorthClue Theyrsquore the two states you could be reentering if yoursquore crossing Floridarsquos northern borderAnswer Georgia and Alabama

Вопросы могут касаться сразу нескольких фактов чтобы ответ был вернымCategory ldquoRaprdquo SheetClue This archaic term for a mischievous or annoying child can also mean a rogue or scampSubclue 1 This archaic term for a mischievous or annoying childSubclue 2 This term can also mean a rogue or scampAnswer Rapscallion

Category Diplomatic RelationsClue Of the four countries in the world that the United States does not have diplomatic relations with the one thatrsquos farthest northInner subclue The four countries in the world that the United States does not have diplomatic relations with (Bhutan Cuba Iran North Korea)Outer subclue Of Bhutan Cuba Iran and North Korea the one thatrsquos farthest northAnswer North Korea

Вопросы - пазлы

Category Before and After Goes to the MoviesClue Film of a typical day in the life of the Beatles which includes running from bloodthirsty zombie fans in a Romero classicSubclue 2 Film of a typical day in the life of the Beatles Answer 1 (A Hard Dayrsquos Night)Subclue 2 Running from bloodthirsty zombie fans in a Romero classicAnswer 2 (Night of the Living Dead)Answer A Hard Dayrsquos Night of the Living Dead

Category Rhyme TimeClue Itrsquos where Pele stores his ballSubclue 1 Pele ball (soccer)Subclue 2 where store (cabinet drawer locker and so on)Answer soccer locker

Недопустимые типы вопросов

oCategory Picture This(Contestants are shown a picture of a B-52 bomber)Clue Alphanumeric name of the fearsome machine seen hereAnswer B-52

oCategory Decode the Postal CodesVerbal instruction from host Wersquore going to give you a word comprising two postal abbreviations you have to identify the statesClue VainAnswer Virginia and Indiana

Лексические типы ответа ndash LAT (Lexical Answer Type)

Метрики качества ответов - результативность

Показатели двух теоретических QA систем

Показатели результативности чемпионов шоу (2000)

Облако победителей

Линия сравнения результативности (baseline performance)

Сравнение системы тестового поиска и поиска в базе знаний

Результативность Watson (по версиям)

Основы подхода Deep QA

bull Massive parallelism использование высокого параллелизма при рассмотрении множественных интерпретаций и гипотез

bull Many experts привлечение интеграции приложения и контекстуального оценивания в широком диапазоне слабосвязанных вероятностных вопросов и контентной аналитики

bull Pervasive confidence estimation повсеместная оценка доверия означает что ни один из компонентов не включается в ответ сразу все компоненты имеют признаки и связанные с ними уровни доверия производится скоринг различных вопросов и контентная интерпретация Основа confidence-processing состоит в обучении как стэкировать и комбинировать баллы

bull Integrate shallow and deep knowledge интеграция поверхностных и глубинных знаний состоит в балансе использования строгой семантики и мелких семантик использующих множества слабо сформированных онтологий

bull Content Acquisition - Сбор контентаСочетает ручные и автоматические этапы Первым шагом является анализ примеров вопросов проблемного пространства чтобы произвести описание видов вопросов на которые нужно ответить и характеризовать область применения Анализ примеров вопросов в первую очередь ручная задача в то время как анализ области может быть выполнен путем автоматических или статистических методов таких как анализ LAT показанный ранее Учитывая вопросы для широкого домена Jeopardy Challenge источники для Watson включают широкий ассортимент энциклопедий словарей тезаурусов Newswire статьи литературные произведения и тд Начиная с разумного размера базового корпуса DeepQA затем применяет автоматический процесс расширения корпуса Процесс включает в себя четыре этапа высокого уровня (1) выявления основных документов и получить соответствующие документы из Интернет (2) извлечь автономные текстовые ядра из связанных веб-документов (3) Оценка на основе ядер являются ли они информативны по отношению к исходному основному документу и (4) объединить наиболее информативные ядра в расширенном корпусе Работающая система использует этот расширенный корпус и не имеет доступа к Интернет во время игры

bull Question Analysis ndash Анализ вопроса

Первый шаг во время выполнения процесса вопрос-ответной системы При анализе вопроса система пытается понять что вопрос задан и выполняет начальный анализ определяющий как вопрос будет обработан на остальных этапах работы системы Подход DeepQA использует смешанный набор экспертов на данном этапе и в системе Watson производится мелкий парсинг глубокий парсинг строятся логические формы семантические этикетки ролей взаимные ссылки отношения именованные сущности и так далее а также конкретные виды анализа для ответа вопрос

bull Question classification - Классификация вопроса

Это задача выявления типа вопроса или частей вопроса которые требуют специальной обработки Это может включать в себя что-нибудь из отдельных слов с двойным смыслом и потенциально до выявления целых статей которые имеют определенную синтаксическую семантическую или риторические функциональные возможности которые могут инициировать нисходящий анализ Классификация может определить вопрос как вопрос- головоломку вопрос-математику -определение и так далее Это будет определять каламбуры ограничения компоненты определений или целые подвопросы в пределах вопросов

bull Focus and LAT Detection ndash Определение фокуса и лексического типа ответа

Лексический тип ответа - это слово или словосочетание в вопросе который определяет тип ответа без попытки понять семантику Определение LAT является важным видом выигрыша и общим источником критических ошибок Преимущество подхода DeepQA является использование многих самостоятельно разработанных алгоритмов laquoответ-типированияraquo Например фокус вопроса викторины laquoПри попадании электронов люминофор излучает электромагнитную энергию в этой формеraquo - является laquoэта формаraquo Фокус часто (но не всегда) содержит полезную информацию об ответе часто субъект или объект отношение в вопросе и может превратить вопрос в фактическое утверждение при замене возможным кандидатом Это представляет полезный способ собирать доказательства о каждом кандидате

bull Relation Detection ndash детектирование отношений

Большинство вопросов содержит отношения являются ли они синтаксическими предикатами субъект-глагол-объект или семантические отношения между субъектами Например в вопросе laquoЕсть два штата в которые вы могли бы войти повторно если вы пересекаете северную границу штата Флоридаraquo мы можем обнаружить отношение границы (Флорида Х к северу) Watson использует обнаружение отношения на протяжении всего процесса QA от фокуса и LAT определения до прохождению и скорингу ответов Watson также может использовать обнаруженные отношения для выделения хранилища триплетов и напрямую генерировать кандидатов в ответы В 20000 игр Jeopardy вопросы например обнаружили распределение Freebase отношений чрезвычайно плоского вида (см рисунок) Это приближение распределеня 50 наиболее частых отношений в 20 000 случайно выбранных вопросах викторины

bull Decomposition ndash декомпозиция

Важным требованием успеха анализа Jeopardy является способность отвечать на вопросы которые разложены на составляющие DeepQA использует основанный на правилах глубокий парсинг и статистические методы классификации чтобы наилучшим образом разложить вопросы на элементы и определить как лучше разбить их на подвопросы Операционная гипотеза что правильная интерпретация вопроса позволит лучше произвести скоринг ответов после того как все доказательства собраны Даже если вопрос не должен быть разложен для определения ответа этот метод может помочь улучшить общее доверие ответу системы DeepQA решает задачи параллельно для каждого разложения применяя алгоритмы от начала до конца каждого подвопроса и синтезирует окончательные ответы DeepQA также поддерживает вложенные декомпозиции вопросов через рекурсивное применение QA системы от начала до конца в внутреннем подвопросе а затем во внешнем Настраиваемые компоненты позволяют легко подключать специализированные алгоритмы синтеза в общую систему

bull Hypothesis Generation ndash генерация гипотез

Генерация гипотез принимает результаты анализа вопросов и производит кандидатов на ответы Каждый кандидат ответ включается обратно в вопрос и это считается как гипотеза Система должна доказать правильность этой гипотезы с некоторой степенью уверенности Как и во всех аспектах DeepQA используется смесь разных подходов для первичного поиска и генерации кандидата в системе Watson

bull Primary Search ndash первичный поиск

В этом поиске целью является найти столько потенциально кандидатов сколько это можно сделать на основе результатов анализа вопроса В течение проекта велись эмпирические исследования направленные на баланс скорости объема и точности Эти исследования позволили регулярно настраивать систему так чтобы найти такое количество кандидатов которые производят наилучший баланс точности и вычислительных ресурсов Оперативная цель основного поиска в конечном счете стабилизировалась на около 85 процентов для топ-250 кандидатов то есть система генерирует правильный ответ как кандидата ответа на 85 процентов вопросов где-то в верхних 250 ранжированных кандидатов Разнообразие методов поиска используются в том числе с использованием нескольких текст поисковых системах с различными базовыми подходами (например Indri и Lucene) поиск документов а также поиска маршрута база знаний поиска с помощью SPARQL хранилища триплетов Для небольшого количества латов которые были определены как закрытые латы кандидат на ответ может быть получен из фиксированного списка в каком-то хранилище известных экземпляров LAT таких как США Президент или Страна

Поиск доказательств

bull Поиск по фразе ndash число соответствий разного типав ответе и вопросеbull Популярность ndash как часто встречается этот вариант ответаbull Соответствие по типу ndash ответ и требование вопросаbull Соответствие по времениbull Надежность источника

bull Candidate Answer Generation ndash генерирование кандидатов на ответ

Результаты поиска применяются для генерирования возможных кандидатов в ответы с помощью различных подходящих техник Для поиска документов извлекаются заголовки и используются как кандидаты Число кандидатов при этом может быть не единственным и требовать использования анализа подстрок и ссылок Используя детектирование именованных сущностей в ряде случаев удается извлечь хороших кандидатов В зависимости от типа источника для генерирования кандидата требуется разный набор алгоритмов например база знаний или обратный словарь порождают кандидатов непосредственно как кандидата Этот этап критически важен и если кандидаты не найдены то фиксируется невозможность ответа В нормальном режиме на этом этапе Watson гененерирует несколько сотен андидатов

bull Soft Filtering ndash мягкая фильтрацияДля ускорения процесса скоринга кандидатов Watson использует различные алгоритмы разной точности Более легковесные (менее вычислительно интенсивные) применяются на первом этапе скоринга На этом этапе устанавливается порог оценки и кандидаты имеющие более высокую оценку считаются прошедшими мягкую фильтрацию Они поступают на выработку гипотез и скоринг доказательств Интересно что кандидаты не прошедшие порог мягкой фильтрации не забываются а направляются прямо на финальный этап слияния Модель скоринга мягкой фильтрации и порога определяются на основе machine learning используя обучающие данные Watson типично пропускает через мягкую фильтрацию 100 кандидатов но эта функция параметризована и их число можно изменить

Проблемы NLP

bull В мае 1898 года Португалия отмечала 400-летний юбилей со дня прибытия этого великого путешественника в Индию

В мае Гари прибыл в Индию после празднования своего юбилея в Португалии

21 мая 1498 года Васка де Гама высадился в местечке Каппад

bull Он был помилован президентом 8 сентября 1974 годаФорд помиловал Никсона 8 сентября 1974 года Никсон Форд

bull Говоря ldquogive a trinklerdquo что предлагают вам сделать британцы по приезду в город

bull Hypothesis and Evidence Scoring ndash скоринг гипотез и доказательств

Прошедшие порог мягкой фильтрации кандидаты поступают на скрупулезный процесс который включает сбор дополнительных поддерживающих доказательств для каждого кандидата на ответ или гипотезу Процесс использует широкий набор различных методов скоринговой аналитики чтобы исследовать все поддерживающие доказательства

bull Evidence Retrieval ndash извлечение доказательств

Чтобы лучше исследовать каждого кандидата прошедшего через мягкую фильтрацию система собирает дополнительные поддерживающие доказательства Архитектура поддерживает интеграцию различных evidence-gathering техник Один из применяемых способов состоит в том что проводится дополнительный поиск в котором кандидат добавляется в качестве required term к первичному запросу извлеченному из вопроса Это будет приводить к получению выражений содержащих кандидата в контексте первичных терминов вопросаПоддерживающие доказательства могут быть извлечены и из других источников например из RDF баз знаний Извлеченные поддерживающие доказательства направляются модули глубокого скоринга которые анализируют кандидата в контексте поддерживающего доказательства

bull Scoring ndash скоринг (количественное оценивание)

Алгоритмы скоринга определяют степень несомненности которую обеспечивают доказательства в поддержку кандидата The DeepQA framework поддерживает множество компонент для выработки оценки в различных измерениях каждого доказательства которая вырабатывает оценку связанную с тем насколько хорошо доказательство поддерживает кандидата на ответ в качестве ответа на заданный вопросDeepQA использует общий формат для оценок для принятых гипотез и подтверждающих оценок отражающих семантические и ограничивающие факторы Это позволяет разработчикам DeepQA быстро разворачивать перемешивать и настраивать сложные совокупности модуле для обработкиНапрмер Watson использует больше чем 50 скоринговых компонент Они производят оценки разноготипа от оценок вероятностей до подсчета категориальных свойств основанных на доказательствах от различных источников включая неструктурированные тексты полуструктурированные тексты и RDF хранилища Эти оценки используют такие данные как degree of match between a passagersquos predicate-argument structure and the question passage source reliability geospatial location temporal relationships taxonomic classification the lexical and semantic relations the candidate is known to participate in the candidatersquos correlation with question terms its popularity (or obscurity) its aliases and so on

Вопрос Чили имеет самую длинную общую границу со страной Сгенерировано несколько кандидатов среди них Аргентина и Боливия Первичный поиск даст приоритет Боливии из=а популярности обсуждений их отношений Однако собранные Watson доказательства из других источников показывают более высокую оценку для Аргентины

Скоринг (взвешивание) доказательств ndash предиктивная аналитика

- При делении клеток митозом называется деление ядра а цитокинезом ndash деление этой жидкости в которой находится ядро

Генерирование кандидатов Сбор доказательств Уверенность в доказательстве

ОрганеллыВакуольЦитоплазмаПлазмамитохондрии

Органеллы ndash не жидкостьВакуоль ndash не жидкостьЦитоплазма ndash возможно жидкостьПлазма ndash не жидкостьМитохондрии ndash не жидкость

Цитоплазма ndash 92Органеллы ndash 19Вакуоль ndash 10Плазма ndash 2Митохондрии ndash 2

Answer Merging ndash объединение ответов

Многие кандидаты в ответы на поставленный вопрос могут быть эквивалентны несмотря на различные внешне формыТехники ранжирования тем не менее рассматривают таких кандидатов как различные Без объединения алгоритмы ранжирования будут работать отдельно с эквивалентными сущностями и пытаться противопоставить одну форму другой Это приведет к проблемам принятия решений Watson содержит алгоритмы идентификации эквивалентных сущностей используя множественные сравнения нормализацию и методы разрешения совместных ссылок

Ranking and Confidence Estimation ndash ранжирование и оценивание доверияПосле объединения система должна произвести ранжирование гипотез и оценивает доверие основанное на объединенных оценках В системе подобран ML подход основанный на обучении на обучающем наборе вопросов с известными ответами и обучение модели основываясь на скоринге Применяется как весьма плоская модель и существующие алгоритмы ранжирования Для более тонких оценок применяется двухфазный процесс использующий группы оценок для оценивания профиля и для оценки доверия Используя эту промежуточную модель система производит ансамбль промежуточных оценок Здесь используется иерархическая техника метаучителя и коллектива экспертов Этот подход обеспечивает итеративное расширение обучения используя изощренные и глубокие иерархические модели обеспечивающие гибкость и робастность при выработке оценок и модифицирует системуМетаучитель в Watson использует набор многие обучаемые модели чтобы управлять различными классами вопросов которые могут быть критическими при идентификации правильных ответовНаконец важно что использование NLP-based скоринга дает весьма разреженные оценки и требует точного оценивания с применением confidence-weighted learning techniques

Развертывание Watson

bull DeepQA разработан используя Apache UIMA - framework implementation of the Unstructured Information Management Architecture (Ferrucci and Lally 2004) UIMA был разработан для поддержки взаимодействия и масштабирования приложений обработки текста и мультимодального анализа Все компоненты DeepQA имплементированы как UIMA annotators Это программные компоненты для анализа текста и получения аннотаций или заключений о тексте Watson развивался в процессе разработки от нескольких компонент до нескольких сотен UIMA обеспечивает быструю интеграцию компонент тестирование и исследование

bull Начальная имплементация Watson запускалась на одном процессоре и требовала 2 часа на ответ на один вопрос DeepQA развился в параллельную систему используя UIMA-AS часть Apache UIMA масштабируя приложения UIMA используя асинхронный механизм месседжинга UIMA-AS позволила масштабировать Watson более чем на 2500 вычислительных ядер UIMA-AS управляет коммуникациями месседжингом управлением запросами используя open JMS standard UIMA-AS позволил снизить латентность Watson до 3ndash5 секунд

bull Для препроцессинга корпуса текстов создания быстрых run-time indices использован Hadoop

UIMA annotators были развернуты как mapper ы в Hadoop map-reduce framework Hadoop распределяет контент по кластеру для обеспечения высокого использования CPU и обеспечивает подходящий набор инструментов для deploying managing and monitoring the corpus analysis process

bull Аппаратная платформа ndash это 90 серверов 2800 ядер 15 ТБ RAM 80 Тфлопс $3 000 000 10 R

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 28: !Predictive analytics part_3

Расстояния между заголовками до и после SVD

bull Объем корпуса для построения модели должен быть большим ndash желательно около трех-пяти миллионов словоупотреблений Но метод работает и на коллекциях меньшего объема правда несколько хужеПроизвольное разбиение текста на документы обычно производят от тысячи до нескольких десятков тысяч частей примерно одинакового объема Таким образом матрица термы-на-документы получается прямоугольной и может быть сильно разраженной Например при объеме 5 млн словоформ получается матрица 30-50 тысяч документов на 200-300 тысяч а иногда и более термов В действительности низкочастотные термы можно опустить тк это заметно снизит размерность матрицы (скажем если не использовать 5 от общего объема низкочастотных термов то размерность сократиться в два раза) что приведет к снижению вычислительных ресурсов и времениВыбор сокращения сингулярных значений диагональной матрицы (размерности k) при обратном перемножении матриц достаточно произвольно При вышеуказанной размерности матрицы оставляют несколько сотен (100-300) главных компонент При этом как показывает практика зависимость количества компонент и точность меняются нелинейно например если начинать увеличивать их число то точность будет падать но при некотором значении скажем 10000 ndash опять вырастет до оптимального случая

Применение

bull сравнение двух термов между собойbull сравнение двух документов между собойbull сравнение терма и документа

Так же иногда этот метод используют для нахождения laquoближайшего соседаraquo mdash наиболее близких по весу термов ассоциативно связанных с исходным Это свойство используют для поиска близких по смыслу термов Следует уточнить что близость по смыслу ndash это контекстнозависимая величина поэтому не всякий близкий терм будет соответствовать ассоциации (это может быть и синоним и антоним и просто часто встречающееся вместе с искомым термом слово или словосочетание)

bull Достоинством метода можно считать его замечательную способность выявлять зависимости между словами когда обычные статистические методы бессильны LSA также может быть применен как с обучением (с предварительной тематической классификацией документов) так и без обучения (произвольное разбиение произвольного текста) что зависит от решаемой задачи

bull Об основных недостатках значительное снижение скорости вычисления при увеличении объема входных данных (в частности при SVD-преобразовании)

bull Как показано в литературе скорость вычисления соответствует порядку где сумма количества документов и термов kndash размерность пространства факторов

На рисунке показано возникновение и изменение главных факторов при уменьшении числа сингулярных элементов диагональной матрицы от 100 до ~12 Трехмерные рисунки представляют собой симметричную матрицу полученную в результате вычисления скалярного произведения векторов каждого эталонного документа с каждым тестируемым Эталонный набор векторов ndash это заранее размеченный на 30 документов текст тестируемый ndash с уменьшением числа сингулярных значений диагональной матрицы полученной при SVD-анализе На осях X и Y откладывается количество документов (эталонных и тестируемых) на оси Z ndash объем лексиконаНа рисунках хорошо видно что при уменьшении числа сингулярных диагональных элементов на 20-30 факторы еще не достаточно ярко выявлены но при этом возникают корреляции похожих документов (небольшие пики вне диагонали) которые сначала незначительно увеличиваются а затем с уменьшением числа сингулярных значений (до 70-80) ndash исчезают При автоматической кластеризации такие пики являются шумом поэтому их желательно минимизировать Если же целью является получение ассоциативных связей внутри документов то следует найти оптимальное соотношение сохранения основного лексикона и примешивания ассоциативного

Имплементация в R - Package lsquolsarsquoalnumx - Regular expression for removal of non-alphanumeric characters (saving special characters)

astextmatrix - Display a latent semantic space generated by Latent Semantic Analysis (LSA)

associate - Find close terms in a textmatrix

corpora - Corpora (Essay Scoring) dimcalc Dimensionality Calculation Routines (LSA)

dimcalc - Dimensionality Calculation Routines (LSA)

lsa - Create a vector space with Latent Semantic Analysis (LSA)

printtextmatrix - Print a textmatrix (Matrices)

sampletextmatrix - Create a random sample of files

textmatrix - Создает Textmatrix (Matrices) из файлов

Пример 1

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) read files into a document-term matrixmyMatrix = textmatrix(td minWordLength=1) create the latent semantic spacemyLSAspace = lsa(myMatrix dims=dimcalc_raw()) display it as a textmatrix againround(astextmatrix(myLSAspace)2) should give the original create the latent semantic spacemyLSAspace = lsa(myMatrix dims=dimcalc_share())

Пример 2

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) create matricesmyMatrix = textmatrix(td minWordLength=1)myLSAspace = lsa(myMatrix dims=dimcalc_share())myNewMatrix = astextmatrix(myLSAspace) calc associations for mouseassociate(myNewMatrix mouse) clean upunlink(td recursive=TRUE)

Пример 3 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(ham mouse sushi) file=paste(td D2 sep=) )write( c(dog pet pet) file=paste(td D3 sep=) ) LSAdata(stopwords_en)myMatrix = textmatrix(td stopwords=stopwords_en)myMatrix = lw_logtf(myMatrix) gw_idf(myMatrix)myLSAspace = lsa(myMatrix dims=dimcalc_share())astextmatrix(myLSAspace) clean upunlink(td recursive=TRUE)

Пример 4 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(hamster mouse sushi) file=paste(td D2 sep=) )write( c(dog monster monster) file=paste(td D3 sep=) ) read them create a document-term matrixtextmatrix(td) read them drop german stopwordsdata(stopwords_de)textmatrix(td stopwords=stopwords_de) read them based on a controlled vocabularyvoc = c(dog mouse)textmatrix(td vocabulary=voc minWordLength=1) clean up

Вместо заключения Очевидным недостатком LSA является ненормальность (негаусовость) вероятностного распределения слов в любом естественном языке Но эту проблему можно решить сглаживанием выборки (например применив фонетические слова распределение становится более laquoнормальнымraquo) Либо используют вероятностный LSA тназ PLSA основанный на мультиноминальном распределении Другим менее очевидным недостаткам LSA (и ему подобных методов) применительно к обработке неструктурированной информации можно отнести laquoтуманностьraquo самого метода (в частности выбора кол-ва сингулярных значений диагональной матрицы) и интерпретации результата не говоря уже о проблеме сбалансированности обучающего текста

Как правило для качественного построения модели оставляют менее 1-2 процента от общего числа диагональных значений (после SVD преобразования но об это в следующем посте) И как показывает практика увеличение числа факторов приводит к ухудшению результата Но дойдя примерно до 10 процентов от общего числа диагональных значений опять может быть всплеск аналогичный результату полученному при 1

Сбалансированность корпуса ndash вечная проблема которая не имеет хорошего решения на сегодняшний день Поэтому про нее приято помалкивать

Интерпретируемость результатов LSA (как и DLA) также затруднительна человек еще может понять что за тематику будет содержать топик полученный в результате анализа а вот машине не понять (не аннотировать) тематику без привлечения большого числа хороших и разных тезаурусов

Таким образом несмотря на трудоемкость и непрозрачность LSA он может успешно применяться для разного рада задач где важно поймать семантику сообщения обобщить или расширить laquoсмыслыraquo поискового запроса

bull Стандарт основанный на XML для обмена моделями статистической обработки Data Mining

bull Поддерживается более 20 организациями и поставщиками ПО

bull Реализован в частности и в R

Поддерживаемые предиктивные алгоритмы в R

Состав pmml package

bull addLT

bull addMSAttributes

bull audit

bull fileToXMLNode

bull pmml

bull pmmlada

bull pmmlcoxph

bull pmmlcvglmnet

bull pmmlglm

bull pmmlhclust

bull pmmlkmeans

bull pmmlksvm

bull pmmllm bull pmmlmultinom bull pmmlnaiveBayes bull pmmlnnet bull pmmlrandomForest bull pmmlrfsrc bull pmmlrpart bull pmmlrules bull pmmlsvm bull pmmlCanExport bull pmmltoc

Пример

Good by R see you later alligator

WATSON ndash одно из наиболее впечатляющих применений предиктивной аналитики

Разрабатывался компанией IBM с 2006 по 2010 годПрославился победой в телешоу Jeopardy (в России ndash laquoСвоя играraquo) в 2011 годуПредшественник Deep Blue обыграл чемпиона мира по шахматам Гарри Каспарова в 1997 г

>

IBM Deep QA Project

bull Целью проекта было создать компьютерную систему (ИИ) для ответа на вопросы (QA) задаваемые в свободной форме в телешоу и показать результаты соизмеримые с человеческими

bull Задача более сложная чем шахматная программа Deep Blue выигравшая у Каспарова в 1997 г

bull Вопросы по категориямCategory General ScienceClue When hit by electrons a phosphor gives off electromagnetic energy in this formAnswer Light (or Photons)

Category Lincoln BlogsClue Secretary Chase just submitted this to me for the third time guess what pal This time Irsquom accepting itAnswer his resignation

Category Head NorthClue Theyrsquore the two states you could be reentering if yoursquore crossing Floridarsquos northern borderAnswer Georgia and Alabama

Вопросы могут касаться сразу нескольких фактов чтобы ответ был вернымCategory ldquoRaprdquo SheetClue This archaic term for a mischievous or annoying child can also mean a rogue or scampSubclue 1 This archaic term for a mischievous or annoying childSubclue 2 This term can also mean a rogue or scampAnswer Rapscallion

Category Diplomatic RelationsClue Of the four countries in the world that the United States does not have diplomatic relations with the one thatrsquos farthest northInner subclue The four countries in the world that the United States does not have diplomatic relations with (Bhutan Cuba Iran North Korea)Outer subclue Of Bhutan Cuba Iran and North Korea the one thatrsquos farthest northAnswer North Korea

Вопросы - пазлы

Category Before and After Goes to the MoviesClue Film of a typical day in the life of the Beatles which includes running from bloodthirsty zombie fans in a Romero classicSubclue 2 Film of a typical day in the life of the Beatles Answer 1 (A Hard Dayrsquos Night)Subclue 2 Running from bloodthirsty zombie fans in a Romero classicAnswer 2 (Night of the Living Dead)Answer A Hard Dayrsquos Night of the Living Dead

Category Rhyme TimeClue Itrsquos where Pele stores his ballSubclue 1 Pele ball (soccer)Subclue 2 where store (cabinet drawer locker and so on)Answer soccer locker

Недопустимые типы вопросов

oCategory Picture This(Contestants are shown a picture of a B-52 bomber)Clue Alphanumeric name of the fearsome machine seen hereAnswer B-52

oCategory Decode the Postal CodesVerbal instruction from host Wersquore going to give you a word comprising two postal abbreviations you have to identify the statesClue VainAnswer Virginia and Indiana

Лексические типы ответа ndash LAT (Lexical Answer Type)

Метрики качества ответов - результативность

Показатели двух теоретических QA систем

Показатели результативности чемпионов шоу (2000)

Облако победителей

Линия сравнения результативности (baseline performance)

Сравнение системы тестового поиска и поиска в базе знаний

Результативность Watson (по версиям)

Основы подхода Deep QA

bull Massive parallelism использование высокого параллелизма при рассмотрении множественных интерпретаций и гипотез

bull Many experts привлечение интеграции приложения и контекстуального оценивания в широком диапазоне слабосвязанных вероятностных вопросов и контентной аналитики

bull Pervasive confidence estimation повсеместная оценка доверия означает что ни один из компонентов не включается в ответ сразу все компоненты имеют признаки и связанные с ними уровни доверия производится скоринг различных вопросов и контентная интерпретация Основа confidence-processing состоит в обучении как стэкировать и комбинировать баллы

bull Integrate shallow and deep knowledge интеграция поверхностных и глубинных знаний состоит в балансе использования строгой семантики и мелких семантик использующих множества слабо сформированных онтологий

bull Content Acquisition - Сбор контентаСочетает ручные и автоматические этапы Первым шагом является анализ примеров вопросов проблемного пространства чтобы произвести описание видов вопросов на которые нужно ответить и характеризовать область применения Анализ примеров вопросов в первую очередь ручная задача в то время как анализ области может быть выполнен путем автоматических или статистических методов таких как анализ LAT показанный ранее Учитывая вопросы для широкого домена Jeopardy Challenge источники для Watson включают широкий ассортимент энциклопедий словарей тезаурусов Newswire статьи литературные произведения и тд Начиная с разумного размера базового корпуса DeepQA затем применяет автоматический процесс расширения корпуса Процесс включает в себя четыре этапа высокого уровня (1) выявления основных документов и получить соответствующие документы из Интернет (2) извлечь автономные текстовые ядра из связанных веб-документов (3) Оценка на основе ядер являются ли они информативны по отношению к исходному основному документу и (4) объединить наиболее информативные ядра в расширенном корпусе Работающая система использует этот расширенный корпус и не имеет доступа к Интернет во время игры

bull Question Analysis ndash Анализ вопроса

Первый шаг во время выполнения процесса вопрос-ответной системы При анализе вопроса система пытается понять что вопрос задан и выполняет начальный анализ определяющий как вопрос будет обработан на остальных этапах работы системы Подход DeepQA использует смешанный набор экспертов на данном этапе и в системе Watson производится мелкий парсинг глубокий парсинг строятся логические формы семантические этикетки ролей взаимные ссылки отношения именованные сущности и так далее а также конкретные виды анализа для ответа вопрос

bull Question classification - Классификация вопроса

Это задача выявления типа вопроса или частей вопроса которые требуют специальной обработки Это может включать в себя что-нибудь из отдельных слов с двойным смыслом и потенциально до выявления целых статей которые имеют определенную синтаксическую семантическую или риторические функциональные возможности которые могут инициировать нисходящий анализ Классификация может определить вопрос как вопрос- головоломку вопрос-математику -определение и так далее Это будет определять каламбуры ограничения компоненты определений или целые подвопросы в пределах вопросов

bull Focus and LAT Detection ndash Определение фокуса и лексического типа ответа

Лексический тип ответа - это слово или словосочетание в вопросе который определяет тип ответа без попытки понять семантику Определение LAT является важным видом выигрыша и общим источником критических ошибок Преимущество подхода DeepQA является использование многих самостоятельно разработанных алгоритмов laquoответ-типированияraquo Например фокус вопроса викторины laquoПри попадании электронов люминофор излучает электромагнитную энергию в этой формеraquo - является laquoэта формаraquo Фокус часто (но не всегда) содержит полезную информацию об ответе часто субъект или объект отношение в вопросе и может превратить вопрос в фактическое утверждение при замене возможным кандидатом Это представляет полезный способ собирать доказательства о каждом кандидате

bull Relation Detection ndash детектирование отношений

Большинство вопросов содержит отношения являются ли они синтаксическими предикатами субъект-глагол-объект или семантические отношения между субъектами Например в вопросе laquoЕсть два штата в которые вы могли бы войти повторно если вы пересекаете северную границу штата Флоридаraquo мы можем обнаружить отношение границы (Флорида Х к северу) Watson использует обнаружение отношения на протяжении всего процесса QA от фокуса и LAT определения до прохождению и скорингу ответов Watson также может использовать обнаруженные отношения для выделения хранилища триплетов и напрямую генерировать кандидатов в ответы В 20000 игр Jeopardy вопросы например обнаружили распределение Freebase отношений чрезвычайно плоского вида (см рисунок) Это приближение распределеня 50 наиболее частых отношений в 20 000 случайно выбранных вопросах викторины

bull Decomposition ndash декомпозиция

Важным требованием успеха анализа Jeopardy является способность отвечать на вопросы которые разложены на составляющие DeepQA использует основанный на правилах глубокий парсинг и статистические методы классификации чтобы наилучшим образом разложить вопросы на элементы и определить как лучше разбить их на подвопросы Операционная гипотеза что правильная интерпретация вопроса позволит лучше произвести скоринг ответов после того как все доказательства собраны Даже если вопрос не должен быть разложен для определения ответа этот метод может помочь улучшить общее доверие ответу системы DeepQA решает задачи параллельно для каждого разложения применяя алгоритмы от начала до конца каждого подвопроса и синтезирует окончательные ответы DeepQA также поддерживает вложенные декомпозиции вопросов через рекурсивное применение QA системы от начала до конца в внутреннем подвопросе а затем во внешнем Настраиваемые компоненты позволяют легко подключать специализированные алгоритмы синтеза в общую систему

bull Hypothesis Generation ndash генерация гипотез

Генерация гипотез принимает результаты анализа вопросов и производит кандидатов на ответы Каждый кандидат ответ включается обратно в вопрос и это считается как гипотеза Система должна доказать правильность этой гипотезы с некоторой степенью уверенности Как и во всех аспектах DeepQA используется смесь разных подходов для первичного поиска и генерации кандидата в системе Watson

bull Primary Search ndash первичный поиск

В этом поиске целью является найти столько потенциально кандидатов сколько это можно сделать на основе результатов анализа вопроса В течение проекта велись эмпирические исследования направленные на баланс скорости объема и точности Эти исследования позволили регулярно настраивать систему так чтобы найти такое количество кандидатов которые производят наилучший баланс точности и вычислительных ресурсов Оперативная цель основного поиска в конечном счете стабилизировалась на около 85 процентов для топ-250 кандидатов то есть система генерирует правильный ответ как кандидата ответа на 85 процентов вопросов где-то в верхних 250 ранжированных кандидатов Разнообразие методов поиска используются в том числе с использованием нескольких текст поисковых системах с различными базовыми подходами (например Indri и Lucene) поиск документов а также поиска маршрута база знаний поиска с помощью SPARQL хранилища триплетов Для небольшого количества латов которые были определены как закрытые латы кандидат на ответ может быть получен из фиксированного списка в каком-то хранилище известных экземпляров LAT таких как США Президент или Страна

Поиск доказательств

bull Поиск по фразе ndash число соответствий разного типав ответе и вопросеbull Популярность ndash как часто встречается этот вариант ответаbull Соответствие по типу ndash ответ и требование вопросаbull Соответствие по времениbull Надежность источника

bull Candidate Answer Generation ndash генерирование кандидатов на ответ

Результаты поиска применяются для генерирования возможных кандидатов в ответы с помощью различных подходящих техник Для поиска документов извлекаются заголовки и используются как кандидаты Число кандидатов при этом может быть не единственным и требовать использования анализа подстрок и ссылок Используя детектирование именованных сущностей в ряде случаев удается извлечь хороших кандидатов В зависимости от типа источника для генерирования кандидата требуется разный набор алгоритмов например база знаний или обратный словарь порождают кандидатов непосредственно как кандидата Этот этап критически важен и если кандидаты не найдены то фиксируется невозможность ответа В нормальном режиме на этом этапе Watson гененерирует несколько сотен андидатов

bull Soft Filtering ndash мягкая фильтрацияДля ускорения процесса скоринга кандидатов Watson использует различные алгоритмы разной точности Более легковесные (менее вычислительно интенсивные) применяются на первом этапе скоринга На этом этапе устанавливается порог оценки и кандидаты имеющие более высокую оценку считаются прошедшими мягкую фильтрацию Они поступают на выработку гипотез и скоринг доказательств Интересно что кандидаты не прошедшие порог мягкой фильтрации не забываются а направляются прямо на финальный этап слияния Модель скоринга мягкой фильтрации и порога определяются на основе machine learning используя обучающие данные Watson типично пропускает через мягкую фильтрацию 100 кандидатов но эта функция параметризована и их число можно изменить

Проблемы NLP

bull В мае 1898 года Португалия отмечала 400-летний юбилей со дня прибытия этого великого путешественника в Индию

В мае Гари прибыл в Индию после празднования своего юбилея в Португалии

21 мая 1498 года Васка де Гама высадился в местечке Каппад

bull Он был помилован президентом 8 сентября 1974 годаФорд помиловал Никсона 8 сентября 1974 года Никсон Форд

bull Говоря ldquogive a trinklerdquo что предлагают вам сделать британцы по приезду в город

bull Hypothesis and Evidence Scoring ndash скоринг гипотез и доказательств

Прошедшие порог мягкой фильтрации кандидаты поступают на скрупулезный процесс который включает сбор дополнительных поддерживающих доказательств для каждого кандидата на ответ или гипотезу Процесс использует широкий набор различных методов скоринговой аналитики чтобы исследовать все поддерживающие доказательства

bull Evidence Retrieval ndash извлечение доказательств

Чтобы лучше исследовать каждого кандидата прошедшего через мягкую фильтрацию система собирает дополнительные поддерживающие доказательства Архитектура поддерживает интеграцию различных evidence-gathering техник Один из применяемых способов состоит в том что проводится дополнительный поиск в котором кандидат добавляется в качестве required term к первичному запросу извлеченному из вопроса Это будет приводить к получению выражений содержащих кандидата в контексте первичных терминов вопросаПоддерживающие доказательства могут быть извлечены и из других источников например из RDF баз знаний Извлеченные поддерживающие доказательства направляются модули глубокого скоринга которые анализируют кандидата в контексте поддерживающего доказательства

bull Scoring ndash скоринг (количественное оценивание)

Алгоритмы скоринга определяют степень несомненности которую обеспечивают доказательства в поддержку кандидата The DeepQA framework поддерживает множество компонент для выработки оценки в различных измерениях каждого доказательства которая вырабатывает оценку связанную с тем насколько хорошо доказательство поддерживает кандидата на ответ в качестве ответа на заданный вопросDeepQA использует общий формат для оценок для принятых гипотез и подтверждающих оценок отражающих семантические и ограничивающие факторы Это позволяет разработчикам DeepQA быстро разворачивать перемешивать и настраивать сложные совокупности модуле для обработкиНапрмер Watson использует больше чем 50 скоринговых компонент Они производят оценки разноготипа от оценок вероятностей до подсчета категориальных свойств основанных на доказательствах от различных источников включая неструктурированные тексты полуструктурированные тексты и RDF хранилища Эти оценки используют такие данные как degree of match between a passagersquos predicate-argument structure and the question passage source reliability geospatial location temporal relationships taxonomic classification the lexical and semantic relations the candidate is known to participate in the candidatersquos correlation with question terms its popularity (or obscurity) its aliases and so on

Вопрос Чили имеет самую длинную общую границу со страной Сгенерировано несколько кандидатов среди них Аргентина и Боливия Первичный поиск даст приоритет Боливии из=а популярности обсуждений их отношений Однако собранные Watson доказательства из других источников показывают более высокую оценку для Аргентины

Скоринг (взвешивание) доказательств ndash предиктивная аналитика

- При делении клеток митозом называется деление ядра а цитокинезом ndash деление этой жидкости в которой находится ядро

Генерирование кандидатов Сбор доказательств Уверенность в доказательстве

ОрганеллыВакуольЦитоплазмаПлазмамитохондрии

Органеллы ndash не жидкостьВакуоль ndash не жидкостьЦитоплазма ndash возможно жидкостьПлазма ndash не жидкостьМитохондрии ndash не жидкость

Цитоплазма ndash 92Органеллы ndash 19Вакуоль ndash 10Плазма ndash 2Митохондрии ndash 2

Answer Merging ndash объединение ответов

Многие кандидаты в ответы на поставленный вопрос могут быть эквивалентны несмотря на различные внешне формыТехники ранжирования тем не менее рассматривают таких кандидатов как различные Без объединения алгоритмы ранжирования будут работать отдельно с эквивалентными сущностями и пытаться противопоставить одну форму другой Это приведет к проблемам принятия решений Watson содержит алгоритмы идентификации эквивалентных сущностей используя множественные сравнения нормализацию и методы разрешения совместных ссылок

Ranking and Confidence Estimation ndash ранжирование и оценивание доверияПосле объединения система должна произвести ранжирование гипотез и оценивает доверие основанное на объединенных оценках В системе подобран ML подход основанный на обучении на обучающем наборе вопросов с известными ответами и обучение модели основываясь на скоринге Применяется как весьма плоская модель и существующие алгоритмы ранжирования Для более тонких оценок применяется двухфазный процесс использующий группы оценок для оценивания профиля и для оценки доверия Используя эту промежуточную модель система производит ансамбль промежуточных оценок Здесь используется иерархическая техника метаучителя и коллектива экспертов Этот подход обеспечивает итеративное расширение обучения используя изощренные и глубокие иерархические модели обеспечивающие гибкость и робастность при выработке оценок и модифицирует системуМетаучитель в Watson использует набор многие обучаемые модели чтобы управлять различными классами вопросов которые могут быть критическими при идентификации правильных ответовНаконец важно что использование NLP-based скоринга дает весьма разреженные оценки и требует точного оценивания с применением confidence-weighted learning techniques

Развертывание Watson

bull DeepQA разработан используя Apache UIMA - framework implementation of the Unstructured Information Management Architecture (Ferrucci and Lally 2004) UIMA был разработан для поддержки взаимодействия и масштабирования приложений обработки текста и мультимодального анализа Все компоненты DeepQA имплементированы как UIMA annotators Это программные компоненты для анализа текста и получения аннотаций или заключений о тексте Watson развивался в процессе разработки от нескольких компонент до нескольких сотен UIMA обеспечивает быструю интеграцию компонент тестирование и исследование

bull Начальная имплементация Watson запускалась на одном процессоре и требовала 2 часа на ответ на один вопрос DeepQA развился в параллельную систему используя UIMA-AS часть Apache UIMA масштабируя приложения UIMA используя асинхронный механизм месседжинга UIMA-AS позволила масштабировать Watson более чем на 2500 вычислительных ядер UIMA-AS управляет коммуникациями месседжингом управлением запросами используя open JMS standard UIMA-AS позволил снизить латентность Watson до 3ndash5 секунд

bull Для препроцессинга корпуса текстов создания быстрых run-time indices использован Hadoop

UIMA annotators были развернуты как mapper ы в Hadoop map-reduce framework Hadoop распределяет контент по кластеру для обеспечения высокого использования CPU и обеспечивает подходящий набор инструментов для deploying managing and monitoring the corpus analysis process

bull Аппаратная платформа ndash это 90 серверов 2800 ядер 15 ТБ RAM 80 Тфлопс $3 000 000 10 R

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 29: !Predictive analytics part_3

bull Объем корпуса для построения модели должен быть большим ndash желательно около трех-пяти миллионов словоупотреблений Но метод работает и на коллекциях меньшего объема правда несколько хужеПроизвольное разбиение текста на документы обычно производят от тысячи до нескольких десятков тысяч частей примерно одинакового объема Таким образом матрица термы-на-документы получается прямоугольной и может быть сильно разраженной Например при объеме 5 млн словоформ получается матрица 30-50 тысяч документов на 200-300 тысяч а иногда и более термов В действительности низкочастотные термы можно опустить тк это заметно снизит размерность матрицы (скажем если не использовать 5 от общего объема низкочастотных термов то размерность сократиться в два раза) что приведет к снижению вычислительных ресурсов и времениВыбор сокращения сингулярных значений диагональной матрицы (размерности k) при обратном перемножении матриц достаточно произвольно При вышеуказанной размерности матрицы оставляют несколько сотен (100-300) главных компонент При этом как показывает практика зависимость количества компонент и точность меняются нелинейно например если начинать увеличивать их число то точность будет падать но при некотором значении скажем 10000 ndash опять вырастет до оптимального случая

Применение

bull сравнение двух термов между собойbull сравнение двух документов между собойbull сравнение терма и документа

Так же иногда этот метод используют для нахождения laquoближайшего соседаraquo mdash наиболее близких по весу термов ассоциативно связанных с исходным Это свойство используют для поиска близких по смыслу термов Следует уточнить что близость по смыслу ndash это контекстнозависимая величина поэтому не всякий близкий терм будет соответствовать ассоциации (это может быть и синоним и антоним и просто часто встречающееся вместе с искомым термом слово или словосочетание)

bull Достоинством метода можно считать его замечательную способность выявлять зависимости между словами когда обычные статистические методы бессильны LSA также может быть применен как с обучением (с предварительной тематической классификацией документов) так и без обучения (произвольное разбиение произвольного текста) что зависит от решаемой задачи

bull Об основных недостатках значительное снижение скорости вычисления при увеличении объема входных данных (в частности при SVD-преобразовании)

bull Как показано в литературе скорость вычисления соответствует порядку где сумма количества документов и термов kndash размерность пространства факторов

На рисунке показано возникновение и изменение главных факторов при уменьшении числа сингулярных элементов диагональной матрицы от 100 до ~12 Трехмерные рисунки представляют собой симметричную матрицу полученную в результате вычисления скалярного произведения векторов каждого эталонного документа с каждым тестируемым Эталонный набор векторов ndash это заранее размеченный на 30 документов текст тестируемый ndash с уменьшением числа сингулярных значений диагональной матрицы полученной при SVD-анализе На осях X и Y откладывается количество документов (эталонных и тестируемых) на оси Z ndash объем лексиконаНа рисунках хорошо видно что при уменьшении числа сингулярных диагональных элементов на 20-30 факторы еще не достаточно ярко выявлены но при этом возникают корреляции похожих документов (небольшие пики вне диагонали) которые сначала незначительно увеличиваются а затем с уменьшением числа сингулярных значений (до 70-80) ndash исчезают При автоматической кластеризации такие пики являются шумом поэтому их желательно минимизировать Если же целью является получение ассоциативных связей внутри документов то следует найти оптимальное соотношение сохранения основного лексикона и примешивания ассоциативного

Имплементация в R - Package lsquolsarsquoalnumx - Regular expression for removal of non-alphanumeric characters (saving special characters)

astextmatrix - Display a latent semantic space generated by Latent Semantic Analysis (LSA)

associate - Find close terms in a textmatrix

corpora - Corpora (Essay Scoring) dimcalc Dimensionality Calculation Routines (LSA)

dimcalc - Dimensionality Calculation Routines (LSA)

lsa - Create a vector space with Latent Semantic Analysis (LSA)

printtextmatrix - Print a textmatrix (Matrices)

sampletextmatrix - Create a random sample of files

textmatrix - Создает Textmatrix (Matrices) из файлов

Пример 1

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) read files into a document-term matrixmyMatrix = textmatrix(td minWordLength=1) create the latent semantic spacemyLSAspace = lsa(myMatrix dims=dimcalc_raw()) display it as a textmatrix againround(astextmatrix(myLSAspace)2) should give the original create the latent semantic spacemyLSAspace = lsa(myMatrix dims=dimcalc_share())

Пример 2

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) create matricesmyMatrix = textmatrix(td minWordLength=1)myLSAspace = lsa(myMatrix dims=dimcalc_share())myNewMatrix = astextmatrix(myLSAspace) calc associations for mouseassociate(myNewMatrix mouse) clean upunlink(td recursive=TRUE)

Пример 3 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(ham mouse sushi) file=paste(td D2 sep=) )write( c(dog pet pet) file=paste(td D3 sep=) ) LSAdata(stopwords_en)myMatrix = textmatrix(td stopwords=stopwords_en)myMatrix = lw_logtf(myMatrix) gw_idf(myMatrix)myLSAspace = lsa(myMatrix dims=dimcalc_share())astextmatrix(myLSAspace) clean upunlink(td recursive=TRUE)

Пример 4 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(hamster mouse sushi) file=paste(td D2 sep=) )write( c(dog monster monster) file=paste(td D3 sep=) ) read them create a document-term matrixtextmatrix(td) read them drop german stopwordsdata(stopwords_de)textmatrix(td stopwords=stopwords_de) read them based on a controlled vocabularyvoc = c(dog mouse)textmatrix(td vocabulary=voc minWordLength=1) clean up

Вместо заключения Очевидным недостатком LSA является ненормальность (негаусовость) вероятностного распределения слов в любом естественном языке Но эту проблему можно решить сглаживанием выборки (например применив фонетические слова распределение становится более laquoнормальнымraquo) Либо используют вероятностный LSA тназ PLSA основанный на мультиноминальном распределении Другим менее очевидным недостаткам LSA (и ему подобных методов) применительно к обработке неструктурированной информации можно отнести laquoтуманностьraquo самого метода (в частности выбора кол-ва сингулярных значений диагональной матрицы) и интерпретации результата не говоря уже о проблеме сбалансированности обучающего текста

Как правило для качественного построения модели оставляют менее 1-2 процента от общего числа диагональных значений (после SVD преобразования но об это в следующем посте) И как показывает практика увеличение числа факторов приводит к ухудшению результата Но дойдя примерно до 10 процентов от общего числа диагональных значений опять может быть всплеск аналогичный результату полученному при 1

Сбалансированность корпуса ndash вечная проблема которая не имеет хорошего решения на сегодняшний день Поэтому про нее приято помалкивать

Интерпретируемость результатов LSA (как и DLA) также затруднительна человек еще может понять что за тематику будет содержать топик полученный в результате анализа а вот машине не понять (не аннотировать) тематику без привлечения большого числа хороших и разных тезаурусов

Таким образом несмотря на трудоемкость и непрозрачность LSA он может успешно применяться для разного рада задач где важно поймать семантику сообщения обобщить или расширить laquoсмыслыraquo поискового запроса

bull Стандарт основанный на XML для обмена моделями статистической обработки Data Mining

bull Поддерживается более 20 организациями и поставщиками ПО

bull Реализован в частности и в R

Поддерживаемые предиктивные алгоритмы в R

Состав pmml package

bull addLT

bull addMSAttributes

bull audit

bull fileToXMLNode

bull pmml

bull pmmlada

bull pmmlcoxph

bull pmmlcvglmnet

bull pmmlglm

bull pmmlhclust

bull pmmlkmeans

bull pmmlksvm

bull pmmllm bull pmmlmultinom bull pmmlnaiveBayes bull pmmlnnet bull pmmlrandomForest bull pmmlrfsrc bull pmmlrpart bull pmmlrules bull pmmlsvm bull pmmlCanExport bull pmmltoc

Пример

Good by R see you later alligator

WATSON ndash одно из наиболее впечатляющих применений предиктивной аналитики

Разрабатывался компанией IBM с 2006 по 2010 годПрославился победой в телешоу Jeopardy (в России ndash laquoСвоя играraquo) в 2011 годуПредшественник Deep Blue обыграл чемпиона мира по шахматам Гарри Каспарова в 1997 г

>

IBM Deep QA Project

bull Целью проекта было создать компьютерную систему (ИИ) для ответа на вопросы (QA) задаваемые в свободной форме в телешоу и показать результаты соизмеримые с человеческими

bull Задача более сложная чем шахматная программа Deep Blue выигравшая у Каспарова в 1997 г

bull Вопросы по категориямCategory General ScienceClue When hit by electrons a phosphor gives off electromagnetic energy in this formAnswer Light (or Photons)

Category Lincoln BlogsClue Secretary Chase just submitted this to me for the third time guess what pal This time Irsquom accepting itAnswer his resignation

Category Head NorthClue Theyrsquore the two states you could be reentering if yoursquore crossing Floridarsquos northern borderAnswer Georgia and Alabama

Вопросы могут касаться сразу нескольких фактов чтобы ответ был вернымCategory ldquoRaprdquo SheetClue This archaic term for a mischievous or annoying child can also mean a rogue or scampSubclue 1 This archaic term for a mischievous or annoying childSubclue 2 This term can also mean a rogue or scampAnswer Rapscallion

Category Diplomatic RelationsClue Of the four countries in the world that the United States does not have diplomatic relations with the one thatrsquos farthest northInner subclue The four countries in the world that the United States does not have diplomatic relations with (Bhutan Cuba Iran North Korea)Outer subclue Of Bhutan Cuba Iran and North Korea the one thatrsquos farthest northAnswer North Korea

Вопросы - пазлы

Category Before and After Goes to the MoviesClue Film of a typical day in the life of the Beatles which includes running from bloodthirsty zombie fans in a Romero classicSubclue 2 Film of a typical day in the life of the Beatles Answer 1 (A Hard Dayrsquos Night)Subclue 2 Running from bloodthirsty zombie fans in a Romero classicAnswer 2 (Night of the Living Dead)Answer A Hard Dayrsquos Night of the Living Dead

Category Rhyme TimeClue Itrsquos where Pele stores his ballSubclue 1 Pele ball (soccer)Subclue 2 where store (cabinet drawer locker and so on)Answer soccer locker

Недопустимые типы вопросов

oCategory Picture This(Contestants are shown a picture of a B-52 bomber)Clue Alphanumeric name of the fearsome machine seen hereAnswer B-52

oCategory Decode the Postal CodesVerbal instruction from host Wersquore going to give you a word comprising two postal abbreviations you have to identify the statesClue VainAnswer Virginia and Indiana

Лексические типы ответа ndash LAT (Lexical Answer Type)

Метрики качества ответов - результативность

Показатели двух теоретических QA систем

Показатели результативности чемпионов шоу (2000)

Облако победителей

Линия сравнения результативности (baseline performance)

Сравнение системы тестового поиска и поиска в базе знаний

Результативность Watson (по версиям)

Основы подхода Deep QA

bull Massive parallelism использование высокого параллелизма при рассмотрении множественных интерпретаций и гипотез

bull Many experts привлечение интеграции приложения и контекстуального оценивания в широком диапазоне слабосвязанных вероятностных вопросов и контентной аналитики

bull Pervasive confidence estimation повсеместная оценка доверия означает что ни один из компонентов не включается в ответ сразу все компоненты имеют признаки и связанные с ними уровни доверия производится скоринг различных вопросов и контентная интерпретация Основа confidence-processing состоит в обучении как стэкировать и комбинировать баллы

bull Integrate shallow and deep knowledge интеграция поверхностных и глубинных знаний состоит в балансе использования строгой семантики и мелких семантик использующих множества слабо сформированных онтологий

bull Content Acquisition - Сбор контентаСочетает ручные и автоматические этапы Первым шагом является анализ примеров вопросов проблемного пространства чтобы произвести описание видов вопросов на которые нужно ответить и характеризовать область применения Анализ примеров вопросов в первую очередь ручная задача в то время как анализ области может быть выполнен путем автоматических или статистических методов таких как анализ LAT показанный ранее Учитывая вопросы для широкого домена Jeopardy Challenge источники для Watson включают широкий ассортимент энциклопедий словарей тезаурусов Newswire статьи литературные произведения и тд Начиная с разумного размера базового корпуса DeepQA затем применяет автоматический процесс расширения корпуса Процесс включает в себя четыре этапа высокого уровня (1) выявления основных документов и получить соответствующие документы из Интернет (2) извлечь автономные текстовые ядра из связанных веб-документов (3) Оценка на основе ядер являются ли они информативны по отношению к исходному основному документу и (4) объединить наиболее информативные ядра в расширенном корпусе Работающая система использует этот расширенный корпус и не имеет доступа к Интернет во время игры

bull Question Analysis ndash Анализ вопроса

Первый шаг во время выполнения процесса вопрос-ответной системы При анализе вопроса система пытается понять что вопрос задан и выполняет начальный анализ определяющий как вопрос будет обработан на остальных этапах работы системы Подход DeepQA использует смешанный набор экспертов на данном этапе и в системе Watson производится мелкий парсинг глубокий парсинг строятся логические формы семантические этикетки ролей взаимные ссылки отношения именованные сущности и так далее а также конкретные виды анализа для ответа вопрос

bull Question classification - Классификация вопроса

Это задача выявления типа вопроса или частей вопроса которые требуют специальной обработки Это может включать в себя что-нибудь из отдельных слов с двойным смыслом и потенциально до выявления целых статей которые имеют определенную синтаксическую семантическую или риторические функциональные возможности которые могут инициировать нисходящий анализ Классификация может определить вопрос как вопрос- головоломку вопрос-математику -определение и так далее Это будет определять каламбуры ограничения компоненты определений или целые подвопросы в пределах вопросов

bull Focus and LAT Detection ndash Определение фокуса и лексического типа ответа

Лексический тип ответа - это слово или словосочетание в вопросе который определяет тип ответа без попытки понять семантику Определение LAT является важным видом выигрыша и общим источником критических ошибок Преимущество подхода DeepQA является использование многих самостоятельно разработанных алгоритмов laquoответ-типированияraquo Например фокус вопроса викторины laquoПри попадании электронов люминофор излучает электромагнитную энергию в этой формеraquo - является laquoэта формаraquo Фокус часто (но не всегда) содержит полезную информацию об ответе часто субъект или объект отношение в вопросе и может превратить вопрос в фактическое утверждение при замене возможным кандидатом Это представляет полезный способ собирать доказательства о каждом кандидате

bull Relation Detection ndash детектирование отношений

Большинство вопросов содержит отношения являются ли они синтаксическими предикатами субъект-глагол-объект или семантические отношения между субъектами Например в вопросе laquoЕсть два штата в которые вы могли бы войти повторно если вы пересекаете северную границу штата Флоридаraquo мы можем обнаружить отношение границы (Флорида Х к северу) Watson использует обнаружение отношения на протяжении всего процесса QA от фокуса и LAT определения до прохождению и скорингу ответов Watson также может использовать обнаруженные отношения для выделения хранилища триплетов и напрямую генерировать кандидатов в ответы В 20000 игр Jeopardy вопросы например обнаружили распределение Freebase отношений чрезвычайно плоского вида (см рисунок) Это приближение распределеня 50 наиболее частых отношений в 20 000 случайно выбранных вопросах викторины

bull Decomposition ndash декомпозиция

Важным требованием успеха анализа Jeopardy является способность отвечать на вопросы которые разложены на составляющие DeepQA использует основанный на правилах глубокий парсинг и статистические методы классификации чтобы наилучшим образом разложить вопросы на элементы и определить как лучше разбить их на подвопросы Операционная гипотеза что правильная интерпретация вопроса позволит лучше произвести скоринг ответов после того как все доказательства собраны Даже если вопрос не должен быть разложен для определения ответа этот метод может помочь улучшить общее доверие ответу системы DeepQA решает задачи параллельно для каждого разложения применяя алгоритмы от начала до конца каждого подвопроса и синтезирует окончательные ответы DeepQA также поддерживает вложенные декомпозиции вопросов через рекурсивное применение QA системы от начала до конца в внутреннем подвопросе а затем во внешнем Настраиваемые компоненты позволяют легко подключать специализированные алгоритмы синтеза в общую систему

bull Hypothesis Generation ndash генерация гипотез

Генерация гипотез принимает результаты анализа вопросов и производит кандидатов на ответы Каждый кандидат ответ включается обратно в вопрос и это считается как гипотеза Система должна доказать правильность этой гипотезы с некоторой степенью уверенности Как и во всех аспектах DeepQA используется смесь разных подходов для первичного поиска и генерации кандидата в системе Watson

bull Primary Search ndash первичный поиск

В этом поиске целью является найти столько потенциально кандидатов сколько это можно сделать на основе результатов анализа вопроса В течение проекта велись эмпирические исследования направленные на баланс скорости объема и точности Эти исследования позволили регулярно настраивать систему так чтобы найти такое количество кандидатов которые производят наилучший баланс точности и вычислительных ресурсов Оперативная цель основного поиска в конечном счете стабилизировалась на около 85 процентов для топ-250 кандидатов то есть система генерирует правильный ответ как кандидата ответа на 85 процентов вопросов где-то в верхних 250 ранжированных кандидатов Разнообразие методов поиска используются в том числе с использованием нескольких текст поисковых системах с различными базовыми подходами (например Indri и Lucene) поиск документов а также поиска маршрута база знаний поиска с помощью SPARQL хранилища триплетов Для небольшого количества латов которые были определены как закрытые латы кандидат на ответ может быть получен из фиксированного списка в каком-то хранилище известных экземпляров LAT таких как США Президент или Страна

Поиск доказательств

bull Поиск по фразе ndash число соответствий разного типав ответе и вопросеbull Популярность ndash как часто встречается этот вариант ответаbull Соответствие по типу ndash ответ и требование вопросаbull Соответствие по времениbull Надежность источника

bull Candidate Answer Generation ndash генерирование кандидатов на ответ

Результаты поиска применяются для генерирования возможных кандидатов в ответы с помощью различных подходящих техник Для поиска документов извлекаются заголовки и используются как кандидаты Число кандидатов при этом может быть не единственным и требовать использования анализа подстрок и ссылок Используя детектирование именованных сущностей в ряде случаев удается извлечь хороших кандидатов В зависимости от типа источника для генерирования кандидата требуется разный набор алгоритмов например база знаний или обратный словарь порождают кандидатов непосредственно как кандидата Этот этап критически важен и если кандидаты не найдены то фиксируется невозможность ответа В нормальном режиме на этом этапе Watson гененерирует несколько сотен андидатов

bull Soft Filtering ndash мягкая фильтрацияДля ускорения процесса скоринга кандидатов Watson использует различные алгоритмы разной точности Более легковесные (менее вычислительно интенсивные) применяются на первом этапе скоринга На этом этапе устанавливается порог оценки и кандидаты имеющие более высокую оценку считаются прошедшими мягкую фильтрацию Они поступают на выработку гипотез и скоринг доказательств Интересно что кандидаты не прошедшие порог мягкой фильтрации не забываются а направляются прямо на финальный этап слияния Модель скоринга мягкой фильтрации и порога определяются на основе machine learning используя обучающие данные Watson типично пропускает через мягкую фильтрацию 100 кандидатов но эта функция параметризована и их число можно изменить

Проблемы NLP

bull В мае 1898 года Португалия отмечала 400-летний юбилей со дня прибытия этого великого путешественника в Индию

В мае Гари прибыл в Индию после празднования своего юбилея в Португалии

21 мая 1498 года Васка де Гама высадился в местечке Каппад

bull Он был помилован президентом 8 сентября 1974 годаФорд помиловал Никсона 8 сентября 1974 года Никсон Форд

bull Говоря ldquogive a trinklerdquo что предлагают вам сделать британцы по приезду в город

bull Hypothesis and Evidence Scoring ndash скоринг гипотез и доказательств

Прошедшие порог мягкой фильтрации кандидаты поступают на скрупулезный процесс который включает сбор дополнительных поддерживающих доказательств для каждого кандидата на ответ или гипотезу Процесс использует широкий набор различных методов скоринговой аналитики чтобы исследовать все поддерживающие доказательства

bull Evidence Retrieval ndash извлечение доказательств

Чтобы лучше исследовать каждого кандидата прошедшего через мягкую фильтрацию система собирает дополнительные поддерживающие доказательства Архитектура поддерживает интеграцию различных evidence-gathering техник Один из применяемых способов состоит в том что проводится дополнительный поиск в котором кандидат добавляется в качестве required term к первичному запросу извлеченному из вопроса Это будет приводить к получению выражений содержащих кандидата в контексте первичных терминов вопросаПоддерживающие доказательства могут быть извлечены и из других источников например из RDF баз знаний Извлеченные поддерживающие доказательства направляются модули глубокого скоринга которые анализируют кандидата в контексте поддерживающего доказательства

bull Scoring ndash скоринг (количественное оценивание)

Алгоритмы скоринга определяют степень несомненности которую обеспечивают доказательства в поддержку кандидата The DeepQA framework поддерживает множество компонент для выработки оценки в различных измерениях каждого доказательства которая вырабатывает оценку связанную с тем насколько хорошо доказательство поддерживает кандидата на ответ в качестве ответа на заданный вопросDeepQA использует общий формат для оценок для принятых гипотез и подтверждающих оценок отражающих семантические и ограничивающие факторы Это позволяет разработчикам DeepQA быстро разворачивать перемешивать и настраивать сложные совокупности модуле для обработкиНапрмер Watson использует больше чем 50 скоринговых компонент Они производят оценки разноготипа от оценок вероятностей до подсчета категориальных свойств основанных на доказательствах от различных источников включая неструктурированные тексты полуструктурированные тексты и RDF хранилища Эти оценки используют такие данные как degree of match between a passagersquos predicate-argument structure and the question passage source reliability geospatial location temporal relationships taxonomic classification the lexical and semantic relations the candidate is known to participate in the candidatersquos correlation with question terms its popularity (or obscurity) its aliases and so on

Вопрос Чили имеет самую длинную общую границу со страной Сгенерировано несколько кандидатов среди них Аргентина и Боливия Первичный поиск даст приоритет Боливии из=а популярности обсуждений их отношений Однако собранные Watson доказательства из других источников показывают более высокую оценку для Аргентины

Скоринг (взвешивание) доказательств ndash предиктивная аналитика

- При делении клеток митозом называется деление ядра а цитокинезом ndash деление этой жидкости в которой находится ядро

Генерирование кандидатов Сбор доказательств Уверенность в доказательстве

ОрганеллыВакуольЦитоплазмаПлазмамитохондрии

Органеллы ndash не жидкостьВакуоль ndash не жидкостьЦитоплазма ndash возможно жидкостьПлазма ndash не жидкостьМитохондрии ndash не жидкость

Цитоплазма ndash 92Органеллы ndash 19Вакуоль ndash 10Плазма ndash 2Митохондрии ndash 2

Answer Merging ndash объединение ответов

Многие кандидаты в ответы на поставленный вопрос могут быть эквивалентны несмотря на различные внешне формыТехники ранжирования тем не менее рассматривают таких кандидатов как различные Без объединения алгоритмы ранжирования будут работать отдельно с эквивалентными сущностями и пытаться противопоставить одну форму другой Это приведет к проблемам принятия решений Watson содержит алгоритмы идентификации эквивалентных сущностей используя множественные сравнения нормализацию и методы разрешения совместных ссылок

Ranking and Confidence Estimation ndash ранжирование и оценивание доверияПосле объединения система должна произвести ранжирование гипотез и оценивает доверие основанное на объединенных оценках В системе подобран ML подход основанный на обучении на обучающем наборе вопросов с известными ответами и обучение модели основываясь на скоринге Применяется как весьма плоская модель и существующие алгоритмы ранжирования Для более тонких оценок применяется двухфазный процесс использующий группы оценок для оценивания профиля и для оценки доверия Используя эту промежуточную модель система производит ансамбль промежуточных оценок Здесь используется иерархическая техника метаучителя и коллектива экспертов Этот подход обеспечивает итеративное расширение обучения используя изощренные и глубокие иерархические модели обеспечивающие гибкость и робастность при выработке оценок и модифицирует системуМетаучитель в Watson использует набор многие обучаемые модели чтобы управлять различными классами вопросов которые могут быть критическими при идентификации правильных ответовНаконец важно что использование NLP-based скоринга дает весьма разреженные оценки и требует точного оценивания с применением confidence-weighted learning techniques

Развертывание Watson

bull DeepQA разработан используя Apache UIMA - framework implementation of the Unstructured Information Management Architecture (Ferrucci and Lally 2004) UIMA был разработан для поддержки взаимодействия и масштабирования приложений обработки текста и мультимодального анализа Все компоненты DeepQA имплементированы как UIMA annotators Это программные компоненты для анализа текста и получения аннотаций или заключений о тексте Watson развивался в процессе разработки от нескольких компонент до нескольких сотен UIMA обеспечивает быструю интеграцию компонент тестирование и исследование

bull Начальная имплементация Watson запускалась на одном процессоре и требовала 2 часа на ответ на один вопрос DeepQA развился в параллельную систему используя UIMA-AS часть Apache UIMA масштабируя приложения UIMA используя асинхронный механизм месседжинга UIMA-AS позволила масштабировать Watson более чем на 2500 вычислительных ядер UIMA-AS управляет коммуникациями месседжингом управлением запросами используя open JMS standard UIMA-AS позволил снизить латентность Watson до 3ndash5 секунд

bull Для препроцессинга корпуса текстов создания быстрых run-time indices использован Hadoop

UIMA annotators были развернуты как mapper ы в Hadoop map-reduce framework Hadoop распределяет контент по кластеру для обеспечения высокого использования CPU и обеспечивает подходящий набор инструментов для deploying managing and monitoring the corpus analysis process

bull Аппаратная платформа ndash это 90 серверов 2800 ядер 15 ТБ RAM 80 Тфлопс $3 000 000 10 R

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 30: !Predictive analytics part_3

Применение

bull сравнение двух термов между собойbull сравнение двух документов между собойbull сравнение терма и документа

Так же иногда этот метод используют для нахождения laquoближайшего соседаraquo mdash наиболее близких по весу термов ассоциативно связанных с исходным Это свойство используют для поиска близких по смыслу термов Следует уточнить что близость по смыслу ndash это контекстнозависимая величина поэтому не всякий близкий терм будет соответствовать ассоциации (это может быть и синоним и антоним и просто часто встречающееся вместе с искомым термом слово или словосочетание)

bull Достоинством метода можно считать его замечательную способность выявлять зависимости между словами когда обычные статистические методы бессильны LSA также может быть применен как с обучением (с предварительной тематической классификацией документов) так и без обучения (произвольное разбиение произвольного текста) что зависит от решаемой задачи

bull Об основных недостатках значительное снижение скорости вычисления при увеличении объема входных данных (в частности при SVD-преобразовании)

bull Как показано в литературе скорость вычисления соответствует порядку где сумма количества документов и термов kndash размерность пространства факторов

На рисунке показано возникновение и изменение главных факторов при уменьшении числа сингулярных элементов диагональной матрицы от 100 до ~12 Трехмерные рисунки представляют собой симметричную матрицу полученную в результате вычисления скалярного произведения векторов каждого эталонного документа с каждым тестируемым Эталонный набор векторов ndash это заранее размеченный на 30 документов текст тестируемый ndash с уменьшением числа сингулярных значений диагональной матрицы полученной при SVD-анализе На осях X и Y откладывается количество документов (эталонных и тестируемых) на оси Z ndash объем лексиконаНа рисунках хорошо видно что при уменьшении числа сингулярных диагональных элементов на 20-30 факторы еще не достаточно ярко выявлены но при этом возникают корреляции похожих документов (небольшие пики вне диагонали) которые сначала незначительно увеличиваются а затем с уменьшением числа сингулярных значений (до 70-80) ndash исчезают При автоматической кластеризации такие пики являются шумом поэтому их желательно минимизировать Если же целью является получение ассоциативных связей внутри документов то следует найти оптимальное соотношение сохранения основного лексикона и примешивания ассоциативного

Имплементация в R - Package lsquolsarsquoalnumx - Regular expression for removal of non-alphanumeric characters (saving special characters)

astextmatrix - Display a latent semantic space generated by Latent Semantic Analysis (LSA)

associate - Find close terms in a textmatrix

corpora - Corpora (Essay Scoring) dimcalc Dimensionality Calculation Routines (LSA)

dimcalc - Dimensionality Calculation Routines (LSA)

lsa - Create a vector space with Latent Semantic Analysis (LSA)

printtextmatrix - Print a textmatrix (Matrices)

sampletextmatrix - Create a random sample of files

textmatrix - Создает Textmatrix (Matrices) из файлов

Пример 1

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) read files into a document-term matrixmyMatrix = textmatrix(td minWordLength=1) create the latent semantic spacemyLSAspace = lsa(myMatrix dims=dimcalc_raw()) display it as a textmatrix againround(astextmatrix(myLSAspace)2) should give the original create the latent semantic spacemyLSAspace = lsa(myMatrix dims=dimcalc_share())

Пример 2

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) create matricesmyMatrix = textmatrix(td minWordLength=1)myLSAspace = lsa(myMatrix dims=dimcalc_share())myNewMatrix = astextmatrix(myLSAspace) calc associations for mouseassociate(myNewMatrix mouse) clean upunlink(td recursive=TRUE)

Пример 3 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(ham mouse sushi) file=paste(td D2 sep=) )write( c(dog pet pet) file=paste(td D3 sep=) ) LSAdata(stopwords_en)myMatrix = textmatrix(td stopwords=stopwords_en)myMatrix = lw_logtf(myMatrix) gw_idf(myMatrix)myLSAspace = lsa(myMatrix dims=dimcalc_share())astextmatrix(myLSAspace) clean upunlink(td recursive=TRUE)

Пример 4 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(hamster mouse sushi) file=paste(td D2 sep=) )write( c(dog monster monster) file=paste(td D3 sep=) ) read them create a document-term matrixtextmatrix(td) read them drop german stopwordsdata(stopwords_de)textmatrix(td stopwords=stopwords_de) read them based on a controlled vocabularyvoc = c(dog mouse)textmatrix(td vocabulary=voc minWordLength=1) clean up

Вместо заключения Очевидным недостатком LSA является ненормальность (негаусовость) вероятностного распределения слов в любом естественном языке Но эту проблему можно решить сглаживанием выборки (например применив фонетические слова распределение становится более laquoнормальнымraquo) Либо используют вероятностный LSA тназ PLSA основанный на мультиноминальном распределении Другим менее очевидным недостаткам LSA (и ему подобных методов) применительно к обработке неструктурированной информации можно отнести laquoтуманностьraquo самого метода (в частности выбора кол-ва сингулярных значений диагональной матрицы) и интерпретации результата не говоря уже о проблеме сбалансированности обучающего текста

Как правило для качественного построения модели оставляют менее 1-2 процента от общего числа диагональных значений (после SVD преобразования но об это в следующем посте) И как показывает практика увеличение числа факторов приводит к ухудшению результата Но дойдя примерно до 10 процентов от общего числа диагональных значений опять может быть всплеск аналогичный результату полученному при 1

Сбалансированность корпуса ndash вечная проблема которая не имеет хорошего решения на сегодняшний день Поэтому про нее приято помалкивать

Интерпретируемость результатов LSA (как и DLA) также затруднительна человек еще может понять что за тематику будет содержать топик полученный в результате анализа а вот машине не понять (не аннотировать) тематику без привлечения большого числа хороших и разных тезаурусов

Таким образом несмотря на трудоемкость и непрозрачность LSA он может успешно применяться для разного рада задач где важно поймать семантику сообщения обобщить или расширить laquoсмыслыraquo поискового запроса

bull Стандарт основанный на XML для обмена моделями статистической обработки Data Mining

bull Поддерживается более 20 организациями и поставщиками ПО

bull Реализован в частности и в R

Поддерживаемые предиктивные алгоритмы в R

Состав pmml package

bull addLT

bull addMSAttributes

bull audit

bull fileToXMLNode

bull pmml

bull pmmlada

bull pmmlcoxph

bull pmmlcvglmnet

bull pmmlglm

bull pmmlhclust

bull pmmlkmeans

bull pmmlksvm

bull pmmllm bull pmmlmultinom bull pmmlnaiveBayes bull pmmlnnet bull pmmlrandomForest bull pmmlrfsrc bull pmmlrpart bull pmmlrules bull pmmlsvm bull pmmlCanExport bull pmmltoc

Пример

Good by R see you later alligator

WATSON ndash одно из наиболее впечатляющих применений предиктивной аналитики

Разрабатывался компанией IBM с 2006 по 2010 годПрославился победой в телешоу Jeopardy (в России ndash laquoСвоя играraquo) в 2011 годуПредшественник Deep Blue обыграл чемпиона мира по шахматам Гарри Каспарова в 1997 г

>

IBM Deep QA Project

bull Целью проекта было создать компьютерную систему (ИИ) для ответа на вопросы (QA) задаваемые в свободной форме в телешоу и показать результаты соизмеримые с человеческими

bull Задача более сложная чем шахматная программа Deep Blue выигравшая у Каспарова в 1997 г

bull Вопросы по категориямCategory General ScienceClue When hit by electrons a phosphor gives off electromagnetic energy in this formAnswer Light (or Photons)

Category Lincoln BlogsClue Secretary Chase just submitted this to me for the third time guess what pal This time Irsquom accepting itAnswer his resignation

Category Head NorthClue Theyrsquore the two states you could be reentering if yoursquore crossing Floridarsquos northern borderAnswer Georgia and Alabama

Вопросы могут касаться сразу нескольких фактов чтобы ответ был вернымCategory ldquoRaprdquo SheetClue This archaic term for a mischievous or annoying child can also mean a rogue or scampSubclue 1 This archaic term for a mischievous or annoying childSubclue 2 This term can also mean a rogue or scampAnswer Rapscallion

Category Diplomatic RelationsClue Of the four countries in the world that the United States does not have diplomatic relations with the one thatrsquos farthest northInner subclue The four countries in the world that the United States does not have diplomatic relations with (Bhutan Cuba Iran North Korea)Outer subclue Of Bhutan Cuba Iran and North Korea the one thatrsquos farthest northAnswer North Korea

Вопросы - пазлы

Category Before and After Goes to the MoviesClue Film of a typical day in the life of the Beatles which includes running from bloodthirsty zombie fans in a Romero classicSubclue 2 Film of a typical day in the life of the Beatles Answer 1 (A Hard Dayrsquos Night)Subclue 2 Running from bloodthirsty zombie fans in a Romero classicAnswer 2 (Night of the Living Dead)Answer A Hard Dayrsquos Night of the Living Dead

Category Rhyme TimeClue Itrsquos where Pele stores his ballSubclue 1 Pele ball (soccer)Subclue 2 where store (cabinet drawer locker and so on)Answer soccer locker

Недопустимые типы вопросов

oCategory Picture This(Contestants are shown a picture of a B-52 bomber)Clue Alphanumeric name of the fearsome machine seen hereAnswer B-52

oCategory Decode the Postal CodesVerbal instruction from host Wersquore going to give you a word comprising two postal abbreviations you have to identify the statesClue VainAnswer Virginia and Indiana

Лексические типы ответа ndash LAT (Lexical Answer Type)

Метрики качества ответов - результативность

Показатели двух теоретических QA систем

Показатели результативности чемпионов шоу (2000)

Облако победителей

Линия сравнения результативности (baseline performance)

Сравнение системы тестового поиска и поиска в базе знаний

Результативность Watson (по версиям)

Основы подхода Deep QA

bull Massive parallelism использование высокого параллелизма при рассмотрении множественных интерпретаций и гипотез

bull Many experts привлечение интеграции приложения и контекстуального оценивания в широком диапазоне слабосвязанных вероятностных вопросов и контентной аналитики

bull Pervasive confidence estimation повсеместная оценка доверия означает что ни один из компонентов не включается в ответ сразу все компоненты имеют признаки и связанные с ними уровни доверия производится скоринг различных вопросов и контентная интерпретация Основа confidence-processing состоит в обучении как стэкировать и комбинировать баллы

bull Integrate shallow and deep knowledge интеграция поверхностных и глубинных знаний состоит в балансе использования строгой семантики и мелких семантик использующих множества слабо сформированных онтологий

bull Content Acquisition - Сбор контентаСочетает ручные и автоматические этапы Первым шагом является анализ примеров вопросов проблемного пространства чтобы произвести описание видов вопросов на которые нужно ответить и характеризовать область применения Анализ примеров вопросов в первую очередь ручная задача в то время как анализ области может быть выполнен путем автоматических или статистических методов таких как анализ LAT показанный ранее Учитывая вопросы для широкого домена Jeopardy Challenge источники для Watson включают широкий ассортимент энциклопедий словарей тезаурусов Newswire статьи литературные произведения и тд Начиная с разумного размера базового корпуса DeepQA затем применяет автоматический процесс расширения корпуса Процесс включает в себя четыре этапа высокого уровня (1) выявления основных документов и получить соответствующие документы из Интернет (2) извлечь автономные текстовые ядра из связанных веб-документов (3) Оценка на основе ядер являются ли они информативны по отношению к исходному основному документу и (4) объединить наиболее информативные ядра в расширенном корпусе Работающая система использует этот расширенный корпус и не имеет доступа к Интернет во время игры

bull Question Analysis ndash Анализ вопроса

Первый шаг во время выполнения процесса вопрос-ответной системы При анализе вопроса система пытается понять что вопрос задан и выполняет начальный анализ определяющий как вопрос будет обработан на остальных этапах работы системы Подход DeepQA использует смешанный набор экспертов на данном этапе и в системе Watson производится мелкий парсинг глубокий парсинг строятся логические формы семантические этикетки ролей взаимные ссылки отношения именованные сущности и так далее а также конкретные виды анализа для ответа вопрос

bull Question classification - Классификация вопроса

Это задача выявления типа вопроса или частей вопроса которые требуют специальной обработки Это может включать в себя что-нибудь из отдельных слов с двойным смыслом и потенциально до выявления целых статей которые имеют определенную синтаксическую семантическую или риторические функциональные возможности которые могут инициировать нисходящий анализ Классификация может определить вопрос как вопрос- головоломку вопрос-математику -определение и так далее Это будет определять каламбуры ограничения компоненты определений или целые подвопросы в пределах вопросов

bull Focus and LAT Detection ndash Определение фокуса и лексического типа ответа

Лексический тип ответа - это слово или словосочетание в вопросе который определяет тип ответа без попытки понять семантику Определение LAT является важным видом выигрыша и общим источником критических ошибок Преимущество подхода DeepQA является использование многих самостоятельно разработанных алгоритмов laquoответ-типированияraquo Например фокус вопроса викторины laquoПри попадании электронов люминофор излучает электромагнитную энергию в этой формеraquo - является laquoэта формаraquo Фокус часто (но не всегда) содержит полезную информацию об ответе часто субъект или объект отношение в вопросе и может превратить вопрос в фактическое утверждение при замене возможным кандидатом Это представляет полезный способ собирать доказательства о каждом кандидате

bull Relation Detection ndash детектирование отношений

Большинство вопросов содержит отношения являются ли они синтаксическими предикатами субъект-глагол-объект или семантические отношения между субъектами Например в вопросе laquoЕсть два штата в которые вы могли бы войти повторно если вы пересекаете северную границу штата Флоридаraquo мы можем обнаружить отношение границы (Флорида Х к северу) Watson использует обнаружение отношения на протяжении всего процесса QA от фокуса и LAT определения до прохождению и скорингу ответов Watson также может использовать обнаруженные отношения для выделения хранилища триплетов и напрямую генерировать кандидатов в ответы В 20000 игр Jeopardy вопросы например обнаружили распределение Freebase отношений чрезвычайно плоского вида (см рисунок) Это приближение распределеня 50 наиболее частых отношений в 20 000 случайно выбранных вопросах викторины

bull Decomposition ndash декомпозиция

Важным требованием успеха анализа Jeopardy является способность отвечать на вопросы которые разложены на составляющие DeepQA использует основанный на правилах глубокий парсинг и статистические методы классификации чтобы наилучшим образом разложить вопросы на элементы и определить как лучше разбить их на подвопросы Операционная гипотеза что правильная интерпретация вопроса позволит лучше произвести скоринг ответов после того как все доказательства собраны Даже если вопрос не должен быть разложен для определения ответа этот метод может помочь улучшить общее доверие ответу системы DeepQA решает задачи параллельно для каждого разложения применяя алгоритмы от начала до конца каждого подвопроса и синтезирует окончательные ответы DeepQA также поддерживает вложенные декомпозиции вопросов через рекурсивное применение QA системы от начала до конца в внутреннем подвопросе а затем во внешнем Настраиваемые компоненты позволяют легко подключать специализированные алгоритмы синтеза в общую систему

bull Hypothesis Generation ndash генерация гипотез

Генерация гипотез принимает результаты анализа вопросов и производит кандидатов на ответы Каждый кандидат ответ включается обратно в вопрос и это считается как гипотеза Система должна доказать правильность этой гипотезы с некоторой степенью уверенности Как и во всех аспектах DeepQA используется смесь разных подходов для первичного поиска и генерации кандидата в системе Watson

bull Primary Search ndash первичный поиск

В этом поиске целью является найти столько потенциально кандидатов сколько это можно сделать на основе результатов анализа вопроса В течение проекта велись эмпирические исследования направленные на баланс скорости объема и точности Эти исследования позволили регулярно настраивать систему так чтобы найти такое количество кандидатов которые производят наилучший баланс точности и вычислительных ресурсов Оперативная цель основного поиска в конечном счете стабилизировалась на около 85 процентов для топ-250 кандидатов то есть система генерирует правильный ответ как кандидата ответа на 85 процентов вопросов где-то в верхних 250 ранжированных кандидатов Разнообразие методов поиска используются в том числе с использованием нескольких текст поисковых системах с различными базовыми подходами (например Indri и Lucene) поиск документов а также поиска маршрута база знаний поиска с помощью SPARQL хранилища триплетов Для небольшого количества латов которые были определены как закрытые латы кандидат на ответ может быть получен из фиксированного списка в каком-то хранилище известных экземпляров LAT таких как США Президент или Страна

Поиск доказательств

bull Поиск по фразе ndash число соответствий разного типав ответе и вопросеbull Популярность ndash как часто встречается этот вариант ответаbull Соответствие по типу ndash ответ и требование вопросаbull Соответствие по времениbull Надежность источника

bull Candidate Answer Generation ndash генерирование кандидатов на ответ

Результаты поиска применяются для генерирования возможных кандидатов в ответы с помощью различных подходящих техник Для поиска документов извлекаются заголовки и используются как кандидаты Число кандидатов при этом может быть не единственным и требовать использования анализа подстрок и ссылок Используя детектирование именованных сущностей в ряде случаев удается извлечь хороших кандидатов В зависимости от типа источника для генерирования кандидата требуется разный набор алгоритмов например база знаний или обратный словарь порождают кандидатов непосредственно как кандидата Этот этап критически важен и если кандидаты не найдены то фиксируется невозможность ответа В нормальном режиме на этом этапе Watson гененерирует несколько сотен андидатов

bull Soft Filtering ndash мягкая фильтрацияДля ускорения процесса скоринга кандидатов Watson использует различные алгоритмы разной точности Более легковесные (менее вычислительно интенсивные) применяются на первом этапе скоринга На этом этапе устанавливается порог оценки и кандидаты имеющие более высокую оценку считаются прошедшими мягкую фильтрацию Они поступают на выработку гипотез и скоринг доказательств Интересно что кандидаты не прошедшие порог мягкой фильтрации не забываются а направляются прямо на финальный этап слияния Модель скоринга мягкой фильтрации и порога определяются на основе machine learning используя обучающие данные Watson типично пропускает через мягкую фильтрацию 100 кандидатов но эта функция параметризована и их число можно изменить

Проблемы NLP

bull В мае 1898 года Португалия отмечала 400-летний юбилей со дня прибытия этого великого путешественника в Индию

В мае Гари прибыл в Индию после празднования своего юбилея в Португалии

21 мая 1498 года Васка де Гама высадился в местечке Каппад

bull Он был помилован президентом 8 сентября 1974 годаФорд помиловал Никсона 8 сентября 1974 года Никсон Форд

bull Говоря ldquogive a trinklerdquo что предлагают вам сделать британцы по приезду в город

bull Hypothesis and Evidence Scoring ndash скоринг гипотез и доказательств

Прошедшие порог мягкой фильтрации кандидаты поступают на скрупулезный процесс который включает сбор дополнительных поддерживающих доказательств для каждого кандидата на ответ или гипотезу Процесс использует широкий набор различных методов скоринговой аналитики чтобы исследовать все поддерживающие доказательства

bull Evidence Retrieval ndash извлечение доказательств

Чтобы лучше исследовать каждого кандидата прошедшего через мягкую фильтрацию система собирает дополнительные поддерживающие доказательства Архитектура поддерживает интеграцию различных evidence-gathering техник Один из применяемых способов состоит в том что проводится дополнительный поиск в котором кандидат добавляется в качестве required term к первичному запросу извлеченному из вопроса Это будет приводить к получению выражений содержащих кандидата в контексте первичных терминов вопросаПоддерживающие доказательства могут быть извлечены и из других источников например из RDF баз знаний Извлеченные поддерживающие доказательства направляются модули глубокого скоринга которые анализируют кандидата в контексте поддерживающего доказательства

bull Scoring ndash скоринг (количественное оценивание)

Алгоритмы скоринга определяют степень несомненности которую обеспечивают доказательства в поддержку кандидата The DeepQA framework поддерживает множество компонент для выработки оценки в различных измерениях каждого доказательства которая вырабатывает оценку связанную с тем насколько хорошо доказательство поддерживает кандидата на ответ в качестве ответа на заданный вопросDeepQA использует общий формат для оценок для принятых гипотез и подтверждающих оценок отражающих семантические и ограничивающие факторы Это позволяет разработчикам DeepQA быстро разворачивать перемешивать и настраивать сложные совокупности модуле для обработкиНапрмер Watson использует больше чем 50 скоринговых компонент Они производят оценки разноготипа от оценок вероятностей до подсчета категориальных свойств основанных на доказательствах от различных источников включая неструктурированные тексты полуструктурированные тексты и RDF хранилища Эти оценки используют такие данные как degree of match between a passagersquos predicate-argument structure and the question passage source reliability geospatial location temporal relationships taxonomic classification the lexical and semantic relations the candidate is known to participate in the candidatersquos correlation with question terms its popularity (or obscurity) its aliases and so on

Вопрос Чили имеет самую длинную общую границу со страной Сгенерировано несколько кандидатов среди них Аргентина и Боливия Первичный поиск даст приоритет Боливии из=а популярности обсуждений их отношений Однако собранные Watson доказательства из других источников показывают более высокую оценку для Аргентины

Скоринг (взвешивание) доказательств ndash предиктивная аналитика

- При делении клеток митозом называется деление ядра а цитокинезом ndash деление этой жидкости в которой находится ядро

Генерирование кандидатов Сбор доказательств Уверенность в доказательстве

ОрганеллыВакуольЦитоплазмаПлазмамитохондрии

Органеллы ndash не жидкостьВакуоль ndash не жидкостьЦитоплазма ndash возможно жидкостьПлазма ndash не жидкостьМитохондрии ndash не жидкость

Цитоплазма ndash 92Органеллы ndash 19Вакуоль ndash 10Плазма ndash 2Митохондрии ndash 2

Answer Merging ndash объединение ответов

Многие кандидаты в ответы на поставленный вопрос могут быть эквивалентны несмотря на различные внешне формыТехники ранжирования тем не менее рассматривают таких кандидатов как различные Без объединения алгоритмы ранжирования будут работать отдельно с эквивалентными сущностями и пытаться противопоставить одну форму другой Это приведет к проблемам принятия решений Watson содержит алгоритмы идентификации эквивалентных сущностей используя множественные сравнения нормализацию и методы разрешения совместных ссылок

Ranking and Confidence Estimation ndash ранжирование и оценивание доверияПосле объединения система должна произвести ранжирование гипотез и оценивает доверие основанное на объединенных оценках В системе подобран ML подход основанный на обучении на обучающем наборе вопросов с известными ответами и обучение модели основываясь на скоринге Применяется как весьма плоская модель и существующие алгоритмы ранжирования Для более тонких оценок применяется двухфазный процесс использующий группы оценок для оценивания профиля и для оценки доверия Используя эту промежуточную модель система производит ансамбль промежуточных оценок Здесь используется иерархическая техника метаучителя и коллектива экспертов Этот подход обеспечивает итеративное расширение обучения используя изощренные и глубокие иерархические модели обеспечивающие гибкость и робастность при выработке оценок и модифицирует системуМетаучитель в Watson использует набор многие обучаемые модели чтобы управлять различными классами вопросов которые могут быть критическими при идентификации правильных ответовНаконец важно что использование NLP-based скоринга дает весьма разреженные оценки и требует точного оценивания с применением confidence-weighted learning techniques

Развертывание Watson

bull DeepQA разработан используя Apache UIMA - framework implementation of the Unstructured Information Management Architecture (Ferrucci and Lally 2004) UIMA был разработан для поддержки взаимодействия и масштабирования приложений обработки текста и мультимодального анализа Все компоненты DeepQA имплементированы как UIMA annotators Это программные компоненты для анализа текста и получения аннотаций или заключений о тексте Watson развивался в процессе разработки от нескольких компонент до нескольких сотен UIMA обеспечивает быструю интеграцию компонент тестирование и исследование

bull Начальная имплементация Watson запускалась на одном процессоре и требовала 2 часа на ответ на один вопрос DeepQA развился в параллельную систему используя UIMA-AS часть Apache UIMA масштабируя приложения UIMA используя асинхронный механизм месседжинга UIMA-AS позволила масштабировать Watson более чем на 2500 вычислительных ядер UIMA-AS управляет коммуникациями месседжингом управлением запросами используя open JMS standard UIMA-AS позволил снизить латентность Watson до 3ndash5 секунд

bull Для препроцессинга корпуса текстов создания быстрых run-time indices использован Hadoop

UIMA annotators были развернуты как mapper ы в Hadoop map-reduce framework Hadoop распределяет контент по кластеру для обеспечения высокого использования CPU и обеспечивает подходящий набор инструментов для deploying managing and monitoring the corpus analysis process

bull Аппаратная платформа ndash это 90 серверов 2800 ядер 15 ТБ RAM 80 Тфлопс $3 000 000 10 R

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 31: !Predictive analytics part_3

bull Достоинством метода можно считать его замечательную способность выявлять зависимости между словами когда обычные статистические методы бессильны LSA также может быть применен как с обучением (с предварительной тематической классификацией документов) так и без обучения (произвольное разбиение произвольного текста) что зависит от решаемой задачи

bull Об основных недостатках значительное снижение скорости вычисления при увеличении объема входных данных (в частности при SVD-преобразовании)

bull Как показано в литературе скорость вычисления соответствует порядку где сумма количества документов и термов kndash размерность пространства факторов

На рисунке показано возникновение и изменение главных факторов при уменьшении числа сингулярных элементов диагональной матрицы от 100 до ~12 Трехмерные рисунки представляют собой симметричную матрицу полученную в результате вычисления скалярного произведения векторов каждого эталонного документа с каждым тестируемым Эталонный набор векторов ndash это заранее размеченный на 30 документов текст тестируемый ndash с уменьшением числа сингулярных значений диагональной матрицы полученной при SVD-анализе На осях X и Y откладывается количество документов (эталонных и тестируемых) на оси Z ndash объем лексиконаНа рисунках хорошо видно что при уменьшении числа сингулярных диагональных элементов на 20-30 факторы еще не достаточно ярко выявлены но при этом возникают корреляции похожих документов (небольшие пики вне диагонали) которые сначала незначительно увеличиваются а затем с уменьшением числа сингулярных значений (до 70-80) ndash исчезают При автоматической кластеризации такие пики являются шумом поэтому их желательно минимизировать Если же целью является получение ассоциативных связей внутри документов то следует найти оптимальное соотношение сохранения основного лексикона и примешивания ассоциативного

Имплементация в R - Package lsquolsarsquoalnumx - Regular expression for removal of non-alphanumeric characters (saving special characters)

astextmatrix - Display a latent semantic space generated by Latent Semantic Analysis (LSA)

associate - Find close terms in a textmatrix

corpora - Corpora (Essay Scoring) dimcalc Dimensionality Calculation Routines (LSA)

dimcalc - Dimensionality Calculation Routines (LSA)

lsa - Create a vector space with Latent Semantic Analysis (LSA)

printtextmatrix - Print a textmatrix (Matrices)

sampletextmatrix - Create a random sample of files

textmatrix - Создает Textmatrix (Matrices) из файлов

Пример 1

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) read files into a document-term matrixmyMatrix = textmatrix(td minWordLength=1) create the latent semantic spacemyLSAspace = lsa(myMatrix dims=dimcalc_raw()) display it as a textmatrix againround(astextmatrix(myLSAspace)2) should give the original create the latent semantic spacemyLSAspace = lsa(myMatrix dims=dimcalc_share())

Пример 2

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) create matricesmyMatrix = textmatrix(td minWordLength=1)myLSAspace = lsa(myMatrix dims=dimcalc_share())myNewMatrix = astextmatrix(myLSAspace) calc associations for mouseassociate(myNewMatrix mouse) clean upunlink(td recursive=TRUE)

Пример 3 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(ham mouse sushi) file=paste(td D2 sep=) )write( c(dog pet pet) file=paste(td D3 sep=) ) LSAdata(stopwords_en)myMatrix = textmatrix(td stopwords=stopwords_en)myMatrix = lw_logtf(myMatrix) gw_idf(myMatrix)myLSAspace = lsa(myMatrix dims=dimcalc_share())astextmatrix(myLSAspace) clean upunlink(td recursive=TRUE)

Пример 4 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(hamster mouse sushi) file=paste(td D2 sep=) )write( c(dog monster monster) file=paste(td D3 sep=) ) read them create a document-term matrixtextmatrix(td) read them drop german stopwordsdata(stopwords_de)textmatrix(td stopwords=stopwords_de) read them based on a controlled vocabularyvoc = c(dog mouse)textmatrix(td vocabulary=voc minWordLength=1) clean up

Вместо заключения Очевидным недостатком LSA является ненормальность (негаусовость) вероятностного распределения слов в любом естественном языке Но эту проблему можно решить сглаживанием выборки (например применив фонетические слова распределение становится более laquoнормальнымraquo) Либо используют вероятностный LSA тназ PLSA основанный на мультиноминальном распределении Другим менее очевидным недостаткам LSA (и ему подобных методов) применительно к обработке неструктурированной информации можно отнести laquoтуманностьraquo самого метода (в частности выбора кол-ва сингулярных значений диагональной матрицы) и интерпретации результата не говоря уже о проблеме сбалансированности обучающего текста

Как правило для качественного построения модели оставляют менее 1-2 процента от общего числа диагональных значений (после SVD преобразования но об это в следующем посте) И как показывает практика увеличение числа факторов приводит к ухудшению результата Но дойдя примерно до 10 процентов от общего числа диагональных значений опять может быть всплеск аналогичный результату полученному при 1

Сбалансированность корпуса ndash вечная проблема которая не имеет хорошего решения на сегодняшний день Поэтому про нее приято помалкивать

Интерпретируемость результатов LSA (как и DLA) также затруднительна человек еще может понять что за тематику будет содержать топик полученный в результате анализа а вот машине не понять (не аннотировать) тематику без привлечения большого числа хороших и разных тезаурусов

Таким образом несмотря на трудоемкость и непрозрачность LSA он может успешно применяться для разного рада задач где важно поймать семантику сообщения обобщить или расширить laquoсмыслыraquo поискового запроса

bull Стандарт основанный на XML для обмена моделями статистической обработки Data Mining

bull Поддерживается более 20 организациями и поставщиками ПО

bull Реализован в частности и в R

Поддерживаемые предиктивные алгоритмы в R

Состав pmml package

bull addLT

bull addMSAttributes

bull audit

bull fileToXMLNode

bull pmml

bull pmmlada

bull pmmlcoxph

bull pmmlcvglmnet

bull pmmlglm

bull pmmlhclust

bull pmmlkmeans

bull pmmlksvm

bull pmmllm bull pmmlmultinom bull pmmlnaiveBayes bull pmmlnnet bull pmmlrandomForest bull pmmlrfsrc bull pmmlrpart bull pmmlrules bull pmmlsvm bull pmmlCanExport bull pmmltoc

Пример

Good by R see you later alligator

WATSON ndash одно из наиболее впечатляющих применений предиктивной аналитики

Разрабатывался компанией IBM с 2006 по 2010 годПрославился победой в телешоу Jeopardy (в России ndash laquoСвоя играraquo) в 2011 годуПредшественник Deep Blue обыграл чемпиона мира по шахматам Гарри Каспарова в 1997 г

>

IBM Deep QA Project

bull Целью проекта было создать компьютерную систему (ИИ) для ответа на вопросы (QA) задаваемые в свободной форме в телешоу и показать результаты соизмеримые с человеческими

bull Задача более сложная чем шахматная программа Deep Blue выигравшая у Каспарова в 1997 г

bull Вопросы по категориямCategory General ScienceClue When hit by electrons a phosphor gives off electromagnetic energy in this formAnswer Light (or Photons)

Category Lincoln BlogsClue Secretary Chase just submitted this to me for the third time guess what pal This time Irsquom accepting itAnswer his resignation

Category Head NorthClue Theyrsquore the two states you could be reentering if yoursquore crossing Floridarsquos northern borderAnswer Georgia and Alabama

Вопросы могут касаться сразу нескольких фактов чтобы ответ был вернымCategory ldquoRaprdquo SheetClue This archaic term for a mischievous or annoying child can also mean a rogue or scampSubclue 1 This archaic term for a mischievous or annoying childSubclue 2 This term can also mean a rogue or scampAnswer Rapscallion

Category Diplomatic RelationsClue Of the four countries in the world that the United States does not have diplomatic relations with the one thatrsquos farthest northInner subclue The four countries in the world that the United States does not have diplomatic relations with (Bhutan Cuba Iran North Korea)Outer subclue Of Bhutan Cuba Iran and North Korea the one thatrsquos farthest northAnswer North Korea

Вопросы - пазлы

Category Before and After Goes to the MoviesClue Film of a typical day in the life of the Beatles which includes running from bloodthirsty zombie fans in a Romero classicSubclue 2 Film of a typical day in the life of the Beatles Answer 1 (A Hard Dayrsquos Night)Subclue 2 Running from bloodthirsty zombie fans in a Romero classicAnswer 2 (Night of the Living Dead)Answer A Hard Dayrsquos Night of the Living Dead

Category Rhyme TimeClue Itrsquos where Pele stores his ballSubclue 1 Pele ball (soccer)Subclue 2 where store (cabinet drawer locker and so on)Answer soccer locker

Недопустимые типы вопросов

oCategory Picture This(Contestants are shown a picture of a B-52 bomber)Clue Alphanumeric name of the fearsome machine seen hereAnswer B-52

oCategory Decode the Postal CodesVerbal instruction from host Wersquore going to give you a word comprising two postal abbreviations you have to identify the statesClue VainAnswer Virginia and Indiana

Лексические типы ответа ndash LAT (Lexical Answer Type)

Метрики качества ответов - результативность

Показатели двух теоретических QA систем

Показатели результативности чемпионов шоу (2000)

Облако победителей

Линия сравнения результативности (baseline performance)

Сравнение системы тестового поиска и поиска в базе знаний

Результативность Watson (по версиям)

Основы подхода Deep QA

bull Massive parallelism использование высокого параллелизма при рассмотрении множественных интерпретаций и гипотез

bull Many experts привлечение интеграции приложения и контекстуального оценивания в широком диапазоне слабосвязанных вероятностных вопросов и контентной аналитики

bull Pervasive confidence estimation повсеместная оценка доверия означает что ни один из компонентов не включается в ответ сразу все компоненты имеют признаки и связанные с ними уровни доверия производится скоринг различных вопросов и контентная интерпретация Основа confidence-processing состоит в обучении как стэкировать и комбинировать баллы

bull Integrate shallow and deep knowledge интеграция поверхностных и глубинных знаний состоит в балансе использования строгой семантики и мелких семантик использующих множества слабо сформированных онтологий

bull Content Acquisition - Сбор контентаСочетает ручные и автоматические этапы Первым шагом является анализ примеров вопросов проблемного пространства чтобы произвести описание видов вопросов на которые нужно ответить и характеризовать область применения Анализ примеров вопросов в первую очередь ручная задача в то время как анализ области может быть выполнен путем автоматических или статистических методов таких как анализ LAT показанный ранее Учитывая вопросы для широкого домена Jeopardy Challenge источники для Watson включают широкий ассортимент энциклопедий словарей тезаурусов Newswire статьи литературные произведения и тд Начиная с разумного размера базового корпуса DeepQA затем применяет автоматический процесс расширения корпуса Процесс включает в себя четыре этапа высокого уровня (1) выявления основных документов и получить соответствующие документы из Интернет (2) извлечь автономные текстовые ядра из связанных веб-документов (3) Оценка на основе ядер являются ли они информативны по отношению к исходному основному документу и (4) объединить наиболее информативные ядра в расширенном корпусе Работающая система использует этот расширенный корпус и не имеет доступа к Интернет во время игры

bull Question Analysis ndash Анализ вопроса

Первый шаг во время выполнения процесса вопрос-ответной системы При анализе вопроса система пытается понять что вопрос задан и выполняет начальный анализ определяющий как вопрос будет обработан на остальных этапах работы системы Подход DeepQA использует смешанный набор экспертов на данном этапе и в системе Watson производится мелкий парсинг глубокий парсинг строятся логические формы семантические этикетки ролей взаимные ссылки отношения именованные сущности и так далее а также конкретные виды анализа для ответа вопрос

bull Question classification - Классификация вопроса

Это задача выявления типа вопроса или частей вопроса которые требуют специальной обработки Это может включать в себя что-нибудь из отдельных слов с двойным смыслом и потенциально до выявления целых статей которые имеют определенную синтаксическую семантическую или риторические функциональные возможности которые могут инициировать нисходящий анализ Классификация может определить вопрос как вопрос- головоломку вопрос-математику -определение и так далее Это будет определять каламбуры ограничения компоненты определений или целые подвопросы в пределах вопросов

bull Focus and LAT Detection ndash Определение фокуса и лексического типа ответа

Лексический тип ответа - это слово или словосочетание в вопросе который определяет тип ответа без попытки понять семантику Определение LAT является важным видом выигрыша и общим источником критических ошибок Преимущество подхода DeepQA является использование многих самостоятельно разработанных алгоритмов laquoответ-типированияraquo Например фокус вопроса викторины laquoПри попадании электронов люминофор излучает электромагнитную энергию в этой формеraquo - является laquoэта формаraquo Фокус часто (но не всегда) содержит полезную информацию об ответе часто субъект или объект отношение в вопросе и может превратить вопрос в фактическое утверждение при замене возможным кандидатом Это представляет полезный способ собирать доказательства о каждом кандидате

bull Relation Detection ndash детектирование отношений

Большинство вопросов содержит отношения являются ли они синтаксическими предикатами субъект-глагол-объект или семантические отношения между субъектами Например в вопросе laquoЕсть два штата в которые вы могли бы войти повторно если вы пересекаете северную границу штата Флоридаraquo мы можем обнаружить отношение границы (Флорида Х к северу) Watson использует обнаружение отношения на протяжении всего процесса QA от фокуса и LAT определения до прохождению и скорингу ответов Watson также может использовать обнаруженные отношения для выделения хранилища триплетов и напрямую генерировать кандидатов в ответы В 20000 игр Jeopardy вопросы например обнаружили распределение Freebase отношений чрезвычайно плоского вида (см рисунок) Это приближение распределеня 50 наиболее частых отношений в 20 000 случайно выбранных вопросах викторины

bull Decomposition ndash декомпозиция

Важным требованием успеха анализа Jeopardy является способность отвечать на вопросы которые разложены на составляющие DeepQA использует основанный на правилах глубокий парсинг и статистические методы классификации чтобы наилучшим образом разложить вопросы на элементы и определить как лучше разбить их на подвопросы Операционная гипотеза что правильная интерпретация вопроса позволит лучше произвести скоринг ответов после того как все доказательства собраны Даже если вопрос не должен быть разложен для определения ответа этот метод может помочь улучшить общее доверие ответу системы DeepQA решает задачи параллельно для каждого разложения применяя алгоритмы от начала до конца каждого подвопроса и синтезирует окончательные ответы DeepQA также поддерживает вложенные декомпозиции вопросов через рекурсивное применение QA системы от начала до конца в внутреннем подвопросе а затем во внешнем Настраиваемые компоненты позволяют легко подключать специализированные алгоритмы синтеза в общую систему

bull Hypothesis Generation ndash генерация гипотез

Генерация гипотез принимает результаты анализа вопросов и производит кандидатов на ответы Каждый кандидат ответ включается обратно в вопрос и это считается как гипотеза Система должна доказать правильность этой гипотезы с некоторой степенью уверенности Как и во всех аспектах DeepQA используется смесь разных подходов для первичного поиска и генерации кандидата в системе Watson

bull Primary Search ndash первичный поиск

В этом поиске целью является найти столько потенциально кандидатов сколько это можно сделать на основе результатов анализа вопроса В течение проекта велись эмпирические исследования направленные на баланс скорости объема и точности Эти исследования позволили регулярно настраивать систему так чтобы найти такое количество кандидатов которые производят наилучший баланс точности и вычислительных ресурсов Оперативная цель основного поиска в конечном счете стабилизировалась на около 85 процентов для топ-250 кандидатов то есть система генерирует правильный ответ как кандидата ответа на 85 процентов вопросов где-то в верхних 250 ранжированных кандидатов Разнообразие методов поиска используются в том числе с использованием нескольких текст поисковых системах с различными базовыми подходами (например Indri и Lucene) поиск документов а также поиска маршрута база знаний поиска с помощью SPARQL хранилища триплетов Для небольшого количества латов которые были определены как закрытые латы кандидат на ответ может быть получен из фиксированного списка в каком-то хранилище известных экземпляров LAT таких как США Президент или Страна

Поиск доказательств

bull Поиск по фразе ndash число соответствий разного типав ответе и вопросеbull Популярность ndash как часто встречается этот вариант ответаbull Соответствие по типу ndash ответ и требование вопросаbull Соответствие по времениbull Надежность источника

bull Candidate Answer Generation ndash генерирование кандидатов на ответ

Результаты поиска применяются для генерирования возможных кандидатов в ответы с помощью различных подходящих техник Для поиска документов извлекаются заголовки и используются как кандидаты Число кандидатов при этом может быть не единственным и требовать использования анализа подстрок и ссылок Используя детектирование именованных сущностей в ряде случаев удается извлечь хороших кандидатов В зависимости от типа источника для генерирования кандидата требуется разный набор алгоритмов например база знаний или обратный словарь порождают кандидатов непосредственно как кандидата Этот этап критически важен и если кандидаты не найдены то фиксируется невозможность ответа В нормальном режиме на этом этапе Watson гененерирует несколько сотен андидатов

bull Soft Filtering ndash мягкая фильтрацияДля ускорения процесса скоринга кандидатов Watson использует различные алгоритмы разной точности Более легковесные (менее вычислительно интенсивные) применяются на первом этапе скоринга На этом этапе устанавливается порог оценки и кандидаты имеющие более высокую оценку считаются прошедшими мягкую фильтрацию Они поступают на выработку гипотез и скоринг доказательств Интересно что кандидаты не прошедшие порог мягкой фильтрации не забываются а направляются прямо на финальный этап слияния Модель скоринга мягкой фильтрации и порога определяются на основе machine learning используя обучающие данные Watson типично пропускает через мягкую фильтрацию 100 кандидатов но эта функция параметризована и их число можно изменить

Проблемы NLP

bull В мае 1898 года Португалия отмечала 400-летний юбилей со дня прибытия этого великого путешественника в Индию

В мае Гари прибыл в Индию после празднования своего юбилея в Португалии

21 мая 1498 года Васка де Гама высадился в местечке Каппад

bull Он был помилован президентом 8 сентября 1974 годаФорд помиловал Никсона 8 сентября 1974 года Никсон Форд

bull Говоря ldquogive a trinklerdquo что предлагают вам сделать британцы по приезду в город

bull Hypothesis and Evidence Scoring ndash скоринг гипотез и доказательств

Прошедшие порог мягкой фильтрации кандидаты поступают на скрупулезный процесс который включает сбор дополнительных поддерживающих доказательств для каждого кандидата на ответ или гипотезу Процесс использует широкий набор различных методов скоринговой аналитики чтобы исследовать все поддерживающие доказательства

bull Evidence Retrieval ndash извлечение доказательств

Чтобы лучше исследовать каждого кандидата прошедшего через мягкую фильтрацию система собирает дополнительные поддерживающие доказательства Архитектура поддерживает интеграцию различных evidence-gathering техник Один из применяемых способов состоит в том что проводится дополнительный поиск в котором кандидат добавляется в качестве required term к первичному запросу извлеченному из вопроса Это будет приводить к получению выражений содержащих кандидата в контексте первичных терминов вопросаПоддерживающие доказательства могут быть извлечены и из других источников например из RDF баз знаний Извлеченные поддерживающие доказательства направляются модули глубокого скоринга которые анализируют кандидата в контексте поддерживающего доказательства

bull Scoring ndash скоринг (количественное оценивание)

Алгоритмы скоринга определяют степень несомненности которую обеспечивают доказательства в поддержку кандидата The DeepQA framework поддерживает множество компонент для выработки оценки в различных измерениях каждого доказательства которая вырабатывает оценку связанную с тем насколько хорошо доказательство поддерживает кандидата на ответ в качестве ответа на заданный вопросDeepQA использует общий формат для оценок для принятых гипотез и подтверждающих оценок отражающих семантические и ограничивающие факторы Это позволяет разработчикам DeepQA быстро разворачивать перемешивать и настраивать сложные совокупности модуле для обработкиНапрмер Watson использует больше чем 50 скоринговых компонент Они производят оценки разноготипа от оценок вероятностей до подсчета категориальных свойств основанных на доказательствах от различных источников включая неструктурированные тексты полуструктурированные тексты и RDF хранилища Эти оценки используют такие данные как degree of match between a passagersquos predicate-argument structure and the question passage source reliability geospatial location temporal relationships taxonomic classification the lexical and semantic relations the candidate is known to participate in the candidatersquos correlation with question terms its popularity (or obscurity) its aliases and so on

Вопрос Чили имеет самую длинную общую границу со страной Сгенерировано несколько кандидатов среди них Аргентина и Боливия Первичный поиск даст приоритет Боливии из=а популярности обсуждений их отношений Однако собранные Watson доказательства из других источников показывают более высокую оценку для Аргентины

Скоринг (взвешивание) доказательств ndash предиктивная аналитика

- При делении клеток митозом называется деление ядра а цитокинезом ndash деление этой жидкости в которой находится ядро

Генерирование кандидатов Сбор доказательств Уверенность в доказательстве

ОрганеллыВакуольЦитоплазмаПлазмамитохондрии

Органеллы ndash не жидкостьВакуоль ndash не жидкостьЦитоплазма ndash возможно жидкостьПлазма ndash не жидкостьМитохондрии ndash не жидкость

Цитоплазма ndash 92Органеллы ndash 19Вакуоль ndash 10Плазма ndash 2Митохондрии ndash 2

Answer Merging ndash объединение ответов

Многие кандидаты в ответы на поставленный вопрос могут быть эквивалентны несмотря на различные внешне формыТехники ранжирования тем не менее рассматривают таких кандидатов как различные Без объединения алгоритмы ранжирования будут работать отдельно с эквивалентными сущностями и пытаться противопоставить одну форму другой Это приведет к проблемам принятия решений Watson содержит алгоритмы идентификации эквивалентных сущностей используя множественные сравнения нормализацию и методы разрешения совместных ссылок

Ranking and Confidence Estimation ndash ранжирование и оценивание доверияПосле объединения система должна произвести ранжирование гипотез и оценивает доверие основанное на объединенных оценках В системе подобран ML подход основанный на обучении на обучающем наборе вопросов с известными ответами и обучение модели основываясь на скоринге Применяется как весьма плоская модель и существующие алгоритмы ранжирования Для более тонких оценок применяется двухфазный процесс использующий группы оценок для оценивания профиля и для оценки доверия Используя эту промежуточную модель система производит ансамбль промежуточных оценок Здесь используется иерархическая техника метаучителя и коллектива экспертов Этот подход обеспечивает итеративное расширение обучения используя изощренные и глубокие иерархические модели обеспечивающие гибкость и робастность при выработке оценок и модифицирует системуМетаучитель в Watson использует набор многие обучаемые модели чтобы управлять различными классами вопросов которые могут быть критическими при идентификации правильных ответовНаконец важно что использование NLP-based скоринга дает весьма разреженные оценки и требует точного оценивания с применением confidence-weighted learning techniques

Развертывание Watson

bull DeepQA разработан используя Apache UIMA - framework implementation of the Unstructured Information Management Architecture (Ferrucci and Lally 2004) UIMA был разработан для поддержки взаимодействия и масштабирования приложений обработки текста и мультимодального анализа Все компоненты DeepQA имплементированы как UIMA annotators Это программные компоненты для анализа текста и получения аннотаций или заключений о тексте Watson развивался в процессе разработки от нескольких компонент до нескольких сотен UIMA обеспечивает быструю интеграцию компонент тестирование и исследование

bull Начальная имплементация Watson запускалась на одном процессоре и требовала 2 часа на ответ на один вопрос DeepQA развился в параллельную систему используя UIMA-AS часть Apache UIMA масштабируя приложения UIMA используя асинхронный механизм месседжинга UIMA-AS позволила масштабировать Watson более чем на 2500 вычислительных ядер UIMA-AS управляет коммуникациями месседжингом управлением запросами используя open JMS standard UIMA-AS позволил снизить латентность Watson до 3ndash5 секунд

bull Для препроцессинга корпуса текстов создания быстрых run-time indices использован Hadoop

UIMA annotators были развернуты как mapper ы в Hadoop map-reduce framework Hadoop распределяет контент по кластеру для обеспечения высокого использования CPU и обеспечивает подходящий набор инструментов для deploying managing and monitoring the corpus analysis process

bull Аппаратная платформа ndash это 90 серверов 2800 ядер 15 ТБ RAM 80 Тфлопс $3 000 000 10 R

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 32: !Predictive analytics part_3

На рисунке показано возникновение и изменение главных факторов при уменьшении числа сингулярных элементов диагональной матрицы от 100 до ~12 Трехмерные рисунки представляют собой симметричную матрицу полученную в результате вычисления скалярного произведения векторов каждого эталонного документа с каждым тестируемым Эталонный набор векторов ndash это заранее размеченный на 30 документов текст тестируемый ndash с уменьшением числа сингулярных значений диагональной матрицы полученной при SVD-анализе На осях X и Y откладывается количество документов (эталонных и тестируемых) на оси Z ndash объем лексиконаНа рисунках хорошо видно что при уменьшении числа сингулярных диагональных элементов на 20-30 факторы еще не достаточно ярко выявлены но при этом возникают корреляции похожих документов (небольшие пики вне диагонали) которые сначала незначительно увеличиваются а затем с уменьшением числа сингулярных значений (до 70-80) ndash исчезают При автоматической кластеризации такие пики являются шумом поэтому их желательно минимизировать Если же целью является получение ассоциативных связей внутри документов то следует найти оптимальное соотношение сохранения основного лексикона и примешивания ассоциативного

Имплементация в R - Package lsquolsarsquoalnumx - Regular expression for removal of non-alphanumeric characters (saving special characters)

astextmatrix - Display a latent semantic space generated by Latent Semantic Analysis (LSA)

associate - Find close terms in a textmatrix

corpora - Corpora (Essay Scoring) dimcalc Dimensionality Calculation Routines (LSA)

dimcalc - Dimensionality Calculation Routines (LSA)

lsa - Create a vector space with Latent Semantic Analysis (LSA)

printtextmatrix - Print a textmatrix (Matrices)

sampletextmatrix - Create a random sample of files

textmatrix - Создает Textmatrix (Matrices) из файлов

Пример 1

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) read files into a document-term matrixmyMatrix = textmatrix(td minWordLength=1) create the latent semantic spacemyLSAspace = lsa(myMatrix dims=dimcalc_raw()) display it as a textmatrix againround(astextmatrix(myLSAspace)2) should give the original create the latent semantic spacemyLSAspace = lsa(myMatrix dims=dimcalc_share())

Пример 2

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) create matricesmyMatrix = textmatrix(td minWordLength=1)myLSAspace = lsa(myMatrix dims=dimcalc_share())myNewMatrix = astextmatrix(myLSAspace) calc associations for mouseassociate(myNewMatrix mouse) clean upunlink(td recursive=TRUE)

Пример 3 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(ham mouse sushi) file=paste(td D2 sep=) )write( c(dog pet pet) file=paste(td D3 sep=) ) LSAdata(stopwords_en)myMatrix = textmatrix(td stopwords=stopwords_en)myMatrix = lw_logtf(myMatrix) gw_idf(myMatrix)myLSAspace = lsa(myMatrix dims=dimcalc_share())astextmatrix(myLSAspace) clean upunlink(td recursive=TRUE)

Пример 4 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(hamster mouse sushi) file=paste(td D2 sep=) )write( c(dog monster monster) file=paste(td D3 sep=) ) read them create a document-term matrixtextmatrix(td) read them drop german stopwordsdata(stopwords_de)textmatrix(td stopwords=stopwords_de) read them based on a controlled vocabularyvoc = c(dog mouse)textmatrix(td vocabulary=voc minWordLength=1) clean up

Вместо заключения Очевидным недостатком LSA является ненормальность (негаусовость) вероятностного распределения слов в любом естественном языке Но эту проблему можно решить сглаживанием выборки (например применив фонетические слова распределение становится более laquoнормальнымraquo) Либо используют вероятностный LSA тназ PLSA основанный на мультиноминальном распределении Другим менее очевидным недостаткам LSA (и ему подобных методов) применительно к обработке неструктурированной информации можно отнести laquoтуманностьraquo самого метода (в частности выбора кол-ва сингулярных значений диагональной матрицы) и интерпретации результата не говоря уже о проблеме сбалансированности обучающего текста

Как правило для качественного построения модели оставляют менее 1-2 процента от общего числа диагональных значений (после SVD преобразования но об это в следующем посте) И как показывает практика увеличение числа факторов приводит к ухудшению результата Но дойдя примерно до 10 процентов от общего числа диагональных значений опять может быть всплеск аналогичный результату полученному при 1

Сбалансированность корпуса ndash вечная проблема которая не имеет хорошего решения на сегодняшний день Поэтому про нее приято помалкивать

Интерпретируемость результатов LSA (как и DLA) также затруднительна человек еще может понять что за тематику будет содержать топик полученный в результате анализа а вот машине не понять (не аннотировать) тематику без привлечения большого числа хороших и разных тезаурусов

Таким образом несмотря на трудоемкость и непрозрачность LSA он может успешно применяться для разного рада задач где важно поймать семантику сообщения обобщить или расширить laquoсмыслыraquo поискового запроса

bull Стандарт основанный на XML для обмена моделями статистической обработки Data Mining

bull Поддерживается более 20 организациями и поставщиками ПО

bull Реализован в частности и в R

Поддерживаемые предиктивные алгоритмы в R

Состав pmml package

bull addLT

bull addMSAttributes

bull audit

bull fileToXMLNode

bull pmml

bull pmmlada

bull pmmlcoxph

bull pmmlcvglmnet

bull pmmlglm

bull pmmlhclust

bull pmmlkmeans

bull pmmlksvm

bull pmmllm bull pmmlmultinom bull pmmlnaiveBayes bull pmmlnnet bull pmmlrandomForest bull pmmlrfsrc bull pmmlrpart bull pmmlrules bull pmmlsvm bull pmmlCanExport bull pmmltoc

Пример

Good by R see you later alligator

WATSON ndash одно из наиболее впечатляющих применений предиктивной аналитики

Разрабатывался компанией IBM с 2006 по 2010 годПрославился победой в телешоу Jeopardy (в России ndash laquoСвоя играraquo) в 2011 годуПредшественник Deep Blue обыграл чемпиона мира по шахматам Гарри Каспарова в 1997 г

>

IBM Deep QA Project

bull Целью проекта было создать компьютерную систему (ИИ) для ответа на вопросы (QA) задаваемые в свободной форме в телешоу и показать результаты соизмеримые с человеческими

bull Задача более сложная чем шахматная программа Deep Blue выигравшая у Каспарова в 1997 г

bull Вопросы по категориямCategory General ScienceClue When hit by electrons a phosphor gives off electromagnetic energy in this formAnswer Light (or Photons)

Category Lincoln BlogsClue Secretary Chase just submitted this to me for the third time guess what pal This time Irsquom accepting itAnswer his resignation

Category Head NorthClue Theyrsquore the two states you could be reentering if yoursquore crossing Floridarsquos northern borderAnswer Georgia and Alabama

Вопросы могут касаться сразу нескольких фактов чтобы ответ был вернымCategory ldquoRaprdquo SheetClue This archaic term for a mischievous or annoying child can also mean a rogue or scampSubclue 1 This archaic term for a mischievous or annoying childSubclue 2 This term can also mean a rogue or scampAnswer Rapscallion

Category Diplomatic RelationsClue Of the four countries in the world that the United States does not have diplomatic relations with the one thatrsquos farthest northInner subclue The four countries in the world that the United States does not have diplomatic relations with (Bhutan Cuba Iran North Korea)Outer subclue Of Bhutan Cuba Iran and North Korea the one thatrsquos farthest northAnswer North Korea

Вопросы - пазлы

Category Before and After Goes to the MoviesClue Film of a typical day in the life of the Beatles which includes running from bloodthirsty zombie fans in a Romero classicSubclue 2 Film of a typical day in the life of the Beatles Answer 1 (A Hard Dayrsquos Night)Subclue 2 Running from bloodthirsty zombie fans in a Romero classicAnswer 2 (Night of the Living Dead)Answer A Hard Dayrsquos Night of the Living Dead

Category Rhyme TimeClue Itrsquos where Pele stores his ballSubclue 1 Pele ball (soccer)Subclue 2 where store (cabinet drawer locker and so on)Answer soccer locker

Недопустимые типы вопросов

oCategory Picture This(Contestants are shown a picture of a B-52 bomber)Clue Alphanumeric name of the fearsome machine seen hereAnswer B-52

oCategory Decode the Postal CodesVerbal instruction from host Wersquore going to give you a word comprising two postal abbreviations you have to identify the statesClue VainAnswer Virginia and Indiana

Лексические типы ответа ndash LAT (Lexical Answer Type)

Метрики качества ответов - результативность

Показатели двух теоретических QA систем

Показатели результативности чемпионов шоу (2000)

Облако победителей

Линия сравнения результативности (baseline performance)

Сравнение системы тестового поиска и поиска в базе знаний

Результативность Watson (по версиям)

Основы подхода Deep QA

bull Massive parallelism использование высокого параллелизма при рассмотрении множественных интерпретаций и гипотез

bull Many experts привлечение интеграции приложения и контекстуального оценивания в широком диапазоне слабосвязанных вероятностных вопросов и контентной аналитики

bull Pervasive confidence estimation повсеместная оценка доверия означает что ни один из компонентов не включается в ответ сразу все компоненты имеют признаки и связанные с ними уровни доверия производится скоринг различных вопросов и контентная интерпретация Основа confidence-processing состоит в обучении как стэкировать и комбинировать баллы

bull Integrate shallow and deep knowledge интеграция поверхностных и глубинных знаний состоит в балансе использования строгой семантики и мелких семантик использующих множества слабо сформированных онтологий

bull Content Acquisition - Сбор контентаСочетает ручные и автоматические этапы Первым шагом является анализ примеров вопросов проблемного пространства чтобы произвести описание видов вопросов на которые нужно ответить и характеризовать область применения Анализ примеров вопросов в первую очередь ручная задача в то время как анализ области может быть выполнен путем автоматических или статистических методов таких как анализ LAT показанный ранее Учитывая вопросы для широкого домена Jeopardy Challenge источники для Watson включают широкий ассортимент энциклопедий словарей тезаурусов Newswire статьи литературные произведения и тд Начиная с разумного размера базового корпуса DeepQA затем применяет автоматический процесс расширения корпуса Процесс включает в себя четыре этапа высокого уровня (1) выявления основных документов и получить соответствующие документы из Интернет (2) извлечь автономные текстовые ядра из связанных веб-документов (3) Оценка на основе ядер являются ли они информативны по отношению к исходному основному документу и (4) объединить наиболее информативные ядра в расширенном корпусе Работающая система использует этот расширенный корпус и не имеет доступа к Интернет во время игры

bull Question Analysis ndash Анализ вопроса

Первый шаг во время выполнения процесса вопрос-ответной системы При анализе вопроса система пытается понять что вопрос задан и выполняет начальный анализ определяющий как вопрос будет обработан на остальных этапах работы системы Подход DeepQA использует смешанный набор экспертов на данном этапе и в системе Watson производится мелкий парсинг глубокий парсинг строятся логические формы семантические этикетки ролей взаимные ссылки отношения именованные сущности и так далее а также конкретные виды анализа для ответа вопрос

bull Question classification - Классификация вопроса

Это задача выявления типа вопроса или частей вопроса которые требуют специальной обработки Это может включать в себя что-нибудь из отдельных слов с двойным смыслом и потенциально до выявления целых статей которые имеют определенную синтаксическую семантическую или риторические функциональные возможности которые могут инициировать нисходящий анализ Классификация может определить вопрос как вопрос- головоломку вопрос-математику -определение и так далее Это будет определять каламбуры ограничения компоненты определений или целые подвопросы в пределах вопросов

bull Focus and LAT Detection ndash Определение фокуса и лексического типа ответа

Лексический тип ответа - это слово или словосочетание в вопросе который определяет тип ответа без попытки понять семантику Определение LAT является важным видом выигрыша и общим источником критических ошибок Преимущество подхода DeepQA является использование многих самостоятельно разработанных алгоритмов laquoответ-типированияraquo Например фокус вопроса викторины laquoПри попадании электронов люминофор излучает электромагнитную энергию в этой формеraquo - является laquoэта формаraquo Фокус часто (но не всегда) содержит полезную информацию об ответе часто субъект или объект отношение в вопросе и может превратить вопрос в фактическое утверждение при замене возможным кандидатом Это представляет полезный способ собирать доказательства о каждом кандидате

bull Relation Detection ndash детектирование отношений

Большинство вопросов содержит отношения являются ли они синтаксическими предикатами субъект-глагол-объект или семантические отношения между субъектами Например в вопросе laquoЕсть два штата в которые вы могли бы войти повторно если вы пересекаете северную границу штата Флоридаraquo мы можем обнаружить отношение границы (Флорида Х к северу) Watson использует обнаружение отношения на протяжении всего процесса QA от фокуса и LAT определения до прохождению и скорингу ответов Watson также может использовать обнаруженные отношения для выделения хранилища триплетов и напрямую генерировать кандидатов в ответы В 20000 игр Jeopardy вопросы например обнаружили распределение Freebase отношений чрезвычайно плоского вида (см рисунок) Это приближение распределеня 50 наиболее частых отношений в 20 000 случайно выбранных вопросах викторины

bull Decomposition ndash декомпозиция

Важным требованием успеха анализа Jeopardy является способность отвечать на вопросы которые разложены на составляющие DeepQA использует основанный на правилах глубокий парсинг и статистические методы классификации чтобы наилучшим образом разложить вопросы на элементы и определить как лучше разбить их на подвопросы Операционная гипотеза что правильная интерпретация вопроса позволит лучше произвести скоринг ответов после того как все доказательства собраны Даже если вопрос не должен быть разложен для определения ответа этот метод может помочь улучшить общее доверие ответу системы DeepQA решает задачи параллельно для каждого разложения применяя алгоритмы от начала до конца каждого подвопроса и синтезирует окончательные ответы DeepQA также поддерживает вложенные декомпозиции вопросов через рекурсивное применение QA системы от начала до конца в внутреннем подвопросе а затем во внешнем Настраиваемые компоненты позволяют легко подключать специализированные алгоритмы синтеза в общую систему

bull Hypothesis Generation ndash генерация гипотез

Генерация гипотез принимает результаты анализа вопросов и производит кандидатов на ответы Каждый кандидат ответ включается обратно в вопрос и это считается как гипотеза Система должна доказать правильность этой гипотезы с некоторой степенью уверенности Как и во всех аспектах DeepQA используется смесь разных подходов для первичного поиска и генерации кандидата в системе Watson

bull Primary Search ndash первичный поиск

В этом поиске целью является найти столько потенциально кандидатов сколько это можно сделать на основе результатов анализа вопроса В течение проекта велись эмпирические исследования направленные на баланс скорости объема и точности Эти исследования позволили регулярно настраивать систему так чтобы найти такое количество кандидатов которые производят наилучший баланс точности и вычислительных ресурсов Оперативная цель основного поиска в конечном счете стабилизировалась на около 85 процентов для топ-250 кандидатов то есть система генерирует правильный ответ как кандидата ответа на 85 процентов вопросов где-то в верхних 250 ранжированных кандидатов Разнообразие методов поиска используются в том числе с использованием нескольких текст поисковых системах с различными базовыми подходами (например Indri и Lucene) поиск документов а также поиска маршрута база знаний поиска с помощью SPARQL хранилища триплетов Для небольшого количества латов которые были определены как закрытые латы кандидат на ответ может быть получен из фиксированного списка в каком-то хранилище известных экземпляров LAT таких как США Президент или Страна

Поиск доказательств

bull Поиск по фразе ndash число соответствий разного типав ответе и вопросеbull Популярность ndash как часто встречается этот вариант ответаbull Соответствие по типу ndash ответ и требование вопросаbull Соответствие по времениbull Надежность источника

bull Candidate Answer Generation ndash генерирование кандидатов на ответ

Результаты поиска применяются для генерирования возможных кандидатов в ответы с помощью различных подходящих техник Для поиска документов извлекаются заголовки и используются как кандидаты Число кандидатов при этом может быть не единственным и требовать использования анализа подстрок и ссылок Используя детектирование именованных сущностей в ряде случаев удается извлечь хороших кандидатов В зависимости от типа источника для генерирования кандидата требуется разный набор алгоритмов например база знаний или обратный словарь порождают кандидатов непосредственно как кандидата Этот этап критически важен и если кандидаты не найдены то фиксируется невозможность ответа В нормальном режиме на этом этапе Watson гененерирует несколько сотен андидатов

bull Soft Filtering ndash мягкая фильтрацияДля ускорения процесса скоринга кандидатов Watson использует различные алгоритмы разной точности Более легковесные (менее вычислительно интенсивные) применяются на первом этапе скоринга На этом этапе устанавливается порог оценки и кандидаты имеющие более высокую оценку считаются прошедшими мягкую фильтрацию Они поступают на выработку гипотез и скоринг доказательств Интересно что кандидаты не прошедшие порог мягкой фильтрации не забываются а направляются прямо на финальный этап слияния Модель скоринга мягкой фильтрации и порога определяются на основе machine learning используя обучающие данные Watson типично пропускает через мягкую фильтрацию 100 кандидатов но эта функция параметризована и их число можно изменить

Проблемы NLP

bull В мае 1898 года Португалия отмечала 400-летний юбилей со дня прибытия этого великого путешественника в Индию

В мае Гари прибыл в Индию после празднования своего юбилея в Португалии

21 мая 1498 года Васка де Гама высадился в местечке Каппад

bull Он был помилован президентом 8 сентября 1974 годаФорд помиловал Никсона 8 сентября 1974 года Никсон Форд

bull Говоря ldquogive a trinklerdquo что предлагают вам сделать британцы по приезду в город

bull Hypothesis and Evidence Scoring ndash скоринг гипотез и доказательств

Прошедшие порог мягкой фильтрации кандидаты поступают на скрупулезный процесс который включает сбор дополнительных поддерживающих доказательств для каждого кандидата на ответ или гипотезу Процесс использует широкий набор различных методов скоринговой аналитики чтобы исследовать все поддерживающие доказательства

bull Evidence Retrieval ndash извлечение доказательств

Чтобы лучше исследовать каждого кандидата прошедшего через мягкую фильтрацию система собирает дополнительные поддерживающие доказательства Архитектура поддерживает интеграцию различных evidence-gathering техник Один из применяемых способов состоит в том что проводится дополнительный поиск в котором кандидат добавляется в качестве required term к первичному запросу извлеченному из вопроса Это будет приводить к получению выражений содержащих кандидата в контексте первичных терминов вопросаПоддерживающие доказательства могут быть извлечены и из других источников например из RDF баз знаний Извлеченные поддерживающие доказательства направляются модули глубокого скоринга которые анализируют кандидата в контексте поддерживающего доказательства

bull Scoring ndash скоринг (количественное оценивание)

Алгоритмы скоринга определяют степень несомненности которую обеспечивают доказательства в поддержку кандидата The DeepQA framework поддерживает множество компонент для выработки оценки в различных измерениях каждого доказательства которая вырабатывает оценку связанную с тем насколько хорошо доказательство поддерживает кандидата на ответ в качестве ответа на заданный вопросDeepQA использует общий формат для оценок для принятых гипотез и подтверждающих оценок отражающих семантические и ограничивающие факторы Это позволяет разработчикам DeepQA быстро разворачивать перемешивать и настраивать сложные совокупности модуле для обработкиНапрмер Watson использует больше чем 50 скоринговых компонент Они производят оценки разноготипа от оценок вероятностей до подсчета категориальных свойств основанных на доказательствах от различных источников включая неструктурированные тексты полуструктурированные тексты и RDF хранилища Эти оценки используют такие данные как degree of match between a passagersquos predicate-argument structure and the question passage source reliability geospatial location temporal relationships taxonomic classification the lexical and semantic relations the candidate is known to participate in the candidatersquos correlation with question terms its popularity (or obscurity) its aliases and so on

Вопрос Чили имеет самую длинную общую границу со страной Сгенерировано несколько кандидатов среди них Аргентина и Боливия Первичный поиск даст приоритет Боливии из=а популярности обсуждений их отношений Однако собранные Watson доказательства из других источников показывают более высокую оценку для Аргентины

Скоринг (взвешивание) доказательств ndash предиктивная аналитика

- При делении клеток митозом называется деление ядра а цитокинезом ndash деление этой жидкости в которой находится ядро

Генерирование кандидатов Сбор доказательств Уверенность в доказательстве

ОрганеллыВакуольЦитоплазмаПлазмамитохондрии

Органеллы ndash не жидкостьВакуоль ndash не жидкостьЦитоплазма ndash возможно жидкостьПлазма ndash не жидкостьМитохондрии ndash не жидкость

Цитоплазма ndash 92Органеллы ndash 19Вакуоль ndash 10Плазма ndash 2Митохондрии ndash 2

Answer Merging ndash объединение ответов

Многие кандидаты в ответы на поставленный вопрос могут быть эквивалентны несмотря на различные внешне формыТехники ранжирования тем не менее рассматривают таких кандидатов как различные Без объединения алгоритмы ранжирования будут работать отдельно с эквивалентными сущностями и пытаться противопоставить одну форму другой Это приведет к проблемам принятия решений Watson содержит алгоритмы идентификации эквивалентных сущностей используя множественные сравнения нормализацию и методы разрешения совместных ссылок

Ranking and Confidence Estimation ndash ранжирование и оценивание доверияПосле объединения система должна произвести ранжирование гипотез и оценивает доверие основанное на объединенных оценках В системе подобран ML подход основанный на обучении на обучающем наборе вопросов с известными ответами и обучение модели основываясь на скоринге Применяется как весьма плоская модель и существующие алгоритмы ранжирования Для более тонких оценок применяется двухфазный процесс использующий группы оценок для оценивания профиля и для оценки доверия Используя эту промежуточную модель система производит ансамбль промежуточных оценок Здесь используется иерархическая техника метаучителя и коллектива экспертов Этот подход обеспечивает итеративное расширение обучения используя изощренные и глубокие иерархические модели обеспечивающие гибкость и робастность при выработке оценок и модифицирует системуМетаучитель в Watson использует набор многие обучаемые модели чтобы управлять различными классами вопросов которые могут быть критическими при идентификации правильных ответовНаконец важно что использование NLP-based скоринга дает весьма разреженные оценки и требует точного оценивания с применением confidence-weighted learning techniques

Развертывание Watson

bull DeepQA разработан используя Apache UIMA - framework implementation of the Unstructured Information Management Architecture (Ferrucci and Lally 2004) UIMA был разработан для поддержки взаимодействия и масштабирования приложений обработки текста и мультимодального анализа Все компоненты DeepQA имплементированы как UIMA annotators Это программные компоненты для анализа текста и получения аннотаций или заключений о тексте Watson развивался в процессе разработки от нескольких компонент до нескольких сотен UIMA обеспечивает быструю интеграцию компонент тестирование и исследование

bull Начальная имплементация Watson запускалась на одном процессоре и требовала 2 часа на ответ на один вопрос DeepQA развился в параллельную систему используя UIMA-AS часть Apache UIMA масштабируя приложения UIMA используя асинхронный механизм месседжинга UIMA-AS позволила масштабировать Watson более чем на 2500 вычислительных ядер UIMA-AS управляет коммуникациями месседжингом управлением запросами используя open JMS standard UIMA-AS позволил снизить латентность Watson до 3ndash5 секунд

bull Для препроцессинга корпуса текстов создания быстрых run-time indices использован Hadoop

UIMA annotators были развернуты как mapper ы в Hadoop map-reduce framework Hadoop распределяет контент по кластеру для обеспечения высокого использования CPU и обеспечивает подходящий набор инструментов для deploying managing and monitoring the corpus analysis process

bull Аппаратная платформа ndash это 90 серверов 2800 ядер 15 ТБ RAM 80 Тфлопс $3 000 000 10 R

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 33: !Predictive analytics part_3

Имплементация в R - Package lsquolsarsquoalnumx - Regular expression for removal of non-alphanumeric characters (saving special characters)

astextmatrix - Display a latent semantic space generated by Latent Semantic Analysis (LSA)

associate - Find close terms in a textmatrix

corpora - Corpora (Essay Scoring) dimcalc Dimensionality Calculation Routines (LSA)

dimcalc - Dimensionality Calculation Routines (LSA)

lsa - Create a vector space with Latent Semantic Analysis (LSA)

printtextmatrix - Print a textmatrix (Matrices)

sampletextmatrix - Create a random sample of files

textmatrix - Создает Textmatrix (Matrices) из файлов

Пример 1

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) read files into a document-term matrixmyMatrix = textmatrix(td minWordLength=1) create the latent semantic spacemyLSAspace = lsa(myMatrix dims=dimcalc_raw()) display it as a textmatrix againround(astextmatrix(myLSAspace)2) should give the original create the latent semantic spacemyLSAspace = lsa(myMatrix dims=dimcalc_share())

Пример 2

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) create matricesmyMatrix = textmatrix(td minWordLength=1)myLSAspace = lsa(myMatrix dims=dimcalc_share())myNewMatrix = astextmatrix(myLSAspace) calc associations for mouseassociate(myNewMatrix mouse) clean upunlink(td recursive=TRUE)

Пример 3 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(ham mouse sushi) file=paste(td D2 sep=) )write( c(dog pet pet) file=paste(td D3 sep=) ) LSAdata(stopwords_en)myMatrix = textmatrix(td stopwords=stopwords_en)myMatrix = lw_logtf(myMatrix) gw_idf(myMatrix)myLSAspace = lsa(myMatrix dims=dimcalc_share())astextmatrix(myLSAspace) clean upunlink(td recursive=TRUE)

Пример 4 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(hamster mouse sushi) file=paste(td D2 sep=) )write( c(dog monster monster) file=paste(td D3 sep=) ) read them create a document-term matrixtextmatrix(td) read them drop german stopwordsdata(stopwords_de)textmatrix(td stopwords=stopwords_de) read them based on a controlled vocabularyvoc = c(dog mouse)textmatrix(td vocabulary=voc minWordLength=1) clean up

Вместо заключения Очевидным недостатком LSA является ненормальность (негаусовость) вероятностного распределения слов в любом естественном языке Но эту проблему можно решить сглаживанием выборки (например применив фонетические слова распределение становится более laquoнормальнымraquo) Либо используют вероятностный LSA тназ PLSA основанный на мультиноминальном распределении Другим менее очевидным недостаткам LSA (и ему подобных методов) применительно к обработке неструктурированной информации можно отнести laquoтуманностьraquo самого метода (в частности выбора кол-ва сингулярных значений диагональной матрицы) и интерпретации результата не говоря уже о проблеме сбалансированности обучающего текста

Как правило для качественного построения модели оставляют менее 1-2 процента от общего числа диагональных значений (после SVD преобразования но об это в следующем посте) И как показывает практика увеличение числа факторов приводит к ухудшению результата Но дойдя примерно до 10 процентов от общего числа диагональных значений опять может быть всплеск аналогичный результату полученному при 1

Сбалансированность корпуса ndash вечная проблема которая не имеет хорошего решения на сегодняшний день Поэтому про нее приято помалкивать

Интерпретируемость результатов LSA (как и DLA) также затруднительна человек еще может понять что за тематику будет содержать топик полученный в результате анализа а вот машине не понять (не аннотировать) тематику без привлечения большого числа хороших и разных тезаурусов

Таким образом несмотря на трудоемкость и непрозрачность LSA он может успешно применяться для разного рада задач где важно поймать семантику сообщения обобщить или расширить laquoсмыслыraquo поискового запроса

bull Стандарт основанный на XML для обмена моделями статистической обработки Data Mining

bull Поддерживается более 20 организациями и поставщиками ПО

bull Реализован в частности и в R

Поддерживаемые предиктивные алгоритмы в R

Состав pmml package

bull addLT

bull addMSAttributes

bull audit

bull fileToXMLNode

bull pmml

bull pmmlada

bull pmmlcoxph

bull pmmlcvglmnet

bull pmmlglm

bull pmmlhclust

bull pmmlkmeans

bull pmmlksvm

bull pmmllm bull pmmlmultinom bull pmmlnaiveBayes bull pmmlnnet bull pmmlrandomForest bull pmmlrfsrc bull pmmlrpart bull pmmlrules bull pmmlsvm bull pmmlCanExport bull pmmltoc

Пример

Good by R see you later alligator

WATSON ndash одно из наиболее впечатляющих применений предиктивной аналитики

Разрабатывался компанией IBM с 2006 по 2010 годПрославился победой в телешоу Jeopardy (в России ndash laquoСвоя играraquo) в 2011 годуПредшественник Deep Blue обыграл чемпиона мира по шахматам Гарри Каспарова в 1997 г

>

IBM Deep QA Project

bull Целью проекта было создать компьютерную систему (ИИ) для ответа на вопросы (QA) задаваемые в свободной форме в телешоу и показать результаты соизмеримые с человеческими

bull Задача более сложная чем шахматная программа Deep Blue выигравшая у Каспарова в 1997 г

bull Вопросы по категориямCategory General ScienceClue When hit by electrons a phosphor gives off electromagnetic energy in this formAnswer Light (or Photons)

Category Lincoln BlogsClue Secretary Chase just submitted this to me for the third time guess what pal This time Irsquom accepting itAnswer his resignation

Category Head NorthClue Theyrsquore the two states you could be reentering if yoursquore crossing Floridarsquos northern borderAnswer Georgia and Alabama

Вопросы могут касаться сразу нескольких фактов чтобы ответ был вернымCategory ldquoRaprdquo SheetClue This archaic term for a mischievous or annoying child can also mean a rogue or scampSubclue 1 This archaic term for a mischievous or annoying childSubclue 2 This term can also mean a rogue or scampAnswer Rapscallion

Category Diplomatic RelationsClue Of the four countries in the world that the United States does not have diplomatic relations with the one thatrsquos farthest northInner subclue The four countries in the world that the United States does not have diplomatic relations with (Bhutan Cuba Iran North Korea)Outer subclue Of Bhutan Cuba Iran and North Korea the one thatrsquos farthest northAnswer North Korea

Вопросы - пазлы

Category Before and After Goes to the MoviesClue Film of a typical day in the life of the Beatles which includes running from bloodthirsty zombie fans in a Romero classicSubclue 2 Film of a typical day in the life of the Beatles Answer 1 (A Hard Dayrsquos Night)Subclue 2 Running from bloodthirsty zombie fans in a Romero classicAnswer 2 (Night of the Living Dead)Answer A Hard Dayrsquos Night of the Living Dead

Category Rhyme TimeClue Itrsquos where Pele stores his ballSubclue 1 Pele ball (soccer)Subclue 2 where store (cabinet drawer locker and so on)Answer soccer locker

Недопустимые типы вопросов

oCategory Picture This(Contestants are shown a picture of a B-52 bomber)Clue Alphanumeric name of the fearsome machine seen hereAnswer B-52

oCategory Decode the Postal CodesVerbal instruction from host Wersquore going to give you a word comprising two postal abbreviations you have to identify the statesClue VainAnswer Virginia and Indiana

Лексические типы ответа ndash LAT (Lexical Answer Type)

Метрики качества ответов - результативность

Показатели двух теоретических QA систем

Показатели результативности чемпионов шоу (2000)

Облако победителей

Линия сравнения результативности (baseline performance)

Сравнение системы тестового поиска и поиска в базе знаний

Результативность Watson (по версиям)

Основы подхода Deep QA

bull Massive parallelism использование высокого параллелизма при рассмотрении множественных интерпретаций и гипотез

bull Many experts привлечение интеграции приложения и контекстуального оценивания в широком диапазоне слабосвязанных вероятностных вопросов и контентной аналитики

bull Pervasive confidence estimation повсеместная оценка доверия означает что ни один из компонентов не включается в ответ сразу все компоненты имеют признаки и связанные с ними уровни доверия производится скоринг различных вопросов и контентная интерпретация Основа confidence-processing состоит в обучении как стэкировать и комбинировать баллы

bull Integrate shallow and deep knowledge интеграция поверхностных и глубинных знаний состоит в балансе использования строгой семантики и мелких семантик использующих множества слабо сформированных онтологий

bull Content Acquisition - Сбор контентаСочетает ручные и автоматические этапы Первым шагом является анализ примеров вопросов проблемного пространства чтобы произвести описание видов вопросов на которые нужно ответить и характеризовать область применения Анализ примеров вопросов в первую очередь ручная задача в то время как анализ области может быть выполнен путем автоматических или статистических методов таких как анализ LAT показанный ранее Учитывая вопросы для широкого домена Jeopardy Challenge источники для Watson включают широкий ассортимент энциклопедий словарей тезаурусов Newswire статьи литературные произведения и тд Начиная с разумного размера базового корпуса DeepQA затем применяет автоматический процесс расширения корпуса Процесс включает в себя четыре этапа высокого уровня (1) выявления основных документов и получить соответствующие документы из Интернет (2) извлечь автономные текстовые ядра из связанных веб-документов (3) Оценка на основе ядер являются ли они информативны по отношению к исходному основному документу и (4) объединить наиболее информативные ядра в расширенном корпусе Работающая система использует этот расширенный корпус и не имеет доступа к Интернет во время игры

bull Question Analysis ndash Анализ вопроса

Первый шаг во время выполнения процесса вопрос-ответной системы При анализе вопроса система пытается понять что вопрос задан и выполняет начальный анализ определяющий как вопрос будет обработан на остальных этапах работы системы Подход DeepQA использует смешанный набор экспертов на данном этапе и в системе Watson производится мелкий парсинг глубокий парсинг строятся логические формы семантические этикетки ролей взаимные ссылки отношения именованные сущности и так далее а также конкретные виды анализа для ответа вопрос

bull Question classification - Классификация вопроса

Это задача выявления типа вопроса или частей вопроса которые требуют специальной обработки Это может включать в себя что-нибудь из отдельных слов с двойным смыслом и потенциально до выявления целых статей которые имеют определенную синтаксическую семантическую или риторические функциональные возможности которые могут инициировать нисходящий анализ Классификация может определить вопрос как вопрос- головоломку вопрос-математику -определение и так далее Это будет определять каламбуры ограничения компоненты определений или целые подвопросы в пределах вопросов

bull Focus and LAT Detection ndash Определение фокуса и лексического типа ответа

Лексический тип ответа - это слово или словосочетание в вопросе который определяет тип ответа без попытки понять семантику Определение LAT является важным видом выигрыша и общим источником критических ошибок Преимущество подхода DeepQA является использование многих самостоятельно разработанных алгоритмов laquoответ-типированияraquo Например фокус вопроса викторины laquoПри попадании электронов люминофор излучает электромагнитную энергию в этой формеraquo - является laquoэта формаraquo Фокус часто (но не всегда) содержит полезную информацию об ответе часто субъект или объект отношение в вопросе и может превратить вопрос в фактическое утверждение при замене возможным кандидатом Это представляет полезный способ собирать доказательства о каждом кандидате

bull Relation Detection ndash детектирование отношений

Большинство вопросов содержит отношения являются ли они синтаксическими предикатами субъект-глагол-объект или семантические отношения между субъектами Например в вопросе laquoЕсть два штата в которые вы могли бы войти повторно если вы пересекаете северную границу штата Флоридаraquo мы можем обнаружить отношение границы (Флорида Х к северу) Watson использует обнаружение отношения на протяжении всего процесса QA от фокуса и LAT определения до прохождению и скорингу ответов Watson также может использовать обнаруженные отношения для выделения хранилища триплетов и напрямую генерировать кандидатов в ответы В 20000 игр Jeopardy вопросы например обнаружили распределение Freebase отношений чрезвычайно плоского вида (см рисунок) Это приближение распределеня 50 наиболее частых отношений в 20 000 случайно выбранных вопросах викторины

bull Decomposition ndash декомпозиция

Важным требованием успеха анализа Jeopardy является способность отвечать на вопросы которые разложены на составляющие DeepQA использует основанный на правилах глубокий парсинг и статистические методы классификации чтобы наилучшим образом разложить вопросы на элементы и определить как лучше разбить их на подвопросы Операционная гипотеза что правильная интерпретация вопроса позволит лучше произвести скоринг ответов после того как все доказательства собраны Даже если вопрос не должен быть разложен для определения ответа этот метод может помочь улучшить общее доверие ответу системы DeepQA решает задачи параллельно для каждого разложения применяя алгоритмы от начала до конца каждого подвопроса и синтезирует окончательные ответы DeepQA также поддерживает вложенные декомпозиции вопросов через рекурсивное применение QA системы от начала до конца в внутреннем подвопросе а затем во внешнем Настраиваемые компоненты позволяют легко подключать специализированные алгоритмы синтеза в общую систему

bull Hypothesis Generation ndash генерация гипотез

Генерация гипотез принимает результаты анализа вопросов и производит кандидатов на ответы Каждый кандидат ответ включается обратно в вопрос и это считается как гипотеза Система должна доказать правильность этой гипотезы с некоторой степенью уверенности Как и во всех аспектах DeepQA используется смесь разных подходов для первичного поиска и генерации кандидата в системе Watson

bull Primary Search ndash первичный поиск

В этом поиске целью является найти столько потенциально кандидатов сколько это можно сделать на основе результатов анализа вопроса В течение проекта велись эмпирические исследования направленные на баланс скорости объема и точности Эти исследования позволили регулярно настраивать систему так чтобы найти такое количество кандидатов которые производят наилучший баланс точности и вычислительных ресурсов Оперативная цель основного поиска в конечном счете стабилизировалась на около 85 процентов для топ-250 кандидатов то есть система генерирует правильный ответ как кандидата ответа на 85 процентов вопросов где-то в верхних 250 ранжированных кандидатов Разнообразие методов поиска используются в том числе с использованием нескольких текст поисковых системах с различными базовыми подходами (например Indri и Lucene) поиск документов а также поиска маршрута база знаний поиска с помощью SPARQL хранилища триплетов Для небольшого количества латов которые были определены как закрытые латы кандидат на ответ может быть получен из фиксированного списка в каком-то хранилище известных экземпляров LAT таких как США Президент или Страна

Поиск доказательств

bull Поиск по фразе ndash число соответствий разного типав ответе и вопросеbull Популярность ndash как часто встречается этот вариант ответаbull Соответствие по типу ndash ответ и требование вопросаbull Соответствие по времениbull Надежность источника

bull Candidate Answer Generation ndash генерирование кандидатов на ответ

Результаты поиска применяются для генерирования возможных кандидатов в ответы с помощью различных подходящих техник Для поиска документов извлекаются заголовки и используются как кандидаты Число кандидатов при этом может быть не единственным и требовать использования анализа подстрок и ссылок Используя детектирование именованных сущностей в ряде случаев удается извлечь хороших кандидатов В зависимости от типа источника для генерирования кандидата требуется разный набор алгоритмов например база знаний или обратный словарь порождают кандидатов непосредственно как кандидата Этот этап критически важен и если кандидаты не найдены то фиксируется невозможность ответа В нормальном режиме на этом этапе Watson гененерирует несколько сотен андидатов

bull Soft Filtering ndash мягкая фильтрацияДля ускорения процесса скоринга кандидатов Watson использует различные алгоритмы разной точности Более легковесные (менее вычислительно интенсивные) применяются на первом этапе скоринга На этом этапе устанавливается порог оценки и кандидаты имеющие более высокую оценку считаются прошедшими мягкую фильтрацию Они поступают на выработку гипотез и скоринг доказательств Интересно что кандидаты не прошедшие порог мягкой фильтрации не забываются а направляются прямо на финальный этап слияния Модель скоринга мягкой фильтрации и порога определяются на основе machine learning используя обучающие данные Watson типично пропускает через мягкую фильтрацию 100 кандидатов но эта функция параметризована и их число можно изменить

Проблемы NLP

bull В мае 1898 года Португалия отмечала 400-летний юбилей со дня прибытия этого великого путешественника в Индию

В мае Гари прибыл в Индию после празднования своего юбилея в Португалии

21 мая 1498 года Васка де Гама высадился в местечке Каппад

bull Он был помилован президентом 8 сентября 1974 годаФорд помиловал Никсона 8 сентября 1974 года Никсон Форд

bull Говоря ldquogive a trinklerdquo что предлагают вам сделать британцы по приезду в город

bull Hypothesis and Evidence Scoring ndash скоринг гипотез и доказательств

Прошедшие порог мягкой фильтрации кандидаты поступают на скрупулезный процесс который включает сбор дополнительных поддерживающих доказательств для каждого кандидата на ответ или гипотезу Процесс использует широкий набор различных методов скоринговой аналитики чтобы исследовать все поддерживающие доказательства

bull Evidence Retrieval ndash извлечение доказательств

Чтобы лучше исследовать каждого кандидата прошедшего через мягкую фильтрацию система собирает дополнительные поддерживающие доказательства Архитектура поддерживает интеграцию различных evidence-gathering техник Один из применяемых способов состоит в том что проводится дополнительный поиск в котором кандидат добавляется в качестве required term к первичному запросу извлеченному из вопроса Это будет приводить к получению выражений содержащих кандидата в контексте первичных терминов вопросаПоддерживающие доказательства могут быть извлечены и из других источников например из RDF баз знаний Извлеченные поддерживающие доказательства направляются модули глубокого скоринга которые анализируют кандидата в контексте поддерживающего доказательства

bull Scoring ndash скоринг (количественное оценивание)

Алгоритмы скоринга определяют степень несомненности которую обеспечивают доказательства в поддержку кандидата The DeepQA framework поддерживает множество компонент для выработки оценки в различных измерениях каждого доказательства которая вырабатывает оценку связанную с тем насколько хорошо доказательство поддерживает кандидата на ответ в качестве ответа на заданный вопросDeepQA использует общий формат для оценок для принятых гипотез и подтверждающих оценок отражающих семантические и ограничивающие факторы Это позволяет разработчикам DeepQA быстро разворачивать перемешивать и настраивать сложные совокупности модуле для обработкиНапрмер Watson использует больше чем 50 скоринговых компонент Они производят оценки разноготипа от оценок вероятностей до подсчета категориальных свойств основанных на доказательствах от различных источников включая неструктурированные тексты полуструктурированные тексты и RDF хранилища Эти оценки используют такие данные как degree of match between a passagersquos predicate-argument structure and the question passage source reliability geospatial location temporal relationships taxonomic classification the lexical and semantic relations the candidate is known to participate in the candidatersquos correlation with question terms its popularity (or obscurity) its aliases and so on

Вопрос Чили имеет самую длинную общую границу со страной Сгенерировано несколько кандидатов среди них Аргентина и Боливия Первичный поиск даст приоритет Боливии из=а популярности обсуждений их отношений Однако собранные Watson доказательства из других источников показывают более высокую оценку для Аргентины

Скоринг (взвешивание) доказательств ndash предиктивная аналитика

- При делении клеток митозом называется деление ядра а цитокинезом ndash деление этой жидкости в которой находится ядро

Генерирование кандидатов Сбор доказательств Уверенность в доказательстве

ОрганеллыВакуольЦитоплазмаПлазмамитохондрии

Органеллы ndash не жидкостьВакуоль ndash не жидкостьЦитоплазма ndash возможно жидкостьПлазма ndash не жидкостьМитохондрии ndash не жидкость

Цитоплазма ndash 92Органеллы ndash 19Вакуоль ndash 10Плазма ndash 2Митохондрии ndash 2

Answer Merging ndash объединение ответов

Многие кандидаты в ответы на поставленный вопрос могут быть эквивалентны несмотря на различные внешне формыТехники ранжирования тем не менее рассматривают таких кандидатов как различные Без объединения алгоритмы ранжирования будут работать отдельно с эквивалентными сущностями и пытаться противопоставить одну форму другой Это приведет к проблемам принятия решений Watson содержит алгоритмы идентификации эквивалентных сущностей используя множественные сравнения нормализацию и методы разрешения совместных ссылок

Ranking and Confidence Estimation ndash ранжирование и оценивание доверияПосле объединения система должна произвести ранжирование гипотез и оценивает доверие основанное на объединенных оценках В системе подобран ML подход основанный на обучении на обучающем наборе вопросов с известными ответами и обучение модели основываясь на скоринге Применяется как весьма плоская модель и существующие алгоритмы ранжирования Для более тонких оценок применяется двухфазный процесс использующий группы оценок для оценивания профиля и для оценки доверия Используя эту промежуточную модель система производит ансамбль промежуточных оценок Здесь используется иерархическая техника метаучителя и коллектива экспертов Этот подход обеспечивает итеративное расширение обучения используя изощренные и глубокие иерархические модели обеспечивающие гибкость и робастность при выработке оценок и модифицирует системуМетаучитель в Watson использует набор многие обучаемые модели чтобы управлять различными классами вопросов которые могут быть критическими при идентификации правильных ответовНаконец важно что использование NLP-based скоринга дает весьма разреженные оценки и требует точного оценивания с применением confidence-weighted learning techniques

Развертывание Watson

bull DeepQA разработан используя Apache UIMA - framework implementation of the Unstructured Information Management Architecture (Ferrucci and Lally 2004) UIMA был разработан для поддержки взаимодействия и масштабирования приложений обработки текста и мультимодального анализа Все компоненты DeepQA имплементированы как UIMA annotators Это программные компоненты для анализа текста и получения аннотаций или заключений о тексте Watson развивался в процессе разработки от нескольких компонент до нескольких сотен UIMA обеспечивает быструю интеграцию компонент тестирование и исследование

bull Начальная имплементация Watson запускалась на одном процессоре и требовала 2 часа на ответ на один вопрос DeepQA развился в параллельную систему используя UIMA-AS часть Apache UIMA масштабируя приложения UIMA используя асинхронный механизм месседжинга UIMA-AS позволила масштабировать Watson более чем на 2500 вычислительных ядер UIMA-AS управляет коммуникациями месседжингом управлением запросами используя open JMS standard UIMA-AS позволил снизить латентность Watson до 3ndash5 секунд

bull Для препроцессинга корпуса текстов создания быстрых run-time indices использован Hadoop

UIMA annotators были развернуты как mapper ы в Hadoop map-reduce framework Hadoop распределяет контент по кластеру для обеспечения высокого использования CPU и обеспечивает подходящий набор инструментов для deploying managing and monitoring the corpus analysis process

bull Аппаратная платформа ndash это 90 серверов 2800 ядер 15 ТБ RAM 80 Тфлопс $3 000 000 10 R

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 34: !Predictive analytics part_3

Пример 1

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) read files into a document-term matrixmyMatrix = textmatrix(td minWordLength=1) create the latent semantic spacemyLSAspace = lsa(myMatrix dims=dimcalc_raw()) display it as a textmatrix againround(astextmatrix(myLSAspace)2) should give the original create the latent semantic spacemyLSAspace = lsa(myMatrix dims=dimcalc_share())

Пример 2

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) create matricesmyMatrix = textmatrix(td minWordLength=1)myLSAspace = lsa(myMatrix dims=dimcalc_share())myNewMatrix = astextmatrix(myLSAspace) calc associations for mouseassociate(myNewMatrix mouse) clean upunlink(td recursive=TRUE)

Пример 3 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(ham mouse sushi) file=paste(td D2 sep=) )write( c(dog pet pet) file=paste(td D3 sep=) ) LSAdata(stopwords_en)myMatrix = textmatrix(td stopwords=stopwords_en)myMatrix = lw_logtf(myMatrix) gw_idf(myMatrix)myLSAspace = lsa(myMatrix dims=dimcalc_share())astextmatrix(myLSAspace) clean upunlink(td recursive=TRUE)

Пример 4 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(hamster mouse sushi) file=paste(td D2 sep=) )write( c(dog monster monster) file=paste(td D3 sep=) ) read them create a document-term matrixtextmatrix(td) read them drop german stopwordsdata(stopwords_de)textmatrix(td stopwords=stopwords_de) read them based on a controlled vocabularyvoc = c(dog mouse)textmatrix(td vocabulary=voc minWordLength=1) clean up

Вместо заключения Очевидным недостатком LSA является ненормальность (негаусовость) вероятностного распределения слов в любом естественном языке Но эту проблему можно решить сглаживанием выборки (например применив фонетические слова распределение становится более laquoнормальнымraquo) Либо используют вероятностный LSA тназ PLSA основанный на мультиноминальном распределении Другим менее очевидным недостаткам LSA (и ему подобных методов) применительно к обработке неструктурированной информации можно отнести laquoтуманностьraquo самого метода (в частности выбора кол-ва сингулярных значений диагональной матрицы) и интерпретации результата не говоря уже о проблеме сбалансированности обучающего текста

Как правило для качественного построения модели оставляют менее 1-2 процента от общего числа диагональных значений (после SVD преобразования но об это в следующем посте) И как показывает практика увеличение числа факторов приводит к ухудшению результата Но дойдя примерно до 10 процентов от общего числа диагональных значений опять может быть всплеск аналогичный результату полученному при 1

Сбалансированность корпуса ndash вечная проблема которая не имеет хорошего решения на сегодняшний день Поэтому про нее приято помалкивать

Интерпретируемость результатов LSA (как и DLA) также затруднительна человек еще может понять что за тематику будет содержать топик полученный в результате анализа а вот машине не понять (не аннотировать) тематику без привлечения большого числа хороших и разных тезаурусов

Таким образом несмотря на трудоемкость и непрозрачность LSA он может успешно применяться для разного рада задач где важно поймать семантику сообщения обобщить или расширить laquoсмыслыraquo поискового запроса

bull Стандарт основанный на XML для обмена моделями статистической обработки Data Mining

bull Поддерживается более 20 организациями и поставщиками ПО

bull Реализован в частности и в R

Поддерживаемые предиктивные алгоритмы в R

Состав pmml package

bull addLT

bull addMSAttributes

bull audit

bull fileToXMLNode

bull pmml

bull pmmlada

bull pmmlcoxph

bull pmmlcvglmnet

bull pmmlglm

bull pmmlhclust

bull pmmlkmeans

bull pmmlksvm

bull pmmllm bull pmmlmultinom bull pmmlnaiveBayes bull pmmlnnet bull pmmlrandomForest bull pmmlrfsrc bull pmmlrpart bull pmmlrules bull pmmlsvm bull pmmlCanExport bull pmmltoc

Пример

Good by R see you later alligator

WATSON ndash одно из наиболее впечатляющих применений предиктивной аналитики

Разрабатывался компанией IBM с 2006 по 2010 годПрославился победой в телешоу Jeopardy (в России ndash laquoСвоя играraquo) в 2011 годуПредшественник Deep Blue обыграл чемпиона мира по шахматам Гарри Каспарова в 1997 г

>

IBM Deep QA Project

bull Целью проекта было создать компьютерную систему (ИИ) для ответа на вопросы (QA) задаваемые в свободной форме в телешоу и показать результаты соизмеримые с человеческими

bull Задача более сложная чем шахматная программа Deep Blue выигравшая у Каспарова в 1997 г

bull Вопросы по категориямCategory General ScienceClue When hit by electrons a phosphor gives off electromagnetic energy in this formAnswer Light (or Photons)

Category Lincoln BlogsClue Secretary Chase just submitted this to me for the third time guess what pal This time Irsquom accepting itAnswer his resignation

Category Head NorthClue Theyrsquore the two states you could be reentering if yoursquore crossing Floridarsquos northern borderAnswer Georgia and Alabama

Вопросы могут касаться сразу нескольких фактов чтобы ответ был вернымCategory ldquoRaprdquo SheetClue This archaic term for a mischievous or annoying child can also mean a rogue or scampSubclue 1 This archaic term for a mischievous or annoying childSubclue 2 This term can also mean a rogue or scampAnswer Rapscallion

Category Diplomatic RelationsClue Of the four countries in the world that the United States does not have diplomatic relations with the one thatrsquos farthest northInner subclue The four countries in the world that the United States does not have diplomatic relations with (Bhutan Cuba Iran North Korea)Outer subclue Of Bhutan Cuba Iran and North Korea the one thatrsquos farthest northAnswer North Korea

Вопросы - пазлы

Category Before and After Goes to the MoviesClue Film of a typical day in the life of the Beatles which includes running from bloodthirsty zombie fans in a Romero classicSubclue 2 Film of a typical day in the life of the Beatles Answer 1 (A Hard Dayrsquos Night)Subclue 2 Running from bloodthirsty zombie fans in a Romero classicAnswer 2 (Night of the Living Dead)Answer A Hard Dayrsquos Night of the Living Dead

Category Rhyme TimeClue Itrsquos where Pele stores his ballSubclue 1 Pele ball (soccer)Subclue 2 where store (cabinet drawer locker and so on)Answer soccer locker

Недопустимые типы вопросов

oCategory Picture This(Contestants are shown a picture of a B-52 bomber)Clue Alphanumeric name of the fearsome machine seen hereAnswer B-52

oCategory Decode the Postal CodesVerbal instruction from host Wersquore going to give you a word comprising two postal abbreviations you have to identify the statesClue VainAnswer Virginia and Indiana

Лексические типы ответа ndash LAT (Lexical Answer Type)

Метрики качества ответов - результативность

Показатели двух теоретических QA систем

Показатели результативности чемпионов шоу (2000)

Облако победителей

Линия сравнения результативности (baseline performance)

Сравнение системы тестового поиска и поиска в базе знаний

Результативность Watson (по версиям)

Основы подхода Deep QA

bull Massive parallelism использование высокого параллелизма при рассмотрении множественных интерпретаций и гипотез

bull Many experts привлечение интеграции приложения и контекстуального оценивания в широком диапазоне слабосвязанных вероятностных вопросов и контентной аналитики

bull Pervasive confidence estimation повсеместная оценка доверия означает что ни один из компонентов не включается в ответ сразу все компоненты имеют признаки и связанные с ними уровни доверия производится скоринг различных вопросов и контентная интерпретация Основа confidence-processing состоит в обучении как стэкировать и комбинировать баллы

bull Integrate shallow and deep knowledge интеграция поверхностных и глубинных знаний состоит в балансе использования строгой семантики и мелких семантик использующих множества слабо сформированных онтологий

bull Content Acquisition - Сбор контентаСочетает ручные и автоматические этапы Первым шагом является анализ примеров вопросов проблемного пространства чтобы произвести описание видов вопросов на которые нужно ответить и характеризовать область применения Анализ примеров вопросов в первую очередь ручная задача в то время как анализ области может быть выполнен путем автоматических или статистических методов таких как анализ LAT показанный ранее Учитывая вопросы для широкого домена Jeopardy Challenge источники для Watson включают широкий ассортимент энциклопедий словарей тезаурусов Newswire статьи литературные произведения и тд Начиная с разумного размера базового корпуса DeepQA затем применяет автоматический процесс расширения корпуса Процесс включает в себя четыре этапа высокого уровня (1) выявления основных документов и получить соответствующие документы из Интернет (2) извлечь автономные текстовые ядра из связанных веб-документов (3) Оценка на основе ядер являются ли они информативны по отношению к исходному основному документу и (4) объединить наиболее информативные ядра в расширенном корпусе Работающая система использует этот расширенный корпус и не имеет доступа к Интернет во время игры

bull Question Analysis ndash Анализ вопроса

Первый шаг во время выполнения процесса вопрос-ответной системы При анализе вопроса система пытается понять что вопрос задан и выполняет начальный анализ определяющий как вопрос будет обработан на остальных этапах работы системы Подход DeepQA использует смешанный набор экспертов на данном этапе и в системе Watson производится мелкий парсинг глубокий парсинг строятся логические формы семантические этикетки ролей взаимные ссылки отношения именованные сущности и так далее а также конкретные виды анализа для ответа вопрос

bull Question classification - Классификация вопроса

Это задача выявления типа вопроса или частей вопроса которые требуют специальной обработки Это может включать в себя что-нибудь из отдельных слов с двойным смыслом и потенциально до выявления целых статей которые имеют определенную синтаксическую семантическую или риторические функциональные возможности которые могут инициировать нисходящий анализ Классификация может определить вопрос как вопрос- головоломку вопрос-математику -определение и так далее Это будет определять каламбуры ограничения компоненты определений или целые подвопросы в пределах вопросов

bull Focus and LAT Detection ndash Определение фокуса и лексического типа ответа

Лексический тип ответа - это слово или словосочетание в вопросе который определяет тип ответа без попытки понять семантику Определение LAT является важным видом выигрыша и общим источником критических ошибок Преимущество подхода DeepQA является использование многих самостоятельно разработанных алгоритмов laquoответ-типированияraquo Например фокус вопроса викторины laquoПри попадании электронов люминофор излучает электромагнитную энергию в этой формеraquo - является laquoэта формаraquo Фокус часто (но не всегда) содержит полезную информацию об ответе часто субъект или объект отношение в вопросе и может превратить вопрос в фактическое утверждение при замене возможным кандидатом Это представляет полезный способ собирать доказательства о каждом кандидате

bull Relation Detection ndash детектирование отношений

Большинство вопросов содержит отношения являются ли они синтаксическими предикатами субъект-глагол-объект или семантические отношения между субъектами Например в вопросе laquoЕсть два штата в которые вы могли бы войти повторно если вы пересекаете северную границу штата Флоридаraquo мы можем обнаружить отношение границы (Флорида Х к северу) Watson использует обнаружение отношения на протяжении всего процесса QA от фокуса и LAT определения до прохождению и скорингу ответов Watson также может использовать обнаруженные отношения для выделения хранилища триплетов и напрямую генерировать кандидатов в ответы В 20000 игр Jeopardy вопросы например обнаружили распределение Freebase отношений чрезвычайно плоского вида (см рисунок) Это приближение распределеня 50 наиболее частых отношений в 20 000 случайно выбранных вопросах викторины

bull Decomposition ndash декомпозиция

Важным требованием успеха анализа Jeopardy является способность отвечать на вопросы которые разложены на составляющие DeepQA использует основанный на правилах глубокий парсинг и статистические методы классификации чтобы наилучшим образом разложить вопросы на элементы и определить как лучше разбить их на подвопросы Операционная гипотеза что правильная интерпретация вопроса позволит лучше произвести скоринг ответов после того как все доказательства собраны Даже если вопрос не должен быть разложен для определения ответа этот метод может помочь улучшить общее доверие ответу системы DeepQA решает задачи параллельно для каждого разложения применяя алгоритмы от начала до конца каждого подвопроса и синтезирует окончательные ответы DeepQA также поддерживает вложенные декомпозиции вопросов через рекурсивное применение QA системы от начала до конца в внутреннем подвопросе а затем во внешнем Настраиваемые компоненты позволяют легко подключать специализированные алгоритмы синтеза в общую систему

bull Hypothesis Generation ndash генерация гипотез

Генерация гипотез принимает результаты анализа вопросов и производит кандидатов на ответы Каждый кандидат ответ включается обратно в вопрос и это считается как гипотеза Система должна доказать правильность этой гипотезы с некоторой степенью уверенности Как и во всех аспектах DeepQA используется смесь разных подходов для первичного поиска и генерации кандидата в системе Watson

bull Primary Search ndash первичный поиск

В этом поиске целью является найти столько потенциально кандидатов сколько это можно сделать на основе результатов анализа вопроса В течение проекта велись эмпирические исследования направленные на баланс скорости объема и точности Эти исследования позволили регулярно настраивать систему так чтобы найти такое количество кандидатов которые производят наилучший баланс точности и вычислительных ресурсов Оперативная цель основного поиска в конечном счете стабилизировалась на около 85 процентов для топ-250 кандидатов то есть система генерирует правильный ответ как кандидата ответа на 85 процентов вопросов где-то в верхних 250 ранжированных кандидатов Разнообразие методов поиска используются в том числе с использованием нескольких текст поисковых системах с различными базовыми подходами (например Indri и Lucene) поиск документов а также поиска маршрута база знаний поиска с помощью SPARQL хранилища триплетов Для небольшого количества латов которые были определены как закрытые латы кандидат на ответ может быть получен из фиксированного списка в каком-то хранилище известных экземпляров LAT таких как США Президент или Страна

Поиск доказательств

bull Поиск по фразе ndash число соответствий разного типав ответе и вопросеbull Популярность ndash как часто встречается этот вариант ответаbull Соответствие по типу ndash ответ и требование вопросаbull Соответствие по времениbull Надежность источника

bull Candidate Answer Generation ndash генерирование кандидатов на ответ

Результаты поиска применяются для генерирования возможных кандидатов в ответы с помощью различных подходящих техник Для поиска документов извлекаются заголовки и используются как кандидаты Число кандидатов при этом может быть не единственным и требовать использования анализа подстрок и ссылок Используя детектирование именованных сущностей в ряде случаев удается извлечь хороших кандидатов В зависимости от типа источника для генерирования кандидата требуется разный набор алгоритмов например база знаний или обратный словарь порождают кандидатов непосредственно как кандидата Этот этап критически важен и если кандидаты не найдены то фиксируется невозможность ответа В нормальном режиме на этом этапе Watson гененерирует несколько сотен андидатов

bull Soft Filtering ndash мягкая фильтрацияДля ускорения процесса скоринга кандидатов Watson использует различные алгоритмы разной точности Более легковесные (менее вычислительно интенсивные) применяются на первом этапе скоринга На этом этапе устанавливается порог оценки и кандидаты имеющие более высокую оценку считаются прошедшими мягкую фильтрацию Они поступают на выработку гипотез и скоринг доказательств Интересно что кандидаты не прошедшие порог мягкой фильтрации не забываются а направляются прямо на финальный этап слияния Модель скоринга мягкой фильтрации и порога определяются на основе machine learning используя обучающие данные Watson типично пропускает через мягкую фильтрацию 100 кандидатов но эта функция параметризована и их число можно изменить

Проблемы NLP

bull В мае 1898 года Португалия отмечала 400-летний юбилей со дня прибытия этого великого путешественника в Индию

В мае Гари прибыл в Индию после празднования своего юбилея в Португалии

21 мая 1498 года Васка де Гама высадился в местечке Каппад

bull Он был помилован президентом 8 сентября 1974 годаФорд помиловал Никсона 8 сентября 1974 года Никсон Форд

bull Говоря ldquogive a trinklerdquo что предлагают вам сделать британцы по приезду в город

bull Hypothesis and Evidence Scoring ndash скоринг гипотез и доказательств

Прошедшие порог мягкой фильтрации кандидаты поступают на скрупулезный процесс который включает сбор дополнительных поддерживающих доказательств для каждого кандидата на ответ или гипотезу Процесс использует широкий набор различных методов скоринговой аналитики чтобы исследовать все поддерживающие доказательства

bull Evidence Retrieval ndash извлечение доказательств

Чтобы лучше исследовать каждого кандидата прошедшего через мягкую фильтрацию система собирает дополнительные поддерживающие доказательства Архитектура поддерживает интеграцию различных evidence-gathering техник Один из применяемых способов состоит в том что проводится дополнительный поиск в котором кандидат добавляется в качестве required term к первичному запросу извлеченному из вопроса Это будет приводить к получению выражений содержащих кандидата в контексте первичных терминов вопросаПоддерживающие доказательства могут быть извлечены и из других источников например из RDF баз знаний Извлеченные поддерживающие доказательства направляются модули глубокого скоринга которые анализируют кандидата в контексте поддерживающего доказательства

bull Scoring ndash скоринг (количественное оценивание)

Алгоритмы скоринга определяют степень несомненности которую обеспечивают доказательства в поддержку кандидата The DeepQA framework поддерживает множество компонент для выработки оценки в различных измерениях каждого доказательства которая вырабатывает оценку связанную с тем насколько хорошо доказательство поддерживает кандидата на ответ в качестве ответа на заданный вопросDeepQA использует общий формат для оценок для принятых гипотез и подтверждающих оценок отражающих семантические и ограничивающие факторы Это позволяет разработчикам DeepQA быстро разворачивать перемешивать и настраивать сложные совокупности модуле для обработкиНапрмер Watson использует больше чем 50 скоринговых компонент Они производят оценки разноготипа от оценок вероятностей до подсчета категориальных свойств основанных на доказательствах от различных источников включая неструктурированные тексты полуструктурированные тексты и RDF хранилища Эти оценки используют такие данные как degree of match between a passagersquos predicate-argument structure and the question passage source reliability geospatial location temporal relationships taxonomic classification the lexical and semantic relations the candidate is known to participate in the candidatersquos correlation with question terms its popularity (or obscurity) its aliases and so on

Вопрос Чили имеет самую длинную общую границу со страной Сгенерировано несколько кандидатов среди них Аргентина и Боливия Первичный поиск даст приоритет Боливии из=а популярности обсуждений их отношений Однако собранные Watson доказательства из других источников показывают более высокую оценку для Аргентины

Скоринг (взвешивание) доказательств ndash предиктивная аналитика

- При делении клеток митозом называется деление ядра а цитокинезом ndash деление этой жидкости в которой находится ядро

Генерирование кандидатов Сбор доказательств Уверенность в доказательстве

ОрганеллыВакуольЦитоплазмаПлазмамитохондрии

Органеллы ndash не жидкостьВакуоль ndash не жидкостьЦитоплазма ndash возможно жидкостьПлазма ndash не жидкостьМитохондрии ndash не жидкость

Цитоплазма ndash 92Органеллы ndash 19Вакуоль ndash 10Плазма ndash 2Митохондрии ndash 2

Answer Merging ndash объединение ответов

Многие кандидаты в ответы на поставленный вопрос могут быть эквивалентны несмотря на различные внешне формыТехники ранжирования тем не менее рассматривают таких кандидатов как различные Без объединения алгоритмы ранжирования будут работать отдельно с эквивалентными сущностями и пытаться противопоставить одну форму другой Это приведет к проблемам принятия решений Watson содержит алгоритмы идентификации эквивалентных сущностей используя множественные сравнения нормализацию и методы разрешения совместных ссылок

Ranking and Confidence Estimation ndash ранжирование и оценивание доверияПосле объединения система должна произвести ранжирование гипотез и оценивает доверие основанное на объединенных оценках В системе подобран ML подход основанный на обучении на обучающем наборе вопросов с известными ответами и обучение модели основываясь на скоринге Применяется как весьма плоская модель и существующие алгоритмы ранжирования Для более тонких оценок применяется двухфазный процесс использующий группы оценок для оценивания профиля и для оценки доверия Используя эту промежуточную модель система производит ансамбль промежуточных оценок Здесь используется иерархическая техника метаучителя и коллектива экспертов Этот подход обеспечивает итеративное расширение обучения используя изощренные и глубокие иерархические модели обеспечивающие гибкость и робастность при выработке оценок и модифицирует системуМетаучитель в Watson использует набор многие обучаемые модели чтобы управлять различными классами вопросов которые могут быть критическими при идентификации правильных ответовНаконец важно что использование NLP-based скоринга дает весьма разреженные оценки и требует точного оценивания с применением confidence-weighted learning techniques

Развертывание Watson

bull DeepQA разработан используя Apache UIMA - framework implementation of the Unstructured Information Management Architecture (Ferrucci and Lally 2004) UIMA был разработан для поддержки взаимодействия и масштабирования приложений обработки текста и мультимодального анализа Все компоненты DeepQA имплементированы как UIMA annotators Это программные компоненты для анализа текста и получения аннотаций или заключений о тексте Watson развивался в процессе разработки от нескольких компонент до нескольких сотен UIMA обеспечивает быструю интеграцию компонент тестирование и исследование

bull Начальная имплементация Watson запускалась на одном процессоре и требовала 2 часа на ответ на один вопрос DeepQA развился в параллельную систему используя UIMA-AS часть Apache UIMA масштабируя приложения UIMA используя асинхронный механизм месседжинга UIMA-AS позволила масштабировать Watson более чем на 2500 вычислительных ядер UIMA-AS управляет коммуникациями месседжингом управлением запросами используя open JMS standard UIMA-AS позволил снизить латентность Watson до 3ndash5 секунд

bull Для препроцессинга корпуса текстов создания быстрых run-time indices использован Hadoop

UIMA annotators были развернуты как mapper ы в Hadoop map-reduce framework Hadoop распределяет контент по кластеру для обеспечения высокого использования CPU и обеспечивает подходящий набор инструментов для deploying managing and monitoring the corpus analysis process

bull Аппаратная платформа ndash это 90 серверов 2800 ядер 15 ТБ RAM 80 Тфлопс $3 000 000 10 R

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 35: !Predictive analytics part_3

Пример 2

create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=))write( c(hamster mouse sushi) file=paste(td D2 sep=))write( c(dog monster monster) file=paste(td D3 sep=))write( c(dog mouse dog) file=paste(td D4 sep=)) create matricesmyMatrix = textmatrix(td minWordLength=1)myLSAspace = lsa(myMatrix dims=dimcalc_share())myNewMatrix = astextmatrix(myLSAspace) calc associations for mouseassociate(myNewMatrix mouse) clean upunlink(td recursive=TRUE)

Пример 3 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(ham mouse sushi) file=paste(td D2 sep=) )write( c(dog pet pet) file=paste(td D3 sep=) ) LSAdata(stopwords_en)myMatrix = textmatrix(td stopwords=stopwords_en)myMatrix = lw_logtf(myMatrix) gw_idf(myMatrix)myLSAspace = lsa(myMatrix dims=dimcalc_share())astextmatrix(myLSAspace) clean upunlink(td recursive=TRUE)

Пример 4 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(hamster mouse sushi) file=paste(td D2 sep=) )write( c(dog monster monster) file=paste(td D3 sep=) ) read them create a document-term matrixtextmatrix(td) read them drop german stopwordsdata(stopwords_de)textmatrix(td stopwords=stopwords_de) read them based on a controlled vocabularyvoc = c(dog mouse)textmatrix(td vocabulary=voc minWordLength=1) clean up

Вместо заключения Очевидным недостатком LSA является ненормальность (негаусовость) вероятностного распределения слов в любом естественном языке Но эту проблему можно решить сглаживанием выборки (например применив фонетические слова распределение становится более laquoнормальнымraquo) Либо используют вероятностный LSA тназ PLSA основанный на мультиноминальном распределении Другим менее очевидным недостаткам LSA (и ему подобных методов) применительно к обработке неструктурированной информации можно отнести laquoтуманностьraquo самого метода (в частности выбора кол-ва сингулярных значений диагональной матрицы) и интерпретации результата не говоря уже о проблеме сбалансированности обучающего текста

Как правило для качественного построения модели оставляют менее 1-2 процента от общего числа диагональных значений (после SVD преобразования но об это в следующем посте) И как показывает практика увеличение числа факторов приводит к ухудшению результата Но дойдя примерно до 10 процентов от общего числа диагональных значений опять может быть всплеск аналогичный результату полученному при 1

Сбалансированность корпуса ndash вечная проблема которая не имеет хорошего решения на сегодняшний день Поэтому про нее приято помалкивать

Интерпретируемость результатов LSA (как и DLA) также затруднительна человек еще может понять что за тематику будет содержать топик полученный в результате анализа а вот машине не понять (не аннотировать) тематику без привлечения большого числа хороших и разных тезаурусов

Таким образом несмотря на трудоемкость и непрозрачность LSA он может успешно применяться для разного рада задач где важно поймать семантику сообщения обобщить или расширить laquoсмыслыraquo поискового запроса

bull Стандарт основанный на XML для обмена моделями статистической обработки Data Mining

bull Поддерживается более 20 организациями и поставщиками ПО

bull Реализован в частности и в R

Поддерживаемые предиктивные алгоритмы в R

Состав pmml package

bull addLT

bull addMSAttributes

bull audit

bull fileToXMLNode

bull pmml

bull pmmlada

bull pmmlcoxph

bull pmmlcvglmnet

bull pmmlglm

bull pmmlhclust

bull pmmlkmeans

bull pmmlksvm

bull pmmllm bull pmmlmultinom bull pmmlnaiveBayes bull pmmlnnet bull pmmlrandomForest bull pmmlrfsrc bull pmmlrpart bull pmmlrules bull pmmlsvm bull pmmlCanExport bull pmmltoc

Пример

Good by R see you later alligator

WATSON ndash одно из наиболее впечатляющих применений предиктивной аналитики

Разрабатывался компанией IBM с 2006 по 2010 годПрославился победой в телешоу Jeopardy (в России ndash laquoСвоя играraquo) в 2011 годуПредшественник Deep Blue обыграл чемпиона мира по шахматам Гарри Каспарова в 1997 г

>

IBM Deep QA Project

bull Целью проекта было создать компьютерную систему (ИИ) для ответа на вопросы (QA) задаваемые в свободной форме в телешоу и показать результаты соизмеримые с человеческими

bull Задача более сложная чем шахматная программа Deep Blue выигравшая у Каспарова в 1997 г

bull Вопросы по категориямCategory General ScienceClue When hit by electrons a phosphor gives off electromagnetic energy in this formAnswer Light (or Photons)

Category Lincoln BlogsClue Secretary Chase just submitted this to me for the third time guess what pal This time Irsquom accepting itAnswer his resignation

Category Head NorthClue Theyrsquore the two states you could be reentering if yoursquore crossing Floridarsquos northern borderAnswer Georgia and Alabama

Вопросы могут касаться сразу нескольких фактов чтобы ответ был вернымCategory ldquoRaprdquo SheetClue This archaic term for a mischievous or annoying child can also mean a rogue or scampSubclue 1 This archaic term for a mischievous or annoying childSubclue 2 This term can also mean a rogue or scampAnswer Rapscallion

Category Diplomatic RelationsClue Of the four countries in the world that the United States does not have diplomatic relations with the one thatrsquos farthest northInner subclue The four countries in the world that the United States does not have diplomatic relations with (Bhutan Cuba Iran North Korea)Outer subclue Of Bhutan Cuba Iran and North Korea the one thatrsquos farthest northAnswer North Korea

Вопросы - пазлы

Category Before and After Goes to the MoviesClue Film of a typical day in the life of the Beatles which includes running from bloodthirsty zombie fans in a Romero classicSubclue 2 Film of a typical day in the life of the Beatles Answer 1 (A Hard Dayrsquos Night)Subclue 2 Running from bloodthirsty zombie fans in a Romero classicAnswer 2 (Night of the Living Dead)Answer A Hard Dayrsquos Night of the Living Dead

Category Rhyme TimeClue Itrsquos where Pele stores his ballSubclue 1 Pele ball (soccer)Subclue 2 where store (cabinet drawer locker and so on)Answer soccer locker

Недопустимые типы вопросов

oCategory Picture This(Contestants are shown a picture of a B-52 bomber)Clue Alphanumeric name of the fearsome machine seen hereAnswer B-52

oCategory Decode the Postal CodesVerbal instruction from host Wersquore going to give you a word comprising two postal abbreviations you have to identify the statesClue VainAnswer Virginia and Indiana

Лексические типы ответа ndash LAT (Lexical Answer Type)

Метрики качества ответов - результативность

Показатели двух теоретических QA систем

Показатели результативности чемпионов шоу (2000)

Облако победителей

Линия сравнения результативности (baseline performance)

Сравнение системы тестового поиска и поиска в базе знаний

Результативность Watson (по версиям)

Основы подхода Deep QA

bull Massive parallelism использование высокого параллелизма при рассмотрении множественных интерпретаций и гипотез

bull Many experts привлечение интеграции приложения и контекстуального оценивания в широком диапазоне слабосвязанных вероятностных вопросов и контентной аналитики

bull Pervasive confidence estimation повсеместная оценка доверия означает что ни один из компонентов не включается в ответ сразу все компоненты имеют признаки и связанные с ними уровни доверия производится скоринг различных вопросов и контентная интерпретация Основа confidence-processing состоит в обучении как стэкировать и комбинировать баллы

bull Integrate shallow and deep knowledge интеграция поверхностных и глубинных знаний состоит в балансе использования строгой семантики и мелких семантик использующих множества слабо сформированных онтологий

bull Content Acquisition - Сбор контентаСочетает ручные и автоматические этапы Первым шагом является анализ примеров вопросов проблемного пространства чтобы произвести описание видов вопросов на которые нужно ответить и характеризовать область применения Анализ примеров вопросов в первую очередь ручная задача в то время как анализ области может быть выполнен путем автоматических или статистических методов таких как анализ LAT показанный ранее Учитывая вопросы для широкого домена Jeopardy Challenge источники для Watson включают широкий ассортимент энциклопедий словарей тезаурусов Newswire статьи литературные произведения и тд Начиная с разумного размера базового корпуса DeepQA затем применяет автоматический процесс расширения корпуса Процесс включает в себя четыре этапа высокого уровня (1) выявления основных документов и получить соответствующие документы из Интернет (2) извлечь автономные текстовые ядра из связанных веб-документов (3) Оценка на основе ядер являются ли они информативны по отношению к исходному основному документу и (4) объединить наиболее информативные ядра в расширенном корпусе Работающая система использует этот расширенный корпус и не имеет доступа к Интернет во время игры

bull Question Analysis ndash Анализ вопроса

Первый шаг во время выполнения процесса вопрос-ответной системы При анализе вопроса система пытается понять что вопрос задан и выполняет начальный анализ определяющий как вопрос будет обработан на остальных этапах работы системы Подход DeepQA использует смешанный набор экспертов на данном этапе и в системе Watson производится мелкий парсинг глубокий парсинг строятся логические формы семантические этикетки ролей взаимные ссылки отношения именованные сущности и так далее а также конкретные виды анализа для ответа вопрос

bull Question classification - Классификация вопроса

Это задача выявления типа вопроса или частей вопроса которые требуют специальной обработки Это может включать в себя что-нибудь из отдельных слов с двойным смыслом и потенциально до выявления целых статей которые имеют определенную синтаксическую семантическую или риторические функциональные возможности которые могут инициировать нисходящий анализ Классификация может определить вопрос как вопрос- головоломку вопрос-математику -определение и так далее Это будет определять каламбуры ограничения компоненты определений или целые подвопросы в пределах вопросов

bull Focus and LAT Detection ndash Определение фокуса и лексического типа ответа

Лексический тип ответа - это слово или словосочетание в вопросе который определяет тип ответа без попытки понять семантику Определение LAT является важным видом выигрыша и общим источником критических ошибок Преимущество подхода DeepQA является использование многих самостоятельно разработанных алгоритмов laquoответ-типированияraquo Например фокус вопроса викторины laquoПри попадании электронов люминофор излучает электромагнитную энергию в этой формеraquo - является laquoэта формаraquo Фокус часто (но не всегда) содержит полезную информацию об ответе часто субъект или объект отношение в вопросе и может превратить вопрос в фактическое утверждение при замене возможным кандидатом Это представляет полезный способ собирать доказательства о каждом кандидате

bull Relation Detection ndash детектирование отношений

Большинство вопросов содержит отношения являются ли они синтаксическими предикатами субъект-глагол-объект или семантические отношения между субъектами Например в вопросе laquoЕсть два штата в которые вы могли бы войти повторно если вы пересекаете северную границу штата Флоридаraquo мы можем обнаружить отношение границы (Флорида Х к северу) Watson использует обнаружение отношения на протяжении всего процесса QA от фокуса и LAT определения до прохождению и скорингу ответов Watson также может использовать обнаруженные отношения для выделения хранилища триплетов и напрямую генерировать кандидатов в ответы В 20000 игр Jeopardy вопросы например обнаружили распределение Freebase отношений чрезвычайно плоского вида (см рисунок) Это приближение распределеня 50 наиболее частых отношений в 20 000 случайно выбранных вопросах викторины

bull Decomposition ndash декомпозиция

Важным требованием успеха анализа Jeopardy является способность отвечать на вопросы которые разложены на составляющие DeepQA использует основанный на правилах глубокий парсинг и статистические методы классификации чтобы наилучшим образом разложить вопросы на элементы и определить как лучше разбить их на подвопросы Операционная гипотеза что правильная интерпретация вопроса позволит лучше произвести скоринг ответов после того как все доказательства собраны Даже если вопрос не должен быть разложен для определения ответа этот метод может помочь улучшить общее доверие ответу системы DeepQA решает задачи параллельно для каждого разложения применяя алгоритмы от начала до конца каждого подвопроса и синтезирует окончательные ответы DeepQA также поддерживает вложенные декомпозиции вопросов через рекурсивное применение QA системы от начала до конца в внутреннем подвопросе а затем во внешнем Настраиваемые компоненты позволяют легко подключать специализированные алгоритмы синтеза в общую систему

bull Hypothesis Generation ndash генерация гипотез

Генерация гипотез принимает результаты анализа вопросов и производит кандидатов на ответы Каждый кандидат ответ включается обратно в вопрос и это считается как гипотеза Система должна доказать правильность этой гипотезы с некоторой степенью уверенности Как и во всех аспектах DeepQA используется смесь разных подходов для первичного поиска и генерации кандидата в системе Watson

bull Primary Search ndash первичный поиск

В этом поиске целью является найти столько потенциально кандидатов сколько это можно сделать на основе результатов анализа вопроса В течение проекта велись эмпирические исследования направленные на баланс скорости объема и точности Эти исследования позволили регулярно настраивать систему так чтобы найти такое количество кандидатов которые производят наилучший баланс точности и вычислительных ресурсов Оперативная цель основного поиска в конечном счете стабилизировалась на около 85 процентов для топ-250 кандидатов то есть система генерирует правильный ответ как кандидата ответа на 85 процентов вопросов где-то в верхних 250 ранжированных кандидатов Разнообразие методов поиска используются в том числе с использованием нескольких текст поисковых системах с различными базовыми подходами (например Indri и Lucene) поиск документов а также поиска маршрута база знаний поиска с помощью SPARQL хранилища триплетов Для небольшого количества латов которые были определены как закрытые латы кандидат на ответ может быть получен из фиксированного списка в каком-то хранилище известных экземпляров LAT таких как США Президент или Страна

Поиск доказательств

bull Поиск по фразе ndash число соответствий разного типав ответе и вопросеbull Популярность ndash как часто встречается этот вариант ответаbull Соответствие по типу ndash ответ и требование вопросаbull Соответствие по времениbull Надежность источника

bull Candidate Answer Generation ndash генерирование кандидатов на ответ

Результаты поиска применяются для генерирования возможных кандидатов в ответы с помощью различных подходящих техник Для поиска документов извлекаются заголовки и используются как кандидаты Число кандидатов при этом может быть не единственным и требовать использования анализа подстрок и ссылок Используя детектирование именованных сущностей в ряде случаев удается извлечь хороших кандидатов В зависимости от типа источника для генерирования кандидата требуется разный набор алгоритмов например база знаний или обратный словарь порождают кандидатов непосредственно как кандидата Этот этап критически важен и если кандидаты не найдены то фиксируется невозможность ответа В нормальном режиме на этом этапе Watson гененерирует несколько сотен андидатов

bull Soft Filtering ndash мягкая фильтрацияДля ускорения процесса скоринга кандидатов Watson использует различные алгоритмы разной точности Более легковесные (менее вычислительно интенсивные) применяются на первом этапе скоринга На этом этапе устанавливается порог оценки и кандидаты имеющие более высокую оценку считаются прошедшими мягкую фильтрацию Они поступают на выработку гипотез и скоринг доказательств Интересно что кандидаты не прошедшие порог мягкой фильтрации не забываются а направляются прямо на финальный этап слияния Модель скоринга мягкой фильтрации и порога определяются на основе machine learning используя обучающие данные Watson типично пропускает через мягкую фильтрацию 100 кандидатов но эта функция параметризована и их число можно изменить

Проблемы NLP

bull В мае 1898 года Португалия отмечала 400-летний юбилей со дня прибытия этого великого путешественника в Индию

В мае Гари прибыл в Индию после празднования своего юбилея в Португалии

21 мая 1498 года Васка де Гама высадился в местечке Каппад

bull Он был помилован президентом 8 сентября 1974 годаФорд помиловал Никсона 8 сентября 1974 года Никсон Форд

bull Говоря ldquogive a trinklerdquo что предлагают вам сделать британцы по приезду в город

bull Hypothesis and Evidence Scoring ndash скоринг гипотез и доказательств

Прошедшие порог мягкой фильтрации кандидаты поступают на скрупулезный процесс который включает сбор дополнительных поддерживающих доказательств для каждого кандидата на ответ или гипотезу Процесс использует широкий набор различных методов скоринговой аналитики чтобы исследовать все поддерживающие доказательства

bull Evidence Retrieval ndash извлечение доказательств

Чтобы лучше исследовать каждого кандидата прошедшего через мягкую фильтрацию система собирает дополнительные поддерживающие доказательства Архитектура поддерживает интеграцию различных evidence-gathering техник Один из применяемых способов состоит в том что проводится дополнительный поиск в котором кандидат добавляется в качестве required term к первичному запросу извлеченному из вопроса Это будет приводить к получению выражений содержащих кандидата в контексте первичных терминов вопросаПоддерживающие доказательства могут быть извлечены и из других источников например из RDF баз знаний Извлеченные поддерживающие доказательства направляются модули глубокого скоринга которые анализируют кандидата в контексте поддерживающего доказательства

bull Scoring ndash скоринг (количественное оценивание)

Алгоритмы скоринга определяют степень несомненности которую обеспечивают доказательства в поддержку кандидата The DeepQA framework поддерживает множество компонент для выработки оценки в различных измерениях каждого доказательства которая вырабатывает оценку связанную с тем насколько хорошо доказательство поддерживает кандидата на ответ в качестве ответа на заданный вопросDeepQA использует общий формат для оценок для принятых гипотез и подтверждающих оценок отражающих семантические и ограничивающие факторы Это позволяет разработчикам DeepQA быстро разворачивать перемешивать и настраивать сложные совокупности модуле для обработкиНапрмер Watson использует больше чем 50 скоринговых компонент Они производят оценки разноготипа от оценок вероятностей до подсчета категориальных свойств основанных на доказательствах от различных источников включая неструктурированные тексты полуструктурированные тексты и RDF хранилища Эти оценки используют такие данные как degree of match between a passagersquos predicate-argument structure and the question passage source reliability geospatial location temporal relationships taxonomic classification the lexical and semantic relations the candidate is known to participate in the candidatersquos correlation with question terms its popularity (or obscurity) its aliases and so on

Вопрос Чили имеет самую длинную общую границу со страной Сгенерировано несколько кандидатов среди них Аргентина и Боливия Первичный поиск даст приоритет Боливии из=а популярности обсуждений их отношений Однако собранные Watson доказательства из других источников показывают более высокую оценку для Аргентины

Скоринг (взвешивание) доказательств ndash предиктивная аналитика

- При делении клеток митозом называется деление ядра а цитокинезом ndash деление этой жидкости в которой находится ядро

Генерирование кандидатов Сбор доказательств Уверенность в доказательстве

ОрганеллыВакуольЦитоплазмаПлазмамитохондрии

Органеллы ndash не жидкостьВакуоль ndash не жидкостьЦитоплазма ndash возможно жидкостьПлазма ndash не жидкостьМитохондрии ndash не жидкость

Цитоплазма ndash 92Органеллы ndash 19Вакуоль ndash 10Плазма ndash 2Митохондрии ndash 2

Answer Merging ndash объединение ответов

Многие кандидаты в ответы на поставленный вопрос могут быть эквивалентны несмотря на различные внешне формыТехники ранжирования тем не менее рассматривают таких кандидатов как различные Без объединения алгоритмы ранжирования будут работать отдельно с эквивалентными сущностями и пытаться противопоставить одну форму другой Это приведет к проблемам принятия решений Watson содержит алгоритмы идентификации эквивалентных сущностей используя множественные сравнения нормализацию и методы разрешения совместных ссылок

Ranking and Confidence Estimation ndash ранжирование и оценивание доверияПосле объединения система должна произвести ранжирование гипотез и оценивает доверие основанное на объединенных оценках В системе подобран ML подход основанный на обучении на обучающем наборе вопросов с известными ответами и обучение модели основываясь на скоринге Применяется как весьма плоская модель и существующие алгоритмы ранжирования Для более тонких оценок применяется двухфазный процесс использующий группы оценок для оценивания профиля и для оценки доверия Используя эту промежуточную модель система производит ансамбль промежуточных оценок Здесь используется иерархическая техника метаучителя и коллектива экспертов Этот подход обеспечивает итеративное расширение обучения используя изощренные и глубокие иерархические модели обеспечивающие гибкость и робастность при выработке оценок и модифицирует системуМетаучитель в Watson использует набор многие обучаемые модели чтобы управлять различными классами вопросов которые могут быть критическими при идентификации правильных ответовНаконец важно что использование NLP-based скоринга дает весьма разреженные оценки и требует точного оценивания с применением confidence-weighted learning techniques

Развертывание Watson

bull DeepQA разработан используя Apache UIMA - framework implementation of the Unstructured Information Management Architecture (Ferrucci and Lally 2004) UIMA был разработан для поддержки взаимодействия и масштабирования приложений обработки текста и мультимодального анализа Все компоненты DeepQA имплементированы как UIMA annotators Это программные компоненты для анализа текста и получения аннотаций или заключений о тексте Watson развивался в процессе разработки от нескольких компонент до нескольких сотен UIMA обеспечивает быструю интеграцию компонент тестирование и исследование

bull Начальная имплементация Watson запускалась на одном процессоре и требовала 2 часа на ответ на один вопрос DeepQA развился в параллельную систему используя UIMA-AS часть Apache UIMA масштабируя приложения UIMA используя асинхронный механизм месседжинга UIMA-AS позволила масштабировать Watson более чем на 2500 вычислительных ядер UIMA-AS управляет коммуникациями месседжингом управлением запросами используя open JMS standard UIMA-AS позволил снизить латентность Watson до 3ndash5 секунд

bull Для препроцессинга корпуса текстов создания быстрых run-time indices использован Hadoop

UIMA annotators были развернуты как mapper ы в Hadoop map-reduce framework Hadoop распределяет контент по кластеру для обеспечения высокого использования CPU и обеспечивает подходящий набор инструментов для deploying managing and monitoring the corpus analysis process

bull Аппаратная платформа ndash это 90 серверов 2800 ядер 15 ТБ RAM 80 Тфлопс $3 000 000 10 R

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 36: !Predictive analytics part_3

Пример 3 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(ham mouse sushi) file=paste(td D2 sep=) )write( c(dog pet pet) file=paste(td D3 sep=) ) LSAdata(stopwords_en)myMatrix = textmatrix(td stopwords=stopwords_en)myMatrix = lw_logtf(myMatrix) gw_idf(myMatrix)myLSAspace = lsa(myMatrix dims=dimcalc_share())astextmatrix(myLSAspace) clean upunlink(td recursive=TRUE)

Пример 4 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(hamster mouse sushi) file=paste(td D2 sep=) )write( c(dog monster monster) file=paste(td D3 sep=) ) read them create a document-term matrixtextmatrix(td) read them drop german stopwordsdata(stopwords_de)textmatrix(td stopwords=stopwords_de) read them based on a controlled vocabularyvoc = c(dog mouse)textmatrix(td vocabulary=voc minWordLength=1) clean up

Вместо заключения Очевидным недостатком LSA является ненормальность (негаусовость) вероятностного распределения слов в любом естественном языке Но эту проблему можно решить сглаживанием выборки (например применив фонетические слова распределение становится более laquoнормальнымraquo) Либо используют вероятностный LSA тназ PLSA основанный на мультиноминальном распределении Другим менее очевидным недостаткам LSA (и ему подобных методов) применительно к обработке неструктурированной информации можно отнести laquoтуманностьraquo самого метода (в частности выбора кол-ва сингулярных значений диагональной матрицы) и интерпретации результата не говоря уже о проблеме сбалансированности обучающего текста

Как правило для качественного построения модели оставляют менее 1-2 процента от общего числа диагональных значений (после SVD преобразования но об это в следующем посте) И как показывает практика увеличение числа факторов приводит к ухудшению результата Но дойдя примерно до 10 процентов от общего числа диагональных значений опять может быть всплеск аналогичный результату полученному при 1

Сбалансированность корпуса ndash вечная проблема которая не имеет хорошего решения на сегодняшний день Поэтому про нее приято помалкивать

Интерпретируемость результатов LSA (как и DLA) также затруднительна человек еще может понять что за тематику будет содержать топик полученный в результате анализа а вот машине не понять (не аннотировать) тематику без привлечения большого числа хороших и разных тезаурусов

Таким образом несмотря на трудоемкость и непрозрачность LSA он может успешно применяться для разного рада задач где важно поймать семантику сообщения обобщить или расширить laquoсмыслыraquo поискового запроса

bull Стандарт основанный на XML для обмена моделями статистической обработки Data Mining

bull Поддерживается более 20 организациями и поставщиками ПО

bull Реализован в частности и в R

Поддерживаемые предиктивные алгоритмы в R

Состав pmml package

bull addLT

bull addMSAttributes

bull audit

bull fileToXMLNode

bull pmml

bull pmmlada

bull pmmlcoxph

bull pmmlcvglmnet

bull pmmlglm

bull pmmlhclust

bull pmmlkmeans

bull pmmlksvm

bull pmmllm bull pmmlmultinom bull pmmlnaiveBayes bull pmmlnnet bull pmmlrandomForest bull pmmlrfsrc bull pmmlrpart bull pmmlrules bull pmmlsvm bull pmmlCanExport bull pmmltoc

Пример

Good by R see you later alligator

WATSON ndash одно из наиболее впечатляющих применений предиктивной аналитики

Разрабатывался компанией IBM с 2006 по 2010 годПрославился победой в телешоу Jeopardy (в России ndash laquoСвоя играraquo) в 2011 годуПредшественник Deep Blue обыграл чемпиона мира по шахматам Гарри Каспарова в 1997 г

>

IBM Deep QA Project

bull Целью проекта было создать компьютерную систему (ИИ) для ответа на вопросы (QA) задаваемые в свободной форме в телешоу и показать результаты соизмеримые с человеческими

bull Задача более сложная чем шахматная программа Deep Blue выигравшая у Каспарова в 1997 г

bull Вопросы по категориямCategory General ScienceClue When hit by electrons a phosphor gives off electromagnetic energy in this formAnswer Light (or Photons)

Category Lincoln BlogsClue Secretary Chase just submitted this to me for the third time guess what pal This time Irsquom accepting itAnswer his resignation

Category Head NorthClue Theyrsquore the two states you could be reentering if yoursquore crossing Floridarsquos northern borderAnswer Georgia and Alabama

Вопросы могут касаться сразу нескольких фактов чтобы ответ был вернымCategory ldquoRaprdquo SheetClue This archaic term for a mischievous or annoying child can also mean a rogue or scampSubclue 1 This archaic term for a mischievous or annoying childSubclue 2 This term can also mean a rogue or scampAnswer Rapscallion

Category Diplomatic RelationsClue Of the four countries in the world that the United States does not have diplomatic relations with the one thatrsquos farthest northInner subclue The four countries in the world that the United States does not have diplomatic relations with (Bhutan Cuba Iran North Korea)Outer subclue Of Bhutan Cuba Iran and North Korea the one thatrsquos farthest northAnswer North Korea

Вопросы - пазлы

Category Before and After Goes to the MoviesClue Film of a typical day in the life of the Beatles which includes running from bloodthirsty zombie fans in a Romero classicSubclue 2 Film of a typical day in the life of the Beatles Answer 1 (A Hard Dayrsquos Night)Subclue 2 Running from bloodthirsty zombie fans in a Romero classicAnswer 2 (Night of the Living Dead)Answer A Hard Dayrsquos Night of the Living Dead

Category Rhyme TimeClue Itrsquos where Pele stores his ballSubclue 1 Pele ball (soccer)Subclue 2 where store (cabinet drawer locker and so on)Answer soccer locker

Недопустимые типы вопросов

oCategory Picture This(Contestants are shown a picture of a B-52 bomber)Clue Alphanumeric name of the fearsome machine seen hereAnswer B-52

oCategory Decode the Postal CodesVerbal instruction from host Wersquore going to give you a word comprising two postal abbreviations you have to identify the statesClue VainAnswer Virginia and Indiana

Лексические типы ответа ndash LAT (Lexical Answer Type)

Метрики качества ответов - результативность

Показатели двух теоретических QA систем

Показатели результативности чемпионов шоу (2000)

Облако победителей

Линия сравнения результативности (baseline performance)

Сравнение системы тестового поиска и поиска в базе знаний

Результативность Watson (по версиям)

Основы подхода Deep QA

bull Massive parallelism использование высокого параллелизма при рассмотрении множественных интерпретаций и гипотез

bull Many experts привлечение интеграции приложения и контекстуального оценивания в широком диапазоне слабосвязанных вероятностных вопросов и контентной аналитики

bull Pervasive confidence estimation повсеместная оценка доверия означает что ни один из компонентов не включается в ответ сразу все компоненты имеют признаки и связанные с ними уровни доверия производится скоринг различных вопросов и контентная интерпретация Основа confidence-processing состоит в обучении как стэкировать и комбинировать баллы

bull Integrate shallow and deep knowledge интеграция поверхностных и глубинных знаний состоит в балансе использования строгой семантики и мелких семантик использующих множества слабо сформированных онтологий

bull Content Acquisition - Сбор контентаСочетает ручные и автоматические этапы Первым шагом является анализ примеров вопросов проблемного пространства чтобы произвести описание видов вопросов на которые нужно ответить и характеризовать область применения Анализ примеров вопросов в первую очередь ручная задача в то время как анализ области может быть выполнен путем автоматических или статистических методов таких как анализ LAT показанный ранее Учитывая вопросы для широкого домена Jeopardy Challenge источники для Watson включают широкий ассортимент энциклопедий словарей тезаурусов Newswire статьи литературные произведения и тд Начиная с разумного размера базового корпуса DeepQA затем применяет автоматический процесс расширения корпуса Процесс включает в себя четыре этапа высокого уровня (1) выявления основных документов и получить соответствующие документы из Интернет (2) извлечь автономные текстовые ядра из связанных веб-документов (3) Оценка на основе ядер являются ли они информативны по отношению к исходному основному документу и (4) объединить наиболее информативные ядра в расширенном корпусе Работающая система использует этот расширенный корпус и не имеет доступа к Интернет во время игры

bull Question Analysis ndash Анализ вопроса

Первый шаг во время выполнения процесса вопрос-ответной системы При анализе вопроса система пытается понять что вопрос задан и выполняет начальный анализ определяющий как вопрос будет обработан на остальных этапах работы системы Подход DeepQA использует смешанный набор экспертов на данном этапе и в системе Watson производится мелкий парсинг глубокий парсинг строятся логические формы семантические этикетки ролей взаимные ссылки отношения именованные сущности и так далее а также конкретные виды анализа для ответа вопрос

bull Question classification - Классификация вопроса

Это задача выявления типа вопроса или частей вопроса которые требуют специальной обработки Это может включать в себя что-нибудь из отдельных слов с двойным смыслом и потенциально до выявления целых статей которые имеют определенную синтаксическую семантическую или риторические функциональные возможности которые могут инициировать нисходящий анализ Классификация может определить вопрос как вопрос- головоломку вопрос-математику -определение и так далее Это будет определять каламбуры ограничения компоненты определений или целые подвопросы в пределах вопросов

bull Focus and LAT Detection ndash Определение фокуса и лексического типа ответа

Лексический тип ответа - это слово или словосочетание в вопросе который определяет тип ответа без попытки понять семантику Определение LAT является важным видом выигрыша и общим источником критических ошибок Преимущество подхода DeepQA является использование многих самостоятельно разработанных алгоритмов laquoответ-типированияraquo Например фокус вопроса викторины laquoПри попадании электронов люминофор излучает электромагнитную энергию в этой формеraquo - является laquoэта формаraquo Фокус часто (но не всегда) содержит полезную информацию об ответе часто субъект или объект отношение в вопросе и может превратить вопрос в фактическое утверждение при замене возможным кандидатом Это представляет полезный способ собирать доказательства о каждом кандидате

bull Relation Detection ndash детектирование отношений

Большинство вопросов содержит отношения являются ли они синтаксическими предикатами субъект-глагол-объект или семантические отношения между субъектами Например в вопросе laquoЕсть два штата в которые вы могли бы войти повторно если вы пересекаете северную границу штата Флоридаraquo мы можем обнаружить отношение границы (Флорида Х к северу) Watson использует обнаружение отношения на протяжении всего процесса QA от фокуса и LAT определения до прохождению и скорингу ответов Watson также может использовать обнаруженные отношения для выделения хранилища триплетов и напрямую генерировать кандидатов в ответы В 20000 игр Jeopardy вопросы например обнаружили распределение Freebase отношений чрезвычайно плоского вида (см рисунок) Это приближение распределеня 50 наиболее частых отношений в 20 000 случайно выбранных вопросах викторины

bull Decomposition ndash декомпозиция

Важным требованием успеха анализа Jeopardy является способность отвечать на вопросы которые разложены на составляющие DeepQA использует основанный на правилах глубокий парсинг и статистические методы классификации чтобы наилучшим образом разложить вопросы на элементы и определить как лучше разбить их на подвопросы Операционная гипотеза что правильная интерпретация вопроса позволит лучше произвести скоринг ответов после того как все доказательства собраны Даже если вопрос не должен быть разложен для определения ответа этот метод может помочь улучшить общее доверие ответу системы DeepQA решает задачи параллельно для каждого разложения применяя алгоритмы от начала до конца каждого подвопроса и синтезирует окончательные ответы DeepQA также поддерживает вложенные декомпозиции вопросов через рекурсивное применение QA системы от начала до конца в внутреннем подвопросе а затем во внешнем Настраиваемые компоненты позволяют легко подключать специализированные алгоритмы синтеза в общую систему

bull Hypothesis Generation ndash генерация гипотез

Генерация гипотез принимает результаты анализа вопросов и производит кандидатов на ответы Каждый кандидат ответ включается обратно в вопрос и это считается как гипотеза Система должна доказать правильность этой гипотезы с некоторой степенью уверенности Как и во всех аспектах DeepQA используется смесь разных подходов для первичного поиска и генерации кандидата в системе Watson

bull Primary Search ndash первичный поиск

В этом поиске целью является найти столько потенциально кандидатов сколько это можно сделать на основе результатов анализа вопроса В течение проекта велись эмпирические исследования направленные на баланс скорости объема и точности Эти исследования позволили регулярно настраивать систему так чтобы найти такое количество кандидатов которые производят наилучший баланс точности и вычислительных ресурсов Оперативная цель основного поиска в конечном счете стабилизировалась на около 85 процентов для топ-250 кандидатов то есть система генерирует правильный ответ как кандидата ответа на 85 процентов вопросов где-то в верхних 250 ранжированных кандидатов Разнообразие методов поиска используются в том числе с использованием нескольких текст поисковых системах с различными базовыми подходами (например Indri и Lucene) поиск документов а также поиска маршрута база знаний поиска с помощью SPARQL хранилища триплетов Для небольшого количества латов которые были определены как закрытые латы кандидат на ответ может быть получен из фиксированного списка в каком-то хранилище известных экземпляров LAT таких как США Президент или Страна

Поиск доказательств

bull Поиск по фразе ndash число соответствий разного типав ответе и вопросеbull Популярность ndash как часто встречается этот вариант ответаbull Соответствие по типу ndash ответ и требование вопросаbull Соответствие по времениbull Надежность источника

bull Candidate Answer Generation ndash генерирование кандидатов на ответ

Результаты поиска применяются для генерирования возможных кандидатов в ответы с помощью различных подходящих техник Для поиска документов извлекаются заголовки и используются как кандидаты Число кандидатов при этом может быть не единственным и требовать использования анализа подстрок и ссылок Используя детектирование именованных сущностей в ряде случаев удается извлечь хороших кандидатов В зависимости от типа источника для генерирования кандидата требуется разный набор алгоритмов например база знаний или обратный словарь порождают кандидатов непосредственно как кандидата Этот этап критически важен и если кандидаты не найдены то фиксируется невозможность ответа В нормальном режиме на этом этапе Watson гененерирует несколько сотен андидатов

bull Soft Filtering ndash мягкая фильтрацияДля ускорения процесса скоринга кандидатов Watson использует различные алгоритмы разной точности Более легковесные (менее вычислительно интенсивные) применяются на первом этапе скоринга На этом этапе устанавливается порог оценки и кандидаты имеющие более высокую оценку считаются прошедшими мягкую фильтрацию Они поступают на выработку гипотез и скоринг доказательств Интересно что кандидаты не прошедшие порог мягкой фильтрации не забываются а направляются прямо на финальный этап слияния Модель скоринга мягкой фильтрации и порога определяются на основе machine learning используя обучающие данные Watson типично пропускает через мягкую фильтрацию 100 кандидатов но эта функция параметризована и их число можно изменить

Проблемы NLP

bull В мае 1898 года Португалия отмечала 400-летний юбилей со дня прибытия этого великого путешественника в Индию

В мае Гари прибыл в Индию после празднования своего юбилея в Португалии

21 мая 1498 года Васка де Гама высадился в местечке Каппад

bull Он был помилован президентом 8 сентября 1974 годаФорд помиловал Никсона 8 сентября 1974 года Никсон Форд

bull Говоря ldquogive a trinklerdquo что предлагают вам сделать британцы по приезду в город

bull Hypothesis and Evidence Scoring ndash скоринг гипотез и доказательств

Прошедшие порог мягкой фильтрации кандидаты поступают на скрупулезный процесс который включает сбор дополнительных поддерживающих доказательств для каждого кандидата на ответ или гипотезу Процесс использует широкий набор различных методов скоринговой аналитики чтобы исследовать все поддерживающие доказательства

bull Evidence Retrieval ndash извлечение доказательств

Чтобы лучше исследовать каждого кандидата прошедшего через мягкую фильтрацию система собирает дополнительные поддерживающие доказательства Архитектура поддерживает интеграцию различных evidence-gathering техник Один из применяемых способов состоит в том что проводится дополнительный поиск в котором кандидат добавляется в качестве required term к первичному запросу извлеченному из вопроса Это будет приводить к получению выражений содержащих кандидата в контексте первичных терминов вопросаПоддерживающие доказательства могут быть извлечены и из других источников например из RDF баз знаний Извлеченные поддерживающие доказательства направляются модули глубокого скоринга которые анализируют кандидата в контексте поддерживающего доказательства

bull Scoring ndash скоринг (количественное оценивание)

Алгоритмы скоринга определяют степень несомненности которую обеспечивают доказательства в поддержку кандидата The DeepQA framework поддерживает множество компонент для выработки оценки в различных измерениях каждого доказательства которая вырабатывает оценку связанную с тем насколько хорошо доказательство поддерживает кандидата на ответ в качестве ответа на заданный вопросDeepQA использует общий формат для оценок для принятых гипотез и подтверждающих оценок отражающих семантические и ограничивающие факторы Это позволяет разработчикам DeepQA быстро разворачивать перемешивать и настраивать сложные совокупности модуле для обработкиНапрмер Watson использует больше чем 50 скоринговых компонент Они производят оценки разноготипа от оценок вероятностей до подсчета категориальных свойств основанных на доказательствах от различных источников включая неструктурированные тексты полуструктурированные тексты и RDF хранилища Эти оценки используют такие данные как degree of match between a passagersquos predicate-argument structure and the question passage source reliability geospatial location temporal relationships taxonomic classification the lexical and semantic relations the candidate is known to participate in the candidatersquos correlation with question terms its popularity (or obscurity) its aliases and so on

Вопрос Чили имеет самую длинную общую границу со страной Сгенерировано несколько кандидатов среди них Аргентина и Боливия Первичный поиск даст приоритет Боливии из=а популярности обсуждений их отношений Однако собранные Watson доказательства из других источников показывают более высокую оценку для Аргентины

Скоринг (взвешивание) доказательств ndash предиктивная аналитика

- При делении клеток митозом называется деление ядра а цитокинезом ndash деление этой жидкости в которой находится ядро

Генерирование кандидатов Сбор доказательств Уверенность в доказательстве

ОрганеллыВакуольЦитоплазмаПлазмамитохондрии

Органеллы ndash не жидкостьВакуоль ndash не жидкостьЦитоплазма ndash возможно жидкостьПлазма ndash не жидкостьМитохондрии ndash не жидкость

Цитоплазма ndash 92Органеллы ndash 19Вакуоль ndash 10Плазма ndash 2Митохондрии ndash 2

Answer Merging ndash объединение ответов

Многие кандидаты в ответы на поставленный вопрос могут быть эквивалентны несмотря на различные внешне формыТехники ранжирования тем не менее рассматривают таких кандидатов как различные Без объединения алгоритмы ранжирования будут работать отдельно с эквивалентными сущностями и пытаться противопоставить одну форму другой Это приведет к проблемам принятия решений Watson содержит алгоритмы идентификации эквивалентных сущностей используя множественные сравнения нормализацию и методы разрешения совместных ссылок

Ranking and Confidence Estimation ndash ранжирование и оценивание доверияПосле объединения система должна произвести ранжирование гипотез и оценивает доверие основанное на объединенных оценках В системе подобран ML подход основанный на обучении на обучающем наборе вопросов с известными ответами и обучение модели основываясь на скоринге Применяется как весьма плоская модель и существующие алгоритмы ранжирования Для более тонких оценок применяется двухфазный процесс использующий группы оценок для оценивания профиля и для оценки доверия Используя эту промежуточную модель система производит ансамбль промежуточных оценок Здесь используется иерархическая техника метаучителя и коллектива экспертов Этот подход обеспечивает итеративное расширение обучения используя изощренные и глубокие иерархические модели обеспечивающие гибкость и робастность при выработке оценок и модифицирует системуМетаучитель в Watson использует набор многие обучаемые модели чтобы управлять различными классами вопросов которые могут быть критическими при идентификации правильных ответовНаконец важно что использование NLP-based скоринга дает весьма разреженные оценки и требует точного оценивания с применением confidence-weighted learning techniques

Развертывание Watson

bull DeepQA разработан используя Apache UIMA - framework implementation of the Unstructured Information Management Architecture (Ferrucci and Lally 2004) UIMA был разработан для поддержки взаимодействия и масштабирования приложений обработки текста и мультимодального анализа Все компоненты DeepQA имплементированы как UIMA annotators Это программные компоненты для анализа текста и получения аннотаций или заключений о тексте Watson развивался в процессе разработки от нескольких компонент до нескольких сотен UIMA обеспечивает быструю интеграцию компонент тестирование и исследование

bull Начальная имплементация Watson запускалась на одном процессоре и требовала 2 часа на ответ на один вопрос DeepQA развился в параллельную систему используя UIMA-AS часть Apache UIMA масштабируя приложения UIMA используя асинхронный механизм месседжинга UIMA-AS позволила масштабировать Watson более чем на 2500 вычислительных ядер UIMA-AS управляет коммуникациями месседжингом управлением запросами используя open JMS standard UIMA-AS позволил снизить латентность Watson до 3ndash5 секунд

bull Для препроцессинга корпуса текстов создания быстрых run-time indices использован Hadoop

UIMA annotators были развернуты как mapper ы в Hadoop map-reduce framework Hadoop распределяет контент по кластеру для обеспечения высокого использования CPU и обеспечивает подходящий набор инструментов для deploying managing and monitoring the corpus analysis process

bull Аппаратная платформа ndash это 90 серверов 2800 ядер 15 ТБ RAM 80 Тфлопс $3 000 000 10 R

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 37: !Predictive analytics part_3

Пример 4 create some filestd = tempfile()dircreate(td)write( c(dog cat mouse) file=paste(td D1 sep=) )write( c(hamster mouse sushi) file=paste(td D2 sep=) )write( c(dog monster monster) file=paste(td D3 sep=) ) read them create a document-term matrixtextmatrix(td) read them drop german stopwordsdata(stopwords_de)textmatrix(td stopwords=stopwords_de) read them based on a controlled vocabularyvoc = c(dog mouse)textmatrix(td vocabulary=voc minWordLength=1) clean up

Вместо заключения Очевидным недостатком LSA является ненормальность (негаусовость) вероятностного распределения слов в любом естественном языке Но эту проблему можно решить сглаживанием выборки (например применив фонетические слова распределение становится более laquoнормальнымraquo) Либо используют вероятностный LSA тназ PLSA основанный на мультиноминальном распределении Другим менее очевидным недостаткам LSA (и ему подобных методов) применительно к обработке неструктурированной информации можно отнести laquoтуманностьraquo самого метода (в частности выбора кол-ва сингулярных значений диагональной матрицы) и интерпретации результата не говоря уже о проблеме сбалансированности обучающего текста

Как правило для качественного построения модели оставляют менее 1-2 процента от общего числа диагональных значений (после SVD преобразования но об это в следующем посте) И как показывает практика увеличение числа факторов приводит к ухудшению результата Но дойдя примерно до 10 процентов от общего числа диагональных значений опять может быть всплеск аналогичный результату полученному при 1

Сбалансированность корпуса ndash вечная проблема которая не имеет хорошего решения на сегодняшний день Поэтому про нее приято помалкивать

Интерпретируемость результатов LSA (как и DLA) также затруднительна человек еще может понять что за тематику будет содержать топик полученный в результате анализа а вот машине не понять (не аннотировать) тематику без привлечения большого числа хороших и разных тезаурусов

Таким образом несмотря на трудоемкость и непрозрачность LSA он может успешно применяться для разного рада задач где важно поймать семантику сообщения обобщить или расширить laquoсмыслыraquo поискового запроса

bull Стандарт основанный на XML для обмена моделями статистической обработки Data Mining

bull Поддерживается более 20 организациями и поставщиками ПО

bull Реализован в частности и в R

Поддерживаемые предиктивные алгоритмы в R

Состав pmml package

bull addLT

bull addMSAttributes

bull audit

bull fileToXMLNode

bull pmml

bull pmmlada

bull pmmlcoxph

bull pmmlcvglmnet

bull pmmlglm

bull pmmlhclust

bull pmmlkmeans

bull pmmlksvm

bull pmmllm bull pmmlmultinom bull pmmlnaiveBayes bull pmmlnnet bull pmmlrandomForest bull pmmlrfsrc bull pmmlrpart bull pmmlrules bull pmmlsvm bull pmmlCanExport bull pmmltoc

Пример

Good by R see you later alligator

WATSON ndash одно из наиболее впечатляющих применений предиктивной аналитики

Разрабатывался компанией IBM с 2006 по 2010 годПрославился победой в телешоу Jeopardy (в России ndash laquoСвоя играraquo) в 2011 годуПредшественник Deep Blue обыграл чемпиона мира по шахматам Гарри Каспарова в 1997 г

>

IBM Deep QA Project

bull Целью проекта было создать компьютерную систему (ИИ) для ответа на вопросы (QA) задаваемые в свободной форме в телешоу и показать результаты соизмеримые с человеческими

bull Задача более сложная чем шахматная программа Deep Blue выигравшая у Каспарова в 1997 г

bull Вопросы по категориямCategory General ScienceClue When hit by electrons a phosphor gives off electromagnetic energy in this formAnswer Light (or Photons)

Category Lincoln BlogsClue Secretary Chase just submitted this to me for the third time guess what pal This time Irsquom accepting itAnswer his resignation

Category Head NorthClue Theyrsquore the two states you could be reentering if yoursquore crossing Floridarsquos northern borderAnswer Georgia and Alabama

Вопросы могут касаться сразу нескольких фактов чтобы ответ был вернымCategory ldquoRaprdquo SheetClue This archaic term for a mischievous or annoying child can also mean a rogue or scampSubclue 1 This archaic term for a mischievous or annoying childSubclue 2 This term can also mean a rogue or scampAnswer Rapscallion

Category Diplomatic RelationsClue Of the four countries in the world that the United States does not have diplomatic relations with the one thatrsquos farthest northInner subclue The four countries in the world that the United States does not have diplomatic relations with (Bhutan Cuba Iran North Korea)Outer subclue Of Bhutan Cuba Iran and North Korea the one thatrsquos farthest northAnswer North Korea

Вопросы - пазлы

Category Before and After Goes to the MoviesClue Film of a typical day in the life of the Beatles which includes running from bloodthirsty zombie fans in a Romero classicSubclue 2 Film of a typical day in the life of the Beatles Answer 1 (A Hard Dayrsquos Night)Subclue 2 Running from bloodthirsty zombie fans in a Romero classicAnswer 2 (Night of the Living Dead)Answer A Hard Dayrsquos Night of the Living Dead

Category Rhyme TimeClue Itrsquos where Pele stores his ballSubclue 1 Pele ball (soccer)Subclue 2 where store (cabinet drawer locker and so on)Answer soccer locker

Недопустимые типы вопросов

oCategory Picture This(Contestants are shown a picture of a B-52 bomber)Clue Alphanumeric name of the fearsome machine seen hereAnswer B-52

oCategory Decode the Postal CodesVerbal instruction from host Wersquore going to give you a word comprising two postal abbreviations you have to identify the statesClue VainAnswer Virginia and Indiana

Лексические типы ответа ndash LAT (Lexical Answer Type)

Метрики качества ответов - результативность

Показатели двух теоретических QA систем

Показатели результативности чемпионов шоу (2000)

Облако победителей

Линия сравнения результативности (baseline performance)

Сравнение системы тестового поиска и поиска в базе знаний

Результативность Watson (по версиям)

Основы подхода Deep QA

bull Massive parallelism использование высокого параллелизма при рассмотрении множественных интерпретаций и гипотез

bull Many experts привлечение интеграции приложения и контекстуального оценивания в широком диапазоне слабосвязанных вероятностных вопросов и контентной аналитики

bull Pervasive confidence estimation повсеместная оценка доверия означает что ни один из компонентов не включается в ответ сразу все компоненты имеют признаки и связанные с ними уровни доверия производится скоринг различных вопросов и контентная интерпретация Основа confidence-processing состоит в обучении как стэкировать и комбинировать баллы

bull Integrate shallow and deep knowledge интеграция поверхностных и глубинных знаний состоит в балансе использования строгой семантики и мелких семантик использующих множества слабо сформированных онтологий

bull Content Acquisition - Сбор контентаСочетает ручные и автоматические этапы Первым шагом является анализ примеров вопросов проблемного пространства чтобы произвести описание видов вопросов на которые нужно ответить и характеризовать область применения Анализ примеров вопросов в первую очередь ручная задача в то время как анализ области может быть выполнен путем автоматических или статистических методов таких как анализ LAT показанный ранее Учитывая вопросы для широкого домена Jeopardy Challenge источники для Watson включают широкий ассортимент энциклопедий словарей тезаурусов Newswire статьи литературные произведения и тд Начиная с разумного размера базового корпуса DeepQA затем применяет автоматический процесс расширения корпуса Процесс включает в себя четыре этапа высокого уровня (1) выявления основных документов и получить соответствующие документы из Интернет (2) извлечь автономные текстовые ядра из связанных веб-документов (3) Оценка на основе ядер являются ли они информативны по отношению к исходному основному документу и (4) объединить наиболее информативные ядра в расширенном корпусе Работающая система использует этот расширенный корпус и не имеет доступа к Интернет во время игры

bull Question Analysis ndash Анализ вопроса

Первый шаг во время выполнения процесса вопрос-ответной системы При анализе вопроса система пытается понять что вопрос задан и выполняет начальный анализ определяющий как вопрос будет обработан на остальных этапах работы системы Подход DeepQA использует смешанный набор экспертов на данном этапе и в системе Watson производится мелкий парсинг глубокий парсинг строятся логические формы семантические этикетки ролей взаимные ссылки отношения именованные сущности и так далее а также конкретные виды анализа для ответа вопрос

bull Question classification - Классификация вопроса

Это задача выявления типа вопроса или частей вопроса которые требуют специальной обработки Это может включать в себя что-нибудь из отдельных слов с двойным смыслом и потенциально до выявления целых статей которые имеют определенную синтаксическую семантическую или риторические функциональные возможности которые могут инициировать нисходящий анализ Классификация может определить вопрос как вопрос- головоломку вопрос-математику -определение и так далее Это будет определять каламбуры ограничения компоненты определений или целые подвопросы в пределах вопросов

bull Focus and LAT Detection ndash Определение фокуса и лексического типа ответа

Лексический тип ответа - это слово или словосочетание в вопросе который определяет тип ответа без попытки понять семантику Определение LAT является важным видом выигрыша и общим источником критических ошибок Преимущество подхода DeepQA является использование многих самостоятельно разработанных алгоритмов laquoответ-типированияraquo Например фокус вопроса викторины laquoПри попадании электронов люминофор излучает электромагнитную энергию в этой формеraquo - является laquoэта формаraquo Фокус часто (но не всегда) содержит полезную информацию об ответе часто субъект или объект отношение в вопросе и может превратить вопрос в фактическое утверждение при замене возможным кандидатом Это представляет полезный способ собирать доказательства о каждом кандидате

bull Relation Detection ndash детектирование отношений

Большинство вопросов содержит отношения являются ли они синтаксическими предикатами субъект-глагол-объект или семантические отношения между субъектами Например в вопросе laquoЕсть два штата в которые вы могли бы войти повторно если вы пересекаете северную границу штата Флоридаraquo мы можем обнаружить отношение границы (Флорида Х к северу) Watson использует обнаружение отношения на протяжении всего процесса QA от фокуса и LAT определения до прохождению и скорингу ответов Watson также может использовать обнаруженные отношения для выделения хранилища триплетов и напрямую генерировать кандидатов в ответы В 20000 игр Jeopardy вопросы например обнаружили распределение Freebase отношений чрезвычайно плоского вида (см рисунок) Это приближение распределеня 50 наиболее частых отношений в 20 000 случайно выбранных вопросах викторины

bull Decomposition ndash декомпозиция

Важным требованием успеха анализа Jeopardy является способность отвечать на вопросы которые разложены на составляющие DeepQA использует основанный на правилах глубокий парсинг и статистические методы классификации чтобы наилучшим образом разложить вопросы на элементы и определить как лучше разбить их на подвопросы Операционная гипотеза что правильная интерпретация вопроса позволит лучше произвести скоринг ответов после того как все доказательства собраны Даже если вопрос не должен быть разложен для определения ответа этот метод может помочь улучшить общее доверие ответу системы DeepQA решает задачи параллельно для каждого разложения применяя алгоритмы от начала до конца каждого подвопроса и синтезирует окончательные ответы DeepQA также поддерживает вложенные декомпозиции вопросов через рекурсивное применение QA системы от начала до конца в внутреннем подвопросе а затем во внешнем Настраиваемые компоненты позволяют легко подключать специализированные алгоритмы синтеза в общую систему

bull Hypothesis Generation ndash генерация гипотез

Генерация гипотез принимает результаты анализа вопросов и производит кандидатов на ответы Каждый кандидат ответ включается обратно в вопрос и это считается как гипотеза Система должна доказать правильность этой гипотезы с некоторой степенью уверенности Как и во всех аспектах DeepQA используется смесь разных подходов для первичного поиска и генерации кандидата в системе Watson

bull Primary Search ndash первичный поиск

В этом поиске целью является найти столько потенциально кандидатов сколько это можно сделать на основе результатов анализа вопроса В течение проекта велись эмпирические исследования направленные на баланс скорости объема и точности Эти исследования позволили регулярно настраивать систему так чтобы найти такое количество кандидатов которые производят наилучший баланс точности и вычислительных ресурсов Оперативная цель основного поиска в конечном счете стабилизировалась на около 85 процентов для топ-250 кандидатов то есть система генерирует правильный ответ как кандидата ответа на 85 процентов вопросов где-то в верхних 250 ранжированных кандидатов Разнообразие методов поиска используются в том числе с использованием нескольких текст поисковых системах с различными базовыми подходами (например Indri и Lucene) поиск документов а также поиска маршрута база знаний поиска с помощью SPARQL хранилища триплетов Для небольшого количества латов которые были определены как закрытые латы кандидат на ответ может быть получен из фиксированного списка в каком-то хранилище известных экземпляров LAT таких как США Президент или Страна

Поиск доказательств

bull Поиск по фразе ndash число соответствий разного типав ответе и вопросеbull Популярность ndash как часто встречается этот вариант ответаbull Соответствие по типу ndash ответ и требование вопросаbull Соответствие по времениbull Надежность источника

bull Candidate Answer Generation ndash генерирование кандидатов на ответ

Результаты поиска применяются для генерирования возможных кандидатов в ответы с помощью различных подходящих техник Для поиска документов извлекаются заголовки и используются как кандидаты Число кандидатов при этом может быть не единственным и требовать использования анализа подстрок и ссылок Используя детектирование именованных сущностей в ряде случаев удается извлечь хороших кандидатов В зависимости от типа источника для генерирования кандидата требуется разный набор алгоритмов например база знаний или обратный словарь порождают кандидатов непосредственно как кандидата Этот этап критически важен и если кандидаты не найдены то фиксируется невозможность ответа В нормальном режиме на этом этапе Watson гененерирует несколько сотен андидатов

bull Soft Filtering ndash мягкая фильтрацияДля ускорения процесса скоринга кандидатов Watson использует различные алгоритмы разной точности Более легковесные (менее вычислительно интенсивные) применяются на первом этапе скоринга На этом этапе устанавливается порог оценки и кандидаты имеющие более высокую оценку считаются прошедшими мягкую фильтрацию Они поступают на выработку гипотез и скоринг доказательств Интересно что кандидаты не прошедшие порог мягкой фильтрации не забываются а направляются прямо на финальный этап слияния Модель скоринга мягкой фильтрации и порога определяются на основе machine learning используя обучающие данные Watson типично пропускает через мягкую фильтрацию 100 кандидатов но эта функция параметризована и их число можно изменить

Проблемы NLP

bull В мае 1898 года Португалия отмечала 400-летний юбилей со дня прибытия этого великого путешественника в Индию

В мае Гари прибыл в Индию после празднования своего юбилея в Португалии

21 мая 1498 года Васка де Гама высадился в местечке Каппад

bull Он был помилован президентом 8 сентября 1974 годаФорд помиловал Никсона 8 сентября 1974 года Никсон Форд

bull Говоря ldquogive a trinklerdquo что предлагают вам сделать британцы по приезду в город

bull Hypothesis and Evidence Scoring ndash скоринг гипотез и доказательств

Прошедшие порог мягкой фильтрации кандидаты поступают на скрупулезный процесс который включает сбор дополнительных поддерживающих доказательств для каждого кандидата на ответ или гипотезу Процесс использует широкий набор различных методов скоринговой аналитики чтобы исследовать все поддерживающие доказательства

bull Evidence Retrieval ndash извлечение доказательств

Чтобы лучше исследовать каждого кандидата прошедшего через мягкую фильтрацию система собирает дополнительные поддерживающие доказательства Архитектура поддерживает интеграцию различных evidence-gathering техник Один из применяемых способов состоит в том что проводится дополнительный поиск в котором кандидат добавляется в качестве required term к первичному запросу извлеченному из вопроса Это будет приводить к получению выражений содержащих кандидата в контексте первичных терминов вопросаПоддерживающие доказательства могут быть извлечены и из других источников например из RDF баз знаний Извлеченные поддерживающие доказательства направляются модули глубокого скоринга которые анализируют кандидата в контексте поддерживающего доказательства

bull Scoring ndash скоринг (количественное оценивание)

Алгоритмы скоринга определяют степень несомненности которую обеспечивают доказательства в поддержку кандидата The DeepQA framework поддерживает множество компонент для выработки оценки в различных измерениях каждого доказательства которая вырабатывает оценку связанную с тем насколько хорошо доказательство поддерживает кандидата на ответ в качестве ответа на заданный вопросDeepQA использует общий формат для оценок для принятых гипотез и подтверждающих оценок отражающих семантические и ограничивающие факторы Это позволяет разработчикам DeepQA быстро разворачивать перемешивать и настраивать сложные совокупности модуле для обработкиНапрмер Watson использует больше чем 50 скоринговых компонент Они производят оценки разноготипа от оценок вероятностей до подсчета категориальных свойств основанных на доказательствах от различных источников включая неструктурированные тексты полуструктурированные тексты и RDF хранилища Эти оценки используют такие данные как degree of match between a passagersquos predicate-argument structure and the question passage source reliability geospatial location temporal relationships taxonomic classification the lexical and semantic relations the candidate is known to participate in the candidatersquos correlation with question terms its popularity (or obscurity) its aliases and so on

Вопрос Чили имеет самую длинную общую границу со страной Сгенерировано несколько кандидатов среди них Аргентина и Боливия Первичный поиск даст приоритет Боливии из=а популярности обсуждений их отношений Однако собранные Watson доказательства из других источников показывают более высокую оценку для Аргентины

Скоринг (взвешивание) доказательств ndash предиктивная аналитика

- При делении клеток митозом называется деление ядра а цитокинезом ndash деление этой жидкости в которой находится ядро

Генерирование кандидатов Сбор доказательств Уверенность в доказательстве

ОрганеллыВакуольЦитоплазмаПлазмамитохондрии

Органеллы ndash не жидкостьВакуоль ndash не жидкостьЦитоплазма ndash возможно жидкостьПлазма ndash не жидкостьМитохондрии ndash не жидкость

Цитоплазма ndash 92Органеллы ndash 19Вакуоль ndash 10Плазма ndash 2Митохондрии ndash 2

Answer Merging ndash объединение ответов

Многие кандидаты в ответы на поставленный вопрос могут быть эквивалентны несмотря на различные внешне формыТехники ранжирования тем не менее рассматривают таких кандидатов как различные Без объединения алгоритмы ранжирования будут работать отдельно с эквивалентными сущностями и пытаться противопоставить одну форму другой Это приведет к проблемам принятия решений Watson содержит алгоритмы идентификации эквивалентных сущностей используя множественные сравнения нормализацию и методы разрешения совместных ссылок

Ranking and Confidence Estimation ndash ранжирование и оценивание доверияПосле объединения система должна произвести ранжирование гипотез и оценивает доверие основанное на объединенных оценках В системе подобран ML подход основанный на обучении на обучающем наборе вопросов с известными ответами и обучение модели основываясь на скоринге Применяется как весьма плоская модель и существующие алгоритмы ранжирования Для более тонких оценок применяется двухфазный процесс использующий группы оценок для оценивания профиля и для оценки доверия Используя эту промежуточную модель система производит ансамбль промежуточных оценок Здесь используется иерархическая техника метаучителя и коллектива экспертов Этот подход обеспечивает итеративное расширение обучения используя изощренные и глубокие иерархические модели обеспечивающие гибкость и робастность при выработке оценок и модифицирует системуМетаучитель в Watson использует набор многие обучаемые модели чтобы управлять различными классами вопросов которые могут быть критическими при идентификации правильных ответовНаконец важно что использование NLP-based скоринга дает весьма разреженные оценки и требует точного оценивания с применением confidence-weighted learning techniques

Развертывание Watson

bull DeepQA разработан используя Apache UIMA - framework implementation of the Unstructured Information Management Architecture (Ferrucci and Lally 2004) UIMA был разработан для поддержки взаимодействия и масштабирования приложений обработки текста и мультимодального анализа Все компоненты DeepQA имплементированы как UIMA annotators Это программные компоненты для анализа текста и получения аннотаций или заключений о тексте Watson развивался в процессе разработки от нескольких компонент до нескольких сотен UIMA обеспечивает быструю интеграцию компонент тестирование и исследование

bull Начальная имплементация Watson запускалась на одном процессоре и требовала 2 часа на ответ на один вопрос DeepQA развился в параллельную систему используя UIMA-AS часть Apache UIMA масштабируя приложения UIMA используя асинхронный механизм месседжинга UIMA-AS позволила масштабировать Watson более чем на 2500 вычислительных ядер UIMA-AS управляет коммуникациями месседжингом управлением запросами используя open JMS standard UIMA-AS позволил снизить латентность Watson до 3ndash5 секунд

bull Для препроцессинга корпуса текстов создания быстрых run-time indices использован Hadoop

UIMA annotators были развернуты как mapper ы в Hadoop map-reduce framework Hadoop распределяет контент по кластеру для обеспечения высокого использования CPU и обеспечивает подходящий набор инструментов для deploying managing and monitoring the corpus analysis process

bull Аппаратная платформа ndash это 90 серверов 2800 ядер 15 ТБ RAM 80 Тфлопс $3 000 000 10 R

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 38: !Predictive analytics part_3

Вместо заключения Очевидным недостатком LSA является ненормальность (негаусовость) вероятностного распределения слов в любом естественном языке Но эту проблему можно решить сглаживанием выборки (например применив фонетические слова распределение становится более laquoнормальнымraquo) Либо используют вероятностный LSA тназ PLSA основанный на мультиноминальном распределении Другим менее очевидным недостаткам LSA (и ему подобных методов) применительно к обработке неструктурированной информации можно отнести laquoтуманностьraquo самого метода (в частности выбора кол-ва сингулярных значений диагональной матрицы) и интерпретации результата не говоря уже о проблеме сбалансированности обучающего текста

Как правило для качественного построения модели оставляют менее 1-2 процента от общего числа диагональных значений (после SVD преобразования но об это в следующем посте) И как показывает практика увеличение числа факторов приводит к ухудшению результата Но дойдя примерно до 10 процентов от общего числа диагональных значений опять может быть всплеск аналогичный результату полученному при 1

Сбалансированность корпуса ndash вечная проблема которая не имеет хорошего решения на сегодняшний день Поэтому про нее приято помалкивать

Интерпретируемость результатов LSA (как и DLA) также затруднительна человек еще может понять что за тематику будет содержать топик полученный в результате анализа а вот машине не понять (не аннотировать) тематику без привлечения большого числа хороших и разных тезаурусов

Таким образом несмотря на трудоемкость и непрозрачность LSA он может успешно применяться для разного рада задач где важно поймать семантику сообщения обобщить или расширить laquoсмыслыraquo поискового запроса

bull Стандарт основанный на XML для обмена моделями статистической обработки Data Mining

bull Поддерживается более 20 организациями и поставщиками ПО

bull Реализован в частности и в R

Поддерживаемые предиктивные алгоритмы в R

Состав pmml package

bull addLT

bull addMSAttributes

bull audit

bull fileToXMLNode

bull pmml

bull pmmlada

bull pmmlcoxph

bull pmmlcvglmnet

bull pmmlglm

bull pmmlhclust

bull pmmlkmeans

bull pmmlksvm

bull pmmllm bull pmmlmultinom bull pmmlnaiveBayes bull pmmlnnet bull pmmlrandomForest bull pmmlrfsrc bull pmmlrpart bull pmmlrules bull pmmlsvm bull pmmlCanExport bull pmmltoc

Пример

Good by R see you later alligator

WATSON ndash одно из наиболее впечатляющих применений предиктивной аналитики

Разрабатывался компанией IBM с 2006 по 2010 годПрославился победой в телешоу Jeopardy (в России ndash laquoСвоя играraquo) в 2011 годуПредшественник Deep Blue обыграл чемпиона мира по шахматам Гарри Каспарова в 1997 г

>

IBM Deep QA Project

bull Целью проекта было создать компьютерную систему (ИИ) для ответа на вопросы (QA) задаваемые в свободной форме в телешоу и показать результаты соизмеримые с человеческими

bull Задача более сложная чем шахматная программа Deep Blue выигравшая у Каспарова в 1997 г

bull Вопросы по категориямCategory General ScienceClue When hit by electrons a phosphor gives off electromagnetic energy in this formAnswer Light (or Photons)

Category Lincoln BlogsClue Secretary Chase just submitted this to me for the third time guess what pal This time Irsquom accepting itAnswer his resignation

Category Head NorthClue Theyrsquore the two states you could be reentering if yoursquore crossing Floridarsquos northern borderAnswer Georgia and Alabama

Вопросы могут касаться сразу нескольких фактов чтобы ответ был вернымCategory ldquoRaprdquo SheetClue This archaic term for a mischievous or annoying child can also mean a rogue or scampSubclue 1 This archaic term for a mischievous or annoying childSubclue 2 This term can also mean a rogue or scampAnswer Rapscallion

Category Diplomatic RelationsClue Of the four countries in the world that the United States does not have diplomatic relations with the one thatrsquos farthest northInner subclue The four countries in the world that the United States does not have diplomatic relations with (Bhutan Cuba Iran North Korea)Outer subclue Of Bhutan Cuba Iran and North Korea the one thatrsquos farthest northAnswer North Korea

Вопросы - пазлы

Category Before and After Goes to the MoviesClue Film of a typical day in the life of the Beatles which includes running from bloodthirsty zombie fans in a Romero classicSubclue 2 Film of a typical day in the life of the Beatles Answer 1 (A Hard Dayrsquos Night)Subclue 2 Running from bloodthirsty zombie fans in a Romero classicAnswer 2 (Night of the Living Dead)Answer A Hard Dayrsquos Night of the Living Dead

Category Rhyme TimeClue Itrsquos where Pele stores his ballSubclue 1 Pele ball (soccer)Subclue 2 where store (cabinet drawer locker and so on)Answer soccer locker

Недопустимые типы вопросов

oCategory Picture This(Contestants are shown a picture of a B-52 bomber)Clue Alphanumeric name of the fearsome machine seen hereAnswer B-52

oCategory Decode the Postal CodesVerbal instruction from host Wersquore going to give you a word comprising two postal abbreviations you have to identify the statesClue VainAnswer Virginia and Indiana

Лексические типы ответа ndash LAT (Lexical Answer Type)

Метрики качества ответов - результативность

Показатели двух теоретических QA систем

Показатели результативности чемпионов шоу (2000)

Облако победителей

Линия сравнения результативности (baseline performance)

Сравнение системы тестового поиска и поиска в базе знаний

Результативность Watson (по версиям)

Основы подхода Deep QA

bull Massive parallelism использование высокого параллелизма при рассмотрении множественных интерпретаций и гипотез

bull Many experts привлечение интеграции приложения и контекстуального оценивания в широком диапазоне слабосвязанных вероятностных вопросов и контентной аналитики

bull Pervasive confidence estimation повсеместная оценка доверия означает что ни один из компонентов не включается в ответ сразу все компоненты имеют признаки и связанные с ними уровни доверия производится скоринг различных вопросов и контентная интерпретация Основа confidence-processing состоит в обучении как стэкировать и комбинировать баллы

bull Integrate shallow and deep knowledge интеграция поверхностных и глубинных знаний состоит в балансе использования строгой семантики и мелких семантик использующих множества слабо сформированных онтологий

bull Content Acquisition - Сбор контентаСочетает ручные и автоматические этапы Первым шагом является анализ примеров вопросов проблемного пространства чтобы произвести описание видов вопросов на которые нужно ответить и характеризовать область применения Анализ примеров вопросов в первую очередь ручная задача в то время как анализ области может быть выполнен путем автоматических или статистических методов таких как анализ LAT показанный ранее Учитывая вопросы для широкого домена Jeopardy Challenge источники для Watson включают широкий ассортимент энциклопедий словарей тезаурусов Newswire статьи литературные произведения и тд Начиная с разумного размера базового корпуса DeepQA затем применяет автоматический процесс расширения корпуса Процесс включает в себя четыре этапа высокого уровня (1) выявления основных документов и получить соответствующие документы из Интернет (2) извлечь автономные текстовые ядра из связанных веб-документов (3) Оценка на основе ядер являются ли они информативны по отношению к исходному основному документу и (4) объединить наиболее информативные ядра в расширенном корпусе Работающая система использует этот расширенный корпус и не имеет доступа к Интернет во время игры

bull Question Analysis ndash Анализ вопроса

Первый шаг во время выполнения процесса вопрос-ответной системы При анализе вопроса система пытается понять что вопрос задан и выполняет начальный анализ определяющий как вопрос будет обработан на остальных этапах работы системы Подход DeepQA использует смешанный набор экспертов на данном этапе и в системе Watson производится мелкий парсинг глубокий парсинг строятся логические формы семантические этикетки ролей взаимные ссылки отношения именованные сущности и так далее а также конкретные виды анализа для ответа вопрос

bull Question classification - Классификация вопроса

Это задача выявления типа вопроса или частей вопроса которые требуют специальной обработки Это может включать в себя что-нибудь из отдельных слов с двойным смыслом и потенциально до выявления целых статей которые имеют определенную синтаксическую семантическую или риторические функциональные возможности которые могут инициировать нисходящий анализ Классификация может определить вопрос как вопрос- головоломку вопрос-математику -определение и так далее Это будет определять каламбуры ограничения компоненты определений или целые подвопросы в пределах вопросов

bull Focus and LAT Detection ndash Определение фокуса и лексического типа ответа

Лексический тип ответа - это слово или словосочетание в вопросе который определяет тип ответа без попытки понять семантику Определение LAT является важным видом выигрыша и общим источником критических ошибок Преимущество подхода DeepQA является использование многих самостоятельно разработанных алгоритмов laquoответ-типированияraquo Например фокус вопроса викторины laquoПри попадании электронов люминофор излучает электромагнитную энергию в этой формеraquo - является laquoэта формаraquo Фокус часто (но не всегда) содержит полезную информацию об ответе часто субъект или объект отношение в вопросе и может превратить вопрос в фактическое утверждение при замене возможным кандидатом Это представляет полезный способ собирать доказательства о каждом кандидате

bull Relation Detection ndash детектирование отношений

Большинство вопросов содержит отношения являются ли они синтаксическими предикатами субъект-глагол-объект или семантические отношения между субъектами Например в вопросе laquoЕсть два штата в которые вы могли бы войти повторно если вы пересекаете северную границу штата Флоридаraquo мы можем обнаружить отношение границы (Флорида Х к северу) Watson использует обнаружение отношения на протяжении всего процесса QA от фокуса и LAT определения до прохождению и скорингу ответов Watson также может использовать обнаруженные отношения для выделения хранилища триплетов и напрямую генерировать кандидатов в ответы В 20000 игр Jeopardy вопросы например обнаружили распределение Freebase отношений чрезвычайно плоского вида (см рисунок) Это приближение распределеня 50 наиболее частых отношений в 20 000 случайно выбранных вопросах викторины

bull Decomposition ndash декомпозиция

Важным требованием успеха анализа Jeopardy является способность отвечать на вопросы которые разложены на составляющие DeepQA использует основанный на правилах глубокий парсинг и статистические методы классификации чтобы наилучшим образом разложить вопросы на элементы и определить как лучше разбить их на подвопросы Операционная гипотеза что правильная интерпретация вопроса позволит лучше произвести скоринг ответов после того как все доказательства собраны Даже если вопрос не должен быть разложен для определения ответа этот метод может помочь улучшить общее доверие ответу системы DeepQA решает задачи параллельно для каждого разложения применяя алгоритмы от начала до конца каждого подвопроса и синтезирует окончательные ответы DeepQA также поддерживает вложенные декомпозиции вопросов через рекурсивное применение QA системы от начала до конца в внутреннем подвопросе а затем во внешнем Настраиваемые компоненты позволяют легко подключать специализированные алгоритмы синтеза в общую систему

bull Hypothesis Generation ndash генерация гипотез

Генерация гипотез принимает результаты анализа вопросов и производит кандидатов на ответы Каждый кандидат ответ включается обратно в вопрос и это считается как гипотеза Система должна доказать правильность этой гипотезы с некоторой степенью уверенности Как и во всех аспектах DeepQA используется смесь разных подходов для первичного поиска и генерации кандидата в системе Watson

bull Primary Search ndash первичный поиск

В этом поиске целью является найти столько потенциально кандидатов сколько это можно сделать на основе результатов анализа вопроса В течение проекта велись эмпирические исследования направленные на баланс скорости объема и точности Эти исследования позволили регулярно настраивать систему так чтобы найти такое количество кандидатов которые производят наилучший баланс точности и вычислительных ресурсов Оперативная цель основного поиска в конечном счете стабилизировалась на около 85 процентов для топ-250 кандидатов то есть система генерирует правильный ответ как кандидата ответа на 85 процентов вопросов где-то в верхних 250 ранжированных кандидатов Разнообразие методов поиска используются в том числе с использованием нескольких текст поисковых системах с различными базовыми подходами (например Indri и Lucene) поиск документов а также поиска маршрута база знаний поиска с помощью SPARQL хранилища триплетов Для небольшого количества латов которые были определены как закрытые латы кандидат на ответ может быть получен из фиксированного списка в каком-то хранилище известных экземпляров LAT таких как США Президент или Страна

Поиск доказательств

bull Поиск по фразе ndash число соответствий разного типав ответе и вопросеbull Популярность ndash как часто встречается этот вариант ответаbull Соответствие по типу ndash ответ и требование вопросаbull Соответствие по времениbull Надежность источника

bull Candidate Answer Generation ndash генерирование кандидатов на ответ

Результаты поиска применяются для генерирования возможных кандидатов в ответы с помощью различных подходящих техник Для поиска документов извлекаются заголовки и используются как кандидаты Число кандидатов при этом может быть не единственным и требовать использования анализа подстрок и ссылок Используя детектирование именованных сущностей в ряде случаев удается извлечь хороших кандидатов В зависимости от типа источника для генерирования кандидата требуется разный набор алгоритмов например база знаний или обратный словарь порождают кандидатов непосредственно как кандидата Этот этап критически важен и если кандидаты не найдены то фиксируется невозможность ответа В нормальном режиме на этом этапе Watson гененерирует несколько сотен андидатов

bull Soft Filtering ndash мягкая фильтрацияДля ускорения процесса скоринга кандидатов Watson использует различные алгоритмы разной точности Более легковесные (менее вычислительно интенсивные) применяются на первом этапе скоринга На этом этапе устанавливается порог оценки и кандидаты имеющие более высокую оценку считаются прошедшими мягкую фильтрацию Они поступают на выработку гипотез и скоринг доказательств Интересно что кандидаты не прошедшие порог мягкой фильтрации не забываются а направляются прямо на финальный этап слияния Модель скоринга мягкой фильтрации и порога определяются на основе machine learning используя обучающие данные Watson типично пропускает через мягкую фильтрацию 100 кандидатов но эта функция параметризована и их число можно изменить

Проблемы NLP

bull В мае 1898 года Португалия отмечала 400-летний юбилей со дня прибытия этого великого путешественника в Индию

В мае Гари прибыл в Индию после празднования своего юбилея в Португалии

21 мая 1498 года Васка де Гама высадился в местечке Каппад

bull Он был помилован президентом 8 сентября 1974 годаФорд помиловал Никсона 8 сентября 1974 года Никсон Форд

bull Говоря ldquogive a trinklerdquo что предлагают вам сделать британцы по приезду в город

bull Hypothesis and Evidence Scoring ndash скоринг гипотез и доказательств

Прошедшие порог мягкой фильтрации кандидаты поступают на скрупулезный процесс который включает сбор дополнительных поддерживающих доказательств для каждого кандидата на ответ или гипотезу Процесс использует широкий набор различных методов скоринговой аналитики чтобы исследовать все поддерживающие доказательства

bull Evidence Retrieval ndash извлечение доказательств

Чтобы лучше исследовать каждого кандидата прошедшего через мягкую фильтрацию система собирает дополнительные поддерживающие доказательства Архитектура поддерживает интеграцию различных evidence-gathering техник Один из применяемых способов состоит в том что проводится дополнительный поиск в котором кандидат добавляется в качестве required term к первичному запросу извлеченному из вопроса Это будет приводить к получению выражений содержащих кандидата в контексте первичных терминов вопросаПоддерживающие доказательства могут быть извлечены и из других источников например из RDF баз знаний Извлеченные поддерживающие доказательства направляются модули глубокого скоринга которые анализируют кандидата в контексте поддерживающего доказательства

bull Scoring ndash скоринг (количественное оценивание)

Алгоритмы скоринга определяют степень несомненности которую обеспечивают доказательства в поддержку кандидата The DeepQA framework поддерживает множество компонент для выработки оценки в различных измерениях каждого доказательства которая вырабатывает оценку связанную с тем насколько хорошо доказательство поддерживает кандидата на ответ в качестве ответа на заданный вопросDeepQA использует общий формат для оценок для принятых гипотез и подтверждающих оценок отражающих семантические и ограничивающие факторы Это позволяет разработчикам DeepQA быстро разворачивать перемешивать и настраивать сложные совокупности модуле для обработкиНапрмер Watson использует больше чем 50 скоринговых компонент Они производят оценки разноготипа от оценок вероятностей до подсчета категориальных свойств основанных на доказательствах от различных источников включая неструктурированные тексты полуструктурированные тексты и RDF хранилища Эти оценки используют такие данные как degree of match between a passagersquos predicate-argument structure and the question passage source reliability geospatial location temporal relationships taxonomic classification the lexical and semantic relations the candidate is known to participate in the candidatersquos correlation with question terms its popularity (or obscurity) its aliases and so on

Вопрос Чили имеет самую длинную общую границу со страной Сгенерировано несколько кандидатов среди них Аргентина и Боливия Первичный поиск даст приоритет Боливии из=а популярности обсуждений их отношений Однако собранные Watson доказательства из других источников показывают более высокую оценку для Аргентины

Скоринг (взвешивание) доказательств ndash предиктивная аналитика

- При делении клеток митозом называется деление ядра а цитокинезом ndash деление этой жидкости в которой находится ядро

Генерирование кандидатов Сбор доказательств Уверенность в доказательстве

ОрганеллыВакуольЦитоплазмаПлазмамитохондрии

Органеллы ndash не жидкостьВакуоль ndash не жидкостьЦитоплазма ndash возможно жидкостьПлазма ndash не жидкостьМитохондрии ndash не жидкость

Цитоплазма ndash 92Органеллы ndash 19Вакуоль ndash 10Плазма ndash 2Митохондрии ndash 2

Answer Merging ndash объединение ответов

Многие кандидаты в ответы на поставленный вопрос могут быть эквивалентны несмотря на различные внешне формыТехники ранжирования тем не менее рассматривают таких кандидатов как различные Без объединения алгоритмы ранжирования будут работать отдельно с эквивалентными сущностями и пытаться противопоставить одну форму другой Это приведет к проблемам принятия решений Watson содержит алгоритмы идентификации эквивалентных сущностей используя множественные сравнения нормализацию и методы разрешения совместных ссылок

Ranking and Confidence Estimation ndash ранжирование и оценивание доверияПосле объединения система должна произвести ранжирование гипотез и оценивает доверие основанное на объединенных оценках В системе подобран ML подход основанный на обучении на обучающем наборе вопросов с известными ответами и обучение модели основываясь на скоринге Применяется как весьма плоская модель и существующие алгоритмы ранжирования Для более тонких оценок применяется двухфазный процесс использующий группы оценок для оценивания профиля и для оценки доверия Используя эту промежуточную модель система производит ансамбль промежуточных оценок Здесь используется иерархическая техника метаучителя и коллектива экспертов Этот подход обеспечивает итеративное расширение обучения используя изощренные и глубокие иерархические модели обеспечивающие гибкость и робастность при выработке оценок и модифицирует системуМетаучитель в Watson использует набор многие обучаемые модели чтобы управлять различными классами вопросов которые могут быть критическими при идентификации правильных ответовНаконец важно что использование NLP-based скоринга дает весьма разреженные оценки и требует точного оценивания с применением confidence-weighted learning techniques

Развертывание Watson

bull DeepQA разработан используя Apache UIMA - framework implementation of the Unstructured Information Management Architecture (Ferrucci and Lally 2004) UIMA был разработан для поддержки взаимодействия и масштабирования приложений обработки текста и мультимодального анализа Все компоненты DeepQA имплементированы как UIMA annotators Это программные компоненты для анализа текста и получения аннотаций или заключений о тексте Watson развивался в процессе разработки от нескольких компонент до нескольких сотен UIMA обеспечивает быструю интеграцию компонент тестирование и исследование

bull Начальная имплементация Watson запускалась на одном процессоре и требовала 2 часа на ответ на один вопрос DeepQA развился в параллельную систему используя UIMA-AS часть Apache UIMA масштабируя приложения UIMA используя асинхронный механизм месседжинга UIMA-AS позволила масштабировать Watson более чем на 2500 вычислительных ядер UIMA-AS управляет коммуникациями месседжингом управлением запросами используя open JMS standard UIMA-AS позволил снизить латентность Watson до 3ndash5 секунд

bull Для препроцессинга корпуса текстов создания быстрых run-time indices использован Hadoop

UIMA annotators были развернуты как mapper ы в Hadoop map-reduce framework Hadoop распределяет контент по кластеру для обеспечения высокого использования CPU и обеспечивает подходящий набор инструментов для deploying managing and monitoring the corpus analysis process

bull Аппаратная платформа ndash это 90 серверов 2800 ядер 15 ТБ RAM 80 Тфлопс $3 000 000 10 R

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 39: !Predictive analytics part_3

bull Стандарт основанный на XML для обмена моделями статистической обработки Data Mining

bull Поддерживается более 20 организациями и поставщиками ПО

bull Реализован в частности и в R

Поддерживаемые предиктивные алгоритмы в R

Состав pmml package

bull addLT

bull addMSAttributes

bull audit

bull fileToXMLNode

bull pmml

bull pmmlada

bull pmmlcoxph

bull pmmlcvglmnet

bull pmmlglm

bull pmmlhclust

bull pmmlkmeans

bull pmmlksvm

bull pmmllm bull pmmlmultinom bull pmmlnaiveBayes bull pmmlnnet bull pmmlrandomForest bull pmmlrfsrc bull pmmlrpart bull pmmlrules bull pmmlsvm bull pmmlCanExport bull pmmltoc

Пример

Good by R see you later alligator

WATSON ndash одно из наиболее впечатляющих применений предиктивной аналитики

Разрабатывался компанией IBM с 2006 по 2010 годПрославился победой в телешоу Jeopardy (в России ndash laquoСвоя играraquo) в 2011 годуПредшественник Deep Blue обыграл чемпиона мира по шахматам Гарри Каспарова в 1997 г

>

IBM Deep QA Project

bull Целью проекта было создать компьютерную систему (ИИ) для ответа на вопросы (QA) задаваемые в свободной форме в телешоу и показать результаты соизмеримые с человеческими

bull Задача более сложная чем шахматная программа Deep Blue выигравшая у Каспарова в 1997 г

bull Вопросы по категориямCategory General ScienceClue When hit by electrons a phosphor gives off electromagnetic energy in this formAnswer Light (or Photons)

Category Lincoln BlogsClue Secretary Chase just submitted this to me for the third time guess what pal This time Irsquom accepting itAnswer his resignation

Category Head NorthClue Theyrsquore the two states you could be reentering if yoursquore crossing Floridarsquos northern borderAnswer Georgia and Alabama

Вопросы могут касаться сразу нескольких фактов чтобы ответ был вернымCategory ldquoRaprdquo SheetClue This archaic term for a mischievous or annoying child can also mean a rogue or scampSubclue 1 This archaic term for a mischievous or annoying childSubclue 2 This term can also mean a rogue or scampAnswer Rapscallion

Category Diplomatic RelationsClue Of the four countries in the world that the United States does not have diplomatic relations with the one thatrsquos farthest northInner subclue The four countries in the world that the United States does not have diplomatic relations with (Bhutan Cuba Iran North Korea)Outer subclue Of Bhutan Cuba Iran and North Korea the one thatrsquos farthest northAnswer North Korea

Вопросы - пазлы

Category Before and After Goes to the MoviesClue Film of a typical day in the life of the Beatles which includes running from bloodthirsty zombie fans in a Romero classicSubclue 2 Film of a typical day in the life of the Beatles Answer 1 (A Hard Dayrsquos Night)Subclue 2 Running from bloodthirsty zombie fans in a Romero classicAnswer 2 (Night of the Living Dead)Answer A Hard Dayrsquos Night of the Living Dead

Category Rhyme TimeClue Itrsquos where Pele stores his ballSubclue 1 Pele ball (soccer)Subclue 2 where store (cabinet drawer locker and so on)Answer soccer locker

Недопустимые типы вопросов

oCategory Picture This(Contestants are shown a picture of a B-52 bomber)Clue Alphanumeric name of the fearsome machine seen hereAnswer B-52

oCategory Decode the Postal CodesVerbal instruction from host Wersquore going to give you a word comprising two postal abbreviations you have to identify the statesClue VainAnswer Virginia and Indiana

Лексические типы ответа ndash LAT (Lexical Answer Type)

Метрики качества ответов - результативность

Показатели двух теоретических QA систем

Показатели результативности чемпионов шоу (2000)

Облако победителей

Линия сравнения результативности (baseline performance)

Сравнение системы тестового поиска и поиска в базе знаний

Результативность Watson (по версиям)

Основы подхода Deep QA

bull Massive parallelism использование высокого параллелизма при рассмотрении множественных интерпретаций и гипотез

bull Many experts привлечение интеграции приложения и контекстуального оценивания в широком диапазоне слабосвязанных вероятностных вопросов и контентной аналитики

bull Pervasive confidence estimation повсеместная оценка доверия означает что ни один из компонентов не включается в ответ сразу все компоненты имеют признаки и связанные с ними уровни доверия производится скоринг различных вопросов и контентная интерпретация Основа confidence-processing состоит в обучении как стэкировать и комбинировать баллы

bull Integrate shallow and deep knowledge интеграция поверхностных и глубинных знаний состоит в балансе использования строгой семантики и мелких семантик использующих множества слабо сформированных онтологий

bull Content Acquisition - Сбор контентаСочетает ручные и автоматические этапы Первым шагом является анализ примеров вопросов проблемного пространства чтобы произвести описание видов вопросов на которые нужно ответить и характеризовать область применения Анализ примеров вопросов в первую очередь ручная задача в то время как анализ области может быть выполнен путем автоматических или статистических методов таких как анализ LAT показанный ранее Учитывая вопросы для широкого домена Jeopardy Challenge источники для Watson включают широкий ассортимент энциклопедий словарей тезаурусов Newswire статьи литературные произведения и тд Начиная с разумного размера базового корпуса DeepQA затем применяет автоматический процесс расширения корпуса Процесс включает в себя четыре этапа высокого уровня (1) выявления основных документов и получить соответствующие документы из Интернет (2) извлечь автономные текстовые ядра из связанных веб-документов (3) Оценка на основе ядер являются ли они информативны по отношению к исходному основному документу и (4) объединить наиболее информативные ядра в расширенном корпусе Работающая система использует этот расширенный корпус и не имеет доступа к Интернет во время игры

bull Question Analysis ndash Анализ вопроса

Первый шаг во время выполнения процесса вопрос-ответной системы При анализе вопроса система пытается понять что вопрос задан и выполняет начальный анализ определяющий как вопрос будет обработан на остальных этапах работы системы Подход DeepQA использует смешанный набор экспертов на данном этапе и в системе Watson производится мелкий парсинг глубокий парсинг строятся логические формы семантические этикетки ролей взаимные ссылки отношения именованные сущности и так далее а также конкретные виды анализа для ответа вопрос

bull Question classification - Классификация вопроса

Это задача выявления типа вопроса или частей вопроса которые требуют специальной обработки Это может включать в себя что-нибудь из отдельных слов с двойным смыслом и потенциально до выявления целых статей которые имеют определенную синтаксическую семантическую или риторические функциональные возможности которые могут инициировать нисходящий анализ Классификация может определить вопрос как вопрос- головоломку вопрос-математику -определение и так далее Это будет определять каламбуры ограничения компоненты определений или целые подвопросы в пределах вопросов

bull Focus and LAT Detection ndash Определение фокуса и лексического типа ответа

Лексический тип ответа - это слово или словосочетание в вопросе который определяет тип ответа без попытки понять семантику Определение LAT является важным видом выигрыша и общим источником критических ошибок Преимущество подхода DeepQA является использование многих самостоятельно разработанных алгоритмов laquoответ-типированияraquo Например фокус вопроса викторины laquoПри попадании электронов люминофор излучает электромагнитную энергию в этой формеraquo - является laquoэта формаraquo Фокус часто (но не всегда) содержит полезную информацию об ответе часто субъект или объект отношение в вопросе и может превратить вопрос в фактическое утверждение при замене возможным кандидатом Это представляет полезный способ собирать доказательства о каждом кандидате

bull Relation Detection ndash детектирование отношений

Большинство вопросов содержит отношения являются ли они синтаксическими предикатами субъект-глагол-объект или семантические отношения между субъектами Например в вопросе laquoЕсть два штата в которые вы могли бы войти повторно если вы пересекаете северную границу штата Флоридаraquo мы можем обнаружить отношение границы (Флорида Х к северу) Watson использует обнаружение отношения на протяжении всего процесса QA от фокуса и LAT определения до прохождению и скорингу ответов Watson также может использовать обнаруженные отношения для выделения хранилища триплетов и напрямую генерировать кандидатов в ответы В 20000 игр Jeopardy вопросы например обнаружили распределение Freebase отношений чрезвычайно плоского вида (см рисунок) Это приближение распределеня 50 наиболее частых отношений в 20 000 случайно выбранных вопросах викторины

bull Decomposition ndash декомпозиция

Важным требованием успеха анализа Jeopardy является способность отвечать на вопросы которые разложены на составляющие DeepQA использует основанный на правилах глубокий парсинг и статистические методы классификации чтобы наилучшим образом разложить вопросы на элементы и определить как лучше разбить их на подвопросы Операционная гипотеза что правильная интерпретация вопроса позволит лучше произвести скоринг ответов после того как все доказательства собраны Даже если вопрос не должен быть разложен для определения ответа этот метод может помочь улучшить общее доверие ответу системы DeepQA решает задачи параллельно для каждого разложения применяя алгоритмы от начала до конца каждого подвопроса и синтезирует окончательные ответы DeepQA также поддерживает вложенные декомпозиции вопросов через рекурсивное применение QA системы от начала до конца в внутреннем подвопросе а затем во внешнем Настраиваемые компоненты позволяют легко подключать специализированные алгоритмы синтеза в общую систему

bull Hypothesis Generation ndash генерация гипотез

Генерация гипотез принимает результаты анализа вопросов и производит кандидатов на ответы Каждый кандидат ответ включается обратно в вопрос и это считается как гипотеза Система должна доказать правильность этой гипотезы с некоторой степенью уверенности Как и во всех аспектах DeepQA используется смесь разных подходов для первичного поиска и генерации кандидата в системе Watson

bull Primary Search ndash первичный поиск

В этом поиске целью является найти столько потенциально кандидатов сколько это можно сделать на основе результатов анализа вопроса В течение проекта велись эмпирические исследования направленные на баланс скорости объема и точности Эти исследования позволили регулярно настраивать систему так чтобы найти такое количество кандидатов которые производят наилучший баланс точности и вычислительных ресурсов Оперативная цель основного поиска в конечном счете стабилизировалась на около 85 процентов для топ-250 кандидатов то есть система генерирует правильный ответ как кандидата ответа на 85 процентов вопросов где-то в верхних 250 ранжированных кандидатов Разнообразие методов поиска используются в том числе с использованием нескольких текст поисковых системах с различными базовыми подходами (например Indri и Lucene) поиск документов а также поиска маршрута база знаний поиска с помощью SPARQL хранилища триплетов Для небольшого количества латов которые были определены как закрытые латы кандидат на ответ может быть получен из фиксированного списка в каком-то хранилище известных экземпляров LAT таких как США Президент или Страна

Поиск доказательств

bull Поиск по фразе ndash число соответствий разного типав ответе и вопросеbull Популярность ndash как часто встречается этот вариант ответаbull Соответствие по типу ndash ответ и требование вопросаbull Соответствие по времениbull Надежность источника

bull Candidate Answer Generation ndash генерирование кандидатов на ответ

Результаты поиска применяются для генерирования возможных кандидатов в ответы с помощью различных подходящих техник Для поиска документов извлекаются заголовки и используются как кандидаты Число кандидатов при этом может быть не единственным и требовать использования анализа подстрок и ссылок Используя детектирование именованных сущностей в ряде случаев удается извлечь хороших кандидатов В зависимости от типа источника для генерирования кандидата требуется разный набор алгоритмов например база знаний или обратный словарь порождают кандидатов непосредственно как кандидата Этот этап критически важен и если кандидаты не найдены то фиксируется невозможность ответа В нормальном режиме на этом этапе Watson гененерирует несколько сотен андидатов

bull Soft Filtering ndash мягкая фильтрацияДля ускорения процесса скоринга кандидатов Watson использует различные алгоритмы разной точности Более легковесные (менее вычислительно интенсивные) применяются на первом этапе скоринга На этом этапе устанавливается порог оценки и кандидаты имеющие более высокую оценку считаются прошедшими мягкую фильтрацию Они поступают на выработку гипотез и скоринг доказательств Интересно что кандидаты не прошедшие порог мягкой фильтрации не забываются а направляются прямо на финальный этап слияния Модель скоринга мягкой фильтрации и порога определяются на основе machine learning используя обучающие данные Watson типично пропускает через мягкую фильтрацию 100 кандидатов но эта функция параметризована и их число можно изменить

Проблемы NLP

bull В мае 1898 года Португалия отмечала 400-летний юбилей со дня прибытия этого великого путешественника в Индию

В мае Гари прибыл в Индию после празднования своего юбилея в Португалии

21 мая 1498 года Васка де Гама высадился в местечке Каппад

bull Он был помилован президентом 8 сентября 1974 годаФорд помиловал Никсона 8 сентября 1974 года Никсон Форд

bull Говоря ldquogive a trinklerdquo что предлагают вам сделать британцы по приезду в город

bull Hypothesis and Evidence Scoring ndash скоринг гипотез и доказательств

Прошедшие порог мягкой фильтрации кандидаты поступают на скрупулезный процесс который включает сбор дополнительных поддерживающих доказательств для каждого кандидата на ответ или гипотезу Процесс использует широкий набор различных методов скоринговой аналитики чтобы исследовать все поддерживающие доказательства

bull Evidence Retrieval ndash извлечение доказательств

Чтобы лучше исследовать каждого кандидата прошедшего через мягкую фильтрацию система собирает дополнительные поддерживающие доказательства Архитектура поддерживает интеграцию различных evidence-gathering техник Один из применяемых способов состоит в том что проводится дополнительный поиск в котором кандидат добавляется в качестве required term к первичному запросу извлеченному из вопроса Это будет приводить к получению выражений содержащих кандидата в контексте первичных терминов вопросаПоддерживающие доказательства могут быть извлечены и из других источников например из RDF баз знаний Извлеченные поддерживающие доказательства направляются модули глубокого скоринга которые анализируют кандидата в контексте поддерживающего доказательства

bull Scoring ndash скоринг (количественное оценивание)

Алгоритмы скоринга определяют степень несомненности которую обеспечивают доказательства в поддержку кандидата The DeepQA framework поддерживает множество компонент для выработки оценки в различных измерениях каждого доказательства которая вырабатывает оценку связанную с тем насколько хорошо доказательство поддерживает кандидата на ответ в качестве ответа на заданный вопросDeepQA использует общий формат для оценок для принятых гипотез и подтверждающих оценок отражающих семантические и ограничивающие факторы Это позволяет разработчикам DeepQA быстро разворачивать перемешивать и настраивать сложные совокупности модуле для обработкиНапрмер Watson использует больше чем 50 скоринговых компонент Они производят оценки разноготипа от оценок вероятностей до подсчета категориальных свойств основанных на доказательствах от различных источников включая неструктурированные тексты полуструктурированные тексты и RDF хранилища Эти оценки используют такие данные как degree of match between a passagersquos predicate-argument structure and the question passage source reliability geospatial location temporal relationships taxonomic classification the lexical and semantic relations the candidate is known to participate in the candidatersquos correlation with question terms its popularity (or obscurity) its aliases and so on

Вопрос Чили имеет самую длинную общую границу со страной Сгенерировано несколько кандидатов среди них Аргентина и Боливия Первичный поиск даст приоритет Боливии из=а популярности обсуждений их отношений Однако собранные Watson доказательства из других источников показывают более высокую оценку для Аргентины

Скоринг (взвешивание) доказательств ndash предиктивная аналитика

- При делении клеток митозом называется деление ядра а цитокинезом ndash деление этой жидкости в которой находится ядро

Генерирование кандидатов Сбор доказательств Уверенность в доказательстве

ОрганеллыВакуольЦитоплазмаПлазмамитохондрии

Органеллы ndash не жидкостьВакуоль ndash не жидкостьЦитоплазма ndash возможно жидкостьПлазма ndash не жидкостьМитохондрии ndash не жидкость

Цитоплазма ndash 92Органеллы ndash 19Вакуоль ndash 10Плазма ndash 2Митохондрии ndash 2

Answer Merging ndash объединение ответов

Многие кандидаты в ответы на поставленный вопрос могут быть эквивалентны несмотря на различные внешне формыТехники ранжирования тем не менее рассматривают таких кандидатов как различные Без объединения алгоритмы ранжирования будут работать отдельно с эквивалентными сущностями и пытаться противопоставить одну форму другой Это приведет к проблемам принятия решений Watson содержит алгоритмы идентификации эквивалентных сущностей используя множественные сравнения нормализацию и методы разрешения совместных ссылок

Ranking and Confidence Estimation ndash ранжирование и оценивание доверияПосле объединения система должна произвести ранжирование гипотез и оценивает доверие основанное на объединенных оценках В системе подобран ML подход основанный на обучении на обучающем наборе вопросов с известными ответами и обучение модели основываясь на скоринге Применяется как весьма плоская модель и существующие алгоритмы ранжирования Для более тонких оценок применяется двухфазный процесс использующий группы оценок для оценивания профиля и для оценки доверия Используя эту промежуточную модель система производит ансамбль промежуточных оценок Здесь используется иерархическая техника метаучителя и коллектива экспертов Этот подход обеспечивает итеративное расширение обучения используя изощренные и глубокие иерархические модели обеспечивающие гибкость и робастность при выработке оценок и модифицирует системуМетаучитель в Watson использует набор многие обучаемые модели чтобы управлять различными классами вопросов которые могут быть критическими при идентификации правильных ответовНаконец важно что использование NLP-based скоринга дает весьма разреженные оценки и требует точного оценивания с применением confidence-weighted learning techniques

Развертывание Watson

bull DeepQA разработан используя Apache UIMA - framework implementation of the Unstructured Information Management Architecture (Ferrucci and Lally 2004) UIMA был разработан для поддержки взаимодействия и масштабирования приложений обработки текста и мультимодального анализа Все компоненты DeepQA имплементированы как UIMA annotators Это программные компоненты для анализа текста и получения аннотаций или заключений о тексте Watson развивался в процессе разработки от нескольких компонент до нескольких сотен UIMA обеспечивает быструю интеграцию компонент тестирование и исследование

bull Начальная имплементация Watson запускалась на одном процессоре и требовала 2 часа на ответ на один вопрос DeepQA развился в параллельную систему используя UIMA-AS часть Apache UIMA масштабируя приложения UIMA используя асинхронный механизм месседжинга UIMA-AS позволила масштабировать Watson более чем на 2500 вычислительных ядер UIMA-AS управляет коммуникациями месседжингом управлением запросами используя open JMS standard UIMA-AS позволил снизить латентность Watson до 3ndash5 секунд

bull Для препроцессинга корпуса текстов создания быстрых run-time indices использован Hadoop

UIMA annotators были развернуты как mapper ы в Hadoop map-reduce framework Hadoop распределяет контент по кластеру для обеспечения высокого использования CPU и обеспечивает подходящий набор инструментов для deploying managing and monitoring the corpus analysis process

bull Аппаратная платформа ndash это 90 серверов 2800 ядер 15 ТБ RAM 80 Тфлопс $3 000 000 10 R

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 40: !Predictive analytics part_3

Поддерживаемые предиктивные алгоритмы в R

Состав pmml package

bull addLT

bull addMSAttributes

bull audit

bull fileToXMLNode

bull pmml

bull pmmlada

bull pmmlcoxph

bull pmmlcvglmnet

bull pmmlglm

bull pmmlhclust

bull pmmlkmeans

bull pmmlksvm

bull pmmllm bull pmmlmultinom bull pmmlnaiveBayes bull pmmlnnet bull pmmlrandomForest bull pmmlrfsrc bull pmmlrpart bull pmmlrules bull pmmlsvm bull pmmlCanExport bull pmmltoc

Пример

Good by R see you later alligator

WATSON ndash одно из наиболее впечатляющих применений предиктивной аналитики

Разрабатывался компанией IBM с 2006 по 2010 годПрославился победой в телешоу Jeopardy (в России ndash laquoСвоя играraquo) в 2011 годуПредшественник Deep Blue обыграл чемпиона мира по шахматам Гарри Каспарова в 1997 г

>

IBM Deep QA Project

bull Целью проекта было создать компьютерную систему (ИИ) для ответа на вопросы (QA) задаваемые в свободной форме в телешоу и показать результаты соизмеримые с человеческими

bull Задача более сложная чем шахматная программа Deep Blue выигравшая у Каспарова в 1997 г

bull Вопросы по категориямCategory General ScienceClue When hit by electrons a phosphor gives off electromagnetic energy in this formAnswer Light (or Photons)

Category Lincoln BlogsClue Secretary Chase just submitted this to me for the third time guess what pal This time Irsquom accepting itAnswer his resignation

Category Head NorthClue Theyrsquore the two states you could be reentering if yoursquore crossing Floridarsquos northern borderAnswer Georgia and Alabama

Вопросы могут касаться сразу нескольких фактов чтобы ответ был вернымCategory ldquoRaprdquo SheetClue This archaic term for a mischievous or annoying child can also mean a rogue or scampSubclue 1 This archaic term for a mischievous or annoying childSubclue 2 This term can also mean a rogue or scampAnswer Rapscallion

Category Diplomatic RelationsClue Of the four countries in the world that the United States does not have diplomatic relations with the one thatrsquos farthest northInner subclue The four countries in the world that the United States does not have diplomatic relations with (Bhutan Cuba Iran North Korea)Outer subclue Of Bhutan Cuba Iran and North Korea the one thatrsquos farthest northAnswer North Korea

Вопросы - пазлы

Category Before and After Goes to the MoviesClue Film of a typical day in the life of the Beatles which includes running from bloodthirsty zombie fans in a Romero classicSubclue 2 Film of a typical day in the life of the Beatles Answer 1 (A Hard Dayrsquos Night)Subclue 2 Running from bloodthirsty zombie fans in a Romero classicAnswer 2 (Night of the Living Dead)Answer A Hard Dayrsquos Night of the Living Dead

Category Rhyme TimeClue Itrsquos where Pele stores his ballSubclue 1 Pele ball (soccer)Subclue 2 where store (cabinet drawer locker and so on)Answer soccer locker

Недопустимые типы вопросов

oCategory Picture This(Contestants are shown a picture of a B-52 bomber)Clue Alphanumeric name of the fearsome machine seen hereAnswer B-52

oCategory Decode the Postal CodesVerbal instruction from host Wersquore going to give you a word comprising two postal abbreviations you have to identify the statesClue VainAnswer Virginia and Indiana

Лексические типы ответа ndash LAT (Lexical Answer Type)

Метрики качества ответов - результативность

Показатели двух теоретических QA систем

Показатели результативности чемпионов шоу (2000)

Облако победителей

Линия сравнения результативности (baseline performance)

Сравнение системы тестового поиска и поиска в базе знаний

Результативность Watson (по версиям)

Основы подхода Deep QA

bull Massive parallelism использование высокого параллелизма при рассмотрении множественных интерпретаций и гипотез

bull Many experts привлечение интеграции приложения и контекстуального оценивания в широком диапазоне слабосвязанных вероятностных вопросов и контентной аналитики

bull Pervasive confidence estimation повсеместная оценка доверия означает что ни один из компонентов не включается в ответ сразу все компоненты имеют признаки и связанные с ними уровни доверия производится скоринг различных вопросов и контентная интерпретация Основа confidence-processing состоит в обучении как стэкировать и комбинировать баллы

bull Integrate shallow and deep knowledge интеграция поверхностных и глубинных знаний состоит в балансе использования строгой семантики и мелких семантик использующих множества слабо сформированных онтологий

bull Content Acquisition - Сбор контентаСочетает ручные и автоматические этапы Первым шагом является анализ примеров вопросов проблемного пространства чтобы произвести описание видов вопросов на которые нужно ответить и характеризовать область применения Анализ примеров вопросов в первую очередь ручная задача в то время как анализ области может быть выполнен путем автоматических или статистических методов таких как анализ LAT показанный ранее Учитывая вопросы для широкого домена Jeopardy Challenge источники для Watson включают широкий ассортимент энциклопедий словарей тезаурусов Newswire статьи литературные произведения и тд Начиная с разумного размера базового корпуса DeepQA затем применяет автоматический процесс расширения корпуса Процесс включает в себя четыре этапа высокого уровня (1) выявления основных документов и получить соответствующие документы из Интернет (2) извлечь автономные текстовые ядра из связанных веб-документов (3) Оценка на основе ядер являются ли они информативны по отношению к исходному основному документу и (4) объединить наиболее информативные ядра в расширенном корпусе Работающая система использует этот расширенный корпус и не имеет доступа к Интернет во время игры

bull Question Analysis ndash Анализ вопроса

Первый шаг во время выполнения процесса вопрос-ответной системы При анализе вопроса система пытается понять что вопрос задан и выполняет начальный анализ определяющий как вопрос будет обработан на остальных этапах работы системы Подход DeepQA использует смешанный набор экспертов на данном этапе и в системе Watson производится мелкий парсинг глубокий парсинг строятся логические формы семантические этикетки ролей взаимные ссылки отношения именованные сущности и так далее а также конкретные виды анализа для ответа вопрос

bull Question classification - Классификация вопроса

Это задача выявления типа вопроса или частей вопроса которые требуют специальной обработки Это может включать в себя что-нибудь из отдельных слов с двойным смыслом и потенциально до выявления целых статей которые имеют определенную синтаксическую семантическую или риторические функциональные возможности которые могут инициировать нисходящий анализ Классификация может определить вопрос как вопрос- головоломку вопрос-математику -определение и так далее Это будет определять каламбуры ограничения компоненты определений или целые подвопросы в пределах вопросов

bull Focus and LAT Detection ndash Определение фокуса и лексического типа ответа

Лексический тип ответа - это слово или словосочетание в вопросе который определяет тип ответа без попытки понять семантику Определение LAT является важным видом выигрыша и общим источником критических ошибок Преимущество подхода DeepQA является использование многих самостоятельно разработанных алгоритмов laquoответ-типированияraquo Например фокус вопроса викторины laquoПри попадании электронов люминофор излучает электромагнитную энергию в этой формеraquo - является laquoэта формаraquo Фокус часто (но не всегда) содержит полезную информацию об ответе часто субъект или объект отношение в вопросе и может превратить вопрос в фактическое утверждение при замене возможным кандидатом Это представляет полезный способ собирать доказательства о каждом кандидате

bull Relation Detection ndash детектирование отношений

Большинство вопросов содержит отношения являются ли они синтаксическими предикатами субъект-глагол-объект или семантические отношения между субъектами Например в вопросе laquoЕсть два штата в которые вы могли бы войти повторно если вы пересекаете северную границу штата Флоридаraquo мы можем обнаружить отношение границы (Флорида Х к северу) Watson использует обнаружение отношения на протяжении всего процесса QA от фокуса и LAT определения до прохождению и скорингу ответов Watson также может использовать обнаруженные отношения для выделения хранилища триплетов и напрямую генерировать кандидатов в ответы В 20000 игр Jeopardy вопросы например обнаружили распределение Freebase отношений чрезвычайно плоского вида (см рисунок) Это приближение распределеня 50 наиболее частых отношений в 20 000 случайно выбранных вопросах викторины

bull Decomposition ndash декомпозиция

Важным требованием успеха анализа Jeopardy является способность отвечать на вопросы которые разложены на составляющие DeepQA использует основанный на правилах глубокий парсинг и статистические методы классификации чтобы наилучшим образом разложить вопросы на элементы и определить как лучше разбить их на подвопросы Операционная гипотеза что правильная интерпретация вопроса позволит лучше произвести скоринг ответов после того как все доказательства собраны Даже если вопрос не должен быть разложен для определения ответа этот метод может помочь улучшить общее доверие ответу системы DeepQA решает задачи параллельно для каждого разложения применяя алгоритмы от начала до конца каждого подвопроса и синтезирует окончательные ответы DeepQA также поддерживает вложенные декомпозиции вопросов через рекурсивное применение QA системы от начала до конца в внутреннем подвопросе а затем во внешнем Настраиваемые компоненты позволяют легко подключать специализированные алгоритмы синтеза в общую систему

bull Hypothesis Generation ndash генерация гипотез

Генерация гипотез принимает результаты анализа вопросов и производит кандидатов на ответы Каждый кандидат ответ включается обратно в вопрос и это считается как гипотеза Система должна доказать правильность этой гипотезы с некоторой степенью уверенности Как и во всех аспектах DeepQA используется смесь разных подходов для первичного поиска и генерации кандидата в системе Watson

bull Primary Search ndash первичный поиск

В этом поиске целью является найти столько потенциально кандидатов сколько это можно сделать на основе результатов анализа вопроса В течение проекта велись эмпирические исследования направленные на баланс скорости объема и точности Эти исследования позволили регулярно настраивать систему так чтобы найти такое количество кандидатов которые производят наилучший баланс точности и вычислительных ресурсов Оперативная цель основного поиска в конечном счете стабилизировалась на около 85 процентов для топ-250 кандидатов то есть система генерирует правильный ответ как кандидата ответа на 85 процентов вопросов где-то в верхних 250 ранжированных кандидатов Разнообразие методов поиска используются в том числе с использованием нескольких текст поисковых системах с различными базовыми подходами (например Indri и Lucene) поиск документов а также поиска маршрута база знаний поиска с помощью SPARQL хранилища триплетов Для небольшого количества латов которые были определены как закрытые латы кандидат на ответ может быть получен из фиксированного списка в каком-то хранилище известных экземпляров LAT таких как США Президент или Страна

Поиск доказательств

bull Поиск по фразе ndash число соответствий разного типав ответе и вопросеbull Популярность ndash как часто встречается этот вариант ответаbull Соответствие по типу ndash ответ и требование вопросаbull Соответствие по времениbull Надежность источника

bull Candidate Answer Generation ndash генерирование кандидатов на ответ

Результаты поиска применяются для генерирования возможных кандидатов в ответы с помощью различных подходящих техник Для поиска документов извлекаются заголовки и используются как кандидаты Число кандидатов при этом может быть не единственным и требовать использования анализа подстрок и ссылок Используя детектирование именованных сущностей в ряде случаев удается извлечь хороших кандидатов В зависимости от типа источника для генерирования кандидата требуется разный набор алгоритмов например база знаний или обратный словарь порождают кандидатов непосредственно как кандидата Этот этап критически важен и если кандидаты не найдены то фиксируется невозможность ответа В нормальном режиме на этом этапе Watson гененерирует несколько сотен андидатов

bull Soft Filtering ndash мягкая фильтрацияДля ускорения процесса скоринга кандидатов Watson использует различные алгоритмы разной точности Более легковесные (менее вычислительно интенсивные) применяются на первом этапе скоринга На этом этапе устанавливается порог оценки и кандидаты имеющие более высокую оценку считаются прошедшими мягкую фильтрацию Они поступают на выработку гипотез и скоринг доказательств Интересно что кандидаты не прошедшие порог мягкой фильтрации не забываются а направляются прямо на финальный этап слияния Модель скоринга мягкой фильтрации и порога определяются на основе machine learning используя обучающие данные Watson типично пропускает через мягкую фильтрацию 100 кандидатов но эта функция параметризована и их число можно изменить

Проблемы NLP

bull В мае 1898 года Португалия отмечала 400-летний юбилей со дня прибытия этого великого путешественника в Индию

В мае Гари прибыл в Индию после празднования своего юбилея в Португалии

21 мая 1498 года Васка де Гама высадился в местечке Каппад

bull Он был помилован президентом 8 сентября 1974 годаФорд помиловал Никсона 8 сентября 1974 года Никсон Форд

bull Говоря ldquogive a trinklerdquo что предлагают вам сделать британцы по приезду в город

bull Hypothesis and Evidence Scoring ndash скоринг гипотез и доказательств

Прошедшие порог мягкой фильтрации кандидаты поступают на скрупулезный процесс который включает сбор дополнительных поддерживающих доказательств для каждого кандидата на ответ или гипотезу Процесс использует широкий набор различных методов скоринговой аналитики чтобы исследовать все поддерживающие доказательства

bull Evidence Retrieval ndash извлечение доказательств

Чтобы лучше исследовать каждого кандидата прошедшего через мягкую фильтрацию система собирает дополнительные поддерживающие доказательства Архитектура поддерживает интеграцию различных evidence-gathering техник Один из применяемых способов состоит в том что проводится дополнительный поиск в котором кандидат добавляется в качестве required term к первичному запросу извлеченному из вопроса Это будет приводить к получению выражений содержащих кандидата в контексте первичных терминов вопросаПоддерживающие доказательства могут быть извлечены и из других источников например из RDF баз знаний Извлеченные поддерживающие доказательства направляются модули глубокого скоринга которые анализируют кандидата в контексте поддерживающего доказательства

bull Scoring ndash скоринг (количественное оценивание)

Алгоритмы скоринга определяют степень несомненности которую обеспечивают доказательства в поддержку кандидата The DeepQA framework поддерживает множество компонент для выработки оценки в различных измерениях каждого доказательства которая вырабатывает оценку связанную с тем насколько хорошо доказательство поддерживает кандидата на ответ в качестве ответа на заданный вопросDeepQA использует общий формат для оценок для принятых гипотез и подтверждающих оценок отражающих семантические и ограничивающие факторы Это позволяет разработчикам DeepQA быстро разворачивать перемешивать и настраивать сложные совокупности модуле для обработкиНапрмер Watson использует больше чем 50 скоринговых компонент Они производят оценки разноготипа от оценок вероятностей до подсчета категориальных свойств основанных на доказательствах от различных источников включая неструктурированные тексты полуструктурированные тексты и RDF хранилища Эти оценки используют такие данные как degree of match between a passagersquos predicate-argument structure and the question passage source reliability geospatial location temporal relationships taxonomic classification the lexical and semantic relations the candidate is known to participate in the candidatersquos correlation with question terms its popularity (or obscurity) its aliases and so on

Вопрос Чили имеет самую длинную общую границу со страной Сгенерировано несколько кандидатов среди них Аргентина и Боливия Первичный поиск даст приоритет Боливии из=а популярности обсуждений их отношений Однако собранные Watson доказательства из других источников показывают более высокую оценку для Аргентины

Скоринг (взвешивание) доказательств ndash предиктивная аналитика

- При делении клеток митозом называется деление ядра а цитокинезом ndash деление этой жидкости в которой находится ядро

Генерирование кандидатов Сбор доказательств Уверенность в доказательстве

ОрганеллыВакуольЦитоплазмаПлазмамитохондрии

Органеллы ndash не жидкостьВакуоль ndash не жидкостьЦитоплазма ndash возможно жидкостьПлазма ndash не жидкостьМитохондрии ndash не жидкость

Цитоплазма ndash 92Органеллы ndash 19Вакуоль ndash 10Плазма ndash 2Митохондрии ndash 2

Answer Merging ndash объединение ответов

Многие кандидаты в ответы на поставленный вопрос могут быть эквивалентны несмотря на различные внешне формыТехники ранжирования тем не менее рассматривают таких кандидатов как различные Без объединения алгоритмы ранжирования будут работать отдельно с эквивалентными сущностями и пытаться противопоставить одну форму другой Это приведет к проблемам принятия решений Watson содержит алгоритмы идентификации эквивалентных сущностей используя множественные сравнения нормализацию и методы разрешения совместных ссылок

Ranking and Confidence Estimation ndash ранжирование и оценивание доверияПосле объединения система должна произвести ранжирование гипотез и оценивает доверие основанное на объединенных оценках В системе подобран ML подход основанный на обучении на обучающем наборе вопросов с известными ответами и обучение модели основываясь на скоринге Применяется как весьма плоская модель и существующие алгоритмы ранжирования Для более тонких оценок применяется двухфазный процесс использующий группы оценок для оценивания профиля и для оценки доверия Используя эту промежуточную модель система производит ансамбль промежуточных оценок Здесь используется иерархическая техника метаучителя и коллектива экспертов Этот подход обеспечивает итеративное расширение обучения используя изощренные и глубокие иерархические модели обеспечивающие гибкость и робастность при выработке оценок и модифицирует системуМетаучитель в Watson использует набор многие обучаемые модели чтобы управлять различными классами вопросов которые могут быть критическими при идентификации правильных ответовНаконец важно что использование NLP-based скоринга дает весьма разреженные оценки и требует точного оценивания с применением confidence-weighted learning techniques

Развертывание Watson

bull DeepQA разработан используя Apache UIMA - framework implementation of the Unstructured Information Management Architecture (Ferrucci and Lally 2004) UIMA был разработан для поддержки взаимодействия и масштабирования приложений обработки текста и мультимодального анализа Все компоненты DeepQA имплементированы как UIMA annotators Это программные компоненты для анализа текста и получения аннотаций или заключений о тексте Watson развивался в процессе разработки от нескольких компонент до нескольких сотен UIMA обеспечивает быструю интеграцию компонент тестирование и исследование

bull Начальная имплементация Watson запускалась на одном процессоре и требовала 2 часа на ответ на один вопрос DeepQA развился в параллельную систему используя UIMA-AS часть Apache UIMA масштабируя приложения UIMA используя асинхронный механизм месседжинга UIMA-AS позволила масштабировать Watson более чем на 2500 вычислительных ядер UIMA-AS управляет коммуникациями месседжингом управлением запросами используя open JMS standard UIMA-AS позволил снизить латентность Watson до 3ndash5 секунд

bull Для препроцессинга корпуса текстов создания быстрых run-time indices использован Hadoop

UIMA annotators были развернуты как mapper ы в Hadoop map-reduce framework Hadoop распределяет контент по кластеру для обеспечения высокого использования CPU и обеспечивает подходящий набор инструментов для deploying managing and monitoring the corpus analysis process

bull Аппаратная платформа ndash это 90 серверов 2800 ядер 15 ТБ RAM 80 Тфлопс $3 000 000 10 R

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 41: !Predictive analytics part_3

Состав pmml package

bull addLT

bull addMSAttributes

bull audit

bull fileToXMLNode

bull pmml

bull pmmlada

bull pmmlcoxph

bull pmmlcvglmnet

bull pmmlglm

bull pmmlhclust

bull pmmlkmeans

bull pmmlksvm

bull pmmllm bull pmmlmultinom bull pmmlnaiveBayes bull pmmlnnet bull pmmlrandomForest bull pmmlrfsrc bull pmmlrpart bull pmmlrules bull pmmlsvm bull pmmlCanExport bull pmmltoc

Пример

Good by R see you later alligator

WATSON ndash одно из наиболее впечатляющих применений предиктивной аналитики

Разрабатывался компанией IBM с 2006 по 2010 годПрославился победой в телешоу Jeopardy (в России ndash laquoСвоя играraquo) в 2011 годуПредшественник Deep Blue обыграл чемпиона мира по шахматам Гарри Каспарова в 1997 г

>

IBM Deep QA Project

bull Целью проекта было создать компьютерную систему (ИИ) для ответа на вопросы (QA) задаваемые в свободной форме в телешоу и показать результаты соизмеримые с человеческими

bull Задача более сложная чем шахматная программа Deep Blue выигравшая у Каспарова в 1997 г

bull Вопросы по категориямCategory General ScienceClue When hit by electrons a phosphor gives off electromagnetic energy in this formAnswer Light (or Photons)

Category Lincoln BlogsClue Secretary Chase just submitted this to me for the third time guess what pal This time Irsquom accepting itAnswer his resignation

Category Head NorthClue Theyrsquore the two states you could be reentering if yoursquore crossing Floridarsquos northern borderAnswer Georgia and Alabama

Вопросы могут касаться сразу нескольких фактов чтобы ответ был вернымCategory ldquoRaprdquo SheetClue This archaic term for a mischievous or annoying child can also mean a rogue or scampSubclue 1 This archaic term for a mischievous or annoying childSubclue 2 This term can also mean a rogue or scampAnswer Rapscallion

Category Diplomatic RelationsClue Of the four countries in the world that the United States does not have diplomatic relations with the one thatrsquos farthest northInner subclue The four countries in the world that the United States does not have diplomatic relations with (Bhutan Cuba Iran North Korea)Outer subclue Of Bhutan Cuba Iran and North Korea the one thatrsquos farthest northAnswer North Korea

Вопросы - пазлы

Category Before and After Goes to the MoviesClue Film of a typical day in the life of the Beatles which includes running from bloodthirsty zombie fans in a Romero classicSubclue 2 Film of a typical day in the life of the Beatles Answer 1 (A Hard Dayrsquos Night)Subclue 2 Running from bloodthirsty zombie fans in a Romero classicAnswer 2 (Night of the Living Dead)Answer A Hard Dayrsquos Night of the Living Dead

Category Rhyme TimeClue Itrsquos where Pele stores his ballSubclue 1 Pele ball (soccer)Subclue 2 where store (cabinet drawer locker and so on)Answer soccer locker

Недопустимые типы вопросов

oCategory Picture This(Contestants are shown a picture of a B-52 bomber)Clue Alphanumeric name of the fearsome machine seen hereAnswer B-52

oCategory Decode the Postal CodesVerbal instruction from host Wersquore going to give you a word comprising two postal abbreviations you have to identify the statesClue VainAnswer Virginia and Indiana

Лексические типы ответа ndash LAT (Lexical Answer Type)

Метрики качества ответов - результативность

Показатели двух теоретических QA систем

Показатели результативности чемпионов шоу (2000)

Облако победителей

Линия сравнения результативности (baseline performance)

Сравнение системы тестового поиска и поиска в базе знаний

Результативность Watson (по версиям)

Основы подхода Deep QA

bull Massive parallelism использование высокого параллелизма при рассмотрении множественных интерпретаций и гипотез

bull Many experts привлечение интеграции приложения и контекстуального оценивания в широком диапазоне слабосвязанных вероятностных вопросов и контентной аналитики

bull Pervasive confidence estimation повсеместная оценка доверия означает что ни один из компонентов не включается в ответ сразу все компоненты имеют признаки и связанные с ними уровни доверия производится скоринг различных вопросов и контентная интерпретация Основа confidence-processing состоит в обучении как стэкировать и комбинировать баллы

bull Integrate shallow and deep knowledge интеграция поверхностных и глубинных знаний состоит в балансе использования строгой семантики и мелких семантик использующих множества слабо сформированных онтологий

bull Content Acquisition - Сбор контентаСочетает ручные и автоматические этапы Первым шагом является анализ примеров вопросов проблемного пространства чтобы произвести описание видов вопросов на которые нужно ответить и характеризовать область применения Анализ примеров вопросов в первую очередь ручная задача в то время как анализ области может быть выполнен путем автоматических или статистических методов таких как анализ LAT показанный ранее Учитывая вопросы для широкого домена Jeopardy Challenge источники для Watson включают широкий ассортимент энциклопедий словарей тезаурусов Newswire статьи литературные произведения и тд Начиная с разумного размера базового корпуса DeepQA затем применяет автоматический процесс расширения корпуса Процесс включает в себя четыре этапа высокого уровня (1) выявления основных документов и получить соответствующие документы из Интернет (2) извлечь автономные текстовые ядра из связанных веб-документов (3) Оценка на основе ядер являются ли они информативны по отношению к исходному основному документу и (4) объединить наиболее информативные ядра в расширенном корпусе Работающая система использует этот расширенный корпус и не имеет доступа к Интернет во время игры

bull Question Analysis ndash Анализ вопроса

Первый шаг во время выполнения процесса вопрос-ответной системы При анализе вопроса система пытается понять что вопрос задан и выполняет начальный анализ определяющий как вопрос будет обработан на остальных этапах работы системы Подход DeepQA использует смешанный набор экспертов на данном этапе и в системе Watson производится мелкий парсинг глубокий парсинг строятся логические формы семантические этикетки ролей взаимные ссылки отношения именованные сущности и так далее а также конкретные виды анализа для ответа вопрос

bull Question classification - Классификация вопроса

Это задача выявления типа вопроса или частей вопроса которые требуют специальной обработки Это может включать в себя что-нибудь из отдельных слов с двойным смыслом и потенциально до выявления целых статей которые имеют определенную синтаксическую семантическую или риторические функциональные возможности которые могут инициировать нисходящий анализ Классификация может определить вопрос как вопрос- головоломку вопрос-математику -определение и так далее Это будет определять каламбуры ограничения компоненты определений или целые подвопросы в пределах вопросов

bull Focus and LAT Detection ndash Определение фокуса и лексического типа ответа

Лексический тип ответа - это слово или словосочетание в вопросе который определяет тип ответа без попытки понять семантику Определение LAT является важным видом выигрыша и общим источником критических ошибок Преимущество подхода DeepQA является использование многих самостоятельно разработанных алгоритмов laquoответ-типированияraquo Например фокус вопроса викторины laquoПри попадании электронов люминофор излучает электромагнитную энергию в этой формеraquo - является laquoэта формаraquo Фокус часто (но не всегда) содержит полезную информацию об ответе часто субъект или объект отношение в вопросе и может превратить вопрос в фактическое утверждение при замене возможным кандидатом Это представляет полезный способ собирать доказательства о каждом кандидате

bull Relation Detection ndash детектирование отношений

Большинство вопросов содержит отношения являются ли они синтаксическими предикатами субъект-глагол-объект или семантические отношения между субъектами Например в вопросе laquoЕсть два штата в которые вы могли бы войти повторно если вы пересекаете северную границу штата Флоридаraquo мы можем обнаружить отношение границы (Флорида Х к северу) Watson использует обнаружение отношения на протяжении всего процесса QA от фокуса и LAT определения до прохождению и скорингу ответов Watson также может использовать обнаруженные отношения для выделения хранилища триплетов и напрямую генерировать кандидатов в ответы В 20000 игр Jeopardy вопросы например обнаружили распределение Freebase отношений чрезвычайно плоского вида (см рисунок) Это приближение распределеня 50 наиболее частых отношений в 20 000 случайно выбранных вопросах викторины

bull Decomposition ndash декомпозиция

Важным требованием успеха анализа Jeopardy является способность отвечать на вопросы которые разложены на составляющие DeepQA использует основанный на правилах глубокий парсинг и статистические методы классификации чтобы наилучшим образом разложить вопросы на элементы и определить как лучше разбить их на подвопросы Операционная гипотеза что правильная интерпретация вопроса позволит лучше произвести скоринг ответов после того как все доказательства собраны Даже если вопрос не должен быть разложен для определения ответа этот метод может помочь улучшить общее доверие ответу системы DeepQA решает задачи параллельно для каждого разложения применяя алгоритмы от начала до конца каждого подвопроса и синтезирует окончательные ответы DeepQA также поддерживает вложенные декомпозиции вопросов через рекурсивное применение QA системы от начала до конца в внутреннем подвопросе а затем во внешнем Настраиваемые компоненты позволяют легко подключать специализированные алгоритмы синтеза в общую систему

bull Hypothesis Generation ndash генерация гипотез

Генерация гипотез принимает результаты анализа вопросов и производит кандидатов на ответы Каждый кандидат ответ включается обратно в вопрос и это считается как гипотеза Система должна доказать правильность этой гипотезы с некоторой степенью уверенности Как и во всех аспектах DeepQA используется смесь разных подходов для первичного поиска и генерации кандидата в системе Watson

bull Primary Search ndash первичный поиск

В этом поиске целью является найти столько потенциально кандидатов сколько это можно сделать на основе результатов анализа вопроса В течение проекта велись эмпирические исследования направленные на баланс скорости объема и точности Эти исследования позволили регулярно настраивать систему так чтобы найти такое количество кандидатов которые производят наилучший баланс точности и вычислительных ресурсов Оперативная цель основного поиска в конечном счете стабилизировалась на около 85 процентов для топ-250 кандидатов то есть система генерирует правильный ответ как кандидата ответа на 85 процентов вопросов где-то в верхних 250 ранжированных кандидатов Разнообразие методов поиска используются в том числе с использованием нескольких текст поисковых системах с различными базовыми подходами (например Indri и Lucene) поиск документов а также поиска маршрута база знаний поиска с помощью SPARQL хранилища триплетов Для небольшого количества латов которые были определены как закрытые латы кандидат на ответ может быть получен из фиксированного списка в каком-то хранилище известных экземпляров LAT таких как США Президент или Страна

Поиск доказательств

bull Поиск по фразе ndash число соответствий разного типав ответе и вопросеbull Популярность ndash как часто встречается этот вариант ответаbull Соответствие по типу ndash ответ и требование вопросаbull Соответствие по времениbull Надежность источника

bull Candidate Answer Generation ndash генерирование кандидатов на ответ

Результаты поиска применяются для генерирования возможных кандидатов в ответы с помощью различных подходящих техник Для поиска документов извлекаются заголовки и используются как кандидаты Число кандидатов при этом может быть не единственным и требовать использования анализа подстрок и ссылок Используя детектирование именованных сущностей в ряде случаев удается извлечь хороших кандидатов В зависимости от типа источника для генерирования кандидата требуется разный набор алгоритмов например база знаний или обратный словарь порождают кандидатов непосредственно как кандидата Этот этап критически важен и если кандидаты не найдены то фиксируется невозможность ответа В нормальном режиме на этом этапе Watson гененерирует несколько сотен андидатов

bull Soft Filtering ndash мягкая фильтрацияДля ускорения процесса скоринга кандидатов Watson использует различные алгоритмы разной точности Более легковесные (менее вычислительно интенсивные) применяются на первом этапе скоринга На этом этапе устанавливается порог оценки и кандидаты имеющие более высокую оценку считаются прошедшими мягкую фильтрацию Они поступают на выработку гипотез и скоринг доказательств Интересно что кандидаты не прошедшие порог мягкой фильтрации не забываются а направляются прямо на финальный этап слияния Модель скоринга мягкой фильтрации и порога определяются на основе machine learning используя обучающие данные Watson типично пропускает через мягкую фильтрацию 100 кандидатов но эта функция параметризована и их число можно изменить

Проблемы NLP

bull В мае 1898 года Португалия отмечала 400-летний юбилей со дня прибытия этого великого путешественника в Индию

В мае Гари прибыл в Индию после празднования своего юбилея в Португалии

21 мая 1498 года Васка де Гама высадился в местечке Каппад

bull Он был помилован президентом 8 сентября 1974 годаФорд помиловал Никсона 8 сентября 1974 года Никсон Форд

bull Говоря ldquogive a trinklerdquo что предлагают вам сделать британцы по приезду в город

bull Hypothesis and Evidence Scoring ndash скоринг гипотез и доказательств

Прошедшие порог мягкой фильтрации кандидаты поступают на скрупулезный процесс который включает сбор дополнительных поддерживающих доказательств для каждого кандидата на ответ или гипотезу Процесс использует широкий набор различных методов скоринговой аналитики чтобы исследовать все поддерживающие доказательства

bull Evidence Retrieval ndash извлечение доказательств

Чтобы лучше исследовать каждого кандидата прошедшего через мягкую фильтрацию система собирает дополнительные поддерживающие доказательства Архитектура поддерживает интеграцию различных evidence-gathering техник Один из применяемых способов состоит в том что проводится дополнительный поиск в котором кандидат добавляется в качестве required term к первичному запросу извлеченному из вопроса Это будет приводить к получению выражений содержащих кандидата в контексте первичных терминов вопросаПоддерживающие доказательства могут быть извлечены и из других источников например из RDF баз знаний Извлеченные поддерживающие доказательства направляются модули глубокого скоринга которые анализируют кандидата в контексте поддерживающего доказательства

bull Scoring ndash скоринг (количественное оценивание)

Алгоритмы скоринга определяют степень несомненности которую обеспечивают доказательства в поддержку кандидата The DeepQA framework поддерживает множество компонент для выработки оценки в различных измерениях каждого доказательства которая вырабатывает оценку связанную с тем насколько хорошо доказательство поддерживает кандидата на ответ в качестве ответа на заданный вопросDeepQA использует общий формат для оценок для принятых гипотез и подтверждающих оценок отражающих семантические и ограничивающие факторы Это позволяет разработчикам DeepQA быстро разворачивать перемешивать и настраивать сложные совокупности модуле для обработкиНапрмер Watson использует больше чем 50 скоринговых компонент Они производят оценки разноготипа от оценок вероятностей до подсчета категориальных свойств основанных на доказательствах от различных источников включая неструктурированные тексты полуструктурированные тексты и RDF хранилища Эти оценки используют такие данные как degree of match between a passagersquos predicate-argument structure and the question passage source reliability geospatial location temporal relationships taxonomic classification the lexical and semantic relations the candidate is known to participate in the candidatersquos correlation with question terms its popularity (or obscurity) its aliases and so on

Вопрос Чили имеет самую длинную общую границу со страной Сгенерировано несколько кандидатов среди них Аргентина и Боливия Первичный поиск даст приоритет Боливии из=а популярности обсуждений их отношений Однако собранные Watson доказательства из других источников показывают более высокую оценку для Аргентины

Скоринг (взвешивание) доказательств ndash предиктивная аналитика

- При делении клеток митозом называется деление ядра а цитокинезом ndash деление этой жидкости в которой находится ядро

Генерирование кандидатов Сбор доказательств Уверенность в доказательстве

ОрганеллыВакуольЦитоплазмаПлазмамитохондрии

Органеллы ndash не жидкостьВакуоль ndash не жидкостьЦитоплазма ndash возможно жидкостьПлазма ndash не жидкостьМитохондрии ndash не жидкость

Цитоплазма ndash 92Органеллы ndash 19Вакуоль ndash 10Плазма ndash 2Митохондрии ndash 2

Answer Merging ndash объединение ответов

Многие кандидаты в ответы на поставленный вопрос могут быть эквивалентны несмотря на различные внешне формыТехники ранжирования тем не менее рассматривают таких кандидатов как различные Без объединения алгоритмы ранжирования будут работать отдельно с эквивалентными сущностями и пытаться противопоставить одну форму другой Это приведет к проблемам принятия решений Watson содержит алгоритмы идентификации эквивалентных сущностей используя множественные сравнения нормализацию и методы разрешения совместных ссылок

Ranking and Confidence Estimation ndash ранжирование и оценивание доверияПосле объединения система должна произвести ранжирование гипотез и оценивает доверие основанное на объединенных оценках В системе подобран ML подход основанный на обучении на обучающем наборе вопросов с известными ответами и обучение модели основываясь на скоринге Применяется как весьма плоская модель и существующие алгоритмы ранжирования Для более тонких оценок применяется двухфазный процесс использующий группы оценок для оценивания профиля и для оценки доверия Используя эту промежуточную модель система производит ансамбль промежуточных оценок Здесь используется иерархическая техника метаучителя и коллектива экспертов Этот подход обеспечивает итеративное расширение обучения используя изощренные и глубокие иерархические модели обеспечивающие гибкость и робастность при выработке оценок и модифицирует системуМетаучитель в Watson использует набор многие обучаемые модели чтобы управлять различными классами вопросов которые могут быть критическими при идентификации правильных ответовНаконец важно что использование NLP-based скоринга дает весьма разреженные оценки и требует точного оценивания с применением confidence-weighted learning techniques

Развертывание Watson

bull DeepQA разработан используя Apache UIMA - framework implementation of the Unstructured Information Management Architecture (Ferrucci and Lally 2004) UIMA был разработан для поддержки взаимодействия и масштабирования приложений обработки текста и мультимодального анализа Все компоненты DeepQA имплементированы как UIMA annotators Это программные компоненты для анализа текста и получения аннотаций или заключений о тексте Watson развивался в процессе разработки от нескольких компонент до нескольких сотен UIMA обеспечивает быструю интеграцию компонент тестирование и исследование

bull Начальная имплементация Watson запускалась на одном процессоре и требовала 2 часа на ответ на один вопрос DeepQA развился в параллельную систему используя UIMA-AS часть Apache UIMA масштабируя приложения UIMA используя асинхронный механизм месседжинга UIMA-AS позволила масштабировать Watson более чем на 2500 вычислительных ядер UIMA-AS управляет коммуникациями месседжингом управлением запросами используя open JMS standard UIMA-AS позволил снизить латентность Watson до 3ndash5 секунд

bull Для препроцессинга корпуса текстов создания быстрых run-time indices использован Hadoop

UIMA annotators были развернуты как mapper ы в Hadoop map-reduce framework Hadoop распределяет контент по кластеру для обеспечения высокого использования CPU и обеспечивает подходящий набор инструментов для deploying managing and monitoring the corpus analysis process

bull Аппаратная платформа ndash это 90 серверов 2800 ядер 15 ТБ RAM 80 Тфлопс $3 000 000 10 R

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 42: !Predictive analytics part_3

Пример

Good by R see you later alligator

WATSON ndash одно из наиболее впечатляющих применений предиктивной аналитики

Разрабатывался компанией IBM с 2006 по 2010 годПрославился победой в телешоу Jeopardy (в России ndash laquoСвоя играraquo) в 2011 годуПредшественник Deep Blue обыграл чемпиона мира по шахматам Гарри Каспарова в 1997 г

>

IBM Deep QA Project

bull Целью проекта было создать компьютерную систему (ИИ) для ответа на вопросы (QA) задаваемые в свободной форме в телешоу и показать результаты соизмеримые с человеческими

bull Задача более сложная чем шахматная программа Deep Blue выигравшая у Каспарова в 1997 г

bull Вопросы по категориямCategory General ScienceClue When hit by electrons a phosphor gives off electromagnetic energy in this formAnswer Light (or Photons)

Category Lincoln BlogsClue Secretary Chase just submitted this to me for the third time guess what pal This time Irsquom accepting itAnswer his resignation

Category Head NorthClue Theyrsquore the two states you could be reentering if yoursquore crossing Floridarsquos northern borderAnswer Georgia and Alabama

Вопросы могут касаться сразу нескольких фактов чтобы ответ был вернымCategory ldquoRaprdquo SheetClue This archaic term for a mischievous or annoying child can also mean a rogue or scampSubclue 1 This archaic term for a mischievous or annoying childSubclue 2 This term can also mean a rogue or scampAnswer Rapscallion

Category Diplomatic RelationsClue Of the four countries in the world that the United States does not have diplomatic relations with the one thatrsquos farthest northInner subclue The four countries in the world that the United States does not have diplomatic relations with (Bhutan Cuba Iran North Korea)Outer subclue Of Bhutan Cuba Iran and North Korea the one thatrsquos farthest northAnswer North Korea

Вопросы - пазлы

Category Before and After Goes to the MoviesClue Film of a typical day in the life of the Beatles which includes running from bloodthirsty zombie fans in a Romero classicSubclue 2 Film of a typical day in the life of the Beatles Answer 1 (A Hard Dayrsquos Night)Subclue 2 Running from bloodthirsty zombie fans in a Romero classicAnswer 2 (Night of the Living Dead)Answer A Hard Dayrsquos Night of the Living Dead

Category Rhyme TimeClue Itrsquos where Pele stores his ballSubclue 1 Pele ball (soccer)Subclue 2 where store (cabinet drawer locker and so on)Answer soccer locker

Недопустимые типы вопросов

oCategory Picture This(Contestants are shown a picture of a B-52 bomber)Clue Alphanumeric name of the fearsome machine seen hereAnswer B-52

oCategory Decode the Postal CodesVerbal instruction from host Wersquore going to give you a word comprising two postal abbreviations you have to identify the statesClue VainAnswer Virginia and Indiana

Лексические типы ответа ndash LAT (Lexical Answer Type)

Метрики качества ответов - результативность

Показатели двух теоретических QA систем

Показатели результативности чемпионов шоу (2000)

Облако победителей

Линия сравнения результативности (baseline performance)

Сравнение системы тестового поиска и поиска в базе знаний

Результативность Watson (по версиям)

Основы подхода Deep QA

bull Massive parallelism использование высокого параллелизма при рассмотрении множественных интерпретаций и гипотез

bull Many experts привлечение интеграции приложения и контекстуального оценивания в широком диапазоне слабосвязанных вероятностных вопросов и контентной аналитики

bull Pervasive confidence estimation повсеместная оценка доверия означает что ни один из компонентов не включается в ответ сразу все компоненты имеют признаки и связанные с ними уровни доверия производится скоринг различных вопросов и контентная интерпретация Основа confidence-processing состоит в обучении как стэкировать и комбинировать баллы

bull Integrate shallow and deep knowledge интеграция поверхностных и глубинных знаний состоит в балансе использования строгой семантики и мелких семантик использующих множества слабо сформированных онтологий

bull Content Acquisition - Сбор контентаСочетает ручные и автоматические этапы Первым шагом является анализ примеров вопросов проблемного пространства чтобы произвести описание видов вопросов на которые нужно ответить и характеризовать область применения Анализ примеров вопросов в первую очередь ручная задача в то время как анализ области может быть выполнен путем автоматических или статистических методов таких как анализ LAT показанный ранее Учитывая вопросы для широкого домена Jeopardy Challenge источники для Watson включают широкий ассортимент энциклопедий словарей тезаурусов Newswire статьи литературные произведения и тд Начиная с разумного размера базового корпуса DeepQA затем применяет автоматический процесс расширения корпуса Процесс включает в себя четыре этапа высокого уровня (1) выявления основных документов и получить соответствующие документы из Интернет (2) извлечь автономные текстовые ядра из связанных веб-документов (3) Оценка на основе ядер являются ли они информативны по отношению к исходному основному документу и (4) объединить наиболее информативные ядра в расширенном корпусе Работающая система использует этот расширенный корпус и не имеет доступа к Интернет во время игры

bull Question Analysis ndash Анализ вопроса

Первый шаг во время выполнения процесса вопрос-ответной системы При анализе вопроса система пытается понять что вопрос задан и выполняет начальный анализ определяющий как вопрос будет обработан на остальных этапах работы системы Подход DeepQA использует смешанный набор экспертов на данном этапе и в системе Watson производится мелкий парсинг глубокий парсинг строятся логические формы семантические этикетки ролей взаимные ссылки отношения именованные сущности и так далее а также конкретные виды анализа для ответа вопрос

bull Question classification - Классификация вопроса

Это задача выявления типа вопроса или частей вопроса которые требуют специальной обработки Это может включать в себя что-нибудь из отдельных слов с двойным смыслом и потенциально до выявления целых статей которые имеют определенную синтаксическую семантическую или риторические функциональные возможности которые могут инициировать нисходящий анализ Классификация может определить вопрос как вопрос- головоломку вопрос-математику -определение и так далее Это будет определять каламбуры ограничения компоненты определений или целые подвопросы в пределах вопросов

bull Focus and LAT Detection ndash Определение фокуса и лексического типа ответа

Лексический тип ответа - это слово или словосочетание в вопросе который определяет тип ответа без попытки понять семантику Определение LAT является важным видом выигрыша и общим источником критических ошибок Преимущество подхода DeepQA является использование многих самостоятельно разработанных алгоритмов laquoответ-типированияraquo Например фокус вопроса викторины laquoПри попадании электронов люминофор излучает электромагнитную энергию в этой формеraquo - является laquoэта формаraquo Фокус часто (но не всегда) содержит полезную информацию об ответе часто субъект или объект отношение в вопросе и может превратить вопрос в фактическое утверждение при замене возможным кандидатом Это представляет полезный способ собирать доказательства о каждом кандидате

bull Relation Detection ndash детектирование отношений

Большинство вопросов содержит отношения являются ли они синтаксическими предикатами субъект-глагол-объект или семантические отношения между субъектами Например в вопросе laquoЕсть два штата в которые вы могли бы войти повторно если вы пересекаете северную границу штата Флоридаraquo мы можем обнаружить отношение границы (Флорида Х к северу) Watson использует обнаружение отношения на протяжении всего процесса QA от фокуса и LAT определения до прохождению и скорингу ответов Watson также может использовать обнаруженные отношения для выделения хранилища триплетов и напрямую генерировать кандидатов в ответы В 20000 игр Jeopardy вопросы например обнаружили распределение Freebase отношений чрезвычайно плоского вида (см рисунок) Это приближение распределеня 50 наиболее частых отношений в 20 000 случайно выбранных вопросах викторины

bull Decomposition ndash декомпозиция

Важным требованием успеха анализа Jeopardy является способность отвечать на вопросы которые разложены на составляющие DeepQA использует основанный на правилах глубокий парсинг и статистические методы классификации чтобы наилучшим образом разложить вопросы на элементы и определить как лучше разбить их на подвопросы Операционная гипотеза что правильная интерпретация вопроса позволит лучше произвести скоринг ответов после того как все доказательства собраны Даже если вопрос не должен быть разложен для определения ответа этот метод может помочь улучшить общее доверие ответу системы DeepQA решает задачи параллельно для каждого разложения применяя алгоритмы от начала до конца каждого подвопроса и синтезирует окончательные ответы DeepQA также поддерживает вложенные декомпозиции вопросов через рекурсивное применение QA системы от начала до конца в внутреннем подвопросе а затем во внешнем Настраиваемые компоненты позволяют легко подключать специализированные алгоритмы синтеза в общую систему

bull Hypothesis Generation ndash генерация гипотез

Генерация гипотез принимает результаты анализа вопросов и производит кандидатов на ответы Каждый кандидат ответ включается обратно в вопрос и это считается как гипотеза Система должна доказать правильность этой гипотезы с некоторой степенью уверенности Как и во всех аспектах DeepQA используется смесь разных подходов для первичного поиска и генерации кандидата в системе Watson

bull Primary Search ndash первичный поиск

В этом поиске целью является найти столько потенциально кандидатов сколько это можно сделать на основе результатов анализа вопроса В течение проекта велись эмпирические исследования направленные на баланс скорости объема и точности Эти исследования позволили регулярно настраивать систему так чтобы найти такое количество кандидатов которые производят наилучший баланс точности и вычислительных ресурсов Оперативная цель основного поиска в конечном счете стабилизировалась на около 85 процентов для топ-250 кандидатов то есть система генерирует правильный ответ как кандидата ответа на 85 процентов вопросов где-то в верхних 250 ранжированных кандидатов Разнообразие методов поиска используются в том числе с использованием нескольких текст поисковых системах с различными базовыми подходами (например Indri и Lucene) поиск документов а также поиска маршрута база знаний поиска с помощью SPARQL хранилища триплетов Для небольшого количества латов которые были определены как закрытые латы кандидат на ответ может быть получен из фиксированного списка в каком-то хранилище известных экземпляров LAT таких как США Президент или Страна

Поиск доказательств

bull Поиск по фразе ndash число соответствий разного типав ответе и вопросеbull Популярность ndash как часто встречается этот вариант ответаbull Соответствие по типу ndash ответ и требование вопросаbull Соответствие по времениbull Надежность источника

bull Candidate Answer Generation ndash генерирование кандидатов на ответ

Результаты поиска применяются для генерирования возможных кандидатов в ответы с помощью различных подходящих техник Для поиска документов извлекаются заголовки и используются как кандидаты Число кандидатов при этом может быть не единственным и требовать использования анализа подстрок и ссылок Используя детектирование именованных сущностей в ряде случаев удается извлечь хороших кандидатов В зависимости от типа источника для генерирования кандидата требуется разный набор алгоритмов например база знаний или обратный словарь порождают кандидатов непосредственно как кандидата Этот этап критически важен и если кандидаты не найдены то фиксируется невозможность ответа В нормальном режиме на этом этапе Watson гененерирует несколько сотен андидатов

bull Soft Filtering ndash мягкая фильтрацияДля ускорения процесса скоринга кандидатов Watson использует различные алгоритмы разной точности Более легковесные (менее вычислительно интенсивные) применяются на первом этапе скоринга На этом этапе устанавливается порог оценки и кандидаты имеющие более высокую оценку считаются прошедшими мягкую фильтрацию Они поступают на выработку гипотез и скоринг доказательств Интересно что кандидаты не прошедшие порог мягкой фильтрации не забываются а направляются прямо на финальный этап слияния Модель скоринга мягкой фильтрации и порога определяются на основе machine learning используя обучающие данные Watson типично пропускает через мягкую фильтрацию 100 кандидатов но эта функция параметризована и их число можно изменить

Проблемы NLP

bull В мае 1898 года Португалия отмечала 400-летний юбилей со дня прибытия этого великого путешественника в Индию

В мае Гари прибыл в Индию после празднования своего юбилея в Португалии

21 мая 1498 года Васка де Гама высадился в местечке Каппад

bull Он был помилован президентом 8 сентября 1974 годаФорд помиловал Никсона 8 сентября 1974 года Никсон Форд

bull Говоря ldquogive a trinklerdquo что предлагают вам сделать британцы по приезду в город

bull Hypothesis and Evidence Scoring ndash скоринг гипотез и доказательств

Прошедшие порог мягкой фильтрации кандидаты поступают на скрупулезный процесс который включает сбор дополнительных поддерживающих доказательств для каждого кандидата на ответ или гипотезу Процесс использует широкий набор различных методов скоринговой аналитики чтобы исследовать все поддерживающие доказательства

bull Evidence Retrieval ndash извлечение доказательств

Чтобы лучше исследовать каждого кандидата прошедшего через мягкую фильтрацию система собирает дополнительные поддерживающие доказательства Архитектура поддерживает интеграцию различных evidence-gathering техник Один из применяемых способов состоит в том что проводится дополнительный поиск в котором кандидат добавляется в качестве required term к первичному запросу извлеченному из вопроса Это будет приводить к получению выражений содержащих кандидата в контексте первичных терминов вопросаПоддерживающие доказательства могут быть извлечены и из других источников например из RDF баз знаний Извлеченные поддерживающие доказательства направляются модули глубокого скоринга которые анализируют кандидата в контексте поддерживающего доказательства

bull Scoring ndash скоринг (количественное оценивание)

Алгоритмы скоринга определяют степень несомненности которую обеспечивают доказательства в поддержку кандидата The DeepQA framework поддерживает множество компонент для выработки оценки в различных измерениях каждого доказательства которая вырабатывает оценку связанную с тем насколько хорошо доказательство поддерживает кандидата на ответ в качестве ответа на заданный вопросDeepQA использует общий формат для оценок для принятых гипотез и подтверждающих оценок отражающих семантические и ограничивающие факторы Это позволяет разработчикам DeepQA быстро разворачивать перемешивать и настраивать сложные совокупности модуле для обработкиНапрмер Watson использует больше чем 50 скоринговых компонент Они производят оценки разноготипа от оценок вероятностей до подсчета категориальных свойств основанных на доказательствах от различных источников включая неструктурированные тексты полуструктурированные тексты и RDF хранилища Эти оценки используют такие данные как degree of match between a passagersquos predicate-argument structure and the question passage source reliability geospatial location temporal relationships taxonomic classification the lexical and semantic relations the candidate is known to participate in the candidatersquos correlation with question terms its popularity (or obscurity) its aliases and so on

Вопрос Чили имеет самую длинную общую границу со страной Сгенерировано несколько кандидатов среди них Аргентина и Боливия Первичный поиск даст приоритет Боливии из=а популярности обсуждений их отношений Однако собранные Watson доказательства из других источников показывают более высокую оценку для Аргентины

Скоринг (взвешивание) доказательств ndash предиктивная аналитика

- При делении клеток митозом называется деление ядра а цитокинезом ndash деление этой жидкости в которой находится ядро

Генерирование кандидатов Сбор доказательств Уверенность в доказательстве

ОрганеллыВакуольЦитоплазмаПлазмамитохондрии

Органеллы ndash не жидкостьВакуоль ndash не жидкостьЦитоплазма ndash возможно жидкостьПлазма ndash не жидкостьМитохондрии ndash не жидкость

Цитоплазма ndash 92Органеллы ndash 19Вакуоль ndash 10Плазма ndash 2Митохондрии ndash 2

Answer Merging ndash объединение ответов

Многие кандидаты в ответы на поставленный вопрос могут быть эквивалентны несмотря на различные внешне формыТехники ранжирования тем не менее рассматривают таких кандидатов как различные Без объединения алгоритмы ранжирования будут работать отдельно с эквивалентными сущностями и пытаться противопоставить одну форму другой Это приведет к проблемам принятия решений Watson содержит алгоритмы идентификации эквивалентных сущностей используя множественные сравнения нормализацию и методы разрешения совместных ссылок

Ranking and Confidence Estimation ndash ранжирование и оценивание доверияПосле объединения система должна произвести ранжирование гипотез и оценивает доверие основанное на объединенных оценках В системе подобран ML подход основанный на обучении на обучающем наборе вопросов с известными ответами и обучение модели основываясь на скоринге Применяется как весьма плоская модель и существующие алгоритмы ранжирования Для более тонких оценок применяется двухфазный процесс использующий группы оценок для оценивания профиля и для оценки доверия Используя эту промежуточную модель система производит ансамбль промежуточных оценок Здесь используется иерархическая техника метаучителя и коллектива экспертов Этот подход обеспечивает итеративное расширение обучения используя изощренные и глубокие иерархические модели обеспечивающие гибкость и робастность при выработке оценок и модифицирует системуМетаучитель в Watson использует набор многие обучаемые модели чтобы управлять различными классами вопросов которые могут быть критическими при идентификации правильных ответовНаконец важно что использование NLP-based скоринга дает весьма разреженные оценки и требует точного оценивания с применением confidence-weighted learning techniques

Развертывание Watson

bull DeepQA разработан используя Apache UIMA - framework implementation of the Unstructured Information Management Architecture (Ferrucci and Lally 2004) UIMA был разработан для поддержки взаимодействия и масштабирования приложений обработки текста и мультимодального анализа Все компоненты DeepQA имплементированы как UIMA annotators Это программные компоненты для анализа текста и получения аннотаций или заключений о тексте Watson развивался в процессе разработки от нескольких компонент до нескольких сотен UIMA обеспечивает быструю интеграцию компонент тестирование и исследование

bull Начальная имплементация Watson запускалась на одном процессоре и требовала 2 часа на ответ на один вопрос DeepQA развился в параллельную систему используя UIMA-AS часть Apache UIMA масштабируя приложения UIMA используя асинхронный механизм месседжинга UIMA-AS позволила масштабировать Watson более чем на 2500 вычислительных ядер UIMA-AS управляет коммуникациями месседжингом управлением запросами используя open JMS standard UIMA-AS позволил снизить латентность Watson до 3ndash5 секунд

bull Для препроцессинга корпуса текстов создания быстрых run-time indices использован Hadoop

UIMA annotators были развернуты как mapper ы в Hadoop map-reduce framework Hadoop распределяет контент по кластеру для обеспечения высокого использования CPU и обеспечивает подходящий набор инструментов для deploying managing and monitoring the corpus analysis process

bull Аппаратная платформа ndash это 90 серверов 2800 ядер 15 ТБ RAM 80 Тфлопс $3 000 000 10 R

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 43: !Predictive analytics part_3

Good by R see you later alligator

WATSON ndash одно из наиболее впечатляющих применений предиктивной аналитики

Разрабатывался компанией IBM с 2006 по 2010 годПрославился победой в телешоу Jeopardy (в России ndash laquoСвоя играraquo) в 2011 годуПредшественник Deep Blue обыграл чемпиона мира по шахматам Гарри Каспарова в 1997 г

>

IBM Deep QA Project

bull Целью проекта было создать компьютерную систему (ИИ) для ответа на вопросы (QA) задаваемые в свободной форме в телешоу и показать результаты соизмеримые с человеческими

bull Задача более сложная чем шахматная программа Deep Blue выигравшая у Каспарова в 1997 г

bull Вопросы по категориямCategory General ScienceClue When hit by electrons a phosphor gives off electromagnetic energy in this formAnswer Light (or Photons)

Category Lincoln BlogsClue Secretary Chase just submitted this to me for the third time guess what pal This time Irsquom accepting itAnswer his resignation

Category Head NorthClue Theyrsquore the two states you could be reentering if yoursquore crossing Floridarsquos northern borderAnswer Georgia and Alabama

Вопросы могут касаться сразу нескольких фактов чтобы ответ был вернымCategory ldquoRaprdquo SheetClue This archaic term for a mischievous or annoying child can also mean a rogue or scampSubclue 1 This archaic term for a mischievous or annoying childSubclue 2 This term can also mean a rogue or scampAnswer Rapscallion

Category Diplomatic RelationsClue Of the four countries in the world that the United States does not have diplomatic relations with the one thatrsquos farthest northInner subclue The four countries in the world that the United States does not have diplomatic relations with (Bhutan Cuba Iran North Korea)Outer subclue Of Bhutan Cuba Iran and North Korea the one thatrsquos farthest northAnswer North Korea

Вопросы - пазлы

Category Before and After Goes to the MoviesClue Film of a typical day in the life of the Beatles which includes running from bloodthirsty zombie fans in a Romero classicSubclue 2 Film of a typical day in the life of the Beatles Answer 1 (A Hard Dayrsquos Night)Subclue 2 Running from bloodthirsty zombie fans in a Romero classicAnswer 2 (Night of the Living Dead)Answer A Hard Dayrsquos Night of the Living Dead

Category Rhyme TimeClue Itrsquos where Pele stores his ballSubclue 1 Pele ball (soccer)Subclue 2 where store (cabinet drawer locker and so on)Answer soccer locker

Недопустимые типы вопросов

oCategory Picture This(Contestants are shown a picture of a B-52 bomber)Clue Alphanumeric name of the fearsome machine seen hereAnswer B-52

oCategory Decode the Postal CodesVerbal instruction from host Wersquore going to give you a word comprising two postal abbreviations you have to identify the statesClue VainAnswer Virginia and Indiana

Лексические типы ответа ndash LAT (Lexical Answer Type)

Метрики качества ответов - результативность

Показатели двух теоретических QA систем

Показатели результативности чемпионов шоу (2000)

Облако победителей

Линия сравнения результативности (baseline performance)

Сравнение системы тестового поиска и поиска в базе знаний

Результативность Watson (по версиям)

Основы подхода Deep QA

bull Massive parallelism использование высокого параллелизма при рассмотрении множественных интерпретаций и гипотез

bull Many experts привлечение интеграции приложения и контекстуального оценивания в широком диапазоне слабосвязанных вероятностных вопросов и контентной аналитики

bull Pervasive confidence estimation повсеместная оценка доверия означает что ни один из компонентов не включается в ответ сразу все компоненты имеют признаки и связанные с ними уровни доверия производится скоринг различных вопросов и контентная интерпретация Основа confidence-processing состоит в обучении как стэкировать и комбинировать баллы

bull Integrate shallow and deep knowledge интеграция поверхностных и глубинных знаний состоит в балансе использования строгой семантики и мелких семантик использующих множества слабо сформированных онтологий

bull Content Acquisition - Сбор контентаСочетает ручные и автоматические этапы Первым шагом является анализ примеров вопросов проблемного пространства чтобы произвести описание видов вопросов на которые нужно ответить и характеризовать область применения Анализ примеров вопросов в первую очередь ручная задача в то время как анализ области может быть выполнен путем автоматических или статистических методов таких как анализ LAT показанный ранее Учитывая вопросы для широкого домена Jeopardy Challenge источники для Watson включают широкий ассортимент энциклопедий словарей тезаурусов Newswire статьи литературные произведения и тд Начиная с разумного размера базового корпуса DeepQA затем применяет автоматический процесс расширения корпуса Процесс включает в себя четыре этапа высокого уровня (1) выявления основных документов и получить соответствующие документы из Интернет (2) извлечь автономные текстовые ядра из связанных веб-документов (3) Оценка на основе ядер являются ли они информативны по отношению к исходному основному документу и (4) объединить наиболее информативные ядра в расширенном корпусе Работающая система использует этот расширенный корпус и не имеет доступа к Интернет во время игры

bull Question Analysis ndash Анализ вопроса

Первый шаг во время выполнения процесса вопрос-ответной системы При анализе вопроса система пытается понять что вопрос задан и выполняет начальный анализ определяющий как вопрос будет обработан на остальных этапах работы системы Подход DeepQA использует смешанный набор экспертов на данном этапе и в системе Watson производится мелкий парсинг глубокий парсинг строятся логические формы семантические этикетки ролей взаимные ссылки отношения именованные сущности и так далее а также конкретные виды анализа для ответа вопрос

bull Question classification - Классификация вопроса

Это задача выявления типа вопроса или частей вопроса которые требуют специальной обработки Это может включать в себя что-нибудь из отдельных слов с двойным смыслом и потенциально до выявления целых статей которые имеют определенную синтаксическую семантическую или риторические функциональные возможности которые могут инициировать нисходящий анализ Классификация может определить вопрос как вопрос- головоломку вопрос-математику -определение и так далее Это будет определять каламбуры ограничения компоненты определений или целые подвопросы в пределах вопросов

bull Focus and LAT Detection ndash Определение фокуса и лексического типа ответа

Лексический тип ответа - это слово или словосочетание в вопросе который определяет тип ответа без попытки понять семантику Определение LAT является важным видом выигрыша и общим источником критических ошибок Преимущество подхода DeepQA является использование многих самостоятельно разработанных алгоритмов laquoответ-типированияraquo Например фокус вопроса викторины laquoПри попадании электронов люминофор излучает электромагнитную энергию в этой формеraquo - является laquoэта формаraquo Фокус часто (но не всегда) содержит полезную информацию об ответе часто субъект или объект отношение в вопросе и может превратить вопрос в фактическое утверждение при замене возможным кандидатом Это представляет полезный способ собирать доказательства о каждом кандидате

bull Relation Detection ndash детектирование отношений

Большинство вопросов содержит отношения являются ли они синтаксическими предикатами субъект-глагол-объект или семантические отношения между субъектами Например в вопросе laquoЕсть два штата в которые вы могли бы войти повторно если вы пересекаете северную границу штата Флоридаraquo мы можем обнаружить отношение границы (Флорида Х к северу) Watson использует обнаружение отношения на протяжении всего процесса QA от фокуса и LAT определения до прохождению и скорингу ответов Watson также может использовать обнаруженные отношения для выделения хранилища триплетов и напрямую генерировать кандидатов в ответы В 20000 игр Jeopardy вопросы например обнаружили распределение Freebase отношений чрезвычайно плоского вида (см рисунок) Это приближение распределеня 50 наиболее частых отношений в 20 000 случайно выбранных вопросах викторины

bull Decomposition ndash декомпозиция

Важным требованием успеха анализа Jeopardy является способность отвечать на вопросы которые разложены на составляющие DeepQA использует основанный на правилах глубокий парсинг и статистические методы классификации чтобы наилучшим образом разложить вопросы на элементы и определить как лучше разбить их на подвопросы Операционная гипотеза что правильная интерпретация вопроса позволит лучше произвести скоринг ответов после того как все доказательства собраны Даже если вопрос не должен быть разложен для определения ответа этот метод может помочь улучшить общее доверие ответу системы DeepQA решает задачи параллельно для каждого разложения применяя алгоритмы от начала до конца каждого подвопроса и синтезирует окончательные ответы DeepQA также поддерживает вложенные декомпозиции вопросов через рекурсивное применение QA системы от начала до конца в внутреннем подвопросе а затем во внешнем Настраиваемые компоненты позволяют легко подключать специализированные алгоритмы синтеза в общую систему

bull Hypothesis Generation ndash генерация гипотез

Генерация гипотез принимает результаты анализа вопросов и производит кандидатов на ответы Каждый кандидат ответ включается обратно в вопрос и это считается как гипотеза Система должна доказать правильность этой гипотезы с некоторой степенью уверенности Как и во всех аспектах DeepQA используется смесь разных подходов для первичного поиска и генерации кандидата в системе Watson

bull Primary Search ndash первичный поиск

В этом поиске целью является найти столько потенциально кандидатов сколько это можно сделать на основе результатов анализа вопроса В течение проекта велись эмпирические исследования направленные на баланс скорости объема и точности Эти исследования позволили регулярно настраивать систему так чтобы найти такое количество кандидатов которые производят наилучший баланс точности и вычислительных ресурсов Оперативная цель основного поиска в конечном счете стабилизировалась на около 85 процентов для топ-250 кандидатов то есть система генерирует правильный ответ как кандидата ответа на 85 процентов вопросов где-то в верхних 250 ранжированных кандидатов Разнообразие методов поиска используются в том числе с использованием нескольких текст поисковых системах с различными базовыми подходами (например Indri и Lucene) поиск документов а также поиска маршрута база знаний поиска с помощью SPARQL хранилища триплетов Для небольшого количества латов которые были определены как закрытые латы кандидат на ответ может быть получен из фиксированного списка в каком-то хранилище известных экземпляров LAT таких как США Президент или Страна

Поиск доказательств

bull Поиск по фразе ndash число соответствий разного типав ответе и вопросеbull Популярность ndash как часто встречается этот вариант ответаbull Соответствие по типу ndash ответ и требование вопросаbull Соответствие по времениbull Надежность источника

bull Candidate Answer Generation ndash генерирование кандидатов на ответ

Результаты поиска применяются для генерирования возможных кандидатов в ответы с помощью различных подходящих техник Для поиска документов извлекаются заголовки и используются как кандидаты Число кандидатов при этом может быть не единственным и требовать использования анализа подстрок и ссылок Используя детектирование именованных сущностей в ряде случаев удается извлечь хороших кандидатов В зависимости от типа источника для генерирования кандидата требуется разный набор алгоритмов например база знаний или обратный словарь порождают кандидатов непосредственно как кандидата Этот этап критически важен и если кандидаты не найдены то фиксируется невозможность ответа В нормальном режиме на этом этапе Watson гененерирует несколько сотен андидатов

bull Soft Filtering ndash мягкая фильтрацияДля ускорения процесса скоринга кандидатов Watson использует различные алгоритмы разной точности Более легковесные (менее вычислительно интенсивные) применяются на первом этапе скоринга На этом этапе устанавливается порог оценки и кандидаты имеющие более высокую оценку считаются прошедшими мягкую фильтрацию Они поступают на выработку гипотез и скоринг доказательств Интересно что кандидаты не прошедшие порог мягкой фильтрации не забываются а направляются прямо на финальный этап слияния Модель скоринга мягкой фильтрации и порога определяются на основе machine learning используя обучающие данные Watson типично пропускает через мягкую фильтрацию 100 кандидатов но эта функция параметризована и их число можно изменить

Проблемы NLP

bull В мае 1898 года Португалия отмечала 400-летний юбилей со дня прибытия этого великого путешественника в Индию

В мае Гари прибыл в Индию после празднования своего юбилея в Португалии

21 мая 1498 года Васка де Гама высадился в местечке Каппад

bull Он был помилован президентом 8 сентября 1974 годаФорд помиловал Никсона 8 сентября 1974 года Никсон Форд

bull Говоря ldquogive a trinklerdquo что предлагают вам сделать британцы по приезду в город

bull Hypothesis and Evidence Scoring ndash скоринг гипотез и доказательств

Прошедшие порог мягкой фильтрации кандидаты поступают на скрупулезный процесс который включает сбор дополнительных поддерживающих доказательств для каждого кандидата на ответ или гипотезу Процесс использует широкий набор различных методов скоринговой аналитики чтобы исследовать все поддерживающие доказательства

bull Evidence Retrieval ndash извлечение доказательств

Чтобы лучше исследовать каждого кандидата прошедшего через мягкую фильтрацию система собирает дополнительные поддерживающие доказательства Архитектура поддерживает интеграцию различных evidence-gathering техник Один из применяемых способов состоит в том что проводится дополнительный поиск в котором кандидат добавляется в качестве required term к первичному запросу извлеченному из вопроса Это будет приводить к получению выражений содержащих кандидата в контексте первичных терминов вопросаПоддерживающие доказательства могут быть извлечены и из других источников например из RDF баз знаний Извлеченные поддерживающие доказательства направляются модули глубокого скоринга которые анализируют кандидата в контексте поддерживающего доказательства

bull Scoring ndash скоринг (количественное оценивание)

Алгоритмы скоринга определяют степень несомненности которую обеспечивают доказательства в поддержку кандидата The DeepQA framework поддерживает множество компонент для выработки оценки в различных измерениях каждого доказательства которая вырабатывает оценку связанную с тем насколько хорошо доказательство поддерживает кандидата на ответ в качестве ответа на заданный вопросDeepQA использует общий формат для оценок для принятых гипотез и подтверждающих оценок отражающих семантические и ограничивающие факторы Это позволяет разработчикам DeepQA быстро разворачивать перемешивать и настраивать сложные совокупности модуле для обработкиНапрмер Watson использует больше чем 50 скоринговых компонент Они производят оценки разноготипа от оценок вероятностей до подсчета категориальных свойств основанных на доказательствах от различных источников включая неструктурированные тексты полуструктурированные тексты и RDF хранилища Эти оценки используют такие данные как degree of match between a passagersquos predicate-argument structure and the question passage source reliability geospatial location temporal relationships taxonomic classification the lexical and semantic relations the candidate is known to participate in the candidatersquos correlation with question terms its popularity (or obscurity) its aliases and so on

Вопрос Чили имеет самую длинную общую границу со страной Сгенерировано несколько кандидатов среди них Аргентина и Боливия Первичный поиск даст приоритет Боливии из=а популярности обсуждений их отношений Однако собранные Watson доказательства из других источников показывают более высокую оценку для Аргентины

Скоринг (взвешивание) доказательств ndash предиктивная аналитика

- При делении клеток митозом называется деление ядра а цитокинезом ndash деление этой жидкости в которой находится ядро

Генерирование кандидатов Сбор доказательств Уверенность в доказательстве

ОрганеллыВакуольЦитоплазмаПлазмамитохондрии

Органеллы ndash не жидкостьВакуоль ndash не жидкостьЦитоплазма ndash возможно жидкостьПлазма ndash не жидкостьМитохондрии ndash не жидкость

Цитоплазма ndash 92Органеллы ndash 19Вакуоль ndash 10Плазма ndash 2Митохондрии ndash 2

Answer Merging ndash объединение ответов

Многие кандидаты в ответы на поставленный вопрос могут быть эквивалентны несмотря на различные внешне формыТехники ранжирования тем не менее рассматривают таких кандидатов как различные Без объединения алгоритмы ранжирования будут работать отдельно с эквивалентными сущностями и пытаться противопоставить одну форму другой Это приведет к проблемам принятия решений Watson содержит алгоритмы идентификации эквивалентных сущностей используя множественные сравнения нормализацию и методы разрешения совместных ссылок

Ranking and Confidence Estimation ndash ранжирование и оценивание доверияПосле объединения система должна произвести ранжирование гипотез и оценивает доверие основанное на объединенных оценках В системе подобран ML подход основанный на обучении на обучающем наборе вопросов с известными ответами и обучение модели основываясь на скоринге Применяется как весьма плоская модель и существующие алгоритмы ранжирования Для более тонких оценок применяется двухфазный процесс использующий группы оценок для оценивания профиля и для оценки доверия Используя эту промежуточную модель система производит ансамбль промежуточных оценок Здесь используется иерархическая техника метаучителя и коллектива экспертов Этот подход обеспечивает итеративное расширение обучения используя изощренные и глубокие иерархические модели обеспечивающие гибкость и робастность при выработке оценок и модифицирует системуМетаучитель в Watson использует набор многие обучаемые модели чтобы управлять различными классами вопросов которые могут быть критическими при идентификации правильных ответовНаконец важно что использование NLP-based скоринга дает весьма разреженные оценки и требует точного оценивания с применением confidence-weighted learning techniques

Развертывание Watson

bull DeepQA разработан используя Apache UIMA - framework implementation of the Unstructured Information Management Architecture (Ferrucci and Lally 2004) UIMA был разработан для поддержки взаимодействия и масштабирования приложений обработки текста и мультимодального анализа Все компоненты DeepQA имплементированы как UIMA annotators Это программные компоненты для анализа текста и получения аннотаций или заключений о тексте Watson развивался в процессе разработки от нескольких компонент до нескольких сотен UIMA обеспечивает быструю интеграцию компонент тестирование и исследование

bull Начальная имплементация Watson запускалась на одном процессоре и требовала 2 часа на ответ на один вопрос DeepQA развился в параллельную систему используя UIMA-AS часть Apache UIMA масштабируя приложения UIMA используя асинхронный механизм месседжинга UIMA-AS позволила масштабировать Watson более чем на 2500 вычислительных ядер UIMA-AS управляет коммуникациями месседжингом управлением запросами используя open JMS standard UIMA-AS позволил снизить латентность Watson до 3ndash5 секунд

bull Для препроцессинга корпуса текстов создания быстрых run-time indices использован Hadoop

UIMA annotators были развернуты как mapper ы в Hadoop map-reduce framework Hadoop распределяет контент по кластеру для обеспечения высокого использования CPU и обеспечивает подходящий набор инструментов для deploying managing and monitoring the corpus analysis process

bull Аппаратная платформа ndash это 90 серверов 2800 ядер 15 ТБ RAM 80 Тфлопс $3 000 000 10 R

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 44: !Predictive analytics part_3

WATSON ndash одно из наиболее впечатляющих применений предиктивной аналитики

Разрабатывался компанией IBM с 2006 по 2010 годПрославился победой в телешоу Jeopardy (в России ndash laquoСвоя играraquo) в 2011 годуПредшественник Deep Blue обыграл чемпиона мира по шахматам Гарри Каспарова в 1997 г

>

IBM Deep QA Project

bull Целью проекта было создать компьютерную систему (ИИ) для ответа на вопросы (QA) задаваемые в свободной форме в телешоу и показать результаты соизмеримые с человеческими

bull Задача более сложная чем шахматная программа Deep Blue выигравшая у Каспарова в 1997 г

bull Вопросы по категориямCategory General ScienceClue When hit by electrons a phosphor gives off electromagnetic energy in this formAnswer Light (or Photons)

Category Lincoln BlogsClue Secretary Chase just submitted this to me for the third time guess what pal This time Irsquom accepting itAnswer his resignation

Category Head NorthClue Theyrsquore the two states you could be reentering if yoursquore crossing Floridarsquos northern borderAnswer Georgia and Alabama

Вопросы могут касаться сразу нескольких фактов чтобы ответ был вернымCategory ldquoRaprdquo SheetClue This archaic term for a mischievous or annoying child can also mean a rogue or scampSubclue 1 This archaic term for a mischievous or annoying childSubclue 2 This term can also mean a rogue or scampAnswer Rapscallion

Category Diplomatic RelationsClue Of the four countries in the world that the United States does not have diplomatic relations with the one thatrsquos farthest northInner subclue The four countries in the world that the United States does not have diplomatic relations with (Bhutan Cuba Iran North Korea)Outer subclue Of Bhutan Cuba Iran and North Korea the one thatrsquos farthest northAnswer North Korea

Вопросы - пазлы

Category Before and After Goes to the MoviesClue Film of a typical day in the life of the Beatles which includes running from bloodthirsty zombie fans in a Romero classicSubclue 2 Film of a typical day in the life of the Beatles Answer 1 (A Hard Dayrsquos Night)Subclue 2 Running from bloodthirsty zombie fans in a Romero classicAnswer 2 (Night of the Living Dead)Answer A Hard Dayrsquos Night of the Living Dead

Category Rhyme TimeClue Itrsquos where Pele stores his ballSubclue 1 Pele ball (soccer)Subclue 2 where store (cabinet drawer locker and so on)Answer soccer locker

Недопустимые типы вопросов

oCategory Picture This(Contestants are shown a picture of a B-52 bomber)Clue Alphanumeric name of the fearsome machine seen hereAnswer B-52

oCategory Decode the Postal CodesVerbal instruction from host Wersquore going to give you a word comprising two postal abbreviations you have to identify the statesClue VainAnswer Virginia and Indiana

Лексические типы ответа ndash LAT (Lexical Answer Type)

Метрики качества ответов - результативность

Показатели двух теоретических QA систем

Показатели результативности чемпионов шоу (2000)

Облако победителей

Линия сравнения результативности (baseline performance)

Сравнение системы тестового поиска и поиска в базе знаний

Результативность Watson (по версиям)

Основы подхода Deep QA

bull Massive parallelism использование высокого параллелизма при рассмотрении множественных интерпретаций и гипотез

bull Many experts привлечение интеграции приложения и контекстуального оценивания в широком диапазоне слабосвязанных вероятностных вопросов и контентной аналитики

bull Pervasive confidence estimation повсеместная оценка доверия означает что ни один из компонентов не включается в ответ сразу все компоненты имеют признаки и связанные с ними уровни доверия производится скоринг различных вопросов и контентная интерпретация Основа confidence-processing состоит в обучении как стэкировать и комбинировать баллы

bull Integrate shallow and deep knowledge интеграция поверхностных и глубинных знаний состоит в балансе использования строгой семантики и мелких семантик использующих множества слабо сформированных онтологий

bull Content Acquisition - Сбор контентаСочетает ручные и автоматические этапы Первым шагом является анализ примеров вопросов проблемного пространства чтобы произвести описание видов вопросов на которые нужно ответить и характеризовать область применения Анализ примеров вопросов в первую очередь ручная задача в то время как анализ области может быть выполнен путем автоматических или статистических методов таких как анализ LAT показанный ранее Учитывая вопросы для широкого домена Jeopardy Challenge источники для Watson включают широкий ассортимент энциклопедий словарей тезаурусов Newswire статьи литературные произведения и тд Начиная с разумного размера базового корпуса DeepQA затем применяет автоматический процесс расширения корпуса Процесс включает в себя четыре этапа высокого уровня (1) выявления основных документов и получить соответствующие документы из Интернет (2) извлечь автономные текстовые ядра из связанных веб-документов (3) Оценка на основе ядер являются ли они информативны по отношению к исходному основному документу и (4) объединить наиболее информативные ядра в расширенном корпусе Работающая система использует этот расширенный корпус и не имеет доступа к Интернет во время игры

bull Question Analysis ndash Анализ вопроса

Первый шаг во время выполнения процесса вопрос-ответной системы При анализе вопроса система пытается понять что вопрос задан и выполняет начальный анализ определяющий как вопрос будет обработан на остальных этапах работы системы Подход DeepQA использует смешанный набор экспертов на данном этапе и в системе Watson производится мелкий парсинг глубокий парсинг строятся логические формы семантические этикетки ролей взаимные ссылки отношения именованные сущности и так далее а также конкретные виды анализа для ответа вопрос

bull Question classification - Классификация вопроса

Это задача выявления типа вопроса или частей вопроса которые требуют специальной обработки Это может включать в себя что-нибудь из отдельных слов с двойным смыслом и потенциально до выявления целых статей которые имеют определенную синтаксическую семантическую или риторические функциональные возможности которые могут инициировать нисходящий анализ Классификация может определить вопрос как вопрос- головоломку вопрос-математику -определение и так далее Это будет определять каламбуры ограничения компоненты определений или целые подвопросы в пределах вопросов

bull Focus and LAT Detection ndash Определение фокуса и лексического типа ответа

Лексический тип ответа - это слово или словосочетание в вопросе который определяет тип ответа без попытки понять семантику Определение LAT является важным видом выигрыша и общим источником критических ошибок Преимущество подхода DeepQA является использование многих самостоятельно разработанных алгоритмов laquoответ-типированияraquo Например фокус вопроса викторины laquoПри попадании электронов люминофор излучает электромагнитную энергию в этой формеraquo - является laquoэта формаraquo Фокус часто (но не всегда) содержит полезную информацию об ответе часто субъект или объект отношение в вопросе и может превратить вопрос в фактическое утверждение при замене возможным кандидатом Это представляет полезный способ собирать доказательства о каждом кандидате

bull Relation Detection ndash детектирование отношений

Большинство вопросов содержит отношения являются ли они синтаксическими предикатами субъект-глагол-объект или семантические отношения между субъектами Например в вопросе laquoЕсть два штата в которые вы могли бы войти повторно если вы пересекаете северную границу штата Флоридаraquo мы можем обнаружить отношение границы (Флорида Х к северу) Watson использует обнаружение отношения на протяжении всего процесса QA от фокуса и LAT определения до прохождению и скорингу ответов Watson также может использовать обнаруженные отношения для выделения хранилища триплетов и напрямую генерировать кандидатов в ответы В 20000 игр Jeopardy вопросы например обнаружили распределение Freebase отношений чрезвычайно плоского вида (см рисунок) Это приближение распределеня 50 наиболее частых отношений в 20 000 случайно выбранных вопросах викторины

bull Decomposition ndash декомпозиция

Важным требованием успеха анализа Jeopardy является способность отвечать на вопросы которые разложены на составляющие DeepQA использует основанный на правилах глубокий парсинг и статистические методы классификации чтобы наилучшим образом разложить вопросы на элементы и определить как лучше разбить их на подвопросы Операционная гипотеза что правильная интерпретация вопроса позволит лучше произвести скоринг ответов после того как все доказательства собраны Даже если вопрос не должен быть разложен для определения ответа этот метод может помочь улучшить общее доверие ответу системы DeepQA решает задачи параллельно для каждого разложения применяя алгоритмы от начала до конца каждого подвопроса и синтезирует окончательные ответы DeepQA также поддерживает вложенные декомпозиции вопросов через рекурсивное применение QA системы от начала до конца в внутреннем подвопросе а затем во внешнем Настраиваемые компоненты позволяют легко подключать специализированные алгоритмы синтеза в общую систему

bull Hypothesis Generation ndash генерация гипотез

Генерация гипотез принимает результаты анализа вопросов и производит кандидатов на ответы Каждый кандидат ответ включается обратно в вопрос и это считается как гипотеза Система должна доказать правильность этой гипотезы с некоторой степенью уверенности Как и во всех аспектах DeepQA используется смесь разных подходов для первичного поиска и генерации кандидата в системе Watson

bull Primary Search ndash первичный поиск

В этом поиске целью является найти столько потенциально кандидатов сколько это можно сделать на основе результатов анализа вопроса В течение проекта велись эмпирические исследования направленные на баланс скорости объема и точности Эти исследования позволили регулярно настраивать систему так чтобы найти такое количество кандидатов которые производят наилучший баланс точности и вычислительных ресурсов Оперативная цель основного поиска в конечном счете стабилизировалась на около 85 процентов для топ-250 кандидатов то есть система генерирует правильный ответ как кандидата ответа на 85 процентов вопросов где-то в верхних 250 ранжированных кандидатов Разнообразие методов поиска используются в том числе с использованием нескольких текст поисковых системах с различными базовыми подходами (например Indri и Lucene) поиск документов а также поиска маршрута база знаний поиска с помощью SPARQL хранилища триплетов Для небольшого количества латов которые были определены как закрытые латы кандидат на ответ может быть получен из фиксированного списка в каком-то хранилище известных экземпляров LAT таких как США Президент или Страна

Поиск доказательств

bull Поиск по фразе ndash число соответствий разного типав ответе и вопросеbull Популярность ndash как часто встречается этот вариант ответаbull Соответствие по типу ndash ответ и требование вопросаbull Соответствие по времениbull Надежность источника

bull Candidate Answer Generation ndash генерирование кандидатов на ответ

Результаты поиска применяются для генерирования возможных кандидатов в ответы с помощью различных подходящих техник Для поиска документов извлекаются заголовки и используются как кандидаты Число кандидатов при этом может быть не единственным и требовать использования анализа подстрок и ссылок Используя детектирование именованных сущностей в ряде случаев удается извлечь хороших кандидатов В зависимости от типа источника для генерирования кандидата требуется разный набор алгоритмов например база знаний или обратный словарь порождают кандидатов непосредственно как кандидата Этот этап критически важен и если кандидаты не найдены то фиксируется невозможность ответа В нормальном режиме на этом этапе Watson гененерирует несколько сотен андидатов

bull Soft Filtering ndash мягкая фильтрацияДля ускорения процесса скоринга кандидатов Watson использует различные алгоритмы разной точности Более легковесные (менее вычислительно интенсивные) применяются на первом этапе скоринга На этом этапе устанавливается порог оценки и кандидаты имеющие более высокую оценку считаются прошедшими мягкую фильтрацию Они поступают на выработку гипотез и скоринг доказательств Интересно что кандидаты не прошедшие порог мягкой фильтрации не забываются а направляются прямо на финальный этап слияния Модель скоринга мягкой фильтрации и порога определяются на основе machine learning используя обучающие данные Watson типично пропускает через мягкую фильтрацию 100 кандидатов но эта функция параметризована и их число можно изменить

Проблемы NLP

bull В мае 1898 года Португалия отмечала 400-летний юбилей со дня прибытия этого великого путешественника в Индию

В мае Гари прибыл в Индию после празднования своего юбилея в Португалии

21 мая 1498 года Васка де Гама высадился в местечке Каппад

bull Он был помилован президентом 8 сентября 1974 годаФорд помиловал Никсона 8 сентября 1974 года Никсон Форд

bull Говоря ldquogive a trinklerdquo что предлагают вам сделать британцы по приезду в город

bull Hypothesis and Evidence Scoring ndash скоринг гипотез и доказательств

Прошедшие порог мягкой фильтрации кандидаты поступают на скрупулезный процесс который включает сбор дополнительных поддерживающих доказательств для каждого кандидата на ответ или гипотезу Процесс использует широкий набор различных методов скоринговой аналитики чтобы исследовать все поддерживающие доказательства

bull Evidence Retrieval ndash извлечение доказательств

Чтобы лучше исследовать каждого кандидата прошедшего через мягкую фильтрацию система собирает дополнительные поддерживающие доказательства Архитектура поддерживает интеграцию различных evidence-gathering техник Один из применяемых способов состоит в том что проводится дополнительный поиск в котором кандидат добавляется в качестве required term к первичному запросу извлеченному из вопроса Это будет приводить к получению выражений содержащих кандидата в контексте первичных терминов вопросаПоддерживающие доказательства могут быть извлечены и из других источников например из RDF баз знаний Извлеченные поддерживающие доказательства направляются модули глубокого скоринга которые анализируют кандидата в контексте поддерживающего доказательства

bull Scoring ndash скоринг (количественное оценивание)

Алгоритмы скоринга определяют степень несомненности которую обеспечивают доказательства в поддержку кандидата The DeepQA framework поддерживает множество компонент для выработки оценки в различных измерениях каждого доказательства которая вырабатывает оценку связанную с тем насколько хорошо доказательство поддерживает кандидата на ответ в качестве ответа на заданный вопросDeepQA использует общий формат для оценок для принятых гипотез и подтверждающих оценок отражающих семантические и ограничивающие факторы Это позволяет разработчикам DeepQA быстро разворачивать перемешивать и настраивать сложные совокупности модуле для обработкиНапрмер Watson использует больше чем 50 скоринговых компонент Они производят оценки разноготипа от оценок вероятностей до подсчета категориальных свойств основанных на доказательствах от различных источников включая неструктурированные тексты полуструктурированные тексты и RDF хранилища Эти оценки используют такие данные как degree of match between a passagersquos predicate-argument structure and the question passage source reliability geospatial location temporal relationships taxonomic classification the lexical and semantic relations the candidate is known to participate in the candidatersquos correlation with question terms its popularity (or obscurity) its aliases and so on

Вопрос Чили имеет самую длинную общую границу со страной Сгенерировано несколько кандидатов среди них Аргентина и Боливия Первичный поиск даст приоритет Боливии из=а популярности обсуждений их отношений Однако собранные Watson доказательства из других источников показывают более высокую оценку для Аргентины

Скоринг (взвешивание) доказательств ndash предиктивная аналитика

- При делении клеток митозом называется деление ядра а цитокинезом ndash деление этой жидкости в которой находится ядро

Генерирование кандидатов Сбор доказательств Уверенность в доказательстве

ОрганеллыВакуольЦитоплазмаПлазмамитохондрии

Органеллы ndash не жидкостьВакуоль ndash не жидкостьЦитоплазма ndash возможно жидкостьПлазма ndash не жидкостьМитохондрии ndash не жидкость

Цитоплазма ndash 92Органеллы ndash 19Вакуоль ndash 10Плазма ndash 2Митохондрии ndash 2

Answer Merging ndash объединение ответов

Многие кандидаты в ответы на поставленный вопрос могут быть эквивалентны несмотря на различные внешне формыТехники ранжирования тем не менее рассматривают таких кандидатов как различные Без объединения алгоритмы ранжирования будут работать отдельно с эквивалентными сущностями и пытаться противопоставить одну форму другой Это приведет к проблемам принятия решений Watson содержит алгоритмы идентификации эквивалентных сущностей используя множественные сравнения нормализацию и методы разрешения совместных ссылок

Ranking and Confidence Estimation ndash ранжирование и оценивание доверияПосле объединения система должна произвести ранжирование гипотез и оценивает доверие основанное на объединенных оценках В системе подобран ML подход основанный на обучении на обучающем наборе вопросов с известными ответами и обучение модели основываясь на скоринге Применяется как весьма плоская модель и существующие алгоритмы ранжирования Для более тонких оценок применяется двухфазный процесс использующий группы оценок для оценивания профиля и для оценки доверия Используя эту промежуточную модель система производит ансамбль промежуточных оценок Здесь используется иерархическая техника метаучителя и коллектива экспертов Этот подход обеспечивает итеративное расширение обучения используя изощренные и глубокие иерархические модели обеспечивающие гибкость и робастность при выработке оценок и модифицирует системуМетаучитель в Watson использует набор многие обучаемые модели чтобы управлять различными классами вопросов которые могут быть критическими при идентификации правильных ответовНаконец важно что использование NLP-based скоринга дает весьма разреженные оценки и требует точного оценивания с применением confidence-weighted learning techniques

Развертывание Watson

bull DeepQA разработан используя Apache UIMA - framework implementation of the Unstructured Information Management Architecture (Ferrucci and Lally 2004) UIMA был разработан для поддержки взаимодействия и масштабирования приложений обработки текста и мультимодального анализа Все компоненты DeepQA имплементированы как UIMA annotators Это программные компоненты для анализа текста и получения аннотаций или заключений о тексте Watson развивался в процессе разработки от нескольких компонент до нескольких сотен UIMA обеспечивает быструю интеграцию компонент тестирование и исследование

bull Начальная имплементация Watson запускалась на одном процессоре и требовала 2 часа на ответ на один вопрос DeepQA развился в параллельную систему используя UIMA-AS часть Apache UIMA масштабируя приложения UIMA используя асинхронный механизм месседжинга UIMA-AS позволила масштабировать Watson более чем на 2500 вычислительных ядер UIMA-AS управляет коммуникациями месседжингом управлением запросами используя open JMS standard UIMA-AS позволил снизить латентность Watson до 3ndash5 секунд

bull Для препроцессинга корпуса текстов создания быстрых run-time indices использован Hadoop

UIMA annotators были развернуты как mapper ы в Hadoop map-reduce framework Hadoop распределяет контент по кластеру для обеспечения высокого использования CPU и обеспечивает подходящий набор инструментов для deploying managing and monitoring the corpus analysis process

bull Аппаратная платформа ndash это 90 серверов 2800 ядер 15 ТБ RAM 80 Тфлопс $3 000 000 10 R

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 45: !Predictive analytics part_3
>

IBM Deep QA Project

bull Целью проекта было создать компьютерную систему (ИИ) для ответа на вопросы (QA) задаваемые в свободной форме в телешоу и показать результаты соизмеримые с человеческими

bull Задача более сложная чем шахматная программа Deep Blue выигравшая у Каспарова в 1997 г

bull Вопросы по категориямCategory General ScienceClue When hit by electrons a phosphor gives off electromagnetic energy in this formAnswer Light (or Photons)

Category Lincoln BlogsClue Secretary Chase just submitted this to me for the third time guess what pal This time Irsquom accepting itAnswer his resignation

Category Head NorthClue Theyrsquore the two states you could be reentering if yoursquore crossing Floridarsquos northern borderAnswer Georgia and Alabama

Вопросы могут касаться сразу нескольких фактов чтобы ответ был вернымCategory ldquoRaprdquo SheetClue This archaic term for a mischievous or annoying child can also mean a rogue or scampSubclue 1 This archaic term for a mischievous or annoying childSubclue 2 This term can also mean a rogue or scampAnswer Rapscallion

Category Diplomatic RelationsClue Of the four countries in the world that the United States does not have diplomatic relations with the one thatrsquos farthest northInner subclue The four countries in the world that the United States does not have diplomatic relations with (Bhutan Cuba Iran North Korea)Outer subclue Of Bhutan Cuba Iran and North Korea the one thatrsquos farthest northAnswer North Korea

Вопросы - пазлы

Category Before and After Goes to the MoviesClue Film of a typical day in the life of the Beatles which includes running from bloodthirsty zombie fans in a Romero classicSubclue 2 Film of a typical day in the life of the Beatles Answer 1 (A Hard Dayrsquos Night)Subclue 2 Running from bloodthirsty zombie fans in a Romero classicAnswer 2 (Night of the Living Dead)Answer A Hard Dayrsquos Night of the Living Dead

Category Rhyme TimeClue Itrsquos where Pele stores his ballSubclue 1 Pele ball (soccer)Subclue 2 where store (cabinet drawer locker and so on)Answer soccer locker

Недопустимые типы вопросов

oCategory Picture This(Contestants are shown a picture of a B-52 bomber)Clue Alphanumeric name of the fearsome machine seen hereAnswer B-52

oCategory Decode the Postal CodesVerbal instruction from host Wersquore going to give you a word comprising two postal abbreviations you have to identify the statesClue VainAnswer Virginia and Indiana

Лексические типы ответа ndash LAT (Lexical Answer Type)

Метрики качества ответов - результативность

Показатели двух теоретических QA систем

Показатели результативности чемпионов шоу (2000)

Облако победителей

Линия сравнения результативности (baseline performance)

Сравнение системы тестового поиска и поиска в базе знаний

Результативность Watson (по версиям)

Основы подхода Deep QA

bull Massive parallelism использование высокого параллелизма при рассмотрении множественных интерпретаций и гипотез

bull Many experts привлечение интеграции приложения и контекстуального оценивания в широком диапазоне слабосвязанных вероятностных вопросов и контентной аналитики

bull Pervasive confidence estimation повсеместная оценка доверия означает что ни один из компонентов не включается в ответ сразу все компоненты имеют признаки и связанные с ними уровни доверия производится скоринг различных вопросов и контентная интерпретация Основа confidence-processing состоит в обучении как стэкировать и комбинировать баллы

bull Integrate shallow and deep knowledge интеграция поверхностных и глубинных знаний состоит в балансе использования строгой семантики и мелких семантик использующих множества слабо сформированных онтологий

bull Content Acquisition - Сбор контентаСочетает ручные и автоматические этапы Первым шагом является анализ примеров вопросов проблемного пространства чтобы произвести описание видов вопросов на которые нужно ответить и характеризовать область применения Анализ примеров вопросов в первую очередь ручная задача в то время как анализ области может быть выполнен путем автоматических или статистических методов таких как анализ LAT показанный ранее Учитывая вопросы для широкого домена Jeopardy Challenge источники для Watson включают широкий ассортимент энциклопедий словарей тезаурусов Newswire статьи литературные произведения и тд Начиная с разумного размера базового корпуса DeepQA затем применяет автоматический процесс расширения корпуса Процесс включает в себя четыре этапа высокого уровня (1) выявления основных документов и получить соответствующие документы из Интернет (2) извлечь автономные текстовые ядра из связанных веб-документов (3) Оценка на основе ядер являются ли они информативны по отношению к исходному основному документу и (4) объединить наиболее информативные ядра в расширенном корпусе Работающая система использует этот расширенный корпус и не имеет доступа к Интернет во время игры

bull Question Analysis ndash Анализ вопроса

Первый шаг во время выполнения процесса вопрос-ответной системы При анализе вопроса система пытается понять что вопрос задан и выполняет начальный анализ определяющий как вопрос будет обработан на остальных этапах работы системы Подход DeepQA использует смешанный набор экспертов на данном этапе и в системе Watson производится мелкий парсинг глубокий парсинг строятся логические формы семантические этикетки ролей взаимные ссылки отношения именованные сущности и так далее а также конкретные виды анализа для ответа вопрос

bull Question classification - Классификация вопроса

Это задача выявления типа вопроса или частей вопроса которые требуют специальной обработки Это может включать в себя что-нибудь из отдельных слов с двойным смыслом и потенциально до выявления целых статей которые имеют определенную синтаксическую семантическую или риторические функциональные возможности которые могут инициировать нисходящий анализ Классификация может определить вопрос как вопрос- головоломку вопрос-математику -определение и так далее Это будет определять каламбуры ограничения компоненты определений или целые подвопросы в пределах вопросов

bull Focus and LAT Detection ndash Определение фокуса и лексического типа ответа

Лексический тип ответа - это слово или словосочетание в вопросе который определяет тип ответа без попытки понять семантику Определение LAT является важным видом выигрыша и общим источником критических ошибок Преимущество подхода DeepQA является использование многих самостоятельно разработанных алгоритмов laquoответ-типированияraquo Например фокус вопроса викторины laquoПри попадании электронов люминофор излучает электромагнитную энергию в этой формеraquo - является laquoэта формаraquo Фокус часто (но не всегда) содержит полезную информацию об ответе часто субъект или объект отношение в вопросе и может превратить вопрос в фактическое утверждение при замене возможным кандидатом Это представляет полезный способ собирать доказательства о каждом кандидате

bull Relation Detection ndash детектирование отношений

Большинство вопросов содержит отношения являются ли они синтаксическими предикатами субъект-глагол-объект или семантические отношения между субъектами Например в вопросе laquoЕсть два штата в которые вы могли бы войти повторно если вы пересекаете северную границу штата Флоридаraquo мы можем обнаружить отношение границы (Флорида Х к северу) Watson использует обнаружение отношения на протяжении всего процесса QA от фокуса и LAT определения до прохождению и скорингу ответов Watson также может использовать обнаруженные отношения для выделения хранилища триплетов и напрямую генерировать кандидатов в ответы В 20000 игр Jeopardy вопросы например обнаружили распределение Freebase отношений чрезвычайно плоского вида (см рисунок) Это приближение распределеня 50 наиболее частых отношений в 20 000 случайно выбранных вопросах викторины

bull Decomposition ndash декомпозиция

Важным требованием успеха анализа Jeopardy является способность отвечать на вопросы которые разложены на составляющие DeepQA использует основанный на правилах глубокий парсинг и статистические методы классификации чтобы наилучшим образом разложить вопросы на элементы и определить как лучше разбить их на подвопросы Операционная гипотеза что правильная интерпретация вопроса позволит лучше произвести скоринг ответов после того как все доказательства собраны Даже если вопрос не должен быть разложен для определения ответа этот метод может помочь улучшить общее доверие ответу системы DeepQA решает задачи параллельно для каждого разложения применяя алгоритмы от начала до конца каждого подвопроса и синтезирует окончательные ответы DeepQA также поддерживает вложенные декомпозиции вопросов через рекурсивное применение QA системы от начала до конца в внутреннем подвопросе а затем во внешнем Настраиваемые компоненты позволяют легко подключать специализированные алгоритмы синтеза в общую систему

bull Hypothesis Generation ndash генерация гипотез

Генерация гипотез принимает результаты анализа вопросов и производит кандидатов на ответы Каждый кандидат ответ включается обратно в вопрос и это считается как гипотеза Система должна доказать правильность этой гипотезы с некоторой степенью уверенности Как и во всех аспектах DeepQA используется смесь разных подходов для первичного поиска и генерации кандидата в системе Watson

bull Primary Search ndash первичный поиск

В этом поиске целью является найти столько потенциально кандидатов сколько это можно сделать на основе результатов анализа вопроса В течение проекта велись эмпирические исследования направленные на баланс скорости объема и точности Эти исследования позволили регулярно настраивать систему так чтобы найти такое количество кандидатов которые производят наилучший баланс точности и вычислительных ресурсов Оперативная цель основного поиска в конечном счете стабилизировалась на около 85 процентов для топ-250 кандидатов то есть система генерирует правильный ответ как кандидата ответа на 85 процентов вопросов где-то в верхних 250 ранжированных кандидатов Разнообразие методов поиска используются в том числе с использованием нескольких текст поисковых системах с различными базовыми подходами (например Indri и Lucene) поиск документов а также поиска маршрута база знаний поиска с помощью SPARQL хранилища триплетов Для небольшого количества латов которые были определены как закрытые латы кандидат на ответ может быть получен из фиксированного списка в каком-то хранилище известных экземпляров LAT таких как США Президент или Страна

Поиск доказательств

bull Поиск по фразе ndash число соответствий разного типав ответе и вопросеbull Популярность ndash как часто встречается этот вариант ответаbull Соответствие по типу ndash ответ и требование вопросаbull Соответствие по времениbull Надежность источника

bull Candidate Answer Generation ndash генерирование кандидатов на ответ

Результаты поиска применяются для генерирования возможных кандидатов в ответы с помощью различных подходящих техник Для поиска документов извлекаются заголовки и используются как кандидаты Число кандидатов при этом может быть не единственным и требовать использования анализа подстрок и ссылок Используя детектирование именованных сущностей в ряде случаев удается извлечь хороших кандидатов В зависимости от типа источника для генерирования кандидата требуется разный набор алгоритмов например база знаний или обратный словарь порождают кандидатов непосредственно как кандидата Этот этап критически важен и если кандидаты не найдены то фиксируется невозможность ответа В нормальном режиме на этом этапе Watson гененерирует несколько сотен андидатов

bull Soft Filtering ndash мягкая фильтрацияДля ускорения процесса скоринга кандидатов Watson использует различные алгоритмы разной точности Более легковесные (менее вычислительно интенсивные) применяются на первом этапе скоринга На этом этапе устанавливается порог оценки и кандидаты имеющие более высокую оценку считаются прошедшими мягкую фильтрацию Они поступают на выработку гипотез и скоринг доказательств Интересно что кандидаты не прошедшие порог мягкой фильтрации не забываются а направляются прямо на финальный этап слияния Модель скоринга мягкой фильтрации и порога определяются на основе machine learning используя обучающие данные Watson типично пропускает через мягкую фильтрацию 100 кандидатов но эта функция параметризована и их число можно изменить

Проблемы NLP

bull В мае 1898 года Португалия отмечала 400-летний юбилей со дня прибытия этого великого путешественника в Индию

В мае Гари прибыл в Индию после празднования своего юбилея в Португалии

21 мая 1498 года Васка де Гама высадился в местечке Каппад

bull Он был помилован президентом 8 сентября 1974 годаФорд помиловал Никсона 8 сентября 1974 года Никсон Форд

bull Говоря ldquogive a trinklerdquo что предлагают вам сделать британцы по приезду в город

bull Hypothesis and Evidence Scoring ndash скоринг гипотез и доказательств

Прошедшие порог мягкой фильтрации кандидаты поступают на скрупулезный процесс который включает сбор дополнительных поддерживающих доказательств для каждого кандидата на ответ или гипотезу Процесс использует широкий набор различных методов скоринговой аналитики чтобы исследовать все поддерживающие доказательства

bull Evidence Retrieval ndash извлечение доказательств

Чтобы лучше исследовать каждого кандидата прошедшего через мягкую фильтрацию система собирает дополнительные поддерживающие доказательства Архитектура поддерживает интеграцию различных evidence-gathering техник Один из применяемых способов состоит в том что проводится дополнительный поиск в котором кандидат добавляется в качестве required term к первичному запросу извлеченному из вопроса Это будет приводить к получению выражений содержащих кандидата в контексте первичных терминов вопросаПоддерживающие доказательства могут быть извлечены и из других источников например из RDF баз знаний Извлеченные поддерживающие доказательства направляются модули глубокого скоринга которые анализируют кандидата в контексте поддерживающего доказательства

bull Scoring ndash скоринг (количественное оценивание)

Алгоритмы скоринга определяют степень несомненности которую обеспечивают доказательства в поддержку кандидата The DeepQA framework поддерживает множество компонент для выработки оценки в различных измерениях каждого доказательства которая вырабатывает оценку связанную с тем насколько хорошо доказательство поддерживает кандидата на ответ в качестве ответа на заданный вопросDeepQA использует общий формат для оценок для принятых гипотез и подтверждающих оценок отражающих семантические и ограничивающие факторы Это позволяет разработчикам DeepQA быстро разворачивать перемешивать и настраивать сложные совокупности модуле для обработкиНапрмер Watson использует больше чем 50 скоринговых компонент Они производят оценки разноготипа от оценок вероятностей до подсчета категориальных свойств основанных на доказательствах от различных источников включая неструктурированные тексты полуструктурированные тексты и RDF хранилища Эти оценки используют такие данные как degree of match between a passagersquos predicate-argument structure and the question passage source reliability geospatial location temporal relationships taxonomic classification the lexical and semantic relations the candidate is known to participate in the candidatersquos correlation with question terms its popularity (or obscurity) its aliases and so on

Вопрос Чили имеет самую длинную общую границу со страной Сгенерировано несколько кандидатов среди них Аргентина и Боливия Первичный поиск даст приоритет Боливии из=а популярности обсуждений их отношений Однако собранные Watson доказательства из других источников показывают более высокую оценку для Аргентины

Скоринг (взвешивание) доказательств ndash предиктивная аналитика

- При делении клеток митозом называется деление ядра а цитокинезом ndash деление этой жидкости в которой находится ядро

Генерирование кандидатов Сбор доказательств Уверенность в доказательстве

ОрганеллыВакуольЦитоплазмаПлазмамитохондрии

Органеллы ndash не жидкостьВакуоль ndash не жидкостьЦитоплазма ndash возможно жидкостьПлазма ndash не жидкостьМитохондрии ndash не жидкость

Цитоплазма ndash 92Органеллы ndash 19Вакуоль ndash 10Плазма ndash 2Митохондрии ndash 2

Answer Merging ndash объединение ответов

Многие кандидаты в ответы на поставленный вопрос могут быть эквивалентны несмотря на различные внешне формыТехники ранжирования тем не менее рассматривают таких кандидатов как различные Без объединения алгоритмы ранжирования будут работать отдельно с эквивалентными сущностями и пытаться противопоставить одну форму другой Это приведет к проблемам принятия решений Watson содержит алгоритмы идентификации эквивалентных сущностей используя множественные сравнения нормализацию и методы разрешения совместных ссылок

Ranking and Confidence Estimation ndash ранжирование и оценивание доверияПосле объединения система должна произвести ранжирование гипотез и оценивает доверие основанное на объединенных оценках В системе подобран ML подход основанный на обучении на обучающем наборе вопросов с известными ответами и обучение модели основываясь на скоринге Применяется как весьма плоская модель и существующие алгоритмы ранжирования Для более тонких оценок применяется двухфазный процесс использующий группы оценок для оценивания профиля и для оценки доверия Используя эту промежуточную модель система производит ансамбль промежуточных оценок Здесь используется иерархическая техника метаучителя и коллектива экспертов Этот подход обеспечивает итеративное расширение обучения используя изощренные и глубокие иерархические модели обеспечивающие гибкость и робастность при выработке оценок и модифицирует системуМетаучитель в Watson использует набор многие обучаемые модели чтобы управлять различными классами вопросов которые могут быть критическими при идентификации правильных ответовНаконец важно что использование NLP-based скоринга дает весьма разреженные оценки и требует точного оценивания с применением confidence-weighted learning techniques

Развертывание Watson

bull DeepQA разработан используя Apache UIMA - framework implementation of the Unstructured Information Management Architecture (Ferrucci and Lally 2004) UIMA был разработан для поддержки взаимодействия и масштабирования приложений обработки текста и мультимодального анализа Все компоненты DeepQA имплементированы как UIMA annotators Это программные компоненты для анализа текста и получения аннотаций или заключений о тексте Watson развивался в процессе разработки от нескольких компонент до нескольких сотен UIMA обеспечивает быструю интеграцию компонент тестирование и исследование

bull Начальная имплементация Watson запускалась на одном процессоре и требовала 2 часа на ответ на один вопрос DeepQA развился в параллельную систему используя UIMA-AS часть Apache UIMA масштабируя приложения UIMA используя асинхронный механизм месседжинга UIMA-AS позволила масштабировать Watson более чем на 2500 вычислительных ядер UIMA-AS управляет коммуникациями месседжингом управлением запросами используя open JMS standard UIMA-AS позволил снизить латентность Watson до 3ndash5 секунд

bull Для препроцессинга корпуса текстов создания быстрых run-time indices использован Hadoop

UIMA annotators были развернуты как mapper ы в Hadoop map-reduce framework Hadoop распределяет контент по кластеру для обеспечения высокого использования CPU и обеспечивает подходящий набор инструментов для deploying managing and monitoring the corpus analysis process

bull Аппаратная платформа ndash это 90 серверов 2800 ядер 15 ТБ RAM 80 Тфлопс $3 000 000 10 R

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 46: !Predictive analytics part_3

IBM Deep QA Project

bull Целью проекта было создать компьютерную систему (ИИ) для ответа на вопросы (QA) задаваемые в свободной форме в телешоу и показать результаты соизмеримые с человеческими

bull Задача более сложная чем шахматная программа Deep Blue выигравшая у Каспарова в 1997 г

bull Вопросы по категориямCategory General ScienceClue When hit by electrons a phosphor gives off electromagnetic energy in this formAnswer Light (or Photons)

Category Lincoln BlogsClue Secretary Chase just submitted this to me for the third time guess what pal This time Irsquom accepting itAnswer his resignation

Category Head NorthClue Theyrsquore the two states you could be reentering if yoursquore crossing Floridarsquos northern borderAnswer Georgia and Alabama

Вопросы могут касаться сразу нескольких фактов чтобы ответ был вернымCategory ldquoRaprdquo SheetClue This archaic term for a mischievous or annoying child can also mean a rogue or scampSubclue 1 This archaic term for a mischievous or annoying childSubclue 2 This term can also mean a rogue or scampAnswer Rapscallion

Category Diplomatic RelationsClue Of the four countries in the world that the United States does not have diplomatic relations with the one thatrsquos farthest northInner subclue The four countries in the world that the United States does not have diplomatic relations with (Bhutan Cuba Iran North Korea)Outer subclue Of Bhutan Cuba Iran and North Korea the one thatrsquos farthest northAnswer North Korea

Вопросы - пазлы

Category Before and After Goes to the MoviesClue Film of a typical day in the life of the Beatles which includes running from bloodthirsty zombie fans in a Romero classicSubclue 2 Film of a typical day in the life of the Beatles Answer 1 (A Hard Dayrsquos Night)Subclue 2 Running from bloodthirsty zombie fans in a Romero classicAnswer 2 (Night of the Living Dead)Answer A Hard Dayrsquos Night of the Living Dead

Category Rhyme TimeClue Itrsquos where Pele stores his ballSubclue 1 Pele ball (soccer)Subclue 2 where store (cabinet drawer locker and so on)Answer soccer locker

Недопустимые типы вопросов

oCategory Picture This(Contestants are shown a picture of a B-52 bomber)Clue Alphanumeric name of the fearsome machine seen hereAnswer B-52

oCategory Decode the Postal CodesVerbal instruction from host Wersquore going to give you a word comprising two postal abbreviations you have to identify the statesClue VainAnswer Virginia and Indiana

Лексические типы ответа ndash LAT (Lexical Answer Type)

Метрики качества ответов - результативность

Показатели двух теоретических QA систем

Показатели результативности чемпионов шоу (2000)

Облако победителей

Линия сравнения результативности (baseline performance)

Сравнение системы тестового поиска и поиска в базе знаний

Результативность Watson (по версиям)

Основы подхода Deep QA

bull Massive parallelism использование высокого параллелизма при рассмотрении множественных интерпретаций и гипотез

bull Many experts привлечение интеграции приложения и контекстуального оценивания в широком диапазоне слабосвязанных вероятностных вопросов и контентной аналитики

bull Pervasive confidence estimation повсеместная оценка доверия означает что ни один из компонентов не включается в ответ сразу все компоненты имеют признаки и связанные с ними уровни доверия производится скоринг различных вопросов и контентная интерпретация Основа confidence-processing состоит в обучении как стэкировать и комбинировать баллы

bull Integrate shallow and deep knowledge интеграция поверхностных и глубинных знаний состоит в балансе использования строгой семантики и мелких семантик использующих множества слабо сформированных онтологий

bull Content Acquisition - Сбор контентаСочетает ручные и автоматические этапы Первым шагом является анализ примеров вопросов проблемного пространства чтобы произвести описание видов вопросов на которые нужно ответить и характеризовать область применения Анализ примеров вопросов в первую очередь ручная задача в то время как анализ области может быть выполнен путем автоматических или статистических методов таких как анализ LAT показанный ранее Учитывая вопросы для широкого домена Jeopardy Challenge источники для Watson включают широкий ассортимент энциклопедий словарей тезаурусов Newswire статьи литературные произведения и тд Начиная с разумного размера базового корпуса DeepQA затем применяет автоматический процесс расширения корпуса Процесс включает в себя четыре этапа высокого уровня (1) выявления основных документов и получить соответствующие документы из Интернет (2) извлечь автономные текстовые ядра из связанных веб-документов (3) Оценка на основе ядер являются ли они информативны по отношению к исходному основному документу и (4) объединить наиболее информативные ядра в расширенном корпусе Работающая система использует этот расширенный корпус и не имеет доступа к Интернет во время игры

bull Question Analysis ndash Анализ вопроса

Первый шаг во время выполнения процесса вопрос-ответной системы При анализе вопроса система пытается понять что вопрос задан и выполняет начальный анализ определяющий как вопрос будет обработан на остальных этапах работы системы Подход DeepQA использует смешанный набор экспертов на данном этапе и в системе Watson производится мелкий парсинг глубокий парсинг строятся логические формы семантические этикетки ролей взаимные ссылки отношения именованные сущности и так далее а также конкретные виды анализа для ответа вопрос

bull Question classification - Классификация вопроса

Это задача выявления типа вопроса или частей вопроса которые требуют специальной обработки Это может включать в себя что-нибудь из отдельных слов с двойным смыслом и потенциально до выявления целых статей которые имеют определенную синтаксическую семантическую или риторические функциональные возможности которые могут инициировать нисходящий анализ Классификация может определить вопрос как вопрос- головоломку вопрос-математику -определение и так далее Это будет определять каламбуры ограничения компоненты определений или целые подвопросы в пределах вопросов

bull Focus and LAT Detection ndash Определение фокуса и лексического типа ответа

Лексический тип ответа - это слово или словосочетание в вопросе который определяет тип ответа без попытки понять семантику Определение LAT является важным видом выигрыша и общим источником критических ошибок Преимущество подхода DeepQA является использование многих самостоятельно разработанных алгоритмов laquoответ-типированияraquo Например фокус вопроса викторины laquoПри попадании электронов люминофор излучает электромагнитную энергию в этой формеraquo - является laquoэта формаraquo Фокус часто (но не всегда) содержит полезную информацию об ответе часто субъект или объект отношение в вопросе и может превратить вопрос в фактическое утверждение при замене возможным кандидатом Это представляет полезный способ собирать доказательства о каждом кандидате

bull Relation Detection ndash детектирование отношений

Большинство вопросов содержит отношения являются ли они синтаксическими предикатами субъект-глагол-объект или семантические отношения между субъектами Например в вопросе laquoЕсть два штата в которые вы могли бы войти повторно если вы пересекаете северную границу штата Флоридаraquo мы можем обнаружить отношение границы (Флорида Х к северу) Watson использует обнаружение отношения на протяжении всего процесса QA от фокуса и LAT определения до прохождению и скорингу ответов Watson также может использовать обнаруженные отношения для выделения хранилища триплетов и напрямую генерировать кандидатов в ответы В 20000 игр Jeopardy вопросы например обнаружили распределение Freebase отношений чрезвычайно плоского вида (см рисунок) Это приближение распределеня 50 наиболее частых отношений в 20 000 случайно выбранных вопросах викторины

bull Decomposition ndash декомпозиция

Важным требованием успеха анализа Jeopardy является способность отвечать на вопросы которые разложены на составляющие DeepQA использует основанный на правилах глубокий парсинг и статистические методы классификации чтобы наилучшим образом разложить вопросы на элементы и определить как лучше разбить их на подвопросы Операционная гипотеза что правильная интерпретация вопроса позволит лучше произвести скоринг ответов после того как все доказательства собраны Даже если вопрос не должен быть разложен для определения ответа этот метод может помочь улучшить общее доверие ответу системы DeepQA решает задачи параллельно для каждого разложения применяя алгоритмы от начала до конца каждого подвопроса и синтезирует окончательные ответы DeepQA также поддерживает вложенные декомпозиции вопросов через рекурсивное применение QA системы от начала до конца в внутреннем подвопросе а затем во внешнем Настраиваемые компоненты позволяют легко подключать специализированные алгоритмы синтеза в общую систему

bull Hypothesis Generation ndash генерация гипотез

Генерация гипотез принимает результаты анализа вопросов и производит кандидатов на ответы Каждый кандидат ответ включается обратно в вопрос и это считается как гипотеза Система должна доказать правильность этой гипотезы с некоторой степенью уверенности Как и во всех аспектах DeepQA используется смесь разных подходов для первичного поиска и генерации кандидата в системе Watson

bull Primary Search ndash первичный поиск

В этом поиске целью является найти столько потенциально кандидатов сколько это можно сделать на основе результатов анализа вопроса В течение проекта велись эмпирические исследования направленные на баланс скорости объема и точности Эти исследования позволили регулярно настраивать систему так чтобы найти такое количество кандидатов которые производят наилучший баланс точности и вычислительных ресурсов Оперативная цель основного поиска в конечном счете стабилизировалась на около 85 процентов для топ-250 кандидатов то есть система генерирует правильный ответ как кандидата ответа на 85 процентов вопросов где-то в верхних 250 ранжированных кандидатов Разнообразие методов поиска используются в том числе с использованием нескольких текст поисковых системах с различными базовыми подходами (например Indri и Lucene) поиск документов а также поиска маршрута база знаний поиска с помощью SPARQL хранилища триплетов Для небольшого количества латов которые были определены как закрытые латы кандидат на ответ может быть получен из фиксированного списка в каком-то хранилище известных экземпляров LAT таких как США Президент или Страна

Поиск доказательств

bull Поиск по фразе ndash число соответствий разного типав ответе и вопросеbull Популярность ndash как часто встречается этот вариант ответаbull Соответствие по типу ndash ответ и требование вопросаbull Соответствие по времениbull Надежность источника

bull Candidate Answer Generation ndash генерирование кандидатов на ответ

Результаты поиска применяются для генерирования возможных кандидатов в ответы с помощью различных подходящих техник Для поиска документов извлекаются заголовки и используются как кандидаты Число кандидатов при этом может быть не единственным и требовать использования анализа подстрок и ссылок Используя детектирование именованных сущностей в ряде случаев удается извлечь хороших кандидатов В зависимости от типа источника для генерирования кандидата требуется разный набор алгоритмов например база знаний или обратный словарь порождают кандидатов непосредственно как кандидата Этот этап критически важен и если кандидаты не найдены то фиксируется невозможность ответа В нормальном режиме на этом этапе Watson гененерирует несколько сотен андидатов

bull Soft Filtering ndash мягкая фильтрацияДля ускорения процесса скоринга кандидатов Watson использует различные алгоритмы разной точности Более легковесные (менее вычислительно интенсивные) применяются на первом этапе скоринга На этом этапе устанавливается порог оценки и кандидаты имеющие более высокую оценку считаются прошедшими мягкую фильтрацию Они поступают на выработку гипотез и скоринг доказательств Интересно что кандидаты не прошедшие порог мягкой фильтрации не забываются а направляются прямо на финальный этап слияния Модель скоринга мягкой фильтрации и порога определяются на основе machine learning используя обучающие данные Watson типично пропускает через мягкую фильтрацию 100 кандидатов но эта функция параметризована и их число можно изменить

Проблемы NLP

bull В мае 1898 года Португалия отмечала 400-летний юбилей со дня прибытия этого великого путешественника в Индию

В мае Гари прибыл в Индию после празднования своего юбилея в Португалии

21 мая 1498 года Васка де Гама высадился в местечке Каппад

bull Он был помилован президентом 8 сентября 1974 годаФорд помиловал Никсона 8 сентября 1974 года Никсон Форд

bull Говоря ldquogive a trinklerdquo что предлагают вам сделать британцы по приезду в город

bull Hypothesis and Evidence Scoring ndash скоринг гипотез и доказательств

Прошедшие порог мягкой фильтрации кандидаты поступают на скрупулезный процесс который включает сбор дополнительных поддерживающих доказательств для каждого кандидата на ответ или гипотезу Процесс использует широкий набор различных методов скоринговой аналитики чтобы исследовать все поддерживающие доказательства

bull Evidence Retrieval ndash извлечение доказательств

Чтобы лучше исследовать каждого кандидата прошедшего через мягкую фильтрацию система собирает дополнительные поддерживающие доказательства Архитектура поддерживает интеграцию различных evidence-gathering техник Один из применяемых способов состоит в том что проводится дополнительный поиск в котором кандидат добавляется в качестве required term к первичному запросу извлеченному из вопроса Это будет приводить к получению выражений содержащих кандидата в контексте первичных терминов вопросаПоддерживающие доказательства могут быть извлечены и из других источников например из RDF баз знаний Извлеченные поддерживающие доказательства направляются модули глубокого скоринга которые анализируют кандидата в контексте поддерживающего доказательства

bull Scoring ndash скоринг (количественное оценивание)

Алгоритмы скоринга определяют степень несомненности которую обеспечивают доказательства в поддержку кандидата The DeepQA framework поддерживает множество компонент для выработки оценки в различных измерениях каждого доказательства которая вырабатывает оценку связанную с тем насколько хорошо доказательство поддерживает кандидата на ответ в качестве ответа на заданный вопросDeepQA использует общий формат для оценок для принятых гипотез и подтверждающих оценок отражающих семантические и ограничивающие факторы Это позволяет разработчикам DeepQA быстро разворачивать перемешивать и настраивать сложные совокупности модуле для обработкиНапрмер Watson использует больше чем 50 скоринговых компонент Они производят оценки разноготипа от оценок вероятностей до подсчета категориальных свойств основанных на доказательствах от различных источников включая неструктурированные тексты полуструктурированные тексты и RDF хранилища Эти оценки используют такие данные как degree of match between a passagersquos predicate-argument structure and the question passage source reliability geospatial location temporal relationships taxonomic classification the lexical and semantic relations the candidate is known to participate in the candidatersquos correlation with question terms its popularity (or obscurity) its aliases and so on

Вопрос Чили имеет самую длинную общую границу со страной Сгенерировано несколько кандидатов среди них Аргентина и Боливия Первичный поиск даст приоритет Боливии из=а популярности обсуждений их отношений Однако собранные Watson доказательства из других источников показывают более высокую оценку для Аргентины

Скоринг (взвешивание) доказательств ndash предиктивная аналитика

- При делении клеток митозом называется деление ядра а цитокинезом ndash деление этой жидкости в которой находится ядро

Генерирование кандидатов Сбор доказательств Уверенность в доказательстве

ОрганеллыВакуольЦитоплазмаПлазмамитохондрии

Органеллы ndash не жидкостьВакуоль ndash не жидкостьЦитоплазма ndash возможно жидкостьПлазма ndash не жидкостьМитохондрии ndash не жидкость

Цитоплазма ndash 92Органеллы ndash 19Вакуоль ndash 10Плазма ndash 2Митохондрии ndash 2

Answer Merging ndash объединение ответов

Многие кандидаты в ответы на поставленный вопрос могут быть эквивалентны несмотря на различные внешне формыТехники ранжирования тем не менее рассматривают таких кандидатов как различные Без объединения алгоритмы ранжирования будут работать отдельно с эквивалентными сущностями и пытаться противопоставить одну форму другой Это приведет к проблемам принятия решений Watson содержит алгоритмы идентификации эквивалентных сущностей используя множественные сравнения нормализацию и методы разрешения совместных ссылок

Ranking and Confidence Estimation ndash ранжирование и оценивание доверияПосле объединения система должна произвести ранжирование гипотез и оценивает доверие основанное на объединенных оценках В системе подобран ML подход основанный на обучении на обучающем наборе вопросов с известными ответами и обучение модели основываясь на скоринге Применяется как весьма плоская модель и существующие алгоритмы ранжирования Для более тонких оценок применяется двухфазный процесс использующий группы оценок для оценивания профиля и для оценки доверия Используя эту промежуточную модель система производит ансамбль промежуточных оценок Здесь используется иерархическая техника метаучителя и коллектива экспертов Этот подход обеспечивает итеративное расширение обучения используя изощренные и глубокие иерархические модели обеспечивающие гибкость и робастность при выработке оценок и модифицирует системуМетаучитель в Watson использует набор многие обучаемые модели чтобы управлять различными классами вопросов которые могут быть критическими при идентификации правильных ответовНаконец важно что использование NLP-based скоринга дает весьма разреженные оценки и требует точного оценивания с применением confidence-weighted learning techniques

Развертывание Watson

bull DeepQA разработан используя Apache UIMA - framework implementation of the Unstructured Information Management Architecture (Ferrucci and Lally 2004) UIMA был разработан для поддержки взаимодействия и масштабирования приложений обработки текста и мультимодального анализа Все компоненты DeepQA имплементированы как UIMA annotators Это программные компоненты для анализа текста и получения аннотаций или заключений о тексте Watson развивался в процессе разработки от нескольких компонент до нескольких сотен UIMA обеспечивает быструю интеграцию компонент тестирование и исследование

bull Начальная имплементация Watson запускалась на одном процессоре и требовала 2 часа на ответ на один вопрос DeepQA развился в параллельную систему используя UIMA-AS часть Apache UIMA масштабируя приложения UIMA используя асинхронный механизм месседжинга UIMA-AS позволила масштабировать Watson более чем на 2500 вычислительных ядер UIMA-AS управляет коммуникациями месседжингом управлением запросами используя open JMS standard UIMA-AS позволил снизить латентность Watson до 3ndash5 секунд

bull Для препроцессинга корпуса текстов создания быстрых run-time indices использован Hadoop

UIMA annotators были развернуты как mapper ы в Hadoop map-reduce framework Hadoop распределяет контент по кластеру для обеспечения высокого использования CPU и обеспечивает подходящий набор инструментов для deploying managing and monitoring the corpus analysis process

bull Аппаратная платформа ndash это 90 серверов 2800 ядер 15 ТБ RAM 80 Тфлопс $3 000 000 10 R

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 47: !Predictive analytics part_3

Вопросы могут касаться сразу нескольких фактов чтобы ответ был вернымCategory ldquoRaprdquo SheetClue This archaic term for a mischievous or annoying child can also mean a rogue or scampSubclue 1 This archaic term for a mischievous or annoying childSubclue 2 This term can also mean a rogue or scampAnswer Rapscallion

Category Diplomatic RelationsClue Of the four countries in the world that the United States does not have diplomatic relations with the one thatrsquos farthest northInner subclue The four countries in the world that the United States does not have diplomatic relations with (Bhutan Cuba Iran North Korea)Outer subclue Of Bhutan Cuba Iran and North Korea the one thatrsquos farthest northAnswer North Korea

Вопросы - пазлы

Category Before and After Goes to the MoviesClue Film of a typical day in the life of the Beatles which includes running from bloodthirsty zombie fans in a Romero classicSubclue 2 Film of a typical day in the life of the Beatles Answer 1 (A Hard Dayrsquos Night)Subclue 2 Running from bloodthirsty zombie fans in a Romero classicAnswer 2 (Night of the Living Dead)Answer A Hard Dayrsquos Night of the Living Dead

Category Rhyme TimeClue Itrsquos where Pele stores his ballSubclue 1 Pele ball (soccer)Subclue 2 where store (cabinet drawer locker and so on)Answer soccer locker

Недопустимые типы вопросов

oCategory Picture This(Contestants are shown a picture of a B-52 bomber)Clue Alphanumeric name of the fearsome machine seen hereAnswer B-52

oCategory Decode the Postal CodesVerbal instruction from host Wersquore going to give you a word comprising two postal abbreviations you have to identify the statesClue VainAnswer Virginia and Indiana

Лексические типы ответа ndash LAT (Lexical Answer Type)

Метрики качества ответов - результативность

Показатели двух теоретических QA систем

Показатели результативности чемпионов шоу (2000)

Облако победителей

Линия сравнения результативности (baseline performance)

Сравнение системы тестового поиска и поиска в базе знаний

Результативность Watson (по версиям)

Основы подхода Deep QA

bull Massive parallelism использование высокого параллелизма при рассмотрении множественных интерпретаций и гипотез

bull Many experts привлечение интеграции приложения и контекстуального оценивания в широком диапазоне слабосвязанных вероятностных вопросов и контентной аналитики

bull Pervasive confidence estimation повсеместная оценка доверия означает что ни один из компонентов не включается в ответ сразу все компоненты имеют признаки и связанные с ними уровни доверия производится скоринг различных вопросов и контентная интерпретация Основа confidence-processing состоит в обучении как стэкировать и комбинировать баллы

bull Integrate shallow and deep knowledge интеграция поверхностных и глубинных знаний состоит в балансе использования строгой семантики и мелких семантик использующих множества слабо сформированных онтологий

bull Content Acquisition - Сбор контентаСочетает ручные и автоматические этапы Первым шагом является анализ примеров вопросов проблемного пространства чтобы произвести описание видов вопросов на которые нужно ответить и характеризовать область применения Анализ примеров вопросов в первую очередь ручная задача в то время как анализ области может быть выполнен путем автоматических или статистических методов таких как анализ LAT показанный ранее Учитывая вопросы для широкого домена Jeopardy Challenge источники для Watson включают широкий ассортимент энциклопедий словарей тезаурусов Newswire статьи литературные произведения и тд Начиная с разумного размера базового корпуса DeepQA затем применяет автоматический процесс расширения корпуса Процесс включает в себя четыре этапа высокого уровня (1) выявления основных документов и получить соответствующие документы из Интернет (2) извлечь автономные текстовые ядра из связанных веб-документов (3) Оценка на основе ядер являются ли они информативны по отношению к исходному основному документу и (4) объединить наиболее информативные ядра в расширенном корпусе Работающая система использует этот расширенный корпус и не имеет доступа к Интернет во время игры

bull Question Analysis ndash Анализ вопроса

Первый шаг во время выполнения процесса вопрос-ответной системы При анализе вопроса система пытается понять что вопрос задан и выполняет начальный анализ определяющий как вопрос будет обработан на остальных этапах работы системы Подход DeepQA использует смешанный набор экспертов на данном этапе и в системе Watson производится мелкий парсинг глубокий парсинг строятся логические формы семантические этикетки ролей взаимные ссылки отношения именованные сущности и так далее а также конкретные виды анализа для ответа вопрос

bull Question classification - Классификация вопроса

Это задача выявления типа вопроса или частей вопроса которые требуют специальной обработки Это может включать в себя что-нибудь из отдельных слов с двойным смыслом и потенциально до выявления целых статей которые имеют определенную синтаксическую семантическую или риторические функциональные возможности которые могут инициировать нисходящий анализ Классификация может определить вопрос как вопрос- головоломку вопрос-математику -определение и так далее Это будет определять каламбуры ограничения компоненты определений или целые подвопросы в пределах вопросов

bull Focus and LAT Detection ndash Определение фокуса и лексического типа ответа

Лексический тип ответа - это слово или словосочетание в вопросе который определяет тип ответа без попытки понять семантику Определение LAT является важным видом выигрыша и общим источником критических ошибок Преимущество подхода DeepQA является использование многих самостоятельно разработанных алгоритмов laquoответ-типированияraquo Например фокус вопроса викторины laquoПри попадании электронов люминофор излучает электромагнитную энергию в этой формеraquo - является laquoэта формаraquo Фокус часто (но не всегда) содержит полезную информацию об ответе часто субъект или объект отношение в вопросе и может превратить вопрос в фактическое утверждение при замене возможным кандидатом Это представляет полезный способ собирать доказательства о каждом кандидате

bull Relation Detection ndash детектирование отношений

Большинство вопросов содержит отношения являются ли они синтаксическими предикатами субъект-глагол-объект или семантические отношения между субъектами Например в вопросе laquoЕсть два штата в которые вы могли бы войти повторно если вы пересекаете северную границу штата Флоридаraquo мы можем обнаружить отношение границы (Флорида Х к северу) Watson использует обнаружение отношения на протяжении всего процесса QA от фокуса и LAT определения до прохождению и скорингу ответов Watson также может использовать обнаруженные отношения для выделения хранилища триплетов и напрямую генерировать кандидатов в ответы В 20000 игр Jeopardy вопросы например обнаружили распределение Freebase отношений чрезвычайно плоского вида (см рисунок) Это приближение распределеня 50 наиболее частых отношений в 20 000 случайно выбранных вопросах викторины

bull Decomposition ndash декомпозиция

Важным требованием успеха анализа Jeopardy является способность отвечать на вопросы которые разложены на составляющие DeepQA использует основанный на правилах глубокий парсинг и статистические методы классификации чтобы наилучшим образом разложить вопросы на элементы и определить как лучше разбить их на подвопросы Операционная гипотеза что правильная интерпретация вопроса позволит лучше произвести скоринг ответов после того как все доказательства собраны Даже если вопрос не должен быть разложен для определения ответа этот метод может помочь улучшить общее доверие ответу системы DeepQA решает задачи параллельно для каждого разложения применяя алгоритмы от начала до конца каждого подвопроса и синтезирует окончательные ответы DeepQA также поддерживает вложенные декомпозиции вопросов через рекурсивное применение QA системы от начала до конца в внутреннем подвопросе а затем во внешнем Настраиваемые компоненты позволяют легко подключать специализированные алгоритмы синтеза в общую систему

bull Hypothesis Generation ndash генерация гипотез

Генерация гипотез принимает результаты анализа вопросов и производит кандидатов на ответы Каждый кандидат ответ включается обратно в вопрос и это считается как гипотеза Система должна доказать правильность этой гипотезы с некоторой степенью уверенности Как и во всех аспектах DeepQA используется смесь разных подходов для первичного поиска и генерации кандидата в системе Watson

bull Primary Search ndash первичный поиск

В этом поиске целью является найти столько потенциально кандидатов сколько это можно сделать на основе результатов анализа вопроса В течение проекта велись эмпирические исследования направленные на баланс скорости объема и точности Эти исследования позволили регулярно настраивать систему так чтобы найти такое количество кандидатов которые производят наилучший баланс точности и вычислительных ресурсов Оперативная цель основного поиска в конечном счете стабилизировалась на около 85 процентов для топ-250 кандидатов то есть система генерирует правильный ответ как кандидата ответа на 85 процентов вопросов где-то в верхних 250 ранжированных кандидатов Разнообразие методов поиска используются в том числе с использованием нескольких текст поисковых системах с различными базовыми подходами (например Indri и Lucene) поиск документов а также поиска маршрута база знаний поиска с помощью SPARQL хранилища триплетов Для небольшого количества латов которые были определены как закрытые латы кандидат на ответ может быть получен из фиксированного списка в каком-то хранилище известных экземпляров LAT таких как США Президент или Страна

Поиск доказательств

bull Поиск по фразе ndash число соответствий разного типав ответе и вопросеbull Популярность ndash как часто встречается этот вариант ответаbull Соответствие по типу ndash ответ и требование вопросаbull Соответствие по времениbull Надежность источника

bull Candidate Answer Generation ndash генерирование кандидатов на ответ

Результаты поиска применяются для генерирования возможных кандидатов в ответы с помощью различных подходящих техник Для поиска документов извлекаются заголовки и используются как кандидаты Число кандидатов при этом может быть не единственным и требовать использования анализа подстрок и ссылок Используя детектирование именованных сущностей в ряде случаев удается извлечь хороших кандидатов В зависимости от типа источника для генерирования кандидата требуется разный набор алгоритмов например база знаний или обратный словарь порождают кандидатов непосредственно как кандидата Этот этап критически важен и если кандидаты не найдены то фиксируется невозможность ответа В нормальном режиме на этом этапе Watson гененерирует несколько сотен андидатов

bull Soft Filtering ndash мягкая фильтрацияДля ускорения процесса скоринга кандидатов Watson использует различные алгоритмы разной точности Более легковесные (менее вычислительно интенсивные) применяются на первом этапе скоринга На этом этапе устанавливается порог оценки и кандидаты имеющие более высокую оценку считаются прошедшими мягкую фильтрацию Они поступают на выработку гипотез и скоринг доказательств Интересно что кандидаты не прошедшие порог мягкой фильтрации не забываются а направляются прямо на финальный этап слияния Модель скоринга мягкой фильтрации и порога определяются на основе machine learning используя обучающие данные Watson типично пропускает через мягкую фильтрацию 100 кандидатов но эта функция параметризована и их число можно изменить

Проблемы NLP

bull В мае 1898 года Португалия отмечала 400-летний юбилей со дня прибытия этого великого путешественника в Индию

В мае Гари прибыл в Индию после празднования своего юбилея в Португалии

21 мая 1498 года Васка де Гама высадился в местечке Каппад

bull Он был помилован президентом 8 сентября 1974 годаФорд помиловал Никсона 8 сентября 1974 года Никсон Форд

bull Говоря ldquogive a trinklerdquo что предлагают вам сделать британцы по приезду в город

bull Hypothesis and Evidence Scoring ndash скоринг гипотез и доказательств

Прошедшие порог мягкой фильтрации кандидаты поступают на скрупулезный процесс который включает сбор дополнительных поддерживающих доказательств для каждого кандидата на ответ или гипотезу Процесс использует широкий набор различных методов скоринговой аналитики чтобы исследовать все поддерживающие доказательства

bull Evidence Retrieval ndash извлечение доказательств

Чтобы лучше исследовать каждого кандидата прошедшего через мягкую фильтрацию система собирает дополнительные поддерживающие доказательства Архитектура поддерживает интеграцию различных evidence-gathering техник Один из применяемых способов состоит в том что проводится дополнительный поиск в котором кандидат добавляется в качестве required term к первичному запросу извлеченному из вопроса Это будет приводить к получению выражений содержащих кандидата в контексте первичных терминов вопросаПоддерживающие доказательства могут быть извлечены и из других источников например из RDF баз знаний Извлеченные поддерживающие доказательства направляются модули глубокого скоринга которые анализируют кандидата в контексте поддерживающего доказательства

bull Scoring ndash скоринг (количественное оценивание)

Алгоритмы скоринга определяют степень несомненности которую обеспечивают доказательства в поддержку кандидата The DeepQA framework поддерживает множество компонент для выработки оценки в различных измерениях каждого доказательства которая вырабатывает оценку связанную с тем насколько хорошо доказательство поддерживает кандидата на ответ в качестве ответа на заданный вопросDeepQA использует общий формат для оценок для принятых гипотез и подтверждающих оценок отражающих семантические и ограничивающие факторы Это позволяет разработчикам DeepQA быстро разворачивать перемешивать и настраивать сложные совокупности модуле для обработкиНапрмер Watson использует больше чем 50 скоринговых компонент Они производят оценки разноготипа от оценок вероятностей до подсчета категориальных свойств основанных на доказательствах от различных источников включая неструктурированные тексты полуструктурированные тексты и RDF хранилища Эти оценки используют такие данные как degree of match between a passagersquos predicate-argument structure and the question passage source reliability geospatial location temporal relationships taxonomic classification the lexical and semantic relations the candidate is known to participate in the candidatersquos correlation with question terms its popularity (or obscurity) its aliases and so on

Вопрос Чили имеет самую длинную общую границу со страной Сгенерировано несколько кандидатов среди них Аргентина и Боливия Первичный поиск даст приоритет Боливии из=а популярности обсуждений их отношений Однако собранные Watson доказательства из других источников показывают более высокую оценку для Аргентины

Скоринг (взвешивание) доказательств ndash предиктивная аналитика

- При делении клеток митозом называется деление ядра а цитокинезом ndash деление этой жидкости в которой находится ядро

Генерирование кандидатов Сбор доказательств Уверенность в доказательстве

ОрганеллыВакуольЦитоплазмаПлазмамитохондрии

Органеллы ndash не жидкостьВакуоль ndash не жидкостьЦитоплазма ndash возможно жидкостьПлазма ndash не жидкостьМитохондрии ndash не жидкость

Цитоплазма ndash 92Органеллы ndash 19Вакуоль ndash 10Плазма ndash 2Митохондрии ndash 2

Answer Merging ndash объединение ответов

Многие кандидаты в ответы на поставленный вопрос могут быть эквивалентны несмотря на различные внешне формыТехники ранжирования тем не менее рассматривают таких кандидатов как различные Без объединения алгоритмы ранжирования будут работать отдельно с эквивалентными сущностями и пытаться противопоставить одну форму другой Это приведет к проблемам принятия решений Watson содержит алгоритмы идентификации эквивалентных сущностей используя множественные сравнения нормализацию и методы разрешения совместных ссылок

Ranking and Confidence Estimation ndash ранжирование и оценивание доверияПосле объединения система должна произвести ранжирование гипотез и оценивает доверие основанное на объединенных оценках В системе подобран ML подход основанный на обучении на обучающем наборе вопросов с известными ответами и обучение модели основываясь на скоринге Применяется как весьма плоская модель и существующие алгоритмы ранжирования Для более тонких оценок применяется двухфазный процесс использующий группы оценок для оценивания профиля и для оценки доверия Используя эту промежуточную модель система производит ансамбль промежуточных оценок Здесь используется иерархическая техника метаучителя и коллектива экспертов Этот подход обеспечивает итеративное расширение обучения используя изощренные и глубокие иерархические модели обеспечивающие гибкость и робастность при выработке оценок и модифицирует системуМетаучитель в Watson использует набор многие обучаемые модели чтобы управлять различными классами вопросов которые могут быть критическими при идентификации правильных ответовНаконец важно что использование NLP-based скоринга дает весьма разреженные оценки и требует точного оценивания с применением confidence-weighted learning techniques

Развертывание Watson

bull DeepQA разработан используя Apache UIMA - framework implementation of the Unstructured Information Management Architecture (Ferrucci and Lally 2004) UIMA был разработан для поддержки взаимодействия и масштабирования приложений обработки текста и мультимодального анализа Все компоненты DeepQA имплементированы как UIMA annotators Это программные компоненты для анализа текста и получения аннотаций или заключений о тексте Watson развивался в процессе разработки от нескольких компонент до нескольких сотен UIMA обеспечивает быструю интеграцию компонент тестирование и исследование

bull Начальная имплементация Watson запускалась на одном процессоре и требовала 2 часа на ответ на один вопрос DeepQA развился в параллельную систему используя UIMA-AS часть Apache UIMA масштабируя приложения UIMA используя асинхронный механизм месседжинга UIMA-AS позволила масштабировать Watson более чем на 2500 вычислительных ядер UIMA-AS управляет коммуникациями месседжингом управлением запросами используя open JMS standard UIMA-AS позволил снизить латентность Watson до 3ndash5 секунд

bull Для препроцессинга корпуса текстов создания быстрых run-time indices использован Hadoop

UIMA annotators были развернуты как mapper ы в Hadoop map-reduce framework Hadoop распределяет контент по кластеру для обеспечения высокого использования CPU и обеспечивает подходящий набор инструментов для deploying managing and monitoring the corpus analysis process

bull Аппаратная платформа ndash это 90 серверов 2800 ядер 15 ТБ RAM 80 Тфлопс $3 000 000 10 R

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 48: !Predictive analytics part_3

Вопросы - пазлы

Category Before and After Goes to the MoviesClue Film of a typical day in the life of the Beatles which includes running from bloodthirsty zombie fans in a Romero classicSubclue 2 Film of a typical day in the life of the Beatles Answer 1 (A Hard Dayrsquos Night)Subclue 2 Running from bloodthirsty zombie fans in a Romero classicAnswer 2 (Night of the Living Dead)Answer A Hard Dayrsquos Night of the Living Dead

Category Rhyme TimeClue Itrsquos where Pele stores his ballSubclue 1 Pele ball (soccer)Subclue 2 where store (cabinet drawer locker and so on)Answer soccer locker

Недопустимые типы вопросов

oCategory Picture This(Contestants are shown a picture of a B-52 bomber)Clue Alphanumeric name of the fearsome machine seen hereAnswer B-52

oCategory Decode the Postal CodesVerbal instruction from host Wersquore going to give you a word comprising two postal abbreviations you have to identify the statesClue VainAnswer Virginia and Indiana

Лексические типы ответа ndash LAT (Lexical Answer Type)

Метрики качества ответов - результативность

Показатели двух теоретических QA систем

Показатели результативности чемпионов шоу (2000)

Облако победителей

Линия сравнения результативности (baseline performance)

Сравнение системы тестового поиска и поиска в базе знаний

Результативность Watson (по версиям)

Основы подхода Deep QA

bull Massive parallelism использование высокого параллелизма при рассмотрении множественных интерпретаций и гипотез

bull Many experts привлечение интеграции приложения и контекстуального оценивания в широком диапазоне слабосвязанных вероятностных вопросов и контентной аналитики

bull Pervasive confidence estimation повсеместная оценка доверия означает что ни один из компонентов не включается в ответ сразу все компоненты имеют признаки и связанные с ними уровни доверия производится скоринг различных вопросов и контентная интерпретация Основа confidence-processing состоит в обучении как стэкировать и комбинировать баллы

bull Integrate shallow and deep knowledge интеграция поверхностных и глубинных знаний состоит в балансе использования строгой семантики и мелких семантик использующих множества слабо сформированных онтологий

bull Content Acquisition - Сбор контентаСочетает ручные и автоматические этапы Первым шагом является анализ примеров вопросов проблемного пространства чтобы произвести описание видов вопросов на которые нужно ответить и характеризовать область применения Анализ примеров вопросов в первую очередь ручная задача в то время как анализ области может быть выполнен путем автоматических или статистических методов таких как анализ LAT показанный ранее Учитывая вопросы для широкого домена Jeopardy Challenge источники для Watson включают широкий ассортимент энциклопедий словарей тезаурусов Newswire статьи литературные произведения и тд Начиная с разумного размера базового корпуса DeepQA затем применяет автоматический процесс расширения корпуса Процесс включает в себя четыре этапа высокого уровня (1) выявления основных документов и получить соответствующие документы из Интернет (2) извлечь автономные текстовые ядра из связанных веб-документов (3) Оценка на основе ядер являются ли они информативны по отношению к исходному основному документу и (4) объединить наиболее информативные ядра в расширенном корпусе Работающая система использует этот расширенный корпус и не имеет доступа к Интернет во время игры

bull Question Analysis ndash Анализ вопроса

Первый шаг во время выполнения процесса вопрос-ответной системы При анализе вопроса система пытается понять что вопрос задан и выполняет начальный анализ определяющий как вопрос будет обработан на остальных этапах работы системы Подход DeepQA использует смешанный набор экспертов на данном этапе и в системе Watson производится мелкий парсинг глубокий парсинг строятся логические формы семантические этикетки ролей взаимные ссылки отношения именованные сущности и так далее а также конкретные виды анализа для ответа вопрос

bull Question classification - Классификация вопроса

Это задача выявления типа вопроса или частей вопроса которые требуют специальной обработки Это может включать в себя что-нибудь из отдельных слов с двойным смыслом и потенциально до выявления целых статей которые имеют определенную синтаксическую семантическую или риторические функциональные возможности которые могут инициировать нисходящий анализ Классификация может определить вопрос как вопрос- головоломку вопрос-математику -определение и так далее Это будет определять каламбуры ограничения компоненты определений или целые подвопросы в пределах вопросов

bull Focus and LAT Detection ndash Определение фокуса и лексического типа ответа

Лексический тип ответа - это слово или словосочетание в вопросе который определяет тип ответа без попытки понять семантику Определение LAT является важным видом выигрыша и общим источником критических ошибок Преимущество подхода DeepQA является использование многих самостоятельно разработанных алгоритмов laquoответ-типированияraquo Например фокус вопроса викторины laquoПри попадании электронов люминофор излучает электромагнитную энергию в этой формеraquo - является laquoэта формаraquo Фокус часто (но не всегда) содержит полезную информацию об ответе часто субъект или объект отношение в вопросе и может превратить вопрос в фактическое утверждение при замене возможным кандидатом Это представляет полезный способ собирать доказательства о каждом кандидате

bull Relation Detection ndash детектирование отношений

Большинство вопросов содержит отношения являются ли они синтаксическими предикатами субъект-глагол-объект или семантические отношения между субъектами Например в вопросе laquoЕсть два штата в которые вы могли бы войти повторно если вы пересекаете северную границу штата Флоридаraquo мы можем обнаружить отношение границы (Флорида Х к северу) Watson использует обнаружение отношения на протяжении всего процесса QA от фокуса и LAT определения до прохождению и скорингу ответов Watson также может использовать обнаруженные отношения для выделения хранилища триплетов и напрямую генерировать кандидатов в ответы В 20000 игр Jeopardy вопросы например обнаружили распределение Freebase отношений чрезвычайно плоского вида (см рисунок) Это приближение распределеня 50 наиболее частых отношений в 20 000 случайно выбранных вопросах викторины

bull Decomposition ndash декомпозиция

Важным требованием успеха анализа Jeopardy является способность отвечать на вопросы которые разложены на составляющие DeepQA использует основанный на правилах глубокий парсинг и статистические методы классификации чтобы наилучшим образом разложить вопросы на элементы и определить как лучше разбить их на подвопросы Операционная гипотеза что правильная интерпретация вопроса позволит лучше произвести скоринг ответов после того как все доказательства собраны Даже если вопрос не должен быть разложен для определения ответа этот метод может помочь улучшить общее доверие ответу системы DeepQA решает задачи параллельно для каждого разложения применяя алгоритмы от начала до конца каждого подвопроса и синтезирует окончательные ответы DeepQA также поддерживает вложенные декомпозиции вопросов через рекурсивное применение QA системы от начала до конца в внутреннем подвопросе а затем во внешнем Настраиваемые компоненты позволяют легко подключать специализированные алгоритмы синтеза в общую систему

bull Hypothesis Generation ndash генерация гипотез

Генерация гипотез принимает результаты анализа вопросов и производит кандидатов на ответы Каждый кандидат ответ включается обратно в вопрос и это считается как гипотеза Система должна доказать правильность этой гипотезы с некоторой степенью уверенности Как и во всех аспектах DeepQA используется смесь разных подходов для первичного поиска и генерации кандидата в системе Watson

bull Primary Search ndash первичный поиск

В этом поиске целью является найти столько потенциально кандидатов сколько это можно сделать на основе результатов анализа вопроса В течение проекта велись эмпирические исследования направленные на баланс скорости объема и точности Эти исследования позволили регулярно настраивать систему так чтобы найти такое количество кандидатов которые производят наилучший баланс точности и вычислительных ресурсов Оперативная цель основного поиска в конечном счете стабилизировалась на около 85 процентов для топ-250 кандидатов то есть система генерирует правильный ответ как кандидата ответа на 85 процентов вопросов где-то в верхних 250 ранжированных кандидатов Разнообразие методов поиска используются в том числе с использованием нескольких текст поисковых системах с различными базовыми подходами (например Indri и Lucene) поиск документов а также поиска маршрута база знаний поиска с помощью SPARQL хранилища триплетов Для небольшого количества латов которые были определены как закрытые латы кандидат на ответ может быть получен из фиксированного списка в каком-то хранилище известных экземпляров LAT таких как США Президент или Страна

Поиск доказательств

bull Поиск по фразе ndash число соответствий разного типав ответе и вопросеbull Популярность ndash как часто встречается этот вариант ответаbull Соответствие по типу ndash ответ и требование вопросаbull Соответствие по времениbull Надежность источника

bull Candidate Answer Generation ndash генерирование кандидатов на ответ

Результаты поиска применяются для генерирования возможных кандидатов в ответы с помощью различных подходящих техник Для поиска документов извлекаются заголовки и используются как кандидаты Число кандидатов при этом может быть не единственным и требовать использования анализа подстрок и ссылок Используя детектирование именованных сущностей в ряде случаев удается извлечь хороших кандидатов В зависимости от типа источника для генерирования кандидата требуется разный набор алгоритмов например база знаний или обратный словарь порождают кандидатов непосредственно как кандидата Этот этап критически важен и если кандидаты не найдены то фиксируется невозможность ответа В нормальном режиме на этом этапе Watson гененерирует несколько сотен андидатов

bull Soft Filtering ndash мягкая фильтрацияДля ускорения процесса скоринга кандидатов Watson использует различные алгоритмы разной точности Более легковесные (менее вычислительно интенсивные) применяются на первом этапе скоринга На этом этапе устанавливается порог оценки и кандидаты имеющие более высокую оценку считаются прошедшими мягкую фильтрацию Они поступают на выработку гипотез и скоринг доказательств Интересно что кандидаты не прошедшие порог мягкой фильтрации не забываются а направляются прямо на финальный этап слияния Модель скоринга мягкой фильтрации и порога определяются на основе machine learning используя обучающие данные Watson типично пропускает через мягкую фильтрацию 100 кандидатов но эта функция параметризована и их число можно изменить

Проблемы NLP

bull В мае 1898 года Португалия отмечала 400-летний юбилей со дня прибытия этого великого путешественника в Индию

В мае Гари прибыл в Индию после празднования своего юбилея в Португалии

21 мая 1498 года Васка де Гама высадился в местечке Каппад

bull Он был помилован президентом 8 сентября 1974 годаФорд помиловал Никсона 8 сентября 1974 года Никсон Форд

bull Говоря ldquogive a trinklerdquo что предлагают вам сделать британцы по приезду в город

bull Hypothesis and Evidence Scoring ndash скоринг гипотез и доказательств

Прошедшие порог мягкой фильтрации кандидаты поступают на скрупулезный процесс который включает сбор дополнительных поддерживающих доказательств для каждого кандидата на ответ или гипотезу Процесс использует широкий набор различных методов скоринговой аналитики чтобы исследовать все поддерживающие доказательства

bull Evidence Retrieval ndash извлечение доказательств

Чтобы лучше исследовать каждого кандидата прошедшего через мягкую фильтрацию система собирает дополнительные поддерживающие доказательства Архитектура поддерживает интеграцию различных evidence-gathering техник Один из применяемых способов состоит в том что проводится дополнительный поиск в котором кандидат добавляется в качестве required term к первичному запросу извлеченному из вопроса Это будет приводить к получению выражений содержащих кандидата в контексте первичных терминов вопросаПоддерживающие доказательства могут быть извлечены и из других источников например из RDF баз знаний Извлеченные поддерживающие доказательства направляются модули глубокого скоринга которые анализируют кандидата в контексте поддерживающего доказательства

bull Scoring ndash скоринг (количественное оценивание)

Алгоритмы скоринга определяют степень несомненности которую обеспечивают доказательства в поддержку кандидата The DeepQA framework поддерживает множество компонент для выработки оценки в различных измерениях каждого доказательства которая вырабатывает оценку связанную с тем насколько хорошо доказательство поддерживает кандидата на ответ в качестве ответа на заданный вопросDeepQA использует общий формат для оценок для принятых гипотез и подтверждающих оценок отражающих семантические и ограничивающие факторы Это позволяет разработчикам DeepQA быстро разворачивать перемешивать и настраивать сложные совокупности модуле для обработкиНапрмер Watson использует больше чем 50 скоринговых компонент Они производят оценки разноготипа от оценок вероятностей до подсчета категориальных свойств основанных на доказательствах от различных источников включая неструктурированные тексты полуструктурированные тексты и RDF хранилища Эти оценки используют такие данные как degree of match between a passagersquos predicate-argument structure and the question passage source reliability geospatial location temporal relationships taxonomic classification the lexical and semantic relations the candidate is known to participate in the candidatersquos correlation with question terms its popularity (or obscurity) its aliases and so on

Вопрос Чили имеет самую длинную общую границу со страной Сгенерировано несколько кандидатов среди них Аргентина и Боливия Первичный поиск даст приоритет Боливии из=а популярности обсуждений их отношений Однако собранные Watson доказательства из других источников показывают более высокую оценку для Аргентины

Скоринг (взвешивание) доказательств ndash предиктивная аналитика

- При делении клеток митозом называется деление ядра а цитокинезом ndash деление этой жидкости в которой находится ядро

Генерирование кандидатов Сбор доказательств Уверенность в доказательстве

ОрганеллыВакуольЦитоплазмаПлазмамитохондрии

Органеллы ndash не жидкостьВакуоль ndash не жидкостьЦитоплазма ndash возможно жидкостьПлазма ndash не жидкостьМитохондрии ndash не жидкость

Цитоплазма ndash 92Органеллы ndash 19Вакуоль ndash 10Плазма ndash 2Митохондрии ndash 2

Answer Merging ndash объединение ответов

Многие кандидаты в ответы на поставленный вопрос могут быть эквивалентны несмотря на различные внешне формыТехники ранжирования тем не менее рассматривают таких кандидатов как различные Без объединения алгоритмы ранжирования будут работать отдельно с эквивалентными сущностями и пытаться противопоставить одну форму другой Это приведет к проблемам принятия решений Watson содержит алгоритмы идентификации эквивалентных сущностей используя множественные сравнения нормализацию и методы разрешения совместных ссылок

Ranking and Confidence Estimation ndash ранжирование и оценивание доверияПосле объединения система должна произвести ранжирование гипотез и оценивает доверие основанное на объединенных оценках В системе подобран ML подход основанный на обучении на обучающем наборе вопросов с известными ответами и обучение модели основываясь на скоринге Применяется как весьма плоская модель и существующие алгоритмы ранжирования Для более тонких оценок применяется двухфазный процесс использующий группы оценок для оценивания профиля и для оценки доверия Используя эту промежуточную модель система производит ансамбль промежуточных оценок Здесь используется иерархическая техника метаучителя и коллектива экспертов Этот подход обеспечивает итеративное расширение обучения используя изощренные и глубокие иерархические модели обеспечивающие гибкость и робастность при выработке оценок и модифицирует системуМетаучитель в Watson использует набор многие обучаемые модели чтобы управлять различными классами вопросов которые могут быть критическими при идентификации правильных ответовНаконец важно что использование NLP-based скоринга дает весьма разреженные оценки и требует точного оценивания с применением confidence-weighted learning techniques

Развертывание Watson

bull DeepQA разработан используя Apache UIMA - framework implementation of the Unstructured Information Management Architecture (Ferrucci and Lally 2004) UIMA был разработан для поддержки взаимодействия и масштабирования приложений обработки текста и мультимодального анализа Все компоненты DeepQA имплементированы как UIMA annotators Это программные компоненты для анализа текста и получения аннотаций или заключений о тексте Watson развивался в процессе разработки от нескольких компонент до нескольких сотен UIMA обеспечивает быструю интеграцию компонент тестирование и исследование

bull Начальная имплементация Watson запускалась на одном процессоре и требовала 2 часа на ответ на один вопрос DeepQA развился в параллельную систему используя UIMA-AS часть Apache UIMA масштабируя приложения UIMA используя асинхронный механизм месседжинга UIMA-AS позволила масштабировать Watson более чем на 2500 вычислительных ядер UIMA-AS управляет коммуникациями месседжингом управлением запросами используя open JMS standard UIMA-AS позволил снизить латентность Watson до 3ndash5 секунд

bull Для препроцессинга корпуса текстов создания быстрых run-time indices использован Hadoop

UIMA annotators были развернуты как mapper ы в Hadoop map-reduce framework Hadoop распределяет контент по кластеру для обеспечения высокого использования CPU и обеспечивает подходящий набор инструментов для deploying managing and monitoring the corpus analysis process

bull Аппаратная платформа ndash это 90 серверов 2800 ядер 15 ТБ RAM 80 Тфлопс $3 000 000 10 R

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 49: !Predictive analytics part_3

Недопустимые типы вопросов

oCategory Picture This(Contestants are shown a picture of a B-52 bomber)Clue Alphanumeric name of the fearsome machine seen hereAnswer B-52

oCategory Decode the Postal CodesVerbal instruction from host Wersquore going to give you a word comprising two postal abbreviations you have to identify the statesClue VainAnswer Virginia and Indiana

Лексические типы ответа ndash LAT (Lexical Answer Type)

Метрики качества ответов - результативность

Показатели двух теоретических QA систем

Показатели результативности чемпионов шоу (2000)

Облако победителей

Линия сравнения результативности (baseline performance)

Сравнение системы тестового поиска и поиска в базе знаний

Результативность Watson (по версиям)

Основы подхода Deep QA

bull Massive parallelism использование высокого параллелизма при рассмотрении множественных интерпретаций и гипотез

bull Many experts привлечение интеграции приложения и контекстуального оценивания в широком диапазоне слабосвязанных вероятностных вопросов и контентной аналитики

bull Pervasive confidence estimation повсеместная оценка доверия означает что ни один из компонентов не включается в ответ сразу все компоненты имеют признаки и связанные с ними уровни доверия производится скоринг различных вопросов и контентная интерпретация Основа confidence-processing состоит в обучении как стэкировать и комбинировать баллы

bull Integrate shallow and deep knowledge интеграция поверхностных и глубинных знаний состоит в балансе использования строгой семантики и мелких семантик использующих множества слабо сформированных онтологий

bull Content Acquisition - Сбор контентаСочетает ручные и автоматические этапы Первым шагом является анализ примеров вопросов проблемного пространства чтобы произвести описание видов вопросов на которые нужно ответить и характеризовать область применения Анализ примеров вопросов в первую очередь ручная задача в то время как анализ области может быть выполнен путем автоматических или статистических методов таких как анализ LAT показанный ранее Учитывая вопросы для широкого домена Jeopardy Challenge источники для Watson включают широкий ассортимент энциклопедий словарей тезаурусов Newswire статьи литературные произведения и тд Начиная с разумного размера базового корпуса DeepQA затем применяет автоматический процесс расширения корпуса Процесс включает в себя четыре этапа высокого уровня (1) выявления основных документов и получить соответствующие документы из Интернет (2) извлечь автономные текстовые ядра из связанных веб-документов (3) Оценка на основе ядер являются ли они информативны по отношению к исходному основному документу и (4) объединить наиболее информативные ядра в расширенном корпусе Работающая система использует этот расширенный корпус и не имеет доступа к Интернет во время игры

bull Question Analysis ndash Анализ вопроса

Первый шаг во время выполнения процесса вопрос-ответной системы При анализе вопроса система пытается понять что вопрос задан и выполняет начальный анализ определяющий как вопрос будет обработан на остальных этапах работы системы Подход DeepQA использует смешанный набор экспертов на данном этапе и в системе Watson производится мелкий парсинг глубокий парсинг строятся логические формы семантические этикетки ролей взаимные ссылки отношения именованные сущности и так далее а также конкретные виды анализа для ответа вопрос

bull Question classification - Классификация вопроса

Это задача выявления типа вопроса или частей вопроса которые требуют специальной обработки Это может включать в себя что-нибудь из отдельных слов с двойным смыслом и потенциально до выявления целых статей которые имеют определенную синтаксическую семантическую или риторические функциональные возможности которые могут инициировать нисходящий анализ Классификация может определить вопрос как вопрос- головоломку вопрос-математику -определение и так далее Это будет определять каламбуры ограничения компоненты определений или целые подвопросы в пределах вопросов

bull Focus and LAT Detection ndash Определение фокуса и лексического типа ответа

Лексический тип ответа - это слово или словосочетание в вопросе который определяет тип ответа без попытки понять семантику Определение LAT является важным видом выигрыша и общим источником критических ошибок Преимущество подхода DeepQA является использование многих самостоятельно разработанных алгоритмов laquoответ-типированияraquo Например фокус вопроса викторины laquoПри попадании электронов люминофор излучает электромагнитную энергию в этой формеraquo - является laquoэта формаraquo Фокус часто (но не всегда) содержит полезную информацию об ответе часто субъект или объект отношение в вопросе и может превратить вопрос в фактическое утверждение при замене возможным кандидатом Это представляет полезный способ собирать доказательства о каждом кандидате

bull Relation Detection ndash детектирование отношений

Большинство вопросов содержит отношения являются ли они синтаксическими предикатами субъект-глагол-объект или семантические отношения между субъектами Например в вопросе laquoЕсть два штата в которые вы могли бы войти повторно если вы пересекаете северную границу штата Флоридаraquo мы можем обнаружить отношение границы (Флорида Х к северу) Watson использует обнаружение отношения на протяжении всего процесса QA от фокуса и LAT определения до прохождению и скорингу ответов Watson также может использовать обнаруженные отношения для выделения хранилища триплетов и напрямую генерировать кандидатов в ответы В 20000 игр Jeopardy вопросы например обнаружили распределение Freebase отношений чрезвычайно плоского вида (см рисунок) Это приближение распределеня 50 наиболее частых отношений в 20 000 случайно выбранных вопросах викторины

bull Decomposition ndash декомпозиция

Важным требованием успеха анализа Jeopardy является способность отвечать на вопросы которые разложены на составляющие DeepQA использует основанный на правилах глубокий парсинг и статистические методы классификации чтобы наилучшим образом разложить вопросы на элементы и определить как лучше разбить их на подвопросы Операционная гипотеза что правильная интерпретация вопроса позволит лучше произвести скоринг ответов после того как все доказательства собраны Даже если вопрос не должен быть разложен для определения ответа этот метод может помочь улучшить общее доверие ответу системы DeepQA решает задачи параллельно для каждого разложения применяя алгоритмы от начала до конца каждого подвопроса и синтезирует окончательные ответы DeepQA также поддерживает вложенные декомпозиции вопросов через рекурсивное применение QA системы от начала до конца в внутреннем подвопросе а затем во внешнем Настраиваемые компоненты позволяют легко подключать специализированные алгоритмы синтеза в общую систему

bull Hypothesis Generation ndash генерация гипотез

Генерация гипотез принимает результаты анализа вопросов и производит кандидатов на ответы Каждый кандидат ответ включается обратно в вопрос и это считается как гипотеза Система должна доказать правильность этой гипотезы с некоторой степенью уверенности Как и во всех аспектах DeepQA используется смесь разных подходов для первичного поиска и генерации кандидата в системе Watson

bull Primary Search ndash первичный поиск

В этом поиске целью является найти столько потенциально кандидатов сколько это можно сделать на основе результатов анализа вопроса В течение проекта велись эмпирические исследования направленные на баланс скорости объема и точности Эти исследования позволили регулярно настраивать систему так чтобы найти такое количество кандидатов которые производят наилучший баланс точности и вычислительных ресурсов Оперативная цель основного поиска в конечном счете стабилизировалась на около 85 процентов для топ-250 кандидатов то есть система генерирует правильный ответ как кандидата ответа на 85 процентов вопросов где-то в верхних 250 ранжированных кандидатов Разнообразие методов поиска используются в том числе с использованием нескольких текст поисковых системах с различными базовыми подходами (например Indri и Lucene) поиск документов а также поиска маршрута база знаний поиска с помощью SPARQL хранилища триплетов Для небольшого количества латов которые были определены как закрытые латы кандидат на ответ может быть получен из фиксированного списка в каком-то хранилище известных экземпляров LAT таких как США Президент или Страна

Поиск доказательств

bull Поиск по фразе ndash число соответствий разного типав ответе и вопросеbull Популярность ndash как часто встречается этот вариант ответаbull Соответствие по типу ndash ответ и требование вопросаbull Соответствие по времениbull Надежность источника

bull Candidate Answer Generation ndash генерирование кандидатов на ответ

Результаты поиска применяются для генерирования возможных кандидатов в ответы с помощью различных подходящих техник Для поиска документов извлекаются заголовки и используются как кандидаты Число кандидатов при этом может быть не единственным и требовать использования анализа подстрок и ссылок Используя детектирование именованных сущностей в ряде случаев удается извлечь хороших кандидатов В зависимости от типа источника для генерирования кандидата требуется разный набор алгоритмов например база знаний или обратный словарь порождают кандидатов непосредственно как кандидата Этот этап критически важен и если кандидаты не найдены то фиксируется невозможность ответа В нормальном режиме на этом этапе Watson гененерирует несколько сотен андидатов

bull Soft Filtering ndash мягкая фильтрацияДля ускорения процесса скоринга кандидатов Watson использует различные алгоритмы разной точности Более легковесные (менее вычислительно интенсивные) применяются на первом этапе скоринга На этом этапе устанавливается порог оценки и кандидаты имеющие более высокую оценку считаются прошедшими мягкую фильтрацию Они поступают на выработку гипотез и скоринг доказательств Интересно что кандидаты не прошедшие порог мягкой фильтрации не забываются а направляются прямо на финальный этап слияния Модель скоринга мягкой фильтрации и порога определяются на основе machine learning используя обучающие данные Watson типично пропускает через мягкую фильтрацию 100 кандидатов но эта функция параметризована и их число можно изменить

Проблемы NLP

bull В мае 1898 года Португалия отмечала 400-летний юбилей со дня прибытия этого великого путешественника в Индию

В мае Гари прибыл в Индию после празднования своего юбилея в Португалии

21 мая 1498 года Васка де Гама высадился в местечке Каппад

bull Он был помилован президентом 8 сентября 1974 годаФорд помиловал Никсона 8 сентября 1974 года Никсон Форд

bull Говоря ldquogive a trinklerdquo что предлагают вам сделать британцы по приезду в город

bull Hypothesis and Evidence Scoring ndash скоринг гипотез и доказательств

Прошедшие порог мягкой фильтрации кандидаты поступают на скрупулезный процесс который включает сбор дополнительных поддерживающих доказательств для каждого кандидата на ответ или гипотезу Процесс использует широкий набор различных методов скоринговой аналитики чтобы исследовать все поддерживающие доказательства

bull Evidence Retrieval ndash извлечение доказательств

Чтобы лучше исследовать каждого кандидата прошедшего через мягкую фильтрацию система собирает дополнительные поддерживающие доказательства Архитектура поддерживает интеграцию различных evidence-gathering техник Один из применяемых способов состоит в том что проводится дополнительный поиск в котором кандидат добавляется в качестве required term к первичному запросу извлеченному из вопроса Это будет приводить к получению выражений содержащих кандидата в контексте первичных терминов вопросаПоддерживающие доказательства могут быть извлечены и из других источников например из RDF баз знаний Извлеченные поддерживающие доказательства направляются модули глубокого скоринга которые анализируют кандидата в контексте поддерживающего доказательства

bull Scoring ndash скоринг (количественное оценивание)

Алгоритмы скоринга определяют степень несомненности которую обеспечивают доказательства в поддержку кандидата The DeepQA framework поддерживает множество компонент для выработки оценки в различных измерениях каждого доказательства которая вырабатывает оценку связанную с тем насколько хорошо доказательство поддерживает кандидата на ответ в качестве ответа на заданный вопросDeepQA использует общий формат для оценок для принятых гипотез и подтверждающих оценок отражающих семантические и ограничивающие факторы Это позволяет разработчикам DeepQA быстро разворачивать перемешивать и настраивать сложные совокупности модуле для обработкиНапрмер Watson использует больше чем 50 скоринговых компонент Они производят оценки разноготипа от оценок вероятностей до подсчета категориальных свойств основанных на доказательствах от различных источников включая неструктурированные тексты полуструктурированные тексты и RDF хранилища Эти оценки используют такие данные как degree of match between a passagersquos predicate-argument structure and the question passage source reliability geospatial location temporal relationships taxonomic classification the lexical and semantic relations the candidate is known to participate in the candidatersquos correlation with question terms its popularity (or obscurity) its aliases and so on

Вопрос Чили имеет самую длинную общую границу со страной Сгенерировано несколько кандидатов среди них Аргентина и Боливия Первичный поиск даст приоритет Боливии из=а популярности обсуждений их отношений Однако собранные Watson доказательства из других источников показывают более высокую оценку для Аргентины

Скоринг (взвешивание) доказательств ndash предиктивная аналитика

- При делении клеток митозом называется деление ядра а цитокинезом ndash деление этой жидкости в которой находится ядро

Генерирование кандидатов Сбор доказательств Уверенность в доказательстве

ОрганеллыВакуольЦитоплазмаПлазмамитохондрии

Органеллы ndash не жидкостьВакуоль ndash не жидкостьЦитоплазма ndash возможно жидкостьПлазма ndash не жидкостьМитохондрии ndash не жидкость

Цитоплазма ndash 92Органеллы ndash 19Вакуоль ndash 10Плазма ndash 2Митохондрии ndash 2

Answer Merging ndash объединение ответов

Многие кандидаты в ответы на поставленный вопрос могут быть эквивалентны несмотря на различные внешне формыТехники ранжирования тем не менее рассматривают таких кандидатов как различные Без объединения алгоритмы ранжирования будут работать отдельно с эквивалентными сущностями и пытаться противопоставить одну форму другой Это приведет к проблемам принятия решений Watson содержит алгоритмы идентификации эквивалентных сущностей используя множественные сравнения нормализацию и методы разрешения совместных ссылок

Ranking and Confidence Estimation ndash ранжирование и оценивание доверияПосле объединения система должна произвести ранжирование гипотез и оценивает доверие основанное на объединенных оценках В системе подобран ML подход основанный на обучении на обучающем наборе вопросов с известными ответами и обучение модели основываясь на скоринге Применяется как весьма плоская модель и существующие алгоритмы ранжирования Для более тонких оценок применяется двухфазный процесс использующий группы оценок для оценивания профиля и для оценки доверия Используя эту промежуточную модель система производит ансамбль промежуточных оценок Здесь используется иерархическая техника метаучителя и коллектива экспертов Этот подход обеспечивает итеративное расширение обучения используя изощренные и глубокие иерархические модели обеспечивающие гибкость и робастность при выработке оценок и модифицирует системуМетаучитель в Watson использует набор многие обучаемые модели чтобы управлять различными классами вопросов которые могут быть критическими при идентификации правильных ответовНаконец важно что использование NLP-based скоринга дает весьма разреженные оценки и требует точного оценивания с применением confidence-weighted learning techniques

Развертывание Watson

bull DeepQA разработан используя Apache UIMA - framework implementation of the Unstructured Information Management Architecture (Ferrucci and Lally 2004) UIMA был разработан для поддержки взаимодействия и масштабирования приложений обработки текста и мультимодального анализа Все компоненты DeepQA имплементированы как UIMA annotators Это программные компоненты для анализа текста и получения аннотаций или заключений о тексте Watson развивался в процессе разработки от нескольких компонент до нескольких сотен UIMA обеспечивает быструю интеграцию компонент тестирование и исследование

bull Начальная имплементация Watson запускалась на одном процессоре и требовала 2 часа на ответ на один вопрос DeepQA развился в параллельную систему используя UIMA-AS часть Apache UIMA масштабируя приложения UIMA используя асинхронный механизм месседжинга UIMA-AS позволила масштабировать Watson более чем на 2500 вычислительных ядер UIMA-AS управляет коммуникациями месседжингом управлением запросами используя open JMS standard UIMA-AS позволил снизить латентность Watson до 3ndash5 секунд

bull Для препроцессинга корпуса текстов создания быстрых run-time indices использован Hadoop

UIMA annotators были развернуты как mapper ы в Hadoop map-reduce framework Hadoop распределяет контент по кластеру для обеспечения высокого использования CPU и обеспечивает подходящий набор инструментов для deploying managing and monitoring the corpus analysis process

bull Аппаратная платформа ndash это 90 серверов 2800 ядер 15 ТБ RAM 80 Тфлопс $3 000 000 10 R

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 50: !Predictive analytics part_3

Лексические типы ответа ndash LAT (Lexical Answer Type)

Метрики качества ответов - результативность

Показатели двух теоретических QA систем

Показатели результативности чемпионов шоу (2000)

Облако победителей

Линия сравнения результативности (baseline performance)

Сравнение системы тестового поиска и поиска в базе знаний

Результативность Watson (по версиям)

Основы подхода Deep QA

bull Massive parallelism использование высокого параллелизма при рассмотрении множественных интерпретаций и гипотез

bull Many experts привлечение интеграции приложения и контекстуального оценивания в широком диапазоне слабосвязанных вероятностных вопросов и контентной аналитики

bull Pervasive confidence estimation повсеместная оценка доверия означает что ни один из компонентов не включается в ответ сразу все компоненты имеют признаки и связанные с ними уровни доверия производится скоринг различных вопросов и контентная интерпретация Основа confidence-processing состоит в обучении как стэкировать и комбинировать баллы

bull Integrate shallow and deep knowledge интеграция поверхностных и глубинных знаний состоит в балансе использования строгой семантики и мелких семантик использующих множества слабо сформированных онтологий

bull Content Acquisition - Сбор контентаСочетает ручные и автоматические этапы Первым шагом является анализ примеров вопросов проблемного пространства чтобы произвести описание видов вопросов на которые нужно ответить и характеризовать область применения Анализ примеров вопросов в первую очередь ручная задача в то время как анализ области может быть выполнен путем автоматических или статистических методов таких как анализ LAT показанный ранее Учитывая вопросы для широкого домена Jeopardy Challenge источники для Watson включают широкий ассортимент энциклопедий словарей тезаурусов Newswire статьи литературные произведения и тд Начиная с разумного размера базового корпуса DeepQA затем применяет автоматический процесс расширения корпуса Процесс включает в себя четыре этапа высокого уровня (1) выявления основных документов и получить соответствующие документы из Интернет (2) извлечь автономные текстовые ядра из связанных веб-документов (3) Оценка на основе ядер являются ли они информативны по отношению к исходному основному документу и (4) объединить наиболее информативные ядра в расширенном корпусе Работающая система использует этот расширенный корпус и не имеет доступа к Интернет во время игры

bull Question Analysis ndash Анализ вопроса

Первый шаг во время выполнения процесса вопрос-ответной системы При анализе вопроса система пытается понять что вопрос задан и выполняет начальный анализ определяющий как вопрос будет обработан на остальных этапах работы системы Подход DeepQA использует смешанный набор экспертов на данном этапе и в системе Watson производится мелкий парсинг глубокий парсинг строятся логические формы семантические этикетки ролей взаимные ссылки отношения именованные сущности и так далее а также конкретные виды анализа для ответа вопрос

bull Question classification - Классификация вопроса

Это задача выявления типа вопроса или частей вопроса которые требуют специальной обработки Это может включать в себя что-нибудь из отдельных слов с двойным смыслом и потенциально до выявления целых статей которые имеют определенную синтаксическую семантическую или риторические функциональные возможности которые могут инициировать нисходящий анализ Классификация может определить вопрос как вопрос- головоломку вопрос-математику -определение и так далее Это будет определять каламбуры ограничения компоненты определений или целые подвопросы в пределах вопросов

bull Focus and LAT Detection ndash Определение фокуса и лексического типа ответа

Лексический тип ответа - это слово или словосочетание в вопросе который определяет тип ответа без попытки понять семантику Определение LAT является важным видом выигрыша и общим источником критических ошибок Преимущество подхода DeepQA является использование многих самостоятельно разработанных алгоритмов laquoответ-типированияraquo Например фокус вопроса викторины laquoПри попадании электронов люминофор излучает электромагнитную энергию в этой формеraquo - является laquoэта формаraquo Фокус часто (но не всегда) содержит полезную информацию об ответе часто субъект или объект отношение в вопросе и может превратить вопрос в фактическое утверждение при замене возможным кандидатом Это представляет полезный способ собирать доказательства о каждом кандидате

bull Relation Detection ndash детектирование отношений

Большинство вопросов содержит отношения являются ли они синтаксическими предикатами субъект-глагол-объект или семантические отношения между субъектами Например в вопросе laquoЕсть два штата в которые вы могли бы войти повторно если вы пересекаете северную границу штата Флоридаraquo мы можем обнаружить отношение границы (Флорида Х к северу) Watson использует обнаружение отношения на протяжении всего процесса QA от фокуса и LAT определения до прохождению и скорингу ответов Watson также может использовать обнаруженные отношения для выделения хранилища триплетов и напрямую генерировать кандидатов в ответы В 20000 игр Jeopardy вопросы например обнаружили распределение Freebase отношений чрезвычайно плоского вида (см рисунок) Это приближение распределеня 50 наиболее частых отношений в 20 000 случайно выбранных вопросах викторины

bull Decomposition ndash декомпозиция

Важным требованием успеха анализа Jeopardy является способность отвечать на вопросы которые разложены на составляющие DeepQA использует основанный на правилах глубокий парсинг и статистические методы классификации чтобы наилучшим образом разложить вопросы на элементы и определить как лучше разбить их на подвопросы Операционная гипотеза что правильная интерпретация вопроса позволит лучше произвести скоринг ответов после того как все доказательства собраны Даже если вопрос не должен быть разложен для определения ответа этот метод может помочь улучшить общее доверие ответу системы DeepQA решает задачи параллельно для каждого разложения применяя алгоритмы от начала до конца каждого подвопроса и синтезирует окончательные ответы DeepQA также поддерживает вложенные декомпозиции вопросов через рекурсивное применение QA системы от начала до конца в внутреннем подвопросе а затем во внешнем Настраиваемые компоненты позволяют легко подключать специализированные алгоритмы синтеза в общую систему

bull Hypothesis Generation ndash генерация гипотез

Генерация гипотез принимает результаты анализа вопросов и производит кандидатов на ответы Каждый кандидат ответ включается обратно в вопрос и это считается как гипотеза Система должна доказать правильность этой гипотезы с некоторой степенью уверенности Как и во всех аспектах DeepQA используется смесь разных подходов для первичного поиска и генерации кандидата в системе Watson

bull Primary Search ndash первичный поиск

В этом поиске целью является найти столько потенциально кандидатов сколько это можно сделать на основе результатов анализа вопроса В течение проекта велись эмпирические исследования направленные на баланс скорости объема и точности Эти исследования позволили регулярно настраивать систему так чтобы найти такое количество кандидатов которые производят наилучший баланс точности и вычислительных ресурсов Оперативная цель основного поиска в конечном счете стабилизировалась на около 85 процентов для топ-250 кандидатов то есть система генерирует правильный ответ как кандидата ответа на 85 процентов вопросов где-то в верхних 250 ранжированных кандидатов Разнообразие методов поиска используются в том числе с использованием нескольких текст поисковых системах с различными базовыми подходами (например Indri и Lucene) поиск документов а также поиска маршрута база знаний поиска с помощью SPARQL хранилища триплетов Для небольшого количества латов которые были определены как закрытые латы кандидат на ответ может быть получен из фиксированного списка в каком-то хранилище известных экземпляров LAT таких как США Президент или Страна

Поиск доказательств

bull Поиск по фразе ndash число соответствий разного типав ответе и вопросеbull Популярность ndash как часто встречается этот вариант ответаbull Соответствие по типу ndash ответ и требование вопросаbull Соответствие по времениbull Надежность источника

bull Candidate Answer Generation ndash генерирование кандидатов на ответ

Результаты поиска применяются для генерирования возможных кандидатов в ответы с помощью различных подходящих техник Для поиска документов извлекаются заголовки и используются как кандидаты Число кандидатов при этом может быть не единственным и требовать использования анализа подстрок и ссылок Используя детектирование именованных сущностей в ряде случаев удается извлечь хороших кандидатов В зависимости от типа источника для генерирования кандидата требуется разный набор алгоритмов например база знаний или обратный словарь порождают кандидатов непосредственно как кандидата Этот этап критически важен и если кандидаты не найдены то фиксируется невозможность ответа В нормальном режиме на этом этапе Watson гененерирует несколько сотен андидатов

bull Soft Filtering ndash мягкая фильтрацияДля ускорения процесса скоринга кандидатов Watson использует различные алгоритмы разной точности Более легковесные (менее вычислительно интенсивные) применяются на первом этапе скоринга На этом этапе устанавливается порог оценки и кандидаты имеющие более высокую оценку считаются прошедшими мягкую фильтрацию Они поступают на выработку гипотез и скоринг доказательств Интересно что кандидаты не прошедшие порог мягкой фильтрации не забываются а направляются прямо на финальный этап слияния Модель скоринга мягкой фильтрации и порога определяются на основе machine learning используя обучающие данные Watson типично пропускает через мягкую фильтрацию 100 кандидатов но эта функция параметризована и их число можно изменить

Проблемы NLP

bull В мае 1898 года Португалия отмечала 400-летний юбилей со дня прибытия этого великого путешественника в Индию

В мае Гари прибыл в Индию после празднования своего юбилея в Португалии

21 мая 1498 года Васка де Гама высадился в местечке Каппад

bull Он был помилован президентом 8 сентября 1974 годаФорд помиловал Никсона 8 сентября 1974 года Никсон Форд

bull Говоря ldquogive a trinklerdquo что предлагают вам сделать британцы по приезду в город

bull Hypothesis and Evidence Scoring ndash скоринг гипотез и доказательств

Прошедшие порог мягкой фильтрации кандидаты поступают на скрупулезный процесс который включает сбор дополнительных поддерживающих доказательств для каждого кандидата на ответ или гипотезу Процесс использует широкий набор различных методов скоринговой аналитики чтобы исследовать все поддерживающие доказательства

bull Evidence Retrieval ndash извлечение доказательств

Чтобы лучше исследовать каждого кандидата прошедшего через мягкую фильтрацию система собирает дополнительные поддерживающие доказательства Архитектура поддерживает интеграцию различных evidence-gathering техник Один из применяемых способов состоит в том что проводится дополнительный поиск в котором кандидат добавляется в качестве required term к первичному запросу извлеченному из вопроса Это будет приводить к получению выражений содержащих кандидата в контексте первичных терминов вопросаПоддерживающие доказательства могут быть извлечены и из других источников например из RDF баз знаний Извлеченные поддерживающие доказательства направляются модули глубокого скоринга которые анализируют кандидата в контексте поддерживающего доказательства

bull Scoring ndash скоринг (количественное оценивание)

Алгоритмы скоринга определяют степень несомненности которую обеспечивают доказательства в поддержку кандидата The DeepQA framework поддерживает множество компонент для выработки оценки в различных измерениях каждого доказательства которая вырабатывает оценку связанную с тем насколько хорошо доказательство поддерживает кандидата на ответ в качестве ответа на заданный вопросDeepQA использует общий формат для оценок для принятых гипотез и подтверждающих оценок отражающих семантические и ограничивающие факторы Это позволяет разработчикам DeepQA быстро разворачивать перемешивать и настраивать сложные совокупности модуле для обработкиНапрмер Watson использует больше чем 50 скоринговых компонент Они производят оценки разноготипа от оценок вероятностей до подсчета категориальных свойств основанных на доказательствах от различных источников включая неструктурированные тексты полуструктурированные тексты и RDF хранилища Эти оценки используют такие данные как degree of match between a passagersquos predicate-argument structure and the question passage source reliability geospatial location temporal relationships taxonomic classification the lexical and semantic relations the candidate is known to participate in the candidatersquos correlation with question terms its popularity (or obscurity) its aliases and so on

Вопрос Чили имеет самую длинную общую границу со страной Сгенерировано несколько кандидатов среди них Аргентина и Боливия Первичный поиск даст приоритет Боливии из=а популярности обсуждений их отношений Однако собранные Watson доказательства из других источников показывают более высокую оценку для Аргентины

Скоринг (взвешивание) доказательств ndash предиктивная аналитика

- При делении клеток митозом называется деление ядра а цитокинезом ndash деление этой жидкости в которой находится ядро

Генерирование кандидатов Сбор доказательств Уверенность в доказательстве

ОрганеллыВакуольЦитоплазмаПлазмамитохондрии

Органеллы ndash не жидкостьВакуоль ndash не жидкостьЦитоплазма ndash возможно жидкостьПлазма ndash не жидкостьМитохондрии ndash не жидкость

Цитоплазма ndash 92Органеллы ndash 19Вакуоль ndash 10Плазма ndash 2Митохондрии ndash 2

Answer Merging ndash объединение ответов

Многие кандидаты в ответы на поставленный вопрос могут быть эквивалентны несмотря на различные внешне формыТехники ранжирования тем не менее рассматривают таких кандидатов как различные Без объединения алгоритмы ранжирования будут работать отдельно с эквивалентными сущностями и пытаться противопоставить одну форму другой Это приведет к проблемам принятия решений Watson содержит алгоритмы идентификации эквивалентных сущностей используя множественные сравнения нормализацию и методы разрешения совместных ссылок

Ranking and Confidence Estimation ndash ранжирование и оценивание доверияПосле объединения система должна произвести ранжирование гипотез и оценивает доверие основанное на объединенных оценках В системе подобран ML подход основанный на обучении на обучающем наборе вопросов с известными ответами и обучение модели основываясь на скоринге Применяется как весьма плоская модель и существующие алгоритмы ранжирования Для более тонких оценок применяется двухфазный процесс использующий группы оценок для оценивания профиля и для оценки доверия Используя эту промежуточную модель система производит ансамбль промежуточных оценок Здесь используется иерархическая техника метаучителя и коллектива экспертов Этот подход обеспечивает итеративное расширение обучения используя изощренные и глубокие иерархические модели обеспечивающие гибкость и робастность при выработке оценок и модифицирует системуМетаучитель в Watson использует набор многие обучаемые модели чтобы управлять различными классами вопросов которые могут быть критическими при идентификации правильных ответовНаконец важно что использование NLP-based скоринга дает весьма разреженные оценки и требует точного оценивания с применением confidence-weighted learning techniques

Развертывание Watson

bull DeepQA разработан используя Apache UIMA - framework implementation of the Unstructured Information Management Architecture (Ferrucci and Lally 2004) UIMA был разработан для поддержки взаимодействия и масштабирования приложений обработки текста и мультимодального анализа Все компоненты DeepQA имплементированы как UIMA annotators Это программные компоненты для анализа текста и получения аннотаций или заключений о тексте Watson развивался в процессе разработки от нескольких компонент до нескольких сотен UIMA обеспечивает быструю интеграцию компонент тестирование и исследование

bull Начальная имплементация Watson запускалась на одном процессоре и требовала 2 часа на ответ на один вопрос DeepQA развился в параллельную систему используя UIMA-AS часть Apache UIMA масштабируя приложения UIMA используя асинхронный механизм месседжинга UIMA-AS позволила масштабировать Watson более чем на 2500 вычислительных ядер UIMA-AS управляет коммуникациями месседжингом управлением запросами используя open JMS standard UIMA-AS позволил снизить латентность Watson до 3ndash5 секунд

bull Для препроцессинга корпуса текстов создания быстрых run-time indices использован Hadoop

UIMA annotators были развернуты как mapper ы в Hadoop map-reduce framework Hadoop распределяет контент по кластеру для обеспечения высокого использования CPU и обеспечивает подходящий набор инструментов для deploying managing and monitoring the corpus analysis process

bull Аппаратная платформа ndash это 90 серверов 2800 ядер 15 ТБ RAM 80 Тфлопс $3 000 000 10 R

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 51: !Predictive analytics part_3

Метрики качества ответов - результативность

Показатели двух теоретических QA систем

Показатели результативности чемпионов шоу (2000)

Облако победителей

Линия сравнения результативности (baseline performance)

Сравнение системы тестового поиска и поиска в базе знаний

Результативность Watson (по версиям)

Основы подхода Deep QA

bull Massive parallelism использование высокого параллелизма при рассмотрении множественных интерпретаций и гипотез

bull Many experts привлечение интеграции приложения и контекстуального оценивания в широком диапазоне слабосвязанных вероятностных вопросов и контентной аналитики

bull Pervasive confidence estimation повсеместная оценка доверия означает что ни один из компонентов не включается в ответ сразу все компоненты имеют признаки и связанные с ними уровни доверия производится скоринг различных вопросов и контентная интерпретация Основа confidence-processing состоит в обучении как стэкировать и комбинировать баллы

bull Integrate shallow and deep knowledge интеграция поверхностных и глубинных знаний состоит в балансе использования строгой семантики и мелких семантик использующих множества слабо сформированных онтологий

bull Content Acquisition - Сбор контентаСочетает ручные и автоматические этапы Первым шагом является анализ примеров вопросов проблемного пространства чтобы произвести описание видов вопросов на которые нужно ответить и характеризовать область применения Анализ примеров вопросов в первую очередь ручная задача в то время как анализ области может быть выполнен путем автоматических или статистических методов таких как анализ LAT показанный ранее Учитывая вопросы для широкого домена Jeopardy Challenge источники для Watson включают широкий ассортимент энциклопедий словарей тезаурусов Newswire статьи литературные произведения и тд Начиная с разумного размера базового корпуса DeepQA затем применяет автоматический процесс расширения корпуса Процесс включает в себя четыре этапа высокого уровня (1) выявления основных документов и получить соответствующие документы из Интернет (2) извлечь автономные текстовые ядра из связанных веб-документов (3) Оценка на основе ядер являются ли они информативны по отношению к исходному основному документу и (4) объединить наиболее информативные ядра в расширенном корпусе Работающая система использует этот расширенный корпус и не имеет доступа к Интернет во время игры

bull Question Analysis ndash Анализ вопроса

Первый шаг во время выполнения процесса вопрос-ответной системы При анализе вопроса система пытается понять что вопрос задан и выполняет начальный анализ определяющий как вопрос будет обработан на остальных этапах работы системы Подход DeepQA использует смешанный набор экспертов на данном этапе и в системе Watson производится мелкий парсинг глубокий парсинг строятся логические формы семантические этикетки ролей взаимные ссылки отношения именованные сущности и так далее а также конкретные виды анализа для ответа вопрос

bull Question classification - Классификация вопроса

Это задача выявления типа вопроса или частей вопроса которые требуют специальной обработки Это может включать в себя что-нибудь из отдельных слов с двойным смыслом и потенциально до выявления целых статей которые имеют определенную синтаксическую семантическую или риторические функциональные возможности которые могут инициировать нисходящий анализ Классификация может определить вопрос как вопрос- головоломку вопрос-математику -определение и так далее Это будет определять каламбуры ограничения компоненты определений или целые подвопросы в пределах вопросов

bull Focus and LAT Detection ndash Определение фокуса и лексического типа ответа

Лексический тип ответа - это слово или словосочетание в вопросе который определяет тип ответа без попытки понять семантику Определение LAT является важным видом выигрыша и общим источником критических ошибок Преимущество подхода DeepQA является использование многих самостоятельно разработанных алгоритмов laquoответ-типированияraquo Например фокус вопроса викторины laquoПри попадании электронов люминофор излучает электромагнитную энергию в этой формеraquo - является laquoэта формаraquo Фокус часто (но не всегда) содержит полезную информацию об ответе часто субъект или объект отношение в вопросе и может превратить вопрос в фактическое утверждение при замене возможным кандидатом Это представляет полезный способ собирать доказательства о каждом кандидате

bull Relation Detection ndash детектирование отношений

Большинство вопросов содержит отношения являются ли они синтаксическими предикатами субъект-глагол-объект или семантические отношения между субъектами Например в вопросе laquoЕсть два штата в которые вы могли бы войти повторно если вы пересекаете северную границу штата Флоридаraquo мы можем обнаружить отношение границы (Флорида Х к северу) Watson использует обнаружение отношения на протяжении всего процесса QA от фокуса и LAT определения до прохождению и скорингу ответов Watson также может использовать обнаруженные отношения для выделения хранилища триплетов и напрямую генерировать кандидатов в ответы В 20000 игр Jeopardy вопросы например обнаружили распределение Freebase отношений чрезвычайно плоского вида (см рисунок) Это приближение распределеня 50 наиболее частых отношений в 20 000 случайно выбранных вопросах викторины

bull Decomposition ndash декомпозиция

Важным требованием успеха анализа Jeopardy является способность отвечать на вопросы которые разложены на составляющие DeepQA использует основанный на правилах глубокий парсинг и статистические методы классификации чтобы наилучшим образом разложить вопросы на элементы и определить как лучше разбить их на подвопросы Операционная гипотеза что правильная интерпретация вопроса позволит лучше произвести скоринг ответов после того как все доказательства собраны Даже если вопрос не должен быть разложен для определения ответа этот метод может помочь улучшить общее доверие ответу системы DeepQA решает задачи параллельно для каждого разложения применяя алгоритмы от начала до конца каждого подвопроса и синтезирует окончательные ответы DeepQA также поддерживает вложенные декомпозиции вопросов через рекурсивное применение QA системы от начала до конца в внутреннем подвопросе а затем во внешнем Настраиваемые компоненты позволяют легко подключать специализированные алгоритмы синтеза в общую систему

bull Hypothesis Generation ndash генерация гипотез

Генерация гипотез принимает результаты анализа вопросов и производит кандидатов на ответы Каждый кандидат ответ включается обратно в вопрос и это считается как гипотеза Система должна доказать правильность этой гипотезы с некоторой степенью уверенности Как и во всех аспектах DeepQA используется смесь разных подходов для первичного поиска и генерации кандидата в системе Watson

bull Primary Search ndash первичный поиск

В этом поиске целью является найти столько потенциально кандидатов сколько это можно сделать на основе результатов анализа вопроса В течение проекта велись эмпирические исследования направленные на баланс скорости объема и точности Эти исследования позволили регулярно настраивать систему так чтобы найти такое количество кандидатов которые производят наилучший баланс точности и вычислительных ресурсов Оперативная цель основного поиска в конечном счете стабилизировалась на около 85 процентов для топ-250 кандидатов то есть система генерирует правильный ответ как кандидата ответа на 85 процентов вопросов где-то в верхних 250 ранжированных кандидатов Разнообразие методов поиска используются в том числе с использованием нескольких текст поисковых системах с различными базовыми подходами (например Indri и Lucene) поиск документов а также поиска маршрута база знаний поиска с помощью SPARQL хранилища триплетов Для небольшого количества латов которые были определены как закрытые латы кандидат на ответ может быть получен из фиксированного списка в каком-то хранилище известных экземпляров LAT таких как США Президент или Страна

Поиск доказательств

bull Поиск по фразе ndash число соответствий разного типав ответе и вопросеbull Популярность ndash как часто встречается этот вариант ответаbull Соответствие по типу ndash ответ и требование вопросаbull Соответствие по времениbull Надежность источника

bull Candidate Answer Generation ndash генерирование кандидатов на ответ

Результаты поиска применяются для генерирования возможных кандидатов в ответы с помощью различных подходящих техник Для поиска документов извлекаются заголовки и используются как кандидаты Число кандидатов при этом может быть не единственным и требовать использования анализа подстрок и ссылок Используя детектирование именованных сущностей в ряде случаев удается извлечь хороших кандидатов В зависимости от типа источника для генерирования кандидата требуется разный набор алгоритмов например база знаний или обратный словарь порождают кандидатов непосредственно как кандидата Этот этап критически важен и если кандидаты не найдены то фиксируется невозможность ответа В нормальном режиме на этом этапе Watson гененерирует несколько сотен андидатов

bull Soft Filtering ndash мягкая фильтрацияДля ускорения процесса скоринга кандидатов Watson использует различные алгоритмы разной точности Более легковесные (менее вычислительно интенсивные) применяются на первом этапе скоринга На этом этапе устанавливается порог оценки и кандидаты имеющие более высокую оценку считаются прошедшими мягкую фильтрацию Они поступают на выработку гипотез и скоринг доказательств Интересно что кандидаты не прошедшие порог мягкой фильтрации не забываются а направляются прямо на финальный этап слияния Модель скоринга мягкой фильтрации и порога определяются на основе machine learning используя обучающие данные Watson типично пропускает через мягкую фильтрацию 100 кандидатов но эта функция параметризована и их число можно изменить

Проблемы NLP

bull В мае 1898 года Португалия отмечала 400-летний юбилей со дня прибытия этого великого путешественника в Индию

В мае Гари прибыл в Индию после празднования своего юбилея в Португалии

21 мая 1498 года Васка де Гама высадился в местечке Каппад

bull Он был помилован президентом 8 сентября 1974 годаФорд помиловал Никсона 8 сентября 1974 года Никсон Форд

bull Говоря ldquogive a trinklerdquo что предлагают вам сделать британцы по приезду в город

bull Hypothesis and Evidence Scoring ndash скоринг гипотез и доказательств

Прошедшие порог мягкой фильтрации кандидаты поступают на скрупулезный процесс который включает сбор дополнительных поддерживающих доказательств для каждого кандидата на ответ или гипотезу Процесс использует широкий набор различных методов скоринговой аналитики чтобы исследовать все поддерживающие доказательства

bull Evidence Retrieval ndash извлечение доказательств

Чтобы лучше исследовать каждого кандидата прошедшего через мягкую фильтрацию система собирает дополнительные поддерживающие доказательства Архитектура поддерживает интеграцию различных evidence-gathering техник Один из применяемых способов состоит в том что проводится дополнительный поиск в котором кандидат добавляется в качестве required term к первичному запросу извлеченному из вопроса Это будет приводить к получению выражений содержащих кандидата в контексте первичных терминов вопросаПоддерживающие доказательства могут быть извлечены и из других источников например из RDF баз знаний Извлеченные поддерживающие доказательства направляются модули глубокого скоринга которые анализируют кандидата в контексте поддерживающего доказательства

bull Scoring ndash скоринг (количественное оценивание)

Алгоритмы скоринга определяют степень несомненности которую обеспечивают доказательства в поддержку кандидата The DeepQA framework поддерживает множество компонент для выработки оценки в различных измерениях каждого доказательства которая вырабатывает оценку связанную с тем насколько хорошо доказательство поддерживает кандидата на ответ в качестве ответа на заданный вопросDeepQA использует общий формат для оценок для принятых гипотез и подтверждающих оценок отражающих семантические и ограничивающие факторы Это позволяет разработчикам DeepQA быстро разворачивать перемешивать и настраивать сложные совокупности модуле для обработкиНапрмер Watson использует больше чем 50 скоринговых компонент Они производят оценки разноготипа от оценок вероятностей до подсчета категориальных свойств основанных на доказательствах от различных источников включая неструктурированные тексты полуструктурированные тексты и RDF хранилища Эти оценки используют такие данные как degree of match between a passagersquos predicate-argument structure and the question passage source reliability geospatial location temporal relationships taxonomic classification the lexical and semantic relations the candidate is known to participate in the candidatersquos correlation with question terms its popularity (or obscurity) its aliases and so on

Вопрос Чили имеет самую длинную общую границу со страной Сгенерировано несколько кандидатов среди них Аргентина и Боливия Первичный поиск даст приоритет Боливии из=а популярности обсуждений их отношений Однако собранные Watson доказательства из других источников показывают более высокую оценку для Аргентины

Скоринг (взвешивание) доказательств ndash предиктивная аналитика

- При делении клеток митозом называется деление ядра а цитокинезом ndash деление этой жидкости в которой находится ядро

Генерирование кандидатов Сбор доказательств Уверенность в доказательстве

ОрганеллыВакуольЦитоплазмаПлазмамитохондрии

Органеллы ndash не жидкостьВакуоль ndash не жидкостьЦитоплазма ndash возможно жидкостьПлазма ndash не жидкостьМитохондрии ndash не жидкость

Цитоплазма ndash 92Органеллы ndash 19Вакуоль ndash 10Плазма ndash 2Митохондрии ndash 2

Answer Merging ndash объединение ответов

Многие кандидаты в ответы на поставленный вопрос могут быть эквивалентны несмотря на различные внешне формыТехники ранжирования тем не менее рассматривают таких кандидатов как различные Без объединения алгоритмы ранжирования будут работать отдельно с эквивалентными сущностями и пытаться противопоставить одну форму другой Это приведет к проблемам принятия решений Watson содержит алгоритмы идентификации эквивалентных сущностей используя множественные сравнения нормализацию и методы разрешения совместных ссылок

Ranking and Confidence Estimation ndash ранжирование и оценивание доверияПосле объединения система должна произвести ранжирование гипотез и оценивает доверие основанное на объединенных оценках В системе подобран ML подход основанный на обучении на обучающем наборе вопросов с известными ответами и обучение модели основываясь на скоринге Применяется как весьма плоская модель и существующие алгоритмы ранжирования Для более тонких оценок применяется двухфазный процесс использующий группы оценок для оценивания профиля и для оценки доверия Используя эту промежуточную модель система производит ансамбль промежуточных оценок Здесь используется иерархическая техника метаучителя и коллектива экспертов Этот подход обеспечивает итеративное расширение обучения используя изощренные и глубокие иерархические модели обеспечивающие гибкость и робастность при выработке оценок и модифицирует системуМетаучитель в Watson использует набор многие обучаемые модели чтобы управлять различными классами вопросов которые могут быть критическими при идентификации правильных ответовНаконец важно что использование NLP-based скоринга дает весьма разреженные оценки и требует точного оценивания с применением confidence-weighted learning techniques

Развертывание Watson

bull DeepQA разработан используя Apache UIMA - framework implementation of the Unstructured Information Management Architecture (Ferrucci and Lally 2004) UIMA был разработан для поддержки взаимодействия и масштабирования приложений обработки текста и мультимодального анализа Все компоненты DeepQA имплементированы как UIMA annotators Это программные компоненты для анализа текста и получения аннотаций или заключений о тексте Watson развивался в процессе разработки от нескольких компонент до нескольких сотен UIMA обеспечивает быструю интеграцию компонент тестирование и исследование

bull Начальная имплементация Watson запускалась на одном процессоре и требовала 2 часа на ответ на один вопрос DeepQA развился в параллельную систему используя UIMA-AS часть Apache UIMA масштабируя приложения UIMA используя асинхронный механизм месседжинга UIMA-AS позволила масштабировать Watson более чем на 2500 вычислительных ядер UIMA-AS управляет коммуникациями месседжингом управлением запросами используя open JMS standard UIMA-AS позволил снизить латентность Watson до 3ndash5 секунд

bull Для препроцессинга корпуса текстов создания быстрых run-time indices использован Hadoop

UIMA annotators были развернуты как mapper ы в Hadoop map-reduce framework Hadoop распределяет контент по кластеру для обеспечения высокого использования CPU и обеспечивает подходящий набор инструментов для deploying managing and monitoring the corpus analysis process

bull Аппаратная платформа ndash это 90 серверов 2800 ядер 15 ТБ RAM 80 Тфлопс $3 000 000 10 R

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 52: !Predictive analytics part_3

Показатели результативности чемпионов шоу (2000)

Облако победителей

Линия сравнения результативности (baseline performance)

Сравнение системы тестового поиска и поиска в базе знаний

Результативность Watson (по версиям)

Основы подхода Deep QA

bull Massive parallelism использование высокого параллелизма при рассмотрении множественных интерпретаций и гипотез

bull Many experts привлечение интеграции приложения и контекстуального оценивания в широком диапазоне слабосвязанных вероятностных вопросов и контентной аналитики

bull Pervasive confidence estimation повсеместная оценка доверия означает что ни один из компонентов не включается в ответ сразу все компоненты имеют признаки и связанные с ними уровни доверия производится скоринг различных вопросов и контентная интерпретация Основа confidence-processing состоит в обучении как стэкировать и комбинировать баллы

bull Integrate shallow and deep knowledge интеграция поверхностных и глубинных знаний состоит в балансе использования строгой семантики и мелких семантик использующих множества слабо сформированных онтологий

bull Content Acquisition - Сбор контентаСочетает ручные и автоматические этапы Первым шагом является анализ примеров вопросов проблемного пространства чтобы произвести описание видов вопросов на которые нужно ответить и характеризовать область применения Анализ примеров вопросов в первую очередь ручная задача в то время как анализ области может быть выполнен путем автоматических или статистических методов таких как анализ LAT показанный ранее Учитывая вопросы для широкого домена Jeopardy Challenge источники для Watson включают широкий ассортимент энциклопедий словарей тезаурусов Newswire статьи литературные произведения и тд Начиная с разумного размера базового корпуса DeepQA затем применяет автоматический процесс расширения корпуса Процесс включает в себя четыре этапа высокого уровня (1) выявления основных документов и получить соответствующие документы из Интернет (2) извлечь автономные текстовые ядра из связанных веб-документов (3) Оценка на основе ядер являются ли они информативны по отношению к исходному основному документу и (4) объединить наиболее информативные ядра в расширенном корпусе Работающая система использует этот расширенный корпус и не имеет доступа к Интернет во время игры

bull Question Analysis ndash Анализ вопроса

Первый шаг во время выполнения процесса вопрос-ответной системы При анализе вопроса система пытается понять что вопрос задан и выполняет начальный анализ определяющий как вопрос будет обработан на остальных этапах работы системы Подход DeepQA использует смешанный набор экспертов на данном этапе и в системе Watson производится мелкий парсинг глубокий парсинг строятся логические формы семантические этикетки ролей взаимные ссылки отношения именованные сущности и так далее а также конкретные виды анализа для ответа вопрос

bull Question classification - Классификация вопроса

Это задача выявления типа вопроса или частей вопроса которые требуют специальной обработки Это может включать в себя что-нибудь из отдельных слов с двойным смыслом и потенциально до выявления целых статей которые имеют определенную синтаксическую семантическую или риторические функциональные возможности которые могут инициировать нисходящий анализ Классификация может определить вопрос как вопрос- головоломку вопрос-математику -определение и так далее Это будет определять каламбуры ограничения компоненты определений или целые подвопросы в пределах вопросов

bull Focus and LAT Detection ndash Определение фокуса и лексического типа ответа

Лексический тип ответа - это слово или словосочетание в вопросе который определяет тип ответа без попытки понять семантику Определение LAT является важным видом выигрыша и общим источником критических ошибок Преимущество подхода DeepQA является использование многих самостоятельно разработанных алгоритмов laquoответ-типированияraquo Например фокус вопроса викторины laquoПри попадании электронов люминофор излучает электромагнитную энергию в этой формеraquo - является laquoэта формаraquo Фокус часто (но не всегда) содержит полезную информацию об ответе часто субъект или объект отношение в вопросе и может превратить вопрос в фактическое утверждение при замене возможным кандидатом Это представляет полезный способ собирать доказательства о каждом кандидате

bull Relation Detection ndash детектирование отношений

Большинство вопросов содержит отношения являются ли они синтаксическими предикатами субъект-глагол-объект или семантические отношения между субъектами Например в вопросе laquoЕсть два штата в которые вы могли бы войти повторно если вы пересекаете северную границу штата Флоридаraquo мы можем обнаружить отношение границы (Флорида Х к северу) Watson использует обнаружение отношения на протяжении всего процесса QA от фокуса и LAT определения до прохождению и скорингу ответов Watson также может использовать обнаруженные отношения для выделения хранилища триплетов и напрямую генерировать кандидатов в ответы В 20000 игр Jeopardy вопросы например обнаружили распределение Freebase отношений чрезвычайно плоского вида (см рисунок) Это приближение распределеня 50 наиболее частых отношений в 20 000 случайно выбранных вопросах викторины

bull Decomposition ndash декомпозиция

Важным требованием успеха анализа Jeopardy является способность отвечать на вопросы которые разложены на составляющие DeepQA использует основанный на правилах глубокий парсинг и статистические методы классификации чтобы наилучшим образом разложить вопросы на элементы и определить как лучше разбить их на подвопросы Операционная гипотеза что правильная интерпретация вопроса позволит лучше произвести скоринг ответов после того как все доказательства собраны Даже если вопрос не должен быть разложен для определения ответа этот метод может помочь улучшить общее доверие ответу системы DeepQA решает задачи параллельно для каждого разложения применяя алгоритмы от начала до конца каждого подвопроса и синтезирует окончательные ответы DeepQA также поддерживает вложенные декомпозиции вопросов через рекурсивное применение QA системы от начала до конца в внутреннем подвопросе а затем во внешнем Настраиваемые компоненты позволяют легко подключать специализированные алгоритмы синтеза в общую систему

bull Hypothesis Generation ndash генерация гипотез

Генерация гипотез принимает результаты анализа вопросов и производит кандидатов на ответы Каждый кандидат ответ включается обратно в вопрос и это считается как гипотеза Система должна доказать правильность этой гипотезы с некоторой степенью уверенности Как и во всех аспектах DeepQA используется смесь разных подходов для первичного поиска и генерации кандидата в системе Watson

bull Primary Search ndash первичный поиск

В этом поиске целью является найти столько потенциально кандидатов сколько это можно сделать на основе результатов анализа вопроса В течение проекта велись эмпирические исследования направленные на баланс скорости объема и точности Эти исследования позволили регулярно настраивать систему так чтобы найти такое количество кандидатов которые производят наилучший баланс точности и вычислительных ресурсов Оперативная цель основного поиска в конечном счете стабилизировалась на около 85 процентов для топ-250 кандидатов то есть система генерирует правильный ответ как кандидата ответа на 85 процентов вопросов где-то в верхних 250 ранжированных кандидатов Разнообразие методов поиска используются в том числе с использованием нескольких текст поисковых системах с различными базовыми подходами (например Indri и Lucene) поиск документов а также поиска маршрута база знаний поиска с помощью SPARQL хранилища триплетов Для небольшого количества латов которые были определены как закрытые латы кандидат на ответ может быть получен из фиксированного списка в каком-то хранилище известных экземпляров LAT таких как США Президент или Страна

Поиск доказательств

bull Поиск по фразе ndash число соответствий разного типав ответе и вопросеbull Популярность ndash как часто встречается этот вариант ответаbull Соответствие по типу ndash ответ и требование вопросаbull Соответствие по времениbull Надежность источника

bull Candidate Answer Generation ndash генерирование кандидатов на ответ

Результаты поиска применяются для генерирования возможных кандидатов в ответы с помощью различных подходящих техник Для поиска документов извлекаются заголовки и используются как кандидаты Число кандидатов при этом может быть не единственным и требовать использования анализа подстрок и ссылок Используя детектирование именованных сущностей в ряде случаев удается извлечь хороших кандидатов В зависимости от типа источника для генерирования кандидата требуется разный набор алгоритмов например база знаний или обратный словарь порождают кандидатов непосредственно как кандидата Этот этап критически важен и если кандидаты не найдены то фиксируется невозможность ответа В нормальном режиме на этом этапе Watson гененерирует несколько сотен андидатов

bull Soft Filtering ndash мягкая фильтрацияДля ускорения процесса скоринга кандидатов Watson использует различные алгоритмы разной точности Более легковесные (менее вычислительно интенсивные) применяются на первом этапе скоринга На этом этапе устанавливается порог оценки и кандидаты имеющие более высокую оценку считаются прошедшими мягкую фильтрацию Они поступают на выработку гипотез и скоринг доказательств Интересно что кандидаты не прошедшие порог мягкой фильтрации не забываются а направляются прямо на финальный этап слияния Модель скоринга мягкой фильтрации и порога определяются на основе machine learning используя обучающие данные Watson типично пропускает через мягкую фильтрацию 100 кандидатов но эта функция параметризована и их число можно изменить

Проблемы NLP

bull В мае 1898 года Португалия отмечала 400-летний юбилей со дня прибытия этого великого путешественника в Индию

В мае Гари прибыл в Индию после празднования своего юбилея в Португалии

21 мая 1498 года Васка де Гама высадился в местечке Каппад

bull Он был помилован президентом 8 сентября 1974 годаФорд помиловал Никсона 8 сентября 1974 года Никсон Форд

bull Говоря ldquogive a trinklerdquo что предлагают вам сделать британцы по приезду в город

bull Hypothesis and Evidence Scoring ndash скоринг гипотез и доказательств

Прошедшие порог мягкой фильтрации кандидаты поступают на скрупулезный процесс который включает сбор дополнительных поддерживающих доказательств для каждого кандидата на ответ или гипотезу Процесс использует широкий набор различных методов скоринговой аналитики чтобы исследовать все поддерживающие доказательства

bull Evidence Retrieval ndash извлечение доказательств

Чтобы лучше исследовать каждого кандидата прошедшего через мягкую фильтрацию система собирает дополнительные поддерживающие доказательства Архитектура поддерживает интеграцию различных evidence-gathering техник Один из применяемых способов состоит в том что проводится дополнительный поиск в котором кандидат добавляется в качестве required term к первичному запросу извлеченному из вопроса Это будет приводить к получению выражений содержащих кандидата в контексте первичных терминов вопросаПоддерживающие доказательства могут быть извлечены и из других источников например из RDF баз знаний Извлеченные поддерживающие доказательства направляются модули глубокого скоринга которые анализируют кандидата в контексте поддерживающего доказательства

bull Scoring ndash скоринг (количественное оценивание)

Алгоритмы скоринга определяют степень несомненности которую обеспечивают доказательства в поддержку кандидата The DeepQA framework поддерживает множество компонент для выработки оценки в различных измерениях каждого доказательства которая вырабатывает оценку связанную с тем насколько хорошо доказательство поддерживает кандидата на ответ в качестве ответа на заданный вопросDeepQA использует общий формат для оценок для принятых гипотез и подтверждающих оценок отражающих семантические и ограничивающие факторы Это позволяет разработчикам DeepQA быстро разворачивать перемешивать и настраивать сложные совокупности модуле для обработкиНапрмер Watson использует больше чем 50 скоринговых компонент Они производят оценки разноготипа от оценок вероятностей до подсчета категориальных свойств основанных на доказательствах от различных источников включая неструктурированные тексты полуструктурированные тексты и RDF хранилища Эти оценки используют такие данные как degree of match between a passagersquos predicate-argument structure and the question passage source reliability geospatial location temporal relationships taxonomic classification the lexical and semantic relations the candidate is known to participate in the candidatersquos correlation with question terms its popularity (or obscurity) its aliases and so on

Вопрос Чили имеет самую длинную общую границу со страной Сгенерировано несколько кандидатов среди них Аргентина и Боливия Первичный поиск даст приоритет Боливии из=а популярности обсуждений их отношений Однако собранные Watson доказательства из других источников показывают более высокую оценку для Аргентины

Скоринг (взвешивание) доказательств ndash предиктивная аналитика

- При делении клеток митозом называется деление ядра а цитокинезом ndash деление этой жидкости в которой находится ядро

Генерирование кандидатов Сбор доказательств Уверенность в доказательстве

ОрганеллыВакуольЦитоплазмаПлазмамитохондрии

Органеллы ndash не жидкостьВакуоль ndash не жидкостьЦитоплазма ndash возможно жидкостьПлазма ndash не жидкостьМитохондрии ndash не жидкость

Цитоплазма ndash 92Органеллы ndash 19Вакуоль ndash 10Плазма ndash 2Митохондрии ndash 2

Answer Merging ndash объединение ответов

Многие кандидаты в ответы на поставленный вопрос могут быть эквивалентны несмотря на различные внешне формыТехники ранжирования тем не менее рассматривают таких кандидатов как различные Без объединения алгоритмы ранжирования будут работать отдельно с эквивалентными сущностями и пытаться противопоставить одну форму другой Это приведет к проблемам принятия решений Watson содержит алгоритмы идентификации эквивалентных сущностей используя множественные сравнения нормализацию и методы разрешения совместных ссылок

Ranking and Confidence Estimation ndash ранжирование и оценивание доверияПосле объединения система должна произвести ранжирование гипотез и оценивает доверие основанное на объединенных оценках В системе подобран ML подход основанный на обучении на обучающем наборе вопросов с известными ответами и обучение модели основываясь на скоринге Применяется как весьма плоская модель и существующие алгоритмы ранжирования Для более тонких оценок применяется двухфазный процесс использующий группы оценок для оценивания профиля и для оценки доверия Используя эту промежуточную модель система производит ансамбль промежуточных оценок Здесь используется иерархическая техника метаучителя и коллектива экспертов Этот подход обеспечивает итеративное расширение обучения используя изощренные и глубокие иерархические модели обеспечивающие гибкость и робастность при выработке оценок и модифицирует системуМетаучитель в Watson использует набор многие обучаемые модели чтобы управлять различными классами вопросов которые могут быть критическими при идентификации правильных ответовНаконец важно что использование NLP-based скоринга дает весьма разреженные оценки и требует точного оценивания с применением confidence-weighted learning techniques

Развертывание Watson

bull DeepQA разработан используя Apache UIMA - framework implementation of the Unstructured Information Management Architecture (Ferrucci and Lally 2004) UIMA был разработан для поддержки взаимодействия и масштабирования приложений обработки текста и мультимодального анализа Все компоненты DeepQA имплементированы как UIMA annotators Это программные компоненты для анализа текста и получения аннотаций или заключений о тексте Watson развивался в процессе разработки от нескольких компонент до нескольких сотен UIMA обеспечивает быструю интеграцию компонент тестирование и исследование

bull Начальная имплементация Watson запускалась на одном процессоре и требовала 2 часа на ответ на один вопрос DeepQA развился в параллельную систему используя UIMA-AS часть Apache UIMA масштабируя приложения UIMA используя асинхронный механизм месседжинга UIMA-AS позволила масштабировать Watson более чем на 2500 вычислительных ядер UIMA-AS управляет коммуникациями месседжингом управлением запросами используя open JMS standard UIMA-AS позволил снизить латентность Watson до 3ndash5 секунд

bull Для препроцессинга корпуса текстов создания быстрых run-time indices использован Hadoop

UIMA annotators были развернуты как mapper ы в Hadoop map-reduce framework Hadoop распределяет контент по кластеру для обеспечения высокого использования CPU и обеспечивает подходящий набор инструментов для deploying managing and monitoring the corpus analysis process

bull Аппаратная платформа ndash это 90 серверов 2800 ядер 15 ТБ RAM 80 Тфлопс $3 000 000 10 R

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 53: !Predictive analytics part_3

Линия сравнения результативности (baseline performance)

Сравнение системы тестового поиска и поиска в базе знаний

Результативность Watson (по версиям)

Основы подхода Deep QA

bull Massive parallelism использование высокого параллелизма при рассмотрении множественных интерпретаций и гипотез

bull Many experts привлечение интеграции приложения и контекстуального оценивания в широком диапазоне слабосвязанных вероятностных вопросов и контентной аналитики

bull Pervasive confidence estimation повсеместная оценка доверия означает что ни один из компонентов не включается в ответ сразу все компоненты имеют признаки и связанные с ними уровни доверия производится скоринг различных вопросов и контентная интерпретация Основа confidence-processing состоит в обучении как стэкировать и комбинировать баллы

bull Integrate shallow and deep knowledge интеграция поверхностных и глубинных знаний состоит в балансе использования строгой семантики и мелких семантик использующих множества слабо сформированных онтологий

bull Content Acquisition - Сбор контентаСочетает ручные и автоматические этапы Первым шагом является анализ примеров вопросов проблемного пространства чтобы произвести описание видов вопросов на которые нужно ответить и характеризовать область применения Анализ примеров вопросов в первую очередь ручная задача в то время как анализ области может быть выполнен путем автоматических или статистических методов таких как анализ LAT показанный ранее Учитывая вопросы для широкого домена Jeopardy Challenge источники для Watson включают широкий ассортимент энциклопедий словарей тезаурусов Newswire статьи литературные произведения и тд Начиная с разумного размера базового корпуса DeepQA затем применяет автоматический процесс расширения корпуса Процесс включает в себя четыре этапа высокого уровня (1) выявления основных документов и получить соответствующие документы из Интернет (2) извлечь автономные текстовые ядра из связанных веб-документов (3) Оценка на основе ядер являются ли они информативны по отношению к исходному основному документу и (4) объединить наиболее информативные ядра в расширенном корпусе Работающая система использует этот расширенный корпус и не имеет доступа к Интернет во время игры

bull Question Analysis ndash Анализ вопроса

Первый шаг во время выполнения процесса вопрос-ответной системы При анализе вопроса система пытается понять что вопрос задан и выполняет начальный анализ определяющий как вопрос будет обработан на остальных этапах работы системы Подход DeepQA использует смешанный набор экспертов на данном этапе и в системе Watson производится мелкий парсинг глубокий парсинг строятся логические формы семантические этикетки ролей взаимные ссылки отношения именованные сущности и так далее а также конкретные виды анализа для ответа вопрос

bull Question classification - Классификация вопроса

Это задача выявления типа вопроса или частей вопроса которые требуют специальной обработки Это может включать в себя что-нибудь из отдельных слов с двойным смыслом и потенциально до выявления целых статей которые имеют определенную синтаксическую семантическую или риторические функциональные возможности которые могут инициировать нисходящий анализ Классификация может определить вопрос как вопрос- головоломку вопрос-математику -определение и так далее Это будет определять каламбуры ограничения компоненты определений или целые подвопросы в пределах вопросов

bull Focus and LAT Detection ndash Определение фокуса и лексического типа ответа

Лексический тип ответа - это слово или словосочетание в вопросе который определяет тип ответа без попытки понять семантику Определение LAT является важным видом выигрыша и общим источником критических ошибок Преимущество подхода DeepQA является использование многих самостоятельно разработанных алгоритмов laquoответ-типированияraquo Например фокус вопроса викторины laquoПри попадании электронов люминофор излучает электромагнитную энергию в этой формеraquo - является laquoэта формаraquo Фокус часто (но не всегда) содержит полезную информацию об ответе часто субъект или объект отношение в вопросе и может превратить вопрос в фактическое утверждение при замене возможным кандидатом Это представляет полезный способ собирать доказательства о каждом кандидате

bull Relation Detection ndash детектирование отношений

Большинство вопросов содержит отношения являются ли они синтаксическими предикатами субъект-глагол-объект или семантические отношения между субъектами Например в вопросе laquoЕсть два штата в которые вы могли бы войти повторно если вы пересекаете северную границу штата Флоридаraquo мы можем обнаружить отношение границы (Флорида Х к северу) Watson использует обнаружение отношения на протяжении всего процесса QA от фокуса и LAT определения до прохождению и скорингу ответов Watson также может использовать обнаруженные отношения для выделения хранилища триплетов и напрямую генерировать кандидатов в ответы В 20000 игр Jeopardy вопросы например обнаружили распределение Freebase отношений чрезвычайно плоского вида (см рисунок) Это приближение распределеня 50 наиболее частых отношений в 20 000 случайно выбранных вопросах викторины

bull Decomposition ndash декомпозиция

Важным требованием успеха анализа Jeopardy является способность отвечать на вопросы которые разложены на составляющие DeepQA использует основанный на правилах глубокий парсинг и статистические методы классификации чтобы наилучшим образом разложить вопросы на элементы и определить как лучше разбить их на подвопросы Операционная гипотеза что правильная интерпретация вопроса позволит лучше произвести скоринг ответов после того как все доказательства собраны Даже если вопрос не должен быть разложен для определения ответа этот метод может помочь улучшить общее доверие ответу системы DeepQA решает задачи параллельно для каждого разложения применяя алгоритмы от начала до конца каждого подвопроса и синтезирует окончательные ответы DeepQA также поддерживает вложенные декомпозиции вопросов через рекурсивное применение QA системы от начала до конца в внутреннем подвопросе а затем во внешнем Настраиваемые компоненты позволяют легко подключать специализированные алгоритмы синтеза в общую систему

bull Hypothesis Generation ndash генерация гипотез

Генерация гипотез принимает результаты анализа вопросов и производит кандидатов на ответы Каждый кандидат ответ включается обратно в вопрос и это считается как гипотеза Система должна доказать правильность этой гипотезы с некоторой степенью уверенности Как и во всех аспектах DeepQA используется смесь разных подходов для первичного поиска и генерации кандидата в системе Watson

bull Primary Search ndash первичный поиск

В этом поиске целью является найти столько потенциально кандидатов сколько это можно сделать на основе результатов анализа вопроса В течение проекта велись эмпирические исследования направленные на баланс скорости объема и точности Эти исследования позволили регулярно настраивать систему так чтобы найти такое количество кандидатов которые производят наилучший баланс точности и вычислительных ресурсов Оперативная цель основного поиска в конечном счете стабилизировалась на около 85 процентов для топ-250 кандидатов то есть система генерирует правильный ответ как кандидата ответа на 85 процентов вопросов где-то в верхних 250 ранжированных кандидатов Разнообразие методов поиска используются в том числе с использованием нескольких текст поисковых системах с различными базовыми подходами (например Indri и Lucene) поиск документов а также поиска маршрута база знаний поиска с помощью SPARQL хранилища триплетов Для небольшого количества латов которые были определены как закрытые латы кандидат на ответ может быть получен из фиксированного списка в каком-то хранилище известных экземпляров LAT таких как США Президент или Страна

Поиск доказательств

bull Поиск по фразе ndash число соответствий разного типав ответе и вопросеbull Популярность ndash как часто встречается этот вариант ответаbull Соответствие по типу ndash ответ и требование вопросаbull Соответствие по времениbull Надежность источника

bull Candidate Answer Generation ndash генерирование кандидатов на ответ

Результаты поиска применяются для генерирования возможных кандидатов в ответы с помощью различных подходящих техник Для поиска документов извлекаются заголовки и используются как кандидаты Число кандидатов при этом может быть не единственным и требовать использования анализа подстрок и ссылок Используя детектирование именованных сущностей в ряде случаев удается извлечь хороших кандидатов В зависимости от типа источника для генерирования кандидата требуется разный набор алгоритмов например база знаний или обратный словарь порождают кандидатов непосредственно как кандидата Этот этап критически важен и если кандидаты не найдены то фиксируется невозможность ответа В нормальном режиме на этом этапе Watson гененерирует несколько сотен андидатов

bull Soft Filtering ndash мягкая фильтрацияДля ускорения процесса скоринга кандидатов Watson использует различные алгоритмы разной точности Более легковесные (менее вычислительно интенсивные) применяются на первом этапе скоринга На этом этапе устанавливается порог оценки и кандидаты имеющие более высокую оценку считаются прошедшими мягкую фильтрацию Они поступают на выработку гипотез и скоринг доказательств Интересно что кандидаты не прошедшие порог мягкой фильтрации не забываются а направляются прямо на финальный этап слияния Модель скоринга мягкой фильтрации и порога определяются на основе machine learning используя обучающие данные Watson типично пропускает через мягкую фильтрацию 100 кандидатов но эта функция параметризована и их число можно изменить

Проблемы NLP

bull В мае 1898 года Португалия отмечала 400-летний юбилей со дня прибытия этого великого путешественника в Индию

В мае Гари прибыл в Индию после празднования своего юбилея в Португалии

21 мая 1498 года Васка де Гама высадился в местечке Каппад

bull Он был помилован президентом 8 сентября 1974 годаФорд помиловал Никсона 8 сентября 1974 года Никсон Форд

bull Говоря ldquogive a trinklerdquo что предлагают вам сделать британцы по приезду в город

bull Hypothesis and Evidence Scoring ndash скоринг гипотез и доказательств

Прошедшие порог мягкой фильтрации кандидаты поступают на скрупулезный процесс который включает сбор дополнительных поддерживающих доказательств для каждого кандидата на ответ или гипотезу Процесс использует широкий набор различных методов скоринговой аналитики чтобы исследовать все поддерживающие доказательства

bull Evidence Retrieval ndash извлечение доказательств

Чтобы лучше исследовать каждого кандидата прошедшего через мягкую фильтрацию система собирает дополнительные поддерживающие доказательства Архитектура поддерживает интеграцию различных evidence-gathering техник Один из применяемых способов состоит в том что проводится дополнительный поиск в котором кандидат добавляется в качестве required term к первичному запросу извлеченному из вопроса Это будет приводить к получению выражений содержащих кандидата в контексте первичных терминов вопросаПоддерживающие доказательства могут быть извлечены и из других источников например из RDF баз знаний Извлеченные поддерживающие доказательства направляются модули глубокого скоринга которые анализируют кандидата в контексте поддерживающего доказательства

bull Scoring ndash скоринг (количественное оценивание)

Алгоритмы скоринга определяют степень несомненности которую обеспечивают доказательства в поддержку кандидата The DeepQA framework поддерживает множество компонент для выработки оценки в различных измерениях каждого доказательства которая вырабатывает оценку связанную с тем насколько хорошо доказательство поддерживает кандидата на ответ в качестве ответа на заданный вопросDeepQA использует общий формат для оценок для принятых гипотез и подтверждающих оценок отражающих семантические и ограничивающие факторы Это позволяет разработчикам DeepQA быстро разворачивать перемешивать и настраивать сложные совокупности модуле для обработкиНапрмер Watson использует больше чем 50 скоринговых компонент Они производят оценки разноготипа от оценок вероятностей до подсчета категориальных свойств основанных на доказательствах от различных источников включая неструктурированные тексты полуструктурированные тексты и RDF хранилища Эти оценки используют такие данные как degree of match between a passagersquos predicate-argument structure and the question passage source reliability geospatial location temporal relationships taxonomic classification the lexical and semantic relations the candidate is known to participate in the candidatersquos correlation with question terms its popularity (or obscurity) its aliases and so on

Вопрос Чили имеет самую длинную общую границу со страной Сгенерировано несколько кандидатов среди них Аргентина и Боливия Первичный поиск даст приоритет Боливии из=а популярности обсуждений их отношений Однако собранные Watson доказательства из других источников показывают более высокую оценку для Аргентины

Скоринг (взвешивание) доказательств ndash предиктивная аналитика

- При делении клеток митозом называется деление ядра а цитокинезом ndash деление этой жидкости в которой находится ядро

Генерирование кандидатов Сбор доказательств Уверенность в доказательстве

ОрганеллыВакуольЦитоплазмаПлазмамитохондрии

Органеллы ndash не жидкостьВакуоль ndash не жидкостьЦитоплазма ndash возможно жидкостьПлазма ndash не жидкостьМитохондрии ndash не жидкость

Цитоплазма ndash 92Органеллы ndash 19Вакуоль ndash 10Плазма ndash 2Митохондрии ndash 2

Answer Merging ndash объединение ответов

Многие кандидаты в ответы на поставленный вопрос могут быть эквивалентны несмотря на различные внешне формыТехники ранжирования тем не менее рассматривают таких кандидатов как различные Без объединения алгоритмы ранжирования будут работать отдельно с эквивалентными сущностями и пытаться противопоставить одну форму другой Это приведет к проблемам принятия решений Watson содержит алгоритмы идентификации эквивалентных сущностей используя множественные сравнения нормализацию и методы разрешения совместных ссылок

Ranking and Confidence Estimation ndash ранжирование и оценивание доверияПосле объединения система должна произвести ранжирование гипотез и оценивает доверие основанное на объединенных оценках В системе подобран ML подход основанный на обучении на обучающем наборе вопросов с известными ответами и обучение модели основываясь на скоринге Применяется как весьма плоская модель и существующие алгоритмы ранжирования Для более тонких оценок применяется двухфазный процесс использующий группы оценок для оценивания профиля и для оценки доверия Используя эту промежуточную модель система производит ансамбль промежуточных оценок Здесь используется иерархическая техника метаучителя и коллектива экспертов Этот подход обеспечивает итеративное расширение обучения используя изощренные и глубокие иерархические модели обеспечивающие гибкость и робастность при выработке оценок и модифицирует системуМетаучитель в Watson использует набор многие обучаемые модели чтобы управлять различными классами вопросов которые могут быть критическими при идентификации правильных ответовНаконец важно что использование NLP-based скоринга дает весьма разреженные оценки и требует точного оценивания с применением confidence-weighted learning techniques

Развертывание Watson

bull DeepQA разработан используя Apache UIMA - framework implementation of the Unstructured Information Management Architecture (Ferrucci and Lally 2004) UIMA был разработан для поддержки взаимодействия и масштабирования приложений обработки текста и мультимодального анализа Все компоненты DeepQA имплементированы как UIMA annotators Это программные компоненты для анализа текста и получения аннотаций или заключений о тексте Watson развивался в процессе разработки от нескольких компонент до нескольких сотен UIMA обеспечивает быструю интеграцию компонент тестирование и исследование

bull Начальная имплементация Watson запускалась на одном процессоре и требовала 2 часа на ответ на один вопрос DeepQA развился в параллельную систему используя UIMA-AS часть Apache UIMA масштабируя приложения UIMA используя асинхронный механизм месседжинга UIMA-AS позволила масштабировать Watson более чем на 2500 вычислительных ядер UIMA-AS управляет коммуникациями месседжингом управлением запросами используя open JMS standard UIMA-AS позволил снизить латентность Watson до 3ndash5 секунд

bull Для препроцессинга корпуса текстов создания быстрых run-time indices использован Hadoop

UIMA annotators были развернуты как mapper ы в Hadoop map-reduce framework Hadoop распределяет контент по кластеру для обеспечения высокого использования CPU и обеспечивает подходящий набор инструментов для deploying managing and monitoring the corpus analysis process

bull Аппаратная платформа ndash это 90 серверов 2800 ядер 15 ТБ RAM 80 Тфлопс $3 000 000 10 R

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 54: !Predictive analytics part_3

Сравнение системы тестового поиска и поиска в базе знаний

Результативность Watson (по версиям)

Основы подхода Deep QA

bull Massive parallelism использование высокого параллелизма при рассмотрении множественных интерпретаций и гипотез

bull Many experts привлечение интеграции приложения и контекстуального оценивания в широком диапазоне слабосвязанных вероятностных вопросов и контентной аналитики

bull Pervasive confidence estimation повсеместная оценка доверия означает что ни один из компонентов не включается в ответ сразу все компоненты имеют признаки и связанные с ними уровни доверия производится скоринг различных вопросов и контентная интерпретация Основа confidence-processing состоит в обучении как стэкировать и комбинировать баллы

bull Integrate shallow and deep knowledge интеграция поверхностных и глубинных знаний состоит в балансе использования строгой семантики и мелких семантик использующих множества слабо сформированных онтологий

bull Content Acquisition - Сбор контентаСочетает ручные и автоматические этапы Первым шагом является анализ примеров вопросов проблемного пространства чтобы произвести описание видов вопросов на которые нужно ответить и характеризовать область применения Анализ примеров вопросов в первую очередь ручная задача в то время как анализ области может быть выполнен путем автоматических или статистических методов таких как анализ LAT показанный ранее Учитывая вопросы для широкого домена Jeopardy Challenge источники для Watson включают широкий ассортимент энциклопедий словарей тезаурусов Newswire статьи литературные произведения и тд Начиная с разумного размера базового корпуса DeepQA затем применяет автоматический процесс расширения корпуса Процесс включает в себя четыре этапа высокого уровня (1) выявления основных документов и получить соответствующие документы из Интернет (2) извлечь автономные текстовые ядра из связанных веб-документов (3) Оценка на основе ядер являются ли они информативны по отношению к исходному основному документу и (4) объединить наиболее информативные ядра в расширенном корпусе Работающая система использует этот расширенный корпус и не имеет доступа к Интернет во время игры

bull Question Analysis ndash Анализ вопроса

Первый шаг во время выполнения процесса вопрос-ответной системы При анализе вопроса система пытается понять что вопрос задан и выполняет начальный анализ определяющий как вопрос будет обработан на остальных этапах работы системы Подход DeepQA использует смешанный набор экспертов на данном этапе и в системе Watson производится мелкий парсинг глубокий парсинг строятся логические формы семантические этикетки ролей взаимные ссылки отношения именованные сущности и так далее а также конкретные виды анализа для ответа вопрос

bull Question classification - Классификация вопроса

Это задача выявления типа вопроса или частей вопроса которые требуют специальной обработки Это может включать в себя что-нибудь из отдельных слов с двойным смыслом и потенциально до выявления целых статей которые имеют определенную синтаксическую семантическую или риторические функциональные возможности которые могут инициировать нисходящий анализ Классификация может определить вопрос как вопрос- головоломку вопрос-математику -определение и так далее Это будет определять каламбуры ограничения компоненты определений или целые подвопросы в пределах вопросов

bull Focus and LAT Detection ndash Определение фокуса и лексического типа ответа

Лексический тип ответа - это слово или словосочетание в вопросе который определяет тип ответа без попытки понять семантику Определение LAT является важным видом выигрыша и общим источником критических ошибок Преимущество подхода DeepQA является использование многих самостоятельно разработанных алгоритмов laquoответ-типированияraquo Например фокус вопроса викторины laquoПри попадании электронов люминофор излучает электромагнитную энергию в этой формеraquo - является laquoэта формаraquo Фокус часто (но не всегда) содержит полезную информацию об ответе часто субъект или объект отношение в вопросе и может превратить вопрос в фактическое утверждение при замене возможным кандидатом Это представляет полезный способ собирать доказательства о каждом кандидате

bull Relation Detection ndash детектирование отношений

Большинство вопросов содержит отношения являются ли они синтаксическими предикатами субъект-глагол-объект или семантические отношения между субъектами Например в вопросе laquoЕсть два штата в которые вы могли бы войти повторно если вы пересекаете северную границу штата Флоридаraquo мы можем обнаружить отношение границы (Флорида Х к северу) Watson использует обнаружение отношения на протяжении всего процесса QA от фокуса и LAT определения до прохождению и скорингу ответов Watson также может использовать обнаруженные отношения для выделения хранилища триплетов и напрямую генерировать кандидатов в ответы В 20000 игр Jeopardy вопросы например обнаружили распределение Freebase отношений чрезвычайно плоского вида (см рисунок) Это приближение распределеня 50 наиболее частых отношений в 20 000 случайно выбранных вопросах викторины

bull Decomposition ndash декомпозиция

Важным требованием успеха анализа Jeopardy является способность отвечать на вопросы которые разложены на составляющие DeepQA использует основанный на правилах глубокий парсинг и статистические методы классификации чтобы наилучшим образом разложить вопросы на элементы и определить как лучше разбить их на подвопросы Операционная гипотеза что правильная интерпретация вопроса позволит лучше произвести скоринг ответов после того как все доказательства собраны Даже если вопрос не должен быть разложен для определения ответа этот метод может помочь улучшить общее доверие ответу системы DeepQA решает задачи параллельно для каждого разложения применяя алгоритмы от начала до конца каждого подвопроса и синтезирует окончательные ответы DeepQA также поддерживает вложенные декомпозиции вопросов через рекурсивное применение QA системы от начала до конца в внутреннем подвопросе а затем во внешнем Настраиваемые компоненты позволяют легко подключать специализированные алгоритмы синтеза в общую систему

bull Hypothesis Generation ndash генерация гипотез

Генерация гипотез принимает результаты анализа вопросов и производит кандидатов на ответы Каждый кандидат ответ включается обратно в вопрос и это считается как гипотеза Система должна доказать правильность этой гипотезы с некоторой степенью уверенности Как и во всех аспектах DeepQA используется смесь разных подходов для первичного поиска и генерации кандидата в системе Watson

bull Primary Search ndash первичный поиск

В этом поиске целью является найти столько потенциально кандидатов сколько это можно сделать на основе результатов анализа вопроса В течение проекта велись эмпирические исследования направленные на баланс скорости объема и точности Эти исследования позволили регулярно настраивать систему так чтобы найти такое количество кандидатов которые производят наилучший баланс точности и вычислительных ресурсов Оперативная цель основного поиска в конечном счете стабилизировалась на около 85 процентов для топ-250 кандидатов то есть система генерирует правильный ответ как кандидата ответа на 85 процентов вопросов где-то в верхних 250 ранжированных кандидатов Разнообразие методов поиска используются в том числе с использованием нескольких текст поисковых системах с различными базовыми подходами (например Indri и Lucene) поиск документов а также поиска маршрута база знаний поиска с помощью SPARQL хранилища триплетов Для небольшого количества латов которые были определены как закрытые латы кандидат на ответ может быть получен из фиксированного списка в каком-то хранилище известных экземпляров LAT таких как США Президент или Страна

Поиск доказательств

bull Поиск по фразе ndash число соответствий разного типав ответе и вопросеbull Популярность ndash как часто встречается этот вариант ответаbull Соответствие по типу ndash ответ и требование вопросаbull Соответствие по времениbull Надежность источника

bull Candidate Answer Generation ndash генерирование кандидатов на ответ

Результаты поиска применяются для генерирования возможных кандидатов в ответы с помощью различных подходящих техник Для поиска документов извлекаются заголовки и используются как кандидаты Число кандидатов при этом может быть не единственным и требовать использования анализа подстрок и ссылок Используя детектирование именованных сущностей в ряде случаев удается извлечь хороших кандидатов В зависимости от типа источника для генерирования кандидата требуется разный набор алгоритмов например база знаний или обратный словарь порождают кандидатов непосредственно как кандидата Этот этап критически важен и если кандидаты не найдены то фиксируется невозможность ответа В нормальном режиме на этом этапе Watson гененерирует несколько сотен андидатов

bull Soft Filtering ndash мягкая фильтрацияДля ускорения процесса скоринга кандидатов Watson использует различные алгоритмы разной точности Более легковесные (менее вычислительно интенсивные) применяются на первом этапе скоринга На этом этапе устанавливается порог оценки и кандидаты имеющие более высокую оценку считаются прошедшими мягкую фильтрацию Они поступают на выработку гипотез и скоринг доказательств Интересно что кандидаты не прошедшие порог мягкой фильтрации не забываются а направляются прямо на финальный этап слияния Модель скоринга мягкой фильтрации и порога определяются на основе machine learning используя обучающие данные Watson типично пропускает через мягкую фильтрацию 100 кандидатов но эта функция параметризована и их число можно изменить

Проблемы NLP

bull В мае 1898 года Португалия отмечала 400-летний юбилей со дня прибытия этого великого путешественника в Индию

В мае Гари прибыл в Индию после празднования своего юбилея в Португалии

21 мая 1498 года Васка де Гама высадился в местечке Каппад

bull Он был помилован президентом 8 сентября 1974 годаФорд помиловал Никсона 8 сентября 1974 года Никсон Форд

bull Говоря ldquogive a trinklerdquo что предлагают вам сделать британцы по приезду в город

bull Hypothesis and Evidence Scoring ndash скоринг гипотез и доказательств

Прошедшие порог мягкой фильтрации кандидаты поступают на скрупулезный процесс который включает сбор дополнительных поддерживающих доказательств для каждого кандидата на ответ или гипотезу Процесс использует широкий набор различных методов скоринговой аналитики чтобы исследовать все поддерживающие доказательства

bull Evidence Retrieval ndash извлечение доказательств

Чтобы лучше исследовать каждого кандидата прошедшего через мягкую фильтрацию система собирает дополнительные поддерживающие доказательства Архитектура поддерживает интеграцию различных evidence-gathering техник Один из применяемых способов состоит в том что проводится дополнительный поиск в котором кандидат добавляется в качестве required term к первичному запросу извлеченному из вопроса Это будет приводить к получению выражений содержащих кандидата в контексте первичных терминов вопросаПоддерживающие доказательства могут быть извлечены и из других источников например из RDF баз знаний Извлеченные поддерживающие доказательства направляются модули глубокого скоринга которые анализируют кандидата в контексте поддерживающего доказательства

bull Scoring ndash скоринг (количественное оценивание)

Алгоритмы скоринга определяют степень несомненности которую обеспечивают доказательства в поддержку кандидата The DeepQA framework поддерживает множество компонент для выработки оценки в различных измерениях каждого доказательства которая вырабатывает оценку связанную с тем насколько хорошо доказательство поддерживает кандидата на ответ в качестве ответа на заданный вопросDeepQA использует общий формат для оценок для принятых гипотез и подтверждающих оценок отражающих семантические и ограничивающие факторы Это позволяет разработчикам DeepQA быстро разворачивать перемешивать и настраивать сложные совокупности модуле для обработкиНапрмер Watson использует больше чем 50 скоринговых компонент Они производят оценки разноготипа от оценок вероятностей до подсчета категориальных свойств основанных на доказательствах от различных источников включая неструктурированные тексты полуструктурированные тексты и RDF хранилища Эти оценки используют такие данные как degree of match between a passagersquos predicate-argument structure and the question passage source reliability geospatial location temporal relationships taxonomic classification the lexical and semantic relations the candidate is known to participate in the candidatersquos correlation with question terms its popularity (or obscurity) its aliases and so on

Вопрос Чили имеет самую длинную общую границу со страной Сгенерировано несколько кандидатов среди них Аргентина и Боливия Первичный поиск даст приоритет Боливии из=а популярности обсуждений их отношений Однако собранные Watson доказательства из других источников показывают более высокую оценку для Аргентины

Скоринг (взвешивание) доказательств ndash предиктивная аналитика

- При делении клеток митозом называется деление ядра а цитокинезом ndash деление этой жидкости в которой находится ядро

Генерирование кандидатов Сбор доказательств Уверенность в доказательстве

ОрганеллыВакуольЦитоплазмаПлазмамитохондрии

Органеллы ndash не жидкостьВакуоль ndash не жидкостьЦитоплазма ndash возможно жидкостьПлазма ndash не жидкостьМитохондрии ndash не жидкость

Цитоплазма ndash 92Органеллы ndash 19Вакуоль ndash 10Плазма ndash 2Митохондрии ndash 2

Answer Merging ndash объединение ответов

Многие кандидаты в ответы на поставленный вопрос могут быть эквивалентны несмотря на различные внешне формыТехники ранжирования тем не менее рассматривают таких кандидатов как различные Без объединения алгоритмы ранжирования будут работать отдельно с эквивалентными сущностями и пытаться противопоставить одну форму другой Это приведет к проблемам принятия решений Watson содержит алгоритмы идентификации эквивалентных сущностей используя множественные сравнения нормализацию и методы разрешения совместных ссылок

Ranking and Confidence Estimation ndash ранжирование и оценивание доверияПосле объединения система должна произвести ранжирование гипотез и оценивает доверие основанное на объединенных оценках В системе подобран ML подход основанный на обучении на обучающем наборе вопросов с известными ответами и обучение модели основываясь на скоринге Применяется как весьма плоская модель и существующие алгоритмы ранжирования Для более тонких оценок применяется двухфазный процесс использующий группы оценок для оценивания профиля и для оценки доверия Используя эту промежуточную модель система производит ансамбль промежуточных оценок Здесь используется иерархическая техника метаучителя и коллектива экспертов Этот подход обеспечивает итеративное расширение обучения используя изощренные и глубокие иерархические модели обеспечивающие гибкость и робастность при выработке оценок и модифицирует системуМетаучитель в Watson использует набор многие обучаемые модели чтобы управлять различными классами вопросов которые могут быть критическими при идентификации правильных ответовНаконец важно что использование NLP-based скоринга дает весьма разреженные оценки и требует точного оценивания с применением confidence-weighted learning techniques

Развертывание Watson

bull DeepQA разработан используя Apache UIMA - framework implementation of the Unstructured Information Management Architecture (Ferrucci and Lally 2004) UIMA был разработан для поддержки взаимодействия и масштабирования приложений обработки текста и мультимодального анализа Все компоненты DeepQA имплементированы как UIMA annotators Это программные компоненты для анализа текста и получения аннотаций или заключений о тексте Watson развивался в процессе разработки от нескольких компонент до нескольких сотен UIMA обеспечивает быструю интеграцию компонент тестирование и исследование

bull Начальная имплементация Watson запускалась на одном процессоре и требовала 2 часа на ответ на один вопрос DeepQA развился в параллельную систему используя UIMA-AS часть Apache UIMA масштабируя приложения UIMA используя асинхронный механизм месседжинга UIMA-AS позволила масштабировать Watson более чем на 2500 вычислительных ядер UIMA-AS управляет коммуникациями месседжингом управлением запросами используя open JMS standard UIMA-AS позволил снизить латентность Watson до 3ndash5 секунд

bull Для препроцессинга корпуса текстов создания быстрых run-time indices использован Hadoop

UIMA annotators были развернуты как mapper ы в Hadoop map-reduce framework Hadoop распределяет контент по кластеру для обеспечения высокого использования CPU и обеспечивает подходящий набор инструментов для deploying managing and monitoring the corpus analysis process

bull Аппаратная платформа ndash это 90 серверов 2800 ядер 15 ТБ RAM 80 Тфлопс $3 000 000 10 R

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 55: !Predictive analytics part_3

Результативность Watson (по версиям)

Основы подхода Deep QA

bull Massive parallelism использование высокого параллелизма при рассмотрении множественных интерпретаций и гипотез

bull Many experts привлечение интеграции приложения и контекстуального оценивания в широком диапазоне слабосвязанных вероятностных вопросов и контентной аналитики

bull Pervasive confidence estimation повсеместная оценка доверия означает что ни один из компонентов не включается в ответ сразу все компоненты имеют признаки и связанные с ними уровни доверия производится скоринг различных вопросов и контентная интерпретация Основа confidence-processing состоит в обучении как стэкировать и комбинировать баллы

bull Integrate shallow and deep knowledge интеграция поверхностных и глубинных знаний состоит в балансе использования строгой семантики и мелких семантик использующих множества слабо сформированных онтологий

bull Content Acquisition - Сбор контентаСочетает ручные и автоматические этапы Первым шагом является анализ примеров вопросов проблемного пространства чтобы произвести описание видов вопросов на которые нужно ответить и характеризовать область применения Анализ примеров вопросов в первую очередь ручная задача в то время как анализ области может быть выполнен путем автоматических или статистических методов таких как анализ LAT показанный ранее Учитывая вопросы для широкого домена Jeopardy Challenge источники для Watson включают широкий ассортимент энциклопедий словарей тезаурусов Newswire статьи литературные произведения и тд Начиная с разумного размера базового корпуса DeepQA затем применяет автоматический процесс расширения корпуса Процесс включает в себя четыре этапа высокого уровня (1) выявления основных документов и получить соответствующие документы из Интернет (2) извлечь автономные текстовые ядра из связанных веб-документов (3) Оценка на основе ядер являются ли они информативны по отношению к исходному основному документу и (4) объединить наиболее информативные ядра в расширенном корпусе Работающая система использует этот расширенный корпус и не имеет доступа к Интернет во время игры

bull Question Analysis ndash Анализ вопроса

Первый шаг во время выполнения процесса вопрос-ответной системы При анализе вопроса система пытается понять что вопрос задан и выполняет начальный анализ определяющий как вопрос будет обработан на остальных этапах работы системы Подход DeepQA использует смешанный набор экспертов на данном этапе и в системе Watson производится мелкий парсинг глубокий парсинг строятся логические формы семантические этикетки ролей взаимные ссылки отношения именованные сущности и так далее а также конкретные виды анализа для ответа вопрос

bull Question classification - Классификация вопроса

Это задача выявления типа вопроса или частей вопроса которые требуют специальной обработки Это может включать в себя что-нибудь из отдельных слов с двойным смыслом и потенциально до выявления целых статей которые имеют определенную синтаксическую семантическую или риторические функциональные возможности которые могут инициировать нисходящий анализ Классификация может определить вопрос как вопрос- головоломку вопрос-математику -определение и так далее Это будет определять каламбуры ограничения компоненты определений или целые подвопросы в пределах вопросов

bull Focus and LAT Detection ndash Определение фокуса и лексического типа ответа

Лексический тип ответа - это слово или словосочетание в вопросе который определяет тип ответа без попытки понять семантику Определение LAT является важным видом выигрыша и общим источником критических ошибок Преимущество подхода DeepQA является использование многих самостоятельно разработанных алгоритмов laquoответ-типированияraquo Например фокус вопроса викторины laquoПри попадании электронов люминофор излучает электромагнитную энергию в этой формеraquo - является laquoэта формаraquo Фокус часто (но не всегда) содержит полезную информацию об ответе часто субъект или объект отношение в вопросе и может превратить вопрос в фактическое утверждение при замене возможным кандидатом Это представляет полезный способ собирать доказательства о каждом кандидате

bull Relation Detection ndash детектирование отношений

Большинство вопросов содержит отношения являются ли они синтаксическими предикатами субъект-глагол-объект или семантические отношения между субъектами Например в вопросе laquoЕсть два штата в которые вы могли бы войти повторно если вы пересекаете северную границу штата Флоридаraquo мы можем обнаружить отношение границы (Флорида Х к северу) Watson использует обнаружение отношения на протяжении всего процесса QA от фокуса и LAT определения до прохождению и скорингу ответов Watson также может использовать обнаруженные отношения для выделения хранилища триплетов и напрямую генерировать кандидатов в ответы В 20000 игр Jeopardy вопросы например обнаружили распределение Freebase отношений чрезвычайно плоского вида (см рисунок) Это приближение распределеня 50 наиболее частых отношений в 20 000 случайно выбранных вопросах викторины

bull Decomposition ndash декомпозиция

Важным требованием успеха анализа Jeopardy является способность отвечать на вопросы которые разложены на составляющие DeepQA использует основанный на правилах глубокий парсинг и статистические методы классификации чтобы наилучшим образом разложить вопросы на элементы и определить как лучше разбить их на подвопросы Операционная гипотеза что правильная интерпретация вопроса позволит лучше произвести скоринг ответов после того как все доказательства собраны Даже если вопрос не должен быть разложен для определения ответа этот метод может помочь улучшить общее доверие ответу системы DeepQA решает задачи параллельно для каждого разложения применяя алгоритмы от начала до конца каждого подвопроса и синтезирует окончательные ответы DeepQA также поддерживает вложенные декомпозиции вопросов через рекурсивное применение QA системы от начала до конца в внутреннем подвопросе а затем во внешнем Настраиваемые компоненты позволяют легко подключать специализированные алгоритмы синтеза в общую систему

bull Hypothesis Generation ndash генерация гипотез

Генерация гипотез принимает результаты анализа вопросов и производит кандидатов на ответы Каждый кандидат ответ включается обратно в вопрос и это считается как гипотеза Система должна доказать правильность этой гипотезы с некоторой степенью уверенности Как и во всех аспектах DeepQA используется смесь разных подходов для первичного поиска и генерации кандидата в системе Watson

bull Primary Search ndash первичный поиск

В этом поиске целью является найти столько потенциально кандидатов сколько это можно сделать на основе результатов анализа вопроса В течение проекта велись эмпирические исследования направленные на баланс скорости объема и точности Эти исследования позволили регулярно настраивать систему так чтобы найти такое количество кандидатов которые производят наилучший баланс точности и вычислительных ресурсов Оперативная цель основного поиска в конечном счете стабилизировалась на около 85 процентов для топ-250 кандидатов то есть система генерирует правильный ответ как кандидата ответа на 85 процентов вопросов где-то в верхних 250 ранжированных кандидатов Разнообразие методов поиска используются в том числе с использованием нескольких текст поисковых системах с различными базовыми подходами (например Indri и Lucene) поиск документов а также поиска маршрута база знаний поиска с помощью SPARQL хранилища триплетов Для небольшого количества латов которые были определены как закрытые латы кандидат на ответ может быть получен из фиксированного списка в каком-то хранилище известных экземпляров LAT таких как США Президент или Страна

Поиск доказательств

bull Поиск по фразе ndash число соответствий разного типав ответе и вопросеbull Популярность ndash как часто встречается этот вариант ответаbull Соответствие по типу ndash ответ и требование вопросаbull Соответствие по времениbull Надежность источника

bull Candidate Answer Generation ndash генерирование кандидатов на ответ

Результаты поиска применяются для генерирования возможных кандидатов в ответы с помощью различных подходящих техник Для поиска документов извлекаются заголовки и используются как кандидаты Число кандидатов при этом может быть не единственным и требовать использования анализа подстрок и ссылок Используя детектирование именованных сущностей в ряде случаев удается извлечь хороших кандидатов В зависимости от типа источника для генерирования кандидата требуется разный набор алгоритмов например база знаний или обратный словарь порождают кандидатов непосредственно как кандидата Этот этап критически важен и если кандидаты не найдены то фиксируется невозможность ответа В нормальном режиме на этом этапе Watson гененерирует несколько сотен андидатов

bull Soft Filtering ndash мягкая фильтрацияДля ускорения процесса скоринга кандидатов Watson использует различные алгоритмы разной точности Более легковесные (менее вычислительно интенсивные) применяются на первом этапе скоринга На этом этапе устанавливается порог оценки и кандидаты имеющие более высокую оценку считаются прошедшими мягкую фильтрацию Они поступают на выработку гипотез и скоринг доказательств Интересно что кандидаты не прошедшие порог мягкой фильтрации не забываются а направляются прямо на финальный этап слияния Модель скоринга мягкой фильтрации и порога определяются на основе machine learning используя обучающие данные Watson типично пропускает через мягкую фильтрацию 100 кандидатов но эта функция параметризована и их число можно изменить

Проблемы NLP

bull В мае 1898 года Португалия отмечала 400-летний юбилей со дня прибытия этого великого путешественника в Индию

В мае Гари прибыл в Индию после празднования своего юбилея в Португалии

21 мая 1498 года Васка де Гама высадился в местечке Каппад

bull Он был помилован президентом 8 сентября 1974 годаФорд помиловал Никсона 8 сентября 1974 года Никсон Форд

bull Говоря ldquogive a trinklerdquo что предлагают вам сделать британцы по приезду в город

bull Hypothesis and Evidence Scoring ndash скоринг гипотез и доказательств

Прошедшие порог мягкой фильтрации кандидаты поступают на скрупулезный процесс который включает сбор дополнительных поддерживающих доказательств для каждого кандидата на ответ или гипотезу Процесс использует широкий набор различных методов скоринговой аналитики чтобы исследовать все поддерживающие доказательства

bull Evidence Retrieval ndash извлечение доказательств

Чтобы лучше исследовать каждого кандидата прошедшего через мягкую фильтрацию система собирает дополнительные поддерживающие доказательства Архитектура поддерживает интеграцию различных evidence-gathering техник Один из применяемых способов состоит в том что проводится дополнительный поиск в котором кандидат добавляется в качестве required term к первичному запросу извлеченному из вопроса Это будет приводить к получению выражений содержащих кандидата в контексте первичных терминов вопросаПоддерживающие доказательства могут быть извлечены и из других источников например из RDF баз знаний Извлеченные поддерживающие доказательства направляются модули глубокого скоринга которые анализируют кандидата в контексте поддерживающего доказательства

bull Scoring ndash скоринг (количественное оценивание)

Алгоритмы скоринга определяют степень несомненности которую обеспечивают доказательства в поддержку кандидата The DeepQA framework поддерживает множество компонент для выработки оценки в различных измерениях каждого доказательства которая вырабатывает оценку связанную с тем насколько хорошо доказательство поддерживает кандидата на ответ в качестве ответа на заданный вопросDeepQA использует общий формат для оценок для принятых гипотез и подтверждающих оценок отражающих семантические и ограничивающие факторы Это позволяет разработчикам DeepQA быстро разворачивать перемешивать и настраивать сложные совокупности модуле для обработкиНапрмер Watson использует больше чем 50 скоринговых компонент Они производят оценки разноготипа от оценок вероятностей до подсчета категориальных свойств основанных на доказательствах от различных источников включая неструктурированные тексты полуструктурированные тексты и RDF хранилища Эти оценки используют такие данные как degree of match between a passagersquos predicate-argument structure and the question passage source reliability geospatial location temporal relationships taxonomic classification the lexical and semantic relations the candidate is known to participate in the candidatersquos correlation with question terms its popularity (or obscurity) its aliases and so on

Вопрос Чили имеет самую длинную общую границу со страной Сгенерировано несколько кандидатов среди них Аргентина и Боливия Первичный поиск даст приоритет Боливии из=а популярности обсуждений их отношений Однако собранные Watson доказательства из других источников показывают более высокую оценку для Аргентины

Скоринг (взвешивание) доказательств ndash предиктивная аналитика

- При делении клеток митозом называется деление ядра а цитокинезом ndash деление этой жидкости в которой находится ядро

Генерирование кандидатов Сбор доказательств Уверенность в доказательстве

ОрганеллыВакуольЦитоплазмаПлазмамитохондрии

Органеллы ndash не жидкостьВакуоль ndash не жидкостьЦитоплазма ndash возможно жидкостьПлазма ndash не жидкостьМитохондрии ndash не жидкость

Цитоплазма ndash 92Органеллы ndash 19Вакуоль ndash 10Плазма ndash 2Митохондрии ndash 2

Answer Merging ndash объединение ответов

Многие кандидаты в ответы на поставленный вопрос могут быть эквивалентны несмотря на различные внешне формыТехники ранжирования тем не менее рассматривают таких кандидатов как различные Без объединения алгоритмы ранжирования будут работать отдельно с эквивалентными сущностями и пытаться противопоставить одну форму другой Это приведет к проблемам принятия решений Watson содержит алгоритмы идентификации эквивалентных сущностей используя множественные сравнения нормализацию и методы разрешения совместных ссылок

Ranking and Confidence Estimation ndash ранжирование и оценивание доверияПосле объединения система должна произвести ранжирование гипотез и оценивает доверие основанное на объединенных оценках В системе подобран ML подход основанный на обучении на обучающем наборе вопросов с известными ответами и обучение модели основываясь на скоринге Применяется как весьма плоская модель и существующие алгоритмы ранжирования Для более тонких оценок применяется двухфазный процесс использующий группы оценок для оценивания профиля и для оценки доверия Используя эту промежуточную модель система производит ансамбль промежуточных оценок Здесь используется иерархическая техника метаучителя и коллектива экспертов Этот подход обеспечивает итеративное расширение обучения используя изощренные и глубокие иерархические модели обеспечивающие гибкость и робастность при выработке оценок и модифицирует системуМетаучитель в Watson использует набор многие обучаемые модели чтобы управлять различными классами вопросов которые могут быть критическими при идентификации правильных ответовНаконец важно что использование NLP-based скоринга дает весьма разреженные оценки и требует точного оценивания с применением confidence-weighted learning techniques

Развертывание Watson

bull DeepQA разработан используя Apache UIMA - framework implementation of the Unstructured Information Management Architecture (Ferrucci and Lally 2004) UIMA был разработан для поддержки взаимодействия и масштабирования приложений обработки текста и мультимодального анализа Все компоненты DeepQA имплементированы как UIMA annotators Это программные компоненты для анализа текста и получения аннотаций или заключений о тексте Watson развивался в процессе разработки от нескольких компонент до нескольких сотен UIMA обеспечивает быструю интеграцию компонент тестирование и исследование

bull Начальная имплементация Watson запускалась на одном процессоре и требовала 2 часа на ответ на один вопрос DeepQA развился в параллельную систему используя UIMA-AS часть Apache UIMA масштабируя приложения UIMA используя асинхронный механизм месседжинга UIMA-AS позволила масштабировать Watson более чем на 2500 вычислительных ядер UIMA-AS управляет коммуникациями месседжингом управлением запросами используя open JMS standard UIMA-AS позволил снизить латентность Watson до 3ndash5 секунд

bull Для препроцессинга корпуса текстов создания быстрых run-time indices использован Hadoop

UIMA annotators были развернуты как mapper ы в Hadoop map-reduce framework Hadoop распределяет контент по кластеру для обеспечения высокого использования CPU и обеспечивает подходящий набор инструментов для deploying managing and monitoring the corpus analysis process

bull Аппаратная платформа ndash это 90 серверов 2800 ядер 15 ТБ RAM 80 Тфлопс $3 000 000 10 R

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 56: !Predictive analytics part_3

Основы подхода Deep QA

bull Massive parallelism использование высокого параллелизма при рассмотрении множественных интерпретаций и гипотез

bull Many experts привлечение интеграции приложения и контекстуального оценивания в широком диапазоне слабосвязанных вероятностных вопросов и контентной аналитики

bull Pervasive confidence estimation повсеместная оценка доверия означает что ни один из компонентов не включается в ответ сразу все компоненты имеют признаки и связанные с ними уровни доверия производится скоринг различных вопросов и контентная интерпретация Основа confidence-processing состоит в обучении как стэкировать и комбинировать баллы

bull Integrate shallow and deep knowledge интеграция поверхностных и глубинных знаний состоит в балансе использования строгой семантики и мелких семантик использующих множества слабо сформированных онтологий

bull Content Acquisition - Сбор контентаСочетает ручные и автоматические этапы Первым шагом является анализ примеров вопросов проблемного пространства чтобы произвести описание видов вопросов на которые нужно ответить и характеризовать область применения Анализ примеров вопросов в первую очередь ручная задача в то время как анализ области может быть выполнен путем автоматических или статистических методов таких как анализ LAT показанный ранее Учитывая вопросы для широкого домена Jeopardy Challenge источники для Watson включают широкий ассортимент энциклопедий словарей тезаурусов Newswire статьи литературные произведения и тд Начиная с разумного размера базового корпуса DeepQA затем применяет автоматический процесс расширения корпуса Процесс включает в себя четыре этапа высокого уровня (1) выявления основных документов и получить соответствующие документы из Интернет (2) извлечь автономные текстовые ядра из связанных веб-документов (3) Оценка на основе ядер являются ли они информативны по отношению к исходному основному документу и (4) объединить наиболее информативные ядра в расширенном корпусе Работающая система использует этот расширенный корпус и не имеет доступа к Интернет во время игры

bull Question Analysis ndash Анализ вопроса

Первый шаг во время выполнения процесса вопрос-ответной системы При анализе вопроса система пытается понять что вопрос задан и выполняет начальный анализ определяющий как вопрос будет обработан на остальных этапах работы системы Подход DeepQA использует смешанный набор экспертов на данном этапе и в системе Watson производится мелкий парсинг глубокий парсинг строятся логические формы семантические этикетки ролей взаимные ссылки отношения именованные сущности и так далее а также конкретные виды анализа для ответа вопрос

bull Question classification - Классификация вопроса

Это задача выявления типа вопроса или частей вопроса которые требуют специальной обработки Это может включать в себя что-нибудь из отдельных слов с двойным смыслом и потенциально до выявления целых статей которые имеют определенную синтаксическую семантическую или риторические функциональные возможности которые могут инициировать нисходящий анализ Классификация может определить вопрос как вопрос- головоломку вопрос-математику -определение и так далее Это будет определять каламбуры ограничения компоненты определений или целые подвопросы в пределах вопросов

bull Focus and LAT Detection ndash Определение фокуса и лексического типа ответа

Лексический тип ответа - это слово или словосочетание в вопросе который определяет тип ответа без попытки понять семантику Определение LAT является важным видом выигрыша и общим источником критических ошибок Преимущество подхода DeepQA является использование многих самостоятельно разработанных алгоритмов laquoответ-типированияraquo Например фокус вопроса викторины laquoПри попадании электронов люминофор излучает электромагнитную энергию в этой формеraquo - является laquoэта формаraquo Фокус часто (но не всегда) содержит полезную информацию об ответе часто субъект или объект отношение в вопросе и может превратить вопрос в фактическое утверждение при замене возможным кандидатом Это представляет полезный способ собирать доказательства о каждом кандидате

bull Relation Detection ndash детектирование отношений

Большинство вопросов содержит отношения являются ли они синтаксическими предикатами субъект-глагол-объект или семантические отношения между субъектами Например в вопросе laquoЕсть два штата в которые вы могли бы войти повторно если вы пересекаете северную границу штата Флоридаraquo мы можем обнаружить отношение границы (Флорида Х к северу) Watson использует обнаружение отношения на протяжении всего процесса QA от фокуса и LAT определения до прохождению и скорингу ответов Watson также может использовать обнаруженные отношения для выделения хранилища триплетов и напрямую генерировать кандидатов в ответы В 20000 игр Jeopardy вопросы например обнаружили распределение Freebase отношений чрезвычайно плоского вида (см рисунок) Это приближение распределеня 50 наиболее частых отношений в 20 000 случайно выбранных вопросах викторины

bull Decomposition ndash декомпозиция

Важным требованием успеха анализа Jeopardy является способность отвечать на вопросы которые разложены на составляющие DeepQA использует основанный на правилах глубокий парсинг и статистические методы классификации чтобы наилучшим образом разложить вопросы на элементы и определить как лучше разбить их на подвопросы Операционная гипотеза что правильная интерпретация вопроса позволит лучше произвести скоринг ответов после того как все доказательства собраны Даже если вопрос не должен быть разложен для определения ответа этот метод может помочь улучшить общее доверие ответу системы DeepQA решает задачи параллельно для каждого разложения применяя алгоритмы от начала до конца каждого подвопроса и синтезирует окончательные ответы DeepQA также поддерживает вложенные декомпозиции вопросов через рекурсивное применение QA системы от начала до конца в внутреннем подвопросе а затем во внешнем Настраиваемые компоненты позволяют легко подключать специализированные алгоритмы синтеза в общую систему

bull Hypothesis Generation ndash генерация гипотез

Генерация гипотез принимает результаты анализа вопросов и производит кандидатов на ответы Каждый кандидат ответ включается обратно в вопрос и это считается как гипотеза Система должна доказать правильность этой гипотезы с некоторой степенью уверенности Как и во всех аспектах DeepQA используется смесь разных подходов для первичного поиска и генерации кандидата в системе Watson

bull Primary Search ndash первичный поиск

В этом поиске целью является найти столько потенциально кандидатов сколько это можно сделать на основе результатов анализа вопроса В течение проекта велись эмпирические исследования направленные на баланс скорости объема и точности Эти исследования позволили регулярно настраивать систему так чтобы найти такое количество кандидатов которые производят наилучший баланс точности и вычислительных ресурсов Оперативная цель основного поиска в конечном счете стабилизировалась на около 85 процентов для топ-250 кандидатов то есть система генерирует правильный ответ как кандидата ответа на 85 процентов вопросов где-то в верхних 250 ранжированных кандидатов Разнообразие методов поиска используются в том числе с использованием нескольких текст поисковых системах с различными базовыми подходами (например Indri и Lucene) поиск документов а также поиска маршрута база знаний поиска с помощью SPARQL хранилища триплетов Для небольшого количества латов которые были определены как закрытые латы кандидат на ответ может быть получен из фиксированного списка в каком-то хранилище известных экземпляров LAT таких как США Президент или Страна

Поиск доказательств

bull Поиск по фразе ndash число соответствий разного типав ответе и вопросеbull Популярность ndash как часто встречается этот вариант ответаbull Соответствие по типу ndash ответ и требование вопросаbull Соответствие по времениbull Надежность источника

bull Candidate Answer Generation ndash генерирование кандидатов на ответ

Результаты поиска применяются для генерирования возможных кандидатов в ответы с помощью различных подходящих техник Для поиска документов извлекаются заголовки и используются как кандидаты Число кандидатов при этом может быть не единственным и требовать использования анализа подстрок и ссылок Используя детектирование именованных сущностей в ряде случаев удается извлечь хороших кандидатов В зависимости от типа источника для генерирования кандидата требуется разный набор алгоритмов например база знаний или обратный словарь порождают кандидатов непосредственно как кандидата Этот этап критически важен и если кандидаты не найдены то фиксируется невозможность ответа В нормальном режиме на этом этапе Watson гененерирует несколько сотен андидатов

bull Soft Filtering ndash мягкая фильтрацияДля ускорения процесса скоринга кандидатов Watson использует различные алгоритмы разной точности Более легковесные (менее вычислительно интенсивные) применяются на первом этапе скоринга На этом этапе устанавливается порог оценки и кандидаты имеющие более высокую оценку считаются прошедшими мягкую фильтрацию Они поступают на выработку гипотез и скоринг доказательств Интересно что кандидаты не прошедшие порог мягкой фильтрации не забываются а направляются прямо на финальный этап слияния Модель скоринга мягкой фильтрации и порога определяются на основе machine learning используя обучающие данные Watson типично пропускает через мягкую фильтрацию 100 кандидатов но эта функция параметризована и их число можно изменить

Проблемы NLP

bull В мае 1898 года Португалия отмечала 400-летний юбилей со дня прибытия этого великого путешественника в Индию

В мае Гари прибыл в Индию после празднования своего юбилея в Португалии

21 мая 1498 года Васка де Гама высадился в местечке Каппад

bull Он был помилован президентом 8 сентября 1974 годаФорд помиловал Никсона 8 сентября 1974 года Никсон Форд

bull Говоря ldquogive a trinklerdquo что предлагают вам сделать британцы по приезду в город

bull Hypothesis and Evidence Scoring ndash скоринг гипотез и доказательств

Прошедшие порог мягкой фильтрации кандидаты поступают на скрупулезный процесс который включает сбор дополнительных поддерживающих доказательств для каждого кандидата на ответ или гипотезу Процесс использует широкий набор различных методов скоринговой аналитики чтобы исследовать все поддерживающие доказательства

bull Evidence Retrieval ndash извлечение доказательств

Чтобы лучше исследовать каждого кандидата прошедшего через мягкую фильтрацию система собирает дополнительные поддерживающие доказательства Архитектура поддерживает интеграцию различных evidence-gathering техник Один из применяемых способов состоит в том что проводится дополнительный поиск в котором кандидат добавляется в качестве required term к первичному запросу извлеченному из вопроса Это будет приводить к получению выражений содержащих кандидата в контексте первичных терминов вопросаПоддерживающие доказательства могут быть извлечены и из других источников например из RDF баз знаний Извлеченные поддерживающие доказательства направляются модули глубокого скоринга которые анализируют кандидата в контексте поддерживающего доказательства

bull Scoring ndash скоринг (количественное оценивание)

Алгоритмы скоринга определяют степень несомненности которую обеспечивают доказательства в поддержку кандидата The DeepQA framework поддерживает множество компонент для выработки оценки в различных измерениях каждого доказательства которая вырабатывает оценку связанную с тем насколько хорошо доказательство поддерживает кандидата на ответ в качестве ответа на заданный вопросDeepQA использует общий формат для оценок для принятых гипотез и подтверждающих оценок отражающих семантические и ограничивающие факторы Это позволяет разработчикам DeepQA быстро разворачивать перемешивать и настраивать сложные совокупности модуле для обработкиНапрмер Watson использует больше чем 50 скоринговых компонент Они производят оценки разноготипа от оценок вероятностей до подсчета категориальных свойств основанных на доказательствах от различных источников включая неструктурированные тексты полуструктурированные тексты и RDF хранилища Эти оценки используют такие данные как degree of match between a passagersquos predicate-argument structure and the question passage source reliability geospatial location temporal relationships taxonomic classification the lexical and semantic relations the candidate is known to participate in the candidatersquos correlation with question terms its popularity (or obscurity) its aliases and so on

Вопрос Чили имеет самую длинную общую границу со страной Сгенерировано несколько кандидатов среди них Аргентина и Боливия Первичный поиск даст приоритет Боливии из=а популярности обсуждений их отношений Однако собранные Watson доказательства из других источников показывают более высокую оценку для Аргентины

Скоринг (взвешивание) доказательств ndash предиктивная аналитика

- При делении клеток митозом называется деление ядра а цитокинезом ndash деление этой жидкости в которой находится ядро

Генерирование кандидатов Сбор доказательств Уверенность в доказательстве

ОрганеллыВакуольЦитоплазмаПлазмамитохондрии

Органеллы ndash не жидкостьВакуоль ndash не жидкостьЦитоплазма ndash возможно жидкостьПлазма ndash не жидкостьМитохондрии ndash не жидкость

Цитоплазма ndash 92Органеллы ndash 19Вакуоль ndash 10Плазма ndash 2Митохондрии ndash 2

Answer Merging ndash объединение ответов

Многие кандидаты в ответы на поставленный вопрос могут быть эквивалентны несмотря на различные внешне формыТехники ранжирования тем не менее рассматривают таких кандидатов как различные Без объединения алгоритмы ранжирования будут работать отдельно с эквивалентными сущностями и пытаться противопоставить одну форму другой Это приведет к проблемам принятия решений Watson содержит алгоритмы идентификации эквивалентных сущностей используя множественные сравнения нормализацию и методы разрешения совместных ссылок

Ranking and Confidence Estimation ndash ранжирование и оценивание доверияПосле объединения система должна произвести ранжирование гипотез и оценивает доверие основанное на объединенных оценках В системе подобран ML подход основанный на обучении на обучающем наборе вопросов с известными ответами и обучение модели основываясь на скоринге Применяется как весьма плоская модель и существующие алгоритмы ранжирования Для более тонких оценок применяется двухфазный процесс использующий группы оценок для оценивания профиля и для оценки доверия Используя эту промежуточную модель система производит ансамбль промежуточных оценок Здесь используется иерархическая техника метаучителя и коллектива экспертов Этот подход обеспечивает итеративное расширение обучения используя изощренные и глубокие иерархические модели обеспечивающие гибкость и робастность при выработке оценок и модифицирует системуМетаучитель в Watson использует набор многие обучаемые модели чтобы управлять различными классами вопросов которые могут быть критическими при идентификации правильных ответовНаконец важно что использование NLP-based скоринга дает весьма разреженные оценки и требует точного оценивания с применением confidence-weighted learning techniques

Развертывание Watson

bull DeepQA разработан используя Apache UIMA - framework implementation of the Unstructured Information Management Architecture (Ferrucci and Lally 2004) UIMA был разработан для поддержки взаимодействия и масштабирования приложений обработки текста и мультимодального анализа Все компоненты DeepQA имплементированы как UIMA annotators Это программные компоненты для анализа текста и получения аннотаций или заключений о тексте Watson развивался в процессе разработки от нескольких компонент до нескольких сотен UIMA обеспечивает быструю интеграцию компонент тестирование и исследование

bull Начальная имплементация Watson запускалась на одном процессоре и требовала 2 часа на ответ на один вопрос DeepQA развился в параллельную систему используя UIMA-AS часть Apache UIMA масштабируя приложения UIMA используя асинхронный механизм месседжинга UIMA-AS позволила масштабировать Watson более чем на 2500 вычислительных ядер UIMA-AS управляет коммуникациями месседжингом управлением запросами используя open JMS standard UIMA-AS позволил снизить латентность Watson до 3ndash5 секунд

bull Для препроцессинга корпуса текстов создания быстрых run-time indices использован Hadoop

UIMA annotators были развернуты как mapper ы в Hadoop map-reduce framework Hadoop распределяет контент по кластеру для обеспечения высокого использования CPU и обеспечивает подходящий набор инструментов для deploying managing and monitoring the corpus analysis process

bull Аппаратная платформа ndash это 90 серверов 2800 ядер 15 ТБ RAM 80 Тфлопс $3 000 000 10 R

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 57: !Predictive analytics part_3

bull Content Acquisition - Сбор контентаСочетает ручные и автоматические этапы Первым шагом является анализ примеров вопросов проблемного пространства чтобы произвести описание видов вопросов на которые нужно ответить и характеризовать область применения Анализ примеров вопросов в первую очередь ручная задача в то время как анализ области может быть выполнен путем автоматических или статистических методов таких как анализ LAT показанный ранее Учитывая вопросы для широкого домена Jeopardy Challenge источники для Watson включают широкий ассортимент энциклопедий словарей тезаурусов Newswire статьи литературные произведения и тд Начиная с разумного размера базового корпуса DeepQA затем применяет автоматический процесс расширения корпуса Процесс включает в себя четыре этапа высокого уровня (1) выявления основных документов и получить соответствующие документы из Интернет (2) извлечь автономные текстовые ядра из связанных веб-документов (3) Оценка на основе ядер являются ли они информативны по отношению к исходному основному документу и (4) объединить наиболее информативные ядра в расширенном корпусе Работающая система использует этот расширенный корпус и не имеет доступа к Интернет во время игры

bull Question Analysis ndash Анализ вопроса

Первый шаг во время выполнения процесса вопрос-ответной системы При анализе вопроса система пытается понять что вопрос задан и выполняет начальный анализ определяющий как вопрос будет обработан на остальных этапах работы системы Подход DeepQA использует смешанный набор экспертов на данном этапе и в системе Watson производится мелкий парсинг глубокий парсинг строятся логические формы семантические этикетки ролей взаимные ссылки отношения именованные сущности и так далее а также конкретные виды анализа для ответа вопрос

bull Question classification - Классификация вопроса

Это задача выявления типа вопроса или частей вопроса которые требуют специальной обработки Это может включать в себя что-нибудь из отдельных слов с двойным смыслом и потенциально до выявления целых статей которые имеют определенную синтаксическую семантическую или риторические функциональные возможности которые могут инициировать нисходящий анализ Классификация может определить вопрос как вопрос- головоломку вопрос-математику -определение и так далее Это будет определять каламбуры ограничения компоненты определений или целые подвопросы в пределах вопросов

bull Focus and LAT Detection ndash Определение фокуса и лексического типа ответа

Лексический тип ответа - это слово или словосочетание в вопросе который определяет тип ответа без попытки понять семантику Определение LAT является важным видом выигрыша и общим источником критических ошибок Преимущество подхода DeepQA является использование многих самостоятельно разработанных алгоритмов laquoответ-типированияraquo Например фокус вопроса викторины laquoПри попадании электронов люминофор излучает электромагнитную энергию в этой формеraquo - является laquoэта формаraquo Фокус часто (но не всегда) содержит полезную информацию об ответе часто субъект или объект отношение в вопросе и может превратить вопрос в фактическое утверждение при замене возможным кандидатом Это представляет полезный способ собирать доказательства о каждом кандидате

bull Relation Detection ndash детектирование отношений

Большинство вопросов содержит отношения являются ли они синтаксическими предикатами субъект-глагол-объект или семантические отношения между субъектами Например в вопросе laquoЕсть два штата в которые вы могли бы войти повторно если вы пересекаете северную границу штата Флоридаraquo мы можем обнаружить отношение границы (Флорида Х к северу) Watson использует обнаружение отношения на протяжении всего процесса QA от фокуса и LAT определения до прохождению и скорингу ответов Watson также может использовать обнаруженные отношения для выделения хранилища триплетов и напрямую генерировать кандидатов в ответы В 20000 игр Jeopardy вопросы например обнаружили распределение Freebase отношений чрезвычайно плоского вида (см рисунок) Это приближение распределеня 50 наиболее частых отношений в 20 000 случайно выбранных вопросах викторины

bull Decomposition ndash декомпозиция

Важным требованием успеха анализа Jeopardy является способность отвечать на вопросы которые разложены на составляющие DeepQA использует основанный на правилах глубокий парсинг и статистические методы классификации чтобы наилучшим образом разложить вопросы на элементы и определить как лучше разбить их на подвопросы Операционная гипотеза что правильная интерпретация вопроса позволит лучше произвести скоринг ответов после того как все доказательства собраны Даже если вопрос не должен быть разложен для определения ответа этот метод может помочь улучшить общее доверие ответу системы DeepQA решает задачи параллельно для каждого разложения применяя алгоритмы от начала до конца каждого подвопроса и синтезирует окончательные ответы DeepQA также поддерживает вложенные декомпозиции вопросов через рекурсивное применение QA системы от начала до конца в внутреннем подвопросе а затем во внешнем Настраиваемые компоненты позволяют легко подключать специализированные алгоритмы синтеза в общую систему

bull Hypothesis Generation ndash генерация гипотез

Генерация гипотез принимает результаты анализа вопросов и производит кандидатов на ответы Каждый кандидат ответ включается обратно в вопрос и это считается как гипотеза Система должна доказать правильность этой гипотезы с некоторой степенью уверенности Как и во всех аспектах DeepQA используется смесь разных подходов для первичного поиска и генерации кандидата в системе Watson

bull Primary Search ndash первичный поиск

В этом поиске целью является найти столько потенциально кандидатов сколько это можно сделать на основе результатов анализа вопроса В течение проекта велись эмпирические исследования направленные на баланс скорости объема и точности Эти исследования позволили регулярно настраивать систему так чтобы найти такое количество кандидатов которые производят наилучший баланс точности и вычислительных ресурсов Оперативная цель основного поиска в конечном счете стабилизировалась на около 85 процентов для топ-250 кандидатов то есть система генерирует правильный ответ как кандидата ответа на 85 процентов вопросов где-то в верхних 250 ранжированных кандидатов Разнообразие методов поиска используются в том числе с использованием нескольких текст поисковых системах с различными базовыми подходами (например Indri и Lucene) поиск документов а также поиска маршрута база знаний поиска с помощью SPARQL хранилища триплетов Для небольшого количества латов которые были определены как закрытые латы кандидат на ответ может быть получен из фиксированного списка в каком-то хранилище известных экземпляров LAT таких как США Президент или Страна

Поиск доказательств

bull Поиск по фразе ndash число соответствий разного типав ответе и вопросеbull Популярность ndash как часто встречается этот вариант ответаbull Соответствие по типу ndash ответ и требование вопросаbull Соответствие по времениbull Надежность источника

bull Candidate Answer Generation ndash генерирование кандидатов на ответ

Результаты поиска применяются для генерирования возможных кандидатов в ответы с помощью различных подходящих техник Для поиска документов извлекаются заголовки и используются как кандидаты Число кандидатов при этом может быть не единственным и требовать использования анализа подстрок и ссылок Используя детектирование именованных сущностей в ряде случаев удается извлечь хороших кандидатов В зависимости от типа источника для генерирования кандидата требуется разный набор алгоритмов например база знаний или обратный словарь порождают кандидатов непосредственно как кандидата Этот этап критически важен и если кандидаты не найдены то фиксируется невозможность ответа В нормальном режиме на этом этапе Watson гененерирует несколько сотен андидатов

bull Soft Filtering ndash мягкая фильтрацияДля ускорения процесса скоринга кандидатов Watson использует различные алгоритмы разной точности Более легковесные (менее вычислительно интенсивные) применяются на первом этапе скоринга На этом этапе устанавливается порог оценки и кандидаты имеющие более высокую оценку считаются прошедшими мягкую фильтрацию Они поступают на выработку гипотез и скоринг доказательств Интересно что кандидаты не прошедшие порог мягкой фильтрации не забываются а направляются прямо на финальный этап слияния Модель скоринга мягкой фильтрации и порога определяются на основе machine learning используя обучающие данные Watson типично пропускает через мягкую фильтрацию 100 кандидатов но эта функция параметризована и их число можно изменить

Проблемы NLP

bull В мае 1898 года Португалия отмечала 400-летний юбилей со дня прибытия этого великого путешественника в Индию

В мае Гари прибыл в Индию после празднования своего юбилея в Португалии

21 мая 1498 года Васка де Гама высадился в местечке Каппад

bull Он был помилован президентом 8 сентября 1974 годаФорд помиловал Никсона 8 сентября 1974 года Никсон Форд

bull Говоря ldquogive a trinklerdquo что предлагают вам сделать британцы по приезду в город

bull Hypothesis and Evidence Scoring ndash скоринг гипотез и доказательств

Прошедшие порог мягкой фильтрации кандидаты поступают на скрупулезный процесс который включает сбор дополнительных поддерживающих доказательств для каждого кандидата на ответ или гипотезу Процесс использует широкий набор различных методов скоринговой аналитики чтобы исследовать все поддерживающие доказательства

bull Evidence Retrieval ndash извлечение доказательств

Чтобы лучше исследовать каждого кандидата прошедшего через мягкую фильтрацию система собирает дополнительные поддерживающие доказательства Архитектура поддерживает интеграцию различных evidence-gathering техник Один из применяемых способов состоит в том что проводится дополнительный поиск в котором кандидат добавляется в качестве required term к первичному запросу извлеченному из вопроса Это будет приводить к получению выражений содержащих кандидата в контексте первичных терминов вопросаПоддерживающие доказательства могут быть извлечены и из других источников например из RDF баз знаний Извлеченные поддерживающие доказательства направляются модули глубокого скоринга которые анализируют кандидата в контексте поддерживающего доказательства

bull Scoring ndash скоринг (количественное оценивание)

Алгоритмы скоринга определяют степень несомненности которую обеспечивают доказательства в поддержку кандидата The DeepQA framework поддерживает множество компонент для выработки оценки в различных измерениях каждого доказательства которая вырабатывает оценку связанную с тем насколько хорошо доказательство поддерживает кандидата на ответ в качестве ответа на заданный вопросDeepQA использует общий формат для оценок для принятых гипотез и подтверждающих оценок отражающих семантические и ограничивающие факторы Это позволяет разработчикам DeepQA быстро разворачивать перемешивать и настраивать сложные совокупности модуле для обработкиНапрмер Watson использует больше чем 50 скоринговых компонент Они производят оценки разноготипа от оценок вероятностей до подсчета категориальных свойств основанных на доказательствах от различных источников включая неструктурированные тексты полуструктурированные тексты и RDF хранилища Эти оценки используют такие данные как degree of match between a passagersquos predicate-argument structure and the question passage source reliability geospatial location temporal relationships taxonomic classification the lexical and semantic relations the candidate is known to participate in the candidatersquos correlation with question terms its popularity (or obscurity) its aliases and so on

Вопрос Чили имеет самую длинную общую границу со страной Сгенерировано несколько кандидатов среди них Аргентина и Боливия Первичный поиск даст приоритет Боливии из=а популярности обсуждений их отношений Однако собранные Watson доказательства из других источников показывают более высокую оценку для Аргентины

Скоринг (взвешивание) доказательств ndash предиктивная аналитика

- При делении клеток митозом называется деление ядра а цитокинезом ndash деление этой жидкости в которой находится ядро

Генерирование кандидатов Сбор доказательств Уверенность в доказательстве

ОрганеллыВакуольЦитоплазмаПлазмамитохондрии

Органеллы ndash не жидкостьВакуоль ndash не жидкостьЦитоплазма ndash возможно жидкостьПлазма ndash не жидкостьМитохондрии ndash не жидкость

Цитоплазма ndash 92Органеллы ndash 19Вакуоль ndash 10Плазма ndash 2Митохондрии ndash 2

Answer Merging ndash объединение ответов

Многие кандидаты в ответы на поставленный вопрос могут быть эквивалентны несмотря на различные внешне формыТехники ранжирования тем не менее рассматривают таких кандидатов как различные Без объединения алгоритмы ранжирования будут работать отдельно с эквивалентными сущностями и пытаться противопоставить одну форму другой Это приведет к проблемам принятия решений Watson содержит алгоритмы идентификации эквивалентных сущностей используя множественные сравнения нормализацию и методы разрешения совместных ссылок

Ranking and Confidence Estimation ndash ранжирование и оценивание доверияПосле объединения система должна произвести ранжирование гипотез и оценивает доверие основанное на объединенных оценках В системе подобран ML подход основанный на обучении на обучающем наборе вопросов с известными ответами и обучение модели основываясь на скоринге Применяется как весьма плоская модель и существующие алгоритмы ранжирования Для более тонких оценок применяется двухфазный процесс использующий группы оценок для оценивания профиля и для оценки доверия Используя эту промежуточную модель система производит ансамбль промежуточных оценок Здесь используется иерархическая техника метаучителя и коллектива экспертов Этот подход обеспечивает итеративное расширение обучения используя изощренные и глубокие иерархические модели обеспечивающие гибкость и робастность при выработке оценок и модифицирует системуМетаучитель в Watson использует набор многие обучаемые модели чтобы управлять различными классами вопросов которые могут быть критическими при идентификации правильных ответовНаконец важно что использование NLP-based скоринга дает весьма разреженные оценки и требует точного оценивания с применением confidence-weighted learning techniques

Развертывание Watson

bull DeepQA разработан используя Apache UIMA - framework implementation of the Unstructured Information Management Architecture (Ferrucci and Lally 2004) UIMA был разработан для поддержки взаимодействия и масштабирования приложений обработки текста и мультимодального анализа Все компоненты DeepQA имплементированы как UIMA annotators Это программные компоненты для анализа текста и получения аннотаций или заключений о тексте Watson развивался в процессе разработки от нескольких компонент до нескольких сотен UIMA обеспечивает быструю интеграцию компонент тестирование и исследование

bull Начальная имплементация Watson запускалась на одном процессоре и требовала 2 часа на ответ на один вопрос DeepQA развился в параллельную систему используя UIMA-AS часть Apache UIMA масштабируя приложения UIMA используя асинхронный механизм месседжинга UIMA-AS позволила масштабировать Watson более чем на 2500 вычислительных ядер UIMA-AS управляет коммуникациями месседжингом управлением запросами используя open JMS standard UIMA-AS позволил снизить латентность Watson до 3ndash5 секунд

bull Для препроцессинга корпуса текстов создания быстрых run-time indices использован Hadoop

UIMA annotators были развернуты как mapper ы в Hadoop map-reduce framework Hadoop распределяет контент по кластеру для обеспечения высокого использования CPU и обеспечивает подходящий набор инструментов для deploying managing and monitoring the corpus analysis process

bull Аппаратная платформа ndash это 90 серверов 2800 ядер 15 ТБ RAM 80 Тфлопс $3 000 000 10 R

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 58: !Predictive analytics part_3

bull Question classification - Классификация вопроса

Это задача выявления типа вопроса или частей вопроса которые требуют специальной обработки Это может включать в себя что-нибудь из отдельных слов с двойным смыслом и потенциально до выявления целых статей которые имеют определенную синтаксическую семантическую или риторические функциональные возможности которые могут инициировать нисходящий анализ Классификация может определить вопрос как вопрос- головоломку вопрос-математику -определение и так далее Это будет определять каламбуры ограничения компоненты определений или целые подвопросы в пределах вопросов

bull Focus and LAT Detection ndash Определение фокуса и лексического типа ответа

Лексический тип ответа - это слово или словосочетание в вопросе который определяет тип ответа без попытки понять семантику Определение LAT является важным видом выигрыша и общим источником критических ошибок Преимущество подхода DeepQA является использование многих самостоятельно разработанных алгоритмов laquoответ-типированияraquo Например фокус вопроса викторины laquoПри попадании электронов люминофор излучает электромагнитную энергию в этой формеraquo - является laquoэта формаraquo Фокус часто (но не всегда) содержит полезную информацию об ответе часто субъект или объект отношение в вопросе и может превратить вопрос в фактическое утверждение при замене возможным кандидатом Это представляет полезный способ собирать доказательства о каждом кандидате

bull Relation Detection ndash детектирование отношений

Большинство вопросов содержит отношения являются ли они синтаксическими предикатами субъект-глагол-объект или семантические отношения между субъектами Например в вопросе laquoЕсть два штата в которые вы могли бы войти повторно если вы пересекаете северную границу штата Флоридаraquo мы можем обнаружить отношение границы (Флорида Х к северу) Watson использует обнаружение отношения на протяжении всего процесса QA от фокуса и LAT определения до прохождению и скорингу ответов Watson также может использовать обнаруженные отношения для выделения хранилища триплетов и напрямую генерировать кандидатов в ответы В 20000 игр Jeopardy вопросы например обнаружили распределение Freebase отношений чрезвычайно плоского вида (см рисунок) Это приближение распределеня 50 наиболее частых отношений в 20 000 случайно выбранных вопросах викторины

bull Decomposition ndash декомпозиция

Важным требованием успеха анализа Jeopardy является способность отвечать на вопросы которые разложены на составляющие DeepQA использует основанный на правилах глубокий парсинг и статистические методы классификации чтобы наилучшим образом разложить вопросы на элементы и определить как лучше разбить их на подвопросы Операционная гипотеза что правильная интерпретация вопроса позволит лучше произвести скоринг ответов после того как все доказательства собраны Даже если вопрос не должен быть разложен для определения ответа этот метод может помочь улучшить общее доверие ответу системы DeepQA решает задачи параллельно для каждого разложения применяя алгоритмы от начала до конца каждого подвопроса и синтезирует окончательные ответы DeepQA также поддерживает вложенные декомпозиции вопросов через рекурсивное применение QA системы от начала до конца в внутреннем подвопросе а затем во внешнем Настраиваемые компоненты позволяют легко подключать специализированные алгоритмы синтеза в общую систему

bull Hypothesis Generation ndash генерация гипотез

Генерация гипотез принимает результаты анализа вопросов и производит кандидатов на ответы Каждый кандидат ответ включается обратно в вопрос и это считается как гипотеза Система должна доказать правильность этой гипотезы с некоторой степенью уверенности Как и во всех аспектах DeepQA используется смесь разных подходов для первичного поиска и генерации кандидата в системе Watson

bull Primary Search ndash первичный поиск

В этом поиске целью является найти столько потенциально кандидатов сколько это можно сделать на основе результатов анализа вопроса В течение проекта велись эмпирические исследования направленные на баланс скорости объема и точности Эти исследования позволили регулярно настраивать систему так чтобы найти такое количество кандидатов которые производят наилучший баланс точности и вычислительных ресурсов Оперативная цель основного поиска в конечном счете стабилизировалась на около 85 процентов для топ-250 кандидатов то есть система генерирует правильный ответ как кандидата ответа на 85 процентов вопросов где-то в верхних 250 ранжированных кандидатов Разнообразие методов поиска используются в том числе с использованием нескольких текст поисковых системах с различными базовыми подходами (например Indri и Lucene) поиск документов а также поиска маршрута база знаний поиска с помощью SPARQL хранилища триплетов Для небольшого количества латов которые были определены как закрытые латы кандидат на ответ может быть получен из фиксированного списка в каком-то хранилище известных экземпляров LAT таких как США Президент или Страна

Поиск доказательств

bull Поиск по фразе ndash число соответствий разного типав ответе и вопросеbull Популярность ndash как часто встречается этот вариант ответаbull Соответствие по типу ndash ответ и требование вопросаbull Соответствие по времениbull Надежность источника

bull Candidate Answer Generation ndash генерирование кандидатов на ответ

Результаты поиска применяются для генерирования возможных кандидатов в ответы с помощью различных подходящих техник Для поиска документов извлекаются заголовки и используются как кандидаты Число кандидатов при этом может быть не единственным и требовать использования анализа подстрок и ссылок Используя детектирование именованных сущностей в ряде случаев удается извлечь хороших кандидатов В зависимости от типа источника для генерирования кандидата требуется разный набор алгоритмов например база знаний или обратный словарь порождают кандидатов непосредственно как кандидата Этот этап критически важен и если кандидаты не найдены то фиксируется невозможность ответа В нормальном режиме на этом этапе Watson гененерирует несколько сотен андидатов

bull Soft Filtering ndash мягкая фильтрацияДля ускорения процесса скоринга кандидатов Watson использует различные алгоритмы разной точности Более легковесные (менее вычислительно интенсивные) применяются на первом этапе скоринга На этом этапе устанавливается порог оценки и кандидаты имеющие более высокую оценку считаются прошедшими мягкую фильтрацию Они поступают на выработку гипотез и скоринг доказательств Интересно что кандидаты не прошедшие порог мягкой фильтрации не забываются а направляются прямо на финальный этап слияния Модель скоринга мягкой фильтрации и порога определяются на основе machine learning используя обучающие данные Watson типично пропускает через мягкую фильтрацию 100 кандидатов но эта функция параметризована и их число можно изменить

Проблемы NLP

bull В мае 1898 года Португалия отмечала 400-летний юбилей со дня прибытия этого великого путешественника в Индию

В мае Гари прибыл в Индию после празднования своего юбилея в Португалии

21 мая 1498 года Васка де Гама высадился в местечке Каппад

bull Он был помилован президентом 8 сентября 1974 годаФорд помиловал Никсона 8 сентября 1974 года Никсон Форд

bull Говоря ldquogive a trinklerdquo что предлагают вам сделать британцы по приезду в город

bull Hypothesis and Evidence Scoring ndash скоринг гипотез и доказательств

Прошедшие порог мягкой фильтрации кандидаты поступают на скрупулезный процесс который включает сбор дополнительных поддерживающих доказательств для каждого кандидата на ответ или гипотезу Процесс использует широкий набор различных методов скоринговой аналитики чтобы исследовать все поддерживающие доказательства

bull Evidence Retrieval ndash извлечение доказательств

Чтобы лучше исследовать каждого кандидата прошедшего через мягкую фильтрацию система собирает дополнительные поддерживающие доказательства Архитектура поддерживает интеграцию различных evidence-gathering техник Один из применяемых способов состоит в том что проводится дополнительный поиск в котором кандидат добавляется в качестве required term к первичному запросу извлеченному из вопроса Это будет приводить к получению выражений содержащих кандидата в контексте первичных терминов вопросаПоддерживающие доказательства могут быть извлечены и из других источников например из RDF баз знаний Извлеченные поддерживающие доказательства направляются модули глубокого скоринга которые анализируют кандидата в контексте поддерживающего доказательства

bull Scoring ndash скоринг (количественное оценивание)

Алгоритмы скоринга определяют степень несомненности которую обеспечивают доказательства в поддержку кандидата The DeepQA framework поддерживает множество компонент для выработки оценки в различных измерениях каждого доказательства которая вырабатывает оценку связанную с тем насколько хорошо доказательство поддерживает кандидата на ответ в качестве ответа на заданный вопросDeepQA использует общий формат для оценок для принятых гипотез и подтверждающих оценок отражающих семантические и ограничивающие факторы Это позволяет разработчикам DeepQA быстро разворачивать перемешивать и настраивать сложные совокупности модуле для обработкиНапрмер Watson использует больше чем 50 скоринговых компонент Они производят оценки разноготипа от оценок вероятностей до подсчета категориальных свойств основанных на доказательствах от различных источников включая неструктурированные тексты полуструктурированные тексты и RDF хранилища Эти оценки используют такие данные как degree of match between a passagersquos predicate-argument structure and the question passage source reliability geospatial location temporal relationships taxonomic classification the lexical and semantic relations the candidate is known to participate in the candidatersquos correlation with question terms its popularity (or obscurity) its aliases and so on

Вопрос Чили имеет самую длинную общую границу со страной Сгенерировано несколько кандидатов среди них Аргентина и Боливия Первичный поиск даст приоритет Боливии из=а популярности обсуждений их отношений Однако собранные Watson доказательства из других источников показывают более высокую оценку для Аргентины

Скоринг (взвешивание) доказательств ndash предиктивная аналитика

- При делении клеток митозом называется деление ядра а цитокинезом ndash деление этой жидкости в которой находится ядро

Генерирование кандидатов Сбор доказательств Уверенность в доказательстве

ОрганеллыВакуольЦитоплазмаПлазмамитохондрии

Органеллы ndash не жидкостьВакуоль ndash не жидкостьЦитоплазма ndash возможно жидкостьПлазма ndash не жидкостьМитохондрии ndash не жидкость

Цитоплазма ndash 92Органеллы ndash 19Вакуоль ndash 10Плазма ndash 2Митохондрии ndash 2

Answer Merging ndash объединение ответов

Многие кандидаты в ответы на поставленный вопрос могут быть эквивалентны несмотря на различные внешне формыТехники ранжирования тем не менее рассматривают таких кандидатов как различные Без объединения алгоритмы ранжирования будут работать отдельно с эквивалентными сущностями и пытаться противопоставить одну форму другой Это приведет к проблемам принятия решений Watson содержит алгоритмы идентификации эквивалентных сущностей используя множественные сравнения нормализацию и методы разрешения совместных ссылок

Ranking and Confidence Estimation ndash ранжирование и оценивание доверияПосле объединения система должна произвести ранжирование гипотез и оценивает доверие основанное на объединенных оценках В системе подобран ML подход основанный на обучении на обучающем наборе вопросов с известными ответами и обучение модели основываясь на скоринге Применяется как весьма плоская модель и существующие алгоритмы ранжирования Для более тонких оценок применяется двухфазный процесс использующий группы оценок для оценивания профиля и для оценки доверия Используя эту промежуточную модель система производит ансамбль промежуточных оценок Здесь используется иерархическая техника метаучителя и коллектива экспертов Этот подход обеспечивает итеративное расширение обучения используя изощренные и глубокие иерархические модели обеспечивающие гибкость и робастность при выработке оценок и модифицирует системуМетаучитель в Watson использует набор многие обучаемые модели чтобы управлять различными классами вопросов которые могут быть критическими при идентификации правильных ответовНаконец важно что использование NLP-based скоринга дает весьма разреженные оценки и требует точного оценивания с применением confidence-weighted learning techniques

Развертывание Watson

bull DeepQA разработан используя Apache UIMA - framework implementation of the Unstructured Information Management Architecture (Ferrucci and Lally 2004) UIMA был разработан для поддержки взаимодействия и масштабирования приложений обработки текста и мультимодального анализа Все компоненты DeepQA имплементированы как UIMA annotators Это программные компоненты для анализа текста и получения аннотаций или заключений о тексте Watson развивался в процессе разработки от нескольких компонент до нескольких сотен UIMA обеспечивает быструю интеграцию компонент тестирование и исследование

bull Начальная имплементация Watson запускалась на одном процессоре и требовала 2 часа на ответ на один вопрос DeepQA развился в параллельную систему используя UIMA-AS часть Apache UIMA масштабируя приложения UIMA используя асинхронный механизм месседжинга UIMA-AS позволила масштабировать Watson более чем на 2500 вычислительных ядер UIMA-AS управляет коммуникациями месседжингом управлением запросами используя open JMS standard UIMA-AS позволил снизить латентность Watson до 3ndash5 секунд

bull Для препроцессинга корпуса текстов создания быстрых run-time indices использован Hadoop

UIMA annotators были развернуты как mapper ы в Hadoop map-reduce framework Hadoop распределяет контент по кластеру для обеспечения высокого использования CPU и обеспечивает подходящий набор инструментов для deploying managing and monitoring the corpus analysis process

bull Аппаратная платформа ndash это 90 серверов 2800 ядер 15 ТБ RAM 80 Тфлопс $3 000 000 10 R

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 59: !Predictive analytics part_3

bull Relation Detection ndash детектирование отношений

Большинство вопросов содержит отношения являются ли они синтаксическими предикатами субъект-глагол-объект или семантические отношения между субъектами Например в вопросе laquoЕсть два штата в которые вы могли бы войти повторно если вы пересекаете северную границу штата Флоридаraquo мы можем обнаружить отношение границы (Флорида Х к северу) Watson использует обнаружение отношения на протяжении всего процесса QA от фокуса и LAT определения до прохождению и скорингу ответов Watson также может использовать обнаруженные отношения для выделения хранилища триплетов и напрямую генерировать кандидатов в ответы В 20000 игр Jeopardy вопросы например обнаружили распределение Freebase отношений чрезвычайно плоского вида (см рисунок) Это приближение распределеня 50 наиболее частых отношений в 20 000 случайно выбранных вопросах викторины

bull Decomposition ndash декомпозиция

Важным требованием успеха анализа Jeopardy является способность отвечать на вопросы которые разложены на составляющие DeepQA использует основанный на правилах глубокий парсинг и статистические методы классификации чтобы наилучшим образом разложить вопросы на элементы и определить как лучше разбить их на подвопросы Операционная гипотеза что правильная интерпретация вопроса позволит лучше произвести скоринг ответов после того как все доказательства собраны Даже если вопрос не должен быть разложен для определения ответа этот метод может помочь улучшить общее доверие ответу системы DeepQA решает задачи параллельно для каждого разложения применяя алгоритмы от начала до конца каждого подвопроса и синтезирует окончательные ответы DeepQA также поддерживает вложенные декомпозиции вопросов через рекурсивное применение QA системы от начала до конца в внутреннем подвопросе а затем во внешнем Настраиваемые компоненты позволяют легко подключать специализированные алгоритмы синтеза в общую систему

bull Hypothesis Generation ndash генерация гипотез

Генерация гипотез принимает результаты анализа вопросов и производит кандидатов на ответы Каждый кандидат ответ включается обратно в вопрос и это считается как гипотеза Система должна доказать правильность этой гипотезы с некоторой степенью уверенности Как и во всех аспектах DeepQA используется смесь разных подходов для первичного поиска и генерации кандидата в системе Watson

bull Primary Search ndash первичный поиск

В этом поиске целью является найти столько потенциально кандидатов сколько это можно сделать на основе результатов анализа вопроса В течение проекта велись эмпирические исследования направленные на баланс скорости объема и точности Эти исследования позволили регулярно настраивать систему так чтобы найти такое количество кандидатов которые производят наилучший баланс точности и вычислительных ресурсов Оперативная цель основного поиска в конечном счете стабилизировалась на около 85 процентов для топ-250 кандидатов то есть система генерирует правильный ответ как кандидата ответа на 85 процентов вопросов где-то в верхних 250 ранжированных кандидатов Разнообразие методов поиска используются в том числе с использованием нескольких текст поисковых системах с различными базовыми подходами (например Indri и Lucene) поиск документов а также поиска маршрута база знаний поиска с помощью SPARQL хранилища триплетов Для небольшого количества латов которые были определены как закрытые латы кандидат на ответ может быть получен из фиксированного списка в каком-то хранилище известных экземпляров LAT таких как США Президент или Страна

Поиск доказательств

bull Поиск по фразе ndash число соответствий разного типав ответе и вопросеbull Популярность ndash как часто встречается этот вариант ответаbull Соответствие по типу ndash ответ и требование вопросаbull Соответствие по времениbull Надежность источника

bull Candidate Answer Generation ndash генерирование кандидатов на ответ

Результаты поиска применяются для генерирования возможных кандидатов в ответы с помощью различных подходящих техник Для поиска документов извлекаются заголовки и используются как кандидаты Число кандидатов при этом может быть не единственным и требовать использования анализа подстрок и ссылок Используя детектирование именованных сущностей в ряде случаев удается извлечь хороших кандидатов В зависимости от типа источника для генерирования кандидата требуется разный набор алгоритмов например база знаний или обратный словарь порождают кандидатов непосредственно как кандидата Этот этап критически важен и если кандидаты не найдены то фиксируется невозможность ответа В нормальном режиме на этом этапе Watson гененерирует несколько сотен андидатов

bull Soft Filtering ndash мягкая фильтрацияДля ускорения процесса скоринга кандидатов Watson использует различные алгоритмы разной точности Более легковесные (менее вычислительно интенсивные) применяются на первом этапе скоринга На этом этапе устанавливается порог оценки и кандидаты имеющие более высокую оценку считаются прошедшими мягкую фильтрацию Они поступают на выработку гипотез и скоринг доказательств Интересно что кандидаты не прошедшие порог мягкой фильтрации не забываются а направляются прямо на финальный этап слияния Модель скоринга мягкой фильтрации и порога определяются на основе machine learning используя обучающие данные Watson типично пропускает через мягкую фильтрацию 100 кандидатов но эта функция параметризована и их число можно изменить

Проблемы NLP

bull В мае 1898 года Португалия отмечала 400-летний юбилей со дня прибытия этого великого путешественника в Индию

В мае Гари прибыл в Индию после празднования своего юбилея в Португалии

21 мая 1498 года Васка де Гама высадился в местечке Каппад

bull Он был помилован президентом 8 сентября 1974 годаФорд помиловал Никсона 8 сентября 1974 года Никсон Форд

bull Говоря ldquogive a trinklerdquo что предлагают вам сделать британцы по приезду в город

bull Hypothesis and Evidence Scoring ndash скоринг гипотез и доказательств

Прошедшие порог мягкой фильтрации кандидаты поступают на скрупулезный процесс который включает сбор дополнительных поддерживающих доказательств для каждого кандидата на ответ или гипотезу Процесс использует широкий набор различных методов скоринговой аналитики чтобы исследовать все поддерживающие доказательства

bull Evidence Retrieval ndash извлечение доказательств

Чтобы лучше исследовать каждого кандидата прошедшего через мягкую фильтрацию система собирает дополнительные поддерживающие доказательства Архитектура поддерживает интеграцию различных evidence-gathering техник Один из применяемых способов состоит в том что проводится дополнительный поиск в котором кандидат добавляется в качестве required term к первичному запросу извлеченному из вопроса Это будет приводить к получению выражений содержащих кандидата в контексте первичных терминов вопросаПоддерживающие доказательства могут быть извлечены и из других источников например из RDF баз знаний Извлеченные поддерживающие доказательства направляются модули глубокого скоринга которые анализируют кандидата в контексте поддерживающего доказательства

bull Scoring ndash скоринг (количественное оценивание)

Алгоритмы скоринга определяют степень несомненности которую обеспечивают доказательства в поддержку кандидата The DeepQA framework поддерживает множество компонент для выработки оценки в различных измерениях каждого доказательства которая вырабатывает оценку связанную с тем насколько хорошо доказательство поддерживает кандидата на ответ в качестве ответа на заданный вопросDeepQA использует общий формат для оценок для принятых гипотез и подтверждающих оценок отражающих семантические и ограничивающие факторы Это позволяет разработчикам DeepQA быстро разворачивать перемешивать и настраивать сложные совокупности модуле для обработкиНапрмер Watson использует больше чем 50 скоринговых компонент Они производят оценки разноготипа от оценок вероятностей до подсчета категориальных свойств основанных на доказательствах от различных источников включая неструктурированные тексты полуструктурированные тексты и RDF хранилища Эти оценки используют такие данные как degree of match between a passagersquos predicate-argument structure and the question passage source reliability geospatial location temporal relationships taxonomic classification the lexical and semantic relations the candidate is known to participate in the candidatersquos correlation with question terms its popularity (or obscurity) its aliases and so on

Вопрос Чили имеет самую длинную общую границу со страной Сгенерировано несколько кандидатов среди них Аргентина и Боливия Первичный поиск даст приоритет Боливии из=а популярности обсуждений их отношений Однако собранные Watson доказательства из других источников показывают более высокую оценку для Аргентины

Скоринг (взвешивание) доказательств ndash предиктивная аналитика

- При делении клеток митозом называется деление ядра а цитокинезом ndash деление этой жидкости в которой находится ядро

Генерирование кандидатов Сбор доказательств Уверенность в доказательстве

ОрганеллыВакуольЦитоплазмаПлазмамитохондрии

Органеллы ndash не жидкостьВакуоль ndash не жидкостьЦитоплазма ndash возможно жидкостьПлазма ndash не жидкостьМитохондрии ndash не жидкость

Цитоплазма ndash 92Органеллы ndash 19Вакуоль ndash 10Плазма ndash 2Митохондрии ndash 2

Answer Merging ndash объединение ответов

Многие кандидаты в ответы на поставленный вопрос могут быть эквивалентны несмотря на различные внешне формыТехники ранжирования тем не менее рассматривают таких кандидатов как различные Без объединения алгоритмы ранжирования будут работать отдельно с эквивалентными сущностями и пытаться противопоставить одну форму другой Это приведет к проблемам принятия решений Watson содержит алгоритмы идентификации эквивалентных сущностей используя множественные сравнения нормализацию и методы разрешения совместных ссылок

Ranking and Confidence Estimation ndash ранжирование и оценивание доверияПосле объединения система должна произвести ранжирование гипотез и оценивает доверие основанное на объединенных оценках В системе подобран ML подход основанный на обучении на обучающем наборе вопросов с известными ответами и обучение модели основываясь на скоринге Применяется как весьма плоская модель и существующие алгоритмы ранжирования Для более тонких оценок применяется двухфазный процесс использующий группы оценок для оценивания профиля и для оценки доверия Используя эту промежуточную модель система производит ансамбль промежуточных оценок Здесь используется иерархическая техника метаучителя и коллектива экспертов Этот подход обеспечивает итеративное расширение обучения используя изощренные и глубокие иерархические модели обеспечивающие гибкость и робастность при выработке оценок и модифицирует системуМетаучитель в Watson использует набор многие обучаемые модели чтобы управлять различными классами вопросов которые могут быть критическими при идентификации правильных ответовНаконец важно что использование NLP-based скоринга дает весьма разреженные оценки и требует точного оценивания с применением confidence-weighted learning techniques

Развертывание Watson

bull DeepQA разработан используя Apache UIMA - framework implementation of the Unstructured Information Management Architecture (Ferrucci and Lally 2004) UIMA был разработан для поддержки взаимодействия и масштабирования приложений обработки текста и мультимодального анализа Все компоненты DeepQA имплементированы как UIMA annotators Это программные компоненты для анализа текста и получения аннотаций или заключений о тексте Watson развивался в процессе разработки от нескольких компонент до нескольких сотен UIMA обеспечивает быструю интеграцию компонент тестирование и исследование

bull Начальная имплементация Watson запускалась на одном процессоре и требовала 2 часа на ответ на один вопрос DeepQA развился в параллельную систему используя UIMA-AS часть Apache UIMA масштабируя приложения UIMA используя асинхронный механизм месседжинга UIMA-AS позволила масштабировать Watson более чем на 2500 вычислительных ядер UIMA-AS управляет коммуникациями месседжингом управлением запросами используя open JMS standard UIMA-AS позволил снизить латентность Watson до 3ndash5 секунд

bull Для препроцессинга корпуса текстов создания быстрых run-time indices использован Hadoop

UIMA annotators были развернуты как mapper ы в Hadoop map-reduce framework Hadoop распределяет контент по кластеру для обеспечения высокого использования CPU и обеспечивает подходящий набор инструментов для deploying managing and monitoring the corpus analysis process

bull Аппаратная платформа ndash это 90 серверов 2800 ядер 15 ТБ RAM 80 Тфлопс $3 000 000 10 R

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 60: !Predictive analytics part_3

bull Hypothesis Generation ndash генерация гипотез

Генерация гипотез принимает результаты анализа вопросов и производит кандидатов на ответы Каждый кандидат ответ включается обратно в вопрос и это считается как гипотеза Система должна доказать правильность этой гипотезы с некоторой степенью уверенности Как и во всех аспектах DeepQA используется смесь разных подходов для первичного поиска и генерации кандидата в системе Watson

bull Primary Search ndash первичный поиск

В этом поиске целью является найти столько потенциально кандидатов сколько это можно сделать на основе результатов анализа вопроса В течение проекта велись эмпирические исследования направленные на баланс скорости объема и точности Эти исследования позволили регулярно настраивать систему так чтобы найти такое количество кандидатов которые производят наилучший баланс точности и вычислительных ресурсов Оперативная цель основного поиска в конечном счете стабилизировалась на около 85 процентов для топ-250 кандидатов то есть система генерирует правильный ответ как кандидата ответа на 85 процентов вопросов где-то в верхних 250 ранжированных кандидатов Разнообразие методов поиска используются в том числе с использованием нескольких текст поисковых системах с различными базовыми подходами (например Indri и Lucene) поиск документов а также поиска маршрута база знаний поиска с помощью SPARQL хранилища триплетов Для небольшого количества латов которые были определены как закрытые латы кандидат на ответ может быть получен из фиксированного списка в каком-то хранилище известных экземпляров LAT таких как США Президент или Страна

Поиск доказательств

bull Поиск по фразе ndash число соответствий разного типав ответе и вопросеbull Популярность ndash как часто встречается этот вариант ответаbull Соответствие по типу ndash ответ и требование вопросаbull Соответствие по времениbull Надежность источника

bull Candidate Answer Generation ndash генерирование кандидатов на ответ

Результаты поиска применяются для генерирования возможных кандидатов в ответы с помощью различных подходящих техник Для поиска документов извлекаются заголовки и используются как кандидаты Число кандидатов при этом может быть не единственным и требовать использования анализа подстрок и ссылок Используя детектирование именованных сущностей в ряде случаев удается извлечь хороших кандидатов В зависимости от типа источника для генерирования кандидата требуется разный набор алгоритмов например база знаний или обратный словарь порождают кандидатов непосредственно как кандидата Этот этап критически важен и если кандидаты не найдены то фиксируется невозможность ответа В нормальном режиме на этом этапе Watson гененерирует несколько сотен андидатов

bull Soft Filtering ndash мягкая фильтрацияДля ускорения процесса скоринга кандидатов Watson использует различные алгоритмы разной точности Более легковесные (менее вычислительно интенсивные) применяются на первом этапе скоринга На этом этапе устанавливается порог оценки и кандидаты имеющие более высокую оценку считаются прошедшими мягкую фильтрацию Они поступают на выработку гипотез и скоринг доказательств Интересно что кандидаты не прошедшие порог мягкой фильтрации не забываются а направляются прямо на финальный этап слияния Модель скоринга мягкой фильтрации и порога определяются на основе machine learning используя обучающие данные Watson типично пропускает через мягкую фильтрацию 100 кандидатов но эта функция параметризована и их число можно изменить

Проблемы NLP

bull В мае 1898 года Португалия отмечала 400-летний юбилей со дня прибытия этого великого путешественника в Индию

В мае Гари прибыл в Индию после празднования своего юбилея в Португалии

21 мая 1498 года Васка де Гама высадился в местечке Каппад

bull Он был помилован президентом 8 сентября 1974 годаФорд помиловал Никсона 8 сентября 1974 года Никсон Форд

bull Говоря ldquogive a trinklerdquo что предлагают вам сделать британцы по приезду в город

bull Hypothesis and Evidence Scoring ndash скоринг гипотез и доказательств

Прошедшие порог мягкой фильтрации кандидаты поступают на скрупулезный процесс который включает сбор дополнительных поддерживающих доказательств для каждого кандидата на ответ или гипотезу Процесс использует широкий набор различных методов скоринговой аналитики чтобы исследовать все поддерживающие доказательства

bull Evidence Retrieval ndash извлечение доказательств

Чтобы лучше исследовать каждого кандидата прошедшего через мягкую фильтрацию система собирает дополнительные поддерживающие доказательства Архитектура поддерживает интеграцию различных evidence-gathering техник Один из применяемых способов состоит в том что проводится дополнительный поиск в котором кандидат добавляется в качестве required term к первичному запросу извлеченному из вопроса Это будет приводить к получению выражений содержащих кандидата в контексте первичных терминов вопросаПоддерживающие доказательства могут быть извлечены и из других источников например из RDF баз знаний Извлеченные поддерживающие доказательства направляются модули глубокого скоринга которые анализируют кандидата в контексте поддерживающего доказательства

bull Scoring ndash скоринг (количественное оценивание)

Алгоритмы скоринга определяют степень несомненности которую обеспечивают доказательства в поддержку кандидата The DeepQA framework поддерживает множество компонент для выработки оценки в различных измерениях каждого доказательства которая вырабатывает оценку связанную с тем насколько хорошо доказательство поддерживает кандидата на ответ в качестве ответа на заданный вопросDeepQA использует общий формат для оценок для принятых гипотез и подтверждающих оценок отражающих семантические и ограничивающие факторы Это позволяет разработчикам DeepQA быстро разворачивать перемешивать и настраивать сложные совокупности модуле для обработкиНапрмер Watson использует больше чем 50 скоринговых компонент Они производят оценки разноготипа от оценок вероятностей до подсчета категориальных свойств основанных на доказательствах от различных источников включая неструктурированные тексты полуструктурированные тексты и RDF хранилища Эти оценки используют такие данные как degree of match between a passagersquos predicate-argument structure and the question passage source reliability geospatial location temporal relationships taxonomic classification the lexical and semantic relations the candidate is known to participate in the candidatersquos correlation with question terms its popularity (or obscurity) its aliases and so on

Вопрос Чили имеет самую длинную общую границу со страной Сгенерировано несколько кандидатов среди них Аргентина и Боливия Первичный поиск даст приоритет Боливии из=а популярности обсуждений их отношений Однако собранные Watson доказательства из других источников показывают более высокую оценку для Аргентины

Скоринг (взвешивание) доказательств ndash предиктивная аналитика

- При делении клеток митозом называется деление ядра а цитокинезом ndash деление этой жидкости в которой находится ядро

Генерирование кандидатов Сбор доказательств Уверенность в доказательстве

ОрганеллыВакуольЦитоплазмаПлазмамитохондрии

Органеллы ndash не жидкостьВакуоль ndash не жидкостьЦитоплазма ndash возможно жидкостьПлазма ndash не жидкостьМитохондрии ndash не жидкость

Цитоплазма ndash 92Органеллы ndash 19Вакуоль ndash 10Плазма ndash 2Митохондрии ndash 2

Answer Merging ndash объединение ответов

Многие кандидаты в ответы на поставленный вопрос могут быть эквивалентны несмотря на различные внешне формыТехники ранжирования тем не менее рассматривают таких кандидатов как различные Без объединения алгоритмы ранжирования будут работать отдельно с эквивалентными сущностями и пытаться противопоставить одну форму другой Это приведет к проблемам принятия решений Watson содержит алгоритмы идентификации эквивалентных сущностей используя множественные сравнения нормализацию и методы разрешения совместных ссылок

Ranking and Confidence Estimation ndash ранжирование и оценивание доверияПосле объединения система должна произвести ранжирование гипотез и оценивает доверие основанное на объединенных оценках В системе подобран ML подход основанный на обучении на обучающем наборе вопросов с известными ответами и обучение модели основываясь на скоринге Применяется как весьма плоская модель и существующие алгоритмы ранжирования Для более тонких оценок применяется двухфазный процесс использующий группы оценок для оценивания профиля и для оценки доверия Используя эту промежуточную модель система производит ансамбль промежуточных оценок Здесь используется иерархическая техника метаучителя и коллектива экспертов Этот подход обеспечивает итеративное расширение обучения используя изощренные и глубокие иерархические модели обеспечивающие гибкость и робастность при выработке оценок и модифицирует системуМетаучитель в Watson использует набор многие обучаемые модели чтобы управлять различными классами вопросов которые могут быть критическими при идентификации правильных ответовНаконец важно что использование NLP-based скоринга дает весьма разреженные оценки и требует точного оценивания с применением confidence-weighted learning techniques

Развертывание Watson

bull DeepQA разработан используя Apache UIMA - framework implementation of the Unstructured Information Management Architecture (Ferrucci and Lally 2004) UIMA был разработан для поддержки взаимодействия и масштабирования приложений обработки текста и мультимодального анализа Все компоненты DeepQA имплементированы как UIMA annotators Это программные компоненты для анализа текста и получения аннотаций или заключений о тексте Watson развивался в процессе разработки от нескольких компонент до нескольких сотен UIMA обеспечивает быструю интеграцию компонент тестирование и исследование

bull Начальная имплементация Watson запускалась на одном процессоре и требовала 2 часа на ответ на один вопрос DeepQA развился в параллельную систему используя UIMA-AS часть Apache UIMA масштабируя приложения UIMA используя асинхронный механизм месседжинга UIMA-AS позволила масштабировать Watson более чем на 2500 вычислительных ядер UIMA-AS управляет коммуникациями месседжингом управлением запросами используя open JMS standard UIMA-AS позволил снизить латентность Watson до 3ndash5 секунд

bull Для препроцессинга корпуса текстов создания быстрых run-time indices использован Hadoop

UIMA annotators были развернуты как mapper ы в Hadoop map-reduce framework Hadoop распределяет контент по кластеру для обеспечения высокого использования CPU и обеспечивает подходящий набор инструментов для deploying managing and monitoring the corpus analysis process

bull Аппаратная платформа ndash это 90 серверов 2800 ядер 15 ТБ RAM 80 Тфлопс $3 000 000 10 R

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 61: !Predictive analytics part_3

Поиск доказательств

bull Поиск по фразе ndash число соответствий разного типав ответе и вопросеbull Популярность ndash как часто встречается этот вариант ответаbull Соответствие по типу ndash ответ и требование вопросаbull Соответствие по времениbull Надежность источника

bull Candidate Answer Generation ndash генерирование кандидатов на ответ

Результаты поиска применяются для генерирования возможных кандидатов в ответы с помощью различных подходящих техник Для поиска документов извлекаются заголовки и используются как кандидаты Число кандидатов при этом может быть не единственным и требовать использования анализа подстрок и ссылок Используя детектирование именованных сущностей в ряде случаев удается извлечь хороших кандидатов В зависимости от типа источника для генерирования кандидата требуется разный набор алгоритмов например база знаний или обратный словарь порождают кандидатов непосредственно как кандидата Этот этап критически важен и если кандидаты не найдены то фиксируется невозможность ответа В нормальном режиме на этом этапе Watson гененерирует несколько сотен андидатов

bull Soft Filtering ndash мягкая фильтрацияДля ускорения процесса скоринга кандидатов Watson использует различные алгоритмы разной точности Более легковесные (менее вычислительно интенсивные) применяются на первом этапе скоринга На этом этапе устанавливается порог оценки и кандидаты имеющие более высокую оценку считаются прошедшими мягкую фильтрацию Они поступают на выработку гипотез и скоринг доказательств Интересно что кандидаты не прошедшие порог мягкой фильтрации не забываются а направляются прямо на финальный этап слияния Модель скоринга мягкой фильтрации и порога определяются на основе machine learning используя обучающие данные Watson типично пропускает через мягкую фильтрацию 100 кандидатов но эта функция параметризована и их число можно изменить

Проблемы NLP

bull В мае 1898 года Португалия отмечала 400-летний юбилей со дня прибытия этого великого путешественника в Индию

В мае Гари прибыл в Индию после празднования своего юбилея в Португалии

21 мая 1498 года Васка де Гама высадился в местечке Каппад

bull Он был помилован президентом 8 сентября 1974 годаФорд помиловал Никсона 8 сентября 1974 года Никсон Форд

bull Говоря ldquogive a trinklerdquo что предлагают вам сделать британцы по приезду в город

bull Hypothesis and Evidence Scoring ndash скоринг гипотез и доказательств

Прошедшие порог мягкой фильтрации кандидаты поступают на скрупулезный процесс который включает сбор дополнительных поддерживающих доказательств для каждого кандидата на ответ или гипотезу Процесс использует широкий набор различных методов скоринговой аналитики чтобы исследовать все поддерживающие доказательства

bull Evidence Retrieval ndash извлечение доказательств

Чтобы лучше исследовать каждого кандидата прошедшего через мягкую фильтрацию система собирает дополнительные поддерживающие доказательства Архитектура поддерживает интеграцию различных evidence-gathering техник Один из применяемых способов состоит в том что проводится дополнительный поиск в котором кандидат добавляется в качестве required term к первичному запросу извлеченному из вопроса Это будет приводить к получению выражений содержащих кандидата в контексте первичных терминов вопросаПоддерживающие доказательства могут быть извлечены и из других источников например из RDF баз знаний Извлеченные поддерживающие доказательства направляются модули глубокого скоринга которые анализируют кандидата в контексте поддерживающего доказательства

bull Scoring ndash скоринг (количественное оценивание)

Алгоритмы скоринга определяют степень несомненности которую обеспечивают доказательства в поддержку кандидата The DeepQA framework поддерживает множество компонент для выработки оценки в различных измерениях каждого доказательства которая вырабатывает оценку связанную с тем насколько хорошо доказательство поддерживает кандидата на ответ в качестве ответа на заданный вопросDeepQA использует общий формат для оценок для принятых гипотез и подтверждающих оценок отражающих семантические и ограничивающие факторы Это позволяет разработчикам DeepQA быстро разворачивать перемешивать и настраивать сложные совокупности модуле для обработкиНапрмер Watson использует больше чем 50 скоринговых компонент Они производят оценки разноготипа от оценок вероятностей до подсчета категориальных свойств основанных на доказательствах от различных источников включая неструктурированные тексты полуструктурированные тексты и RDF хранилища Эти оценки используют такие данные как degree of match between a passagersquos predicate-argument structure and the question passage source reliability geospatial location temporal relationships taxonomic classification the lexical and semantic relations the candidate is known to participate in the candidatersquos correlation with question terms its popularity (or obscurity) its aliases and so on

Вопрос Чили имеет самую длинную общую границу со страной Сгенерировано несколько кандидатов среди них Аргентина и Боливия Первичный поиск даст приоритет Боливии из=а популярности обсуждений их отношений Однако собранные Watson доказательства из других источников показывают более высокую оценку для Аргентины

Скоринг (взвешивание) доказательств ndash предиктивная аналитика

- При делении клеток митозом называется деление ядра а цитокинезом ndash деление этой жидкости в которой находится ядро

Генерирование кандидатов Сбор доказательств Уверенность в доказательстве

ОрганеллыВакуольЦитоплазмаПлазмамитохондрии

Органеллы ndash не жидкостьВакуоль ndash не жидкостьЦитоплазма ndash возможно жидкостьПлазма ndash не жидкостьМитохондрии ndash не жидкость

Цитоплазма ndash 92Органеллы ndash 19Вакуоль ndash 10Плазма ndash 2Митохондрии ndash 2

Answer Merging ndash объединение ответов

Многие кандидаты в ответы на поставленный вопрос могут быть эквивалентны несмотря на различные внешне формыТехники ранжирования тем не менее рассматривают таких кандидатов как различные Без объединения алгоритмы ранжирования будут работать отдельно с эквивалентными сущностями и пытаться противопоставить одну форму другой Это приведет к проблемам принятия решений Watson содержит алгоритмы идентификации эквивалентных сущностей используя множественные сравнения нормализацию и методы разрешения совместных ссылок

Ranking and Confidence Estimation ndash ранжирование и оценивание доверияПосле объединения система должна произвести ранжирование гипотез и оценивает доверие основанное на объединенных оценках В системе подобран ML подход основанный на обучении на обучающем наборе вопросов с известными ответами и обучение модели основываясь на скоринге Применяется как весьма плоская модель и существующие алгоритмы ранжирования Для более тонких оценок применяется двухфазный процесс использующий группы оценок для оценивания профиля и для оценки доверия Используя эту промежуточную модель система производит ансамбль промежуточных оценок Здесь используется иерархическая техника метаучителя и коллектива экспертов Этот подход обеспечивает итеративное расширение обучения используя изощренные и глубокие иерархические модели обеспечивающие гибкость и робастность при выработке оценок и модифицирует системуМетаучитель в Watson использует набор многие обучаемые модели чтобы управлять различными классами вопросов которые могут быть критическими при идентификации правильных ответовНаконец важно что использование NLP-based скоринга дает весьма разреженные оценки и требует точного оценивания с применением confidence-weighted learning techniques

Развертывание Watson

bull DeepQA разработан используя Apache UIMA - framework implementation of the Unstructured Information Management Architecture (Ferrucci and Lally 2004) UIMA был разработан для поддержки взаимодействия и масштабирования приложений обработки текста и мультимодального анализа Все компоненты DeepQA имплементированы как UIMA annotators Это программные компоненты для анализа текста и получения аннотаций или заключений о тексте Watson развивался в процессе разработки от нескольких компонент до нескольких сотен UIMA обеспечивает быструю интеграцию компонент тестирование и исследование

bull Начальная имплементация Watson запускалась на одном процессоре и требовала 2 часа на ответ на один вопрос DeepQA развился в параллельную систему используя UIMA-AS часть Apache UIMA масштабируя приложения UIMA используя асинхронный механизм месседжинга UIMA-AS позволила масштабировать Watson более чем на 2500 вычислительных ядер UIMA-AS управляет коммуникациями месседжингом управлением запросами используя open JMS standard UIMA-AS позволил снизить латентность Watson до 3ndash5 секунд

bull Для препроцессинга корпуса текстов создания быстрых run-time indices использован Hadoop

UIMA annotators были развернуты как mapper ы в Hadoop map-reduce framework Hadoop распределяет контент по кластеру для обеспечения высокого использования CPU и обеспечивает подходящий набор инструментов для deploying managing and monitoring the corpus analysis process

bull Аппаратная платформа ndash это 90 серверов 2800 ядер 15 ТБ RAM 80 Тфлопс $3 000 000 10 R

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 62: !Predictive analytics part_3

bull Candidate Answer Generation ndash генерирование кандидатов на ответ

Результаты поиска применяются для генерирования возможных кандидатов в ответы с помощью различных подходящих техник Для поиска документов извлекаются заголовки и используются как кандидаты Число кандидатов при этом может быть не единственным и требовать использования анализа подстрок и ссылок Используя детектирование именованных сущностей в ряде случаев удается извлечь хороших кандидатов В зависимости от типа источника для генерирования кандидата требуется разный набор алгоритмов например база знаний или обратный словарь порождают кандидатов непосредственно как кандидата Этот этап критически важен и если кандидаты не найдены то фиксируется невозможность ответа В нормальном режиме на этом этапе Watson гененерирует несколько сотен андидатов

bull Soft Filtering ndash мягкая фильтрацияДля ускорения процесса скоринга кандидатов Watson использует различные алгоритмы разной точности Более легковесные (менее вычислительно интенсивные) применяются на первом этапе скоринга На этом этапе устанавливается порог оценки и кандидаты имеющие более высокую оценку считаются прошедшими мягкую фильтрацию Они поступают на выработку гипотез и скоринг доказательств Интересно что кандидаты не прошедшие порог мягкой фильтрации не забываются а направляются прямо на финальный этап слияния Модель скоринга мягкой фильтрации и порога определяются на основе machine learning используя обучающие данные Watson типично пропускает через мягкую фильтрацию 100 кандидатов но эта функция параметризована и их число можно изменить

Проблемы NLP

bull В мае 1898 года Португалия отмечала 400-летний юбилей со дня прибытия этого великого путешественника в Индию

В мае Гари прибыл в Индию после празднования своего юбилея в Португалии

21 мая 1498 года Васка де Гама высадился в местечке Каппад

bull Он был помилован президентом 8 сентября 1974 годаФорд помиловал Никсона 8 сентября 1974 года Никсон Форд

bull Говоря ldquogive a trinklerdquo что предлагают вам сделать британцы по приезду в город

bull Hypothesis and Evidence Scoring ndash скоринг гипотез и доказательств

Прошедшие порог мягкой фильтрации кандидаты поступают на скрупулезный процесс который включает сбор дополнительных поддерживающих доказательств для каждого кандидата на ответ или гипотезу Процесс использует широкий набор различных методов скоринговой аналитики чтобы исследовать все поддерживающие доказательства

bull Evidence Retrieval ndash извлечение доказательств

Чтобы лучше исследовать каждого кандидата прошедшего через мягкую фильтрацию система собирает дополнительные поддерживающие доказательства Архитектура поддерживает интеграцию различных evidence-gathering техник Один из применяемых способов состоит в том что проводится дополнительный поиск в котором кандидат добавляется в качестве required term к первичному запросу извлеченному из вопроса Это будет приводить к получению выражений содержащих кандидата в контексте первичных терминов вопросаПоддерживающие доказательства могут быть извлечены и из других источников например из RDF баз знаний Извлеченные поддерживающие доказательства направляются модули глубокого скоринга которые анализируют кандидата в контексте поддерживающего доказательства

bull Scoring ndash скоринг (количественное оценивание)

Алгоритмы скоринга определяют степень несомненности которую обеспечивают доказательства в поддержку кандидата The DeepQA framework поддерживает множество компонент для выработки оценки в различных измерениях каждого доказательства которая вырабатывает оценку связанную с тем насколько хорошо доказательство поддерживает кандидата на ответ в качестве ответа на заданный вопросDeepQA использует общий формат для оценок для принятых гипотез и подтверждающих оценок отражающих семантические и ограничивающие факторы Это позволяет разработчикам DeepQA быстро разворачивать перемешивать и настраивать сложные совокупности модуле для обработкиНапрмер Watson использует больше чем 50 скоринговых компонент Они производят оценки разноготипа от оценок вероятностей до подсчета категориальных свойств основанных на доказательствах от различных источников включая неструктурированные тексты полуструктурированные тексты и RDF хранилища Эти оценки используют такие данные как degree of match between a passagersquos predicate-argument structure and the question passage source reliability geospatial location temporal relationships taxonomic classification the lexical and semantic relations the candidate is known to participate in the candidatersquos correlation with question terms its popularity (or obscurity) its aliases and so on

Вопрос Чили имеет самую длинную общую границу со страной Сгенерировано несколько кандидатов среди них Аргентина и Боливия Первичный поиск даст приоритет Боливии из=а популярности обсуждений их отношений Однако собранные Watson доказательства из других источников показывают более высокую оценку для Аргентины

Скоринг (взвешивание) доказательств ndash предиктивная аналитика

- При делении клеток митозом называется деление ядра а цитокинезом ndash деление этой жидкости в которой находится ядро

Генерирование кандидатов Сбор доказательств Уверенность в доказательстве

ОрганеллыВакуольЦитоплазмаПлазмамитохондрии

Органеллы ndash не жидкостьВакуоль ndash не жидкостьЦитоплазма ndash возможно жидкостьПлазма ndash не жидкостьМитохондрии ndash не жидкость

Цитоплазма ndash 92Органеллы ndash 19Вакуоль ndash 10Плазма ndash 2Митохондрии ndash 2

Answer Merging ndash объединение ответов

Многие кандидаты в ответы на поставленный вопрос могут быть эквивалентны несмотря на различные внешне формыТехники ранжирования тем не менее рассматривают таких кандидатов как различные Без объединения алгоритмы ранжирования будут работать отдельно с эквивалентными сущностями и пытаться противопоставить одну форму другой Это приведет к проблемам принятия решений Watson содержит алгоритмы идентификации эквивалентных сущностей используя множественные сравнения нормализацию и методы разрешения совместных ссылок

Ranking and Confidence Estimation ndash ранжирование и оценивание доверияПосле объединения система должна произвести ранжирование гипотез и оценивает доверие основанное на объединенных оценках В системе подобран ML подход основанный на обучении на обучающем наборе вопросов с известными ответами и обучение модели основываясь на скоринге Применяется как весьма плоская модель и существующие алгоритмы ранжирования Для более тонких оценок применяется двухфазный процесс использующий группы оценок для оценивания профиля и для оценки доверия Используя эту промежуточную модель система производит ансамбль промежуточных оценок Здесь используется иерархическая техника метаучителя и коллектива экспертов Этот подход обеспечивает итеративное расширение обучения используя изощренные и глубокие иерархические модели обеспечивающие гибкость и робастность при выработке оценок и модифицирует системуМетаучитель в Watson использует набор многие обучаемые модели чтобы управлять различными классами вопросов которые могут быть критическими при идентификации правильных ответовНаконец важно что использование NLP-based скоринга дает весьма разреженные оценки и требует точного оценивания с применением confidence-weighted learning techniques

Развертывание Watson

bull DeepQA разработан используя Apache UIMA - framework implementation of the Unstructured Information Management Architecture (Ferrucci and Lally 2004) UIMA был разработан для поддержки взаимодействия и масштабирования приложений обработки текста и мультимодального анализа Все компоненты DeepQA имплементированы как UIMA annotators Это программные компоненты для анализа текста и получения аннотаций или заключений о тексте Watson развивался в процессе разработки от нескольких компонент до нескольких сотен UIMA обеспечивает быструю интеграцию компонент тестирование и исследование

bull Начальная имплементация Watson запускалась на одном процессоре и требовала 2 часа на ответ на один вопрос DeepQA развился в параллельную систему используя UIMA-AS часть Apache UIMA масштабируя приложения UIMA используя асинхронный механизм месседжинга UIMA-AS позволила масштабировать Watson более чем на 2500 вычислительных ядер UIMA-AS управляет коммуникациями месседжингом управлением запросами используя open JMS standard UIMA-AS позволил снизить латентность Watson до 3ndash5 секунд

bull Для препроцессинга корпуса текстов создания быстрых run-time indices использован Hadoop

UIMA annotators были развернуты как mapper ы в Hadoop map-reduce framework Hadoop распределяет контент по кластеру для обеспечения высокого использования CPU и обеспечивает подходящий набор инструментов для deploying managing and monitoring the corpus analysis process

bull Аппаратная платформа ndash это 90 серверов 2800 ядер 15 ТБ RAM 80 Тфлопс $3 000 000 10 R

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 63: !Predictive analytics part_3

Проблемы NLP

bull В мае 1898 года Португалия отмечала 400-летний юбилей со дня прибытия этого великого путешественника в Индию

В мае Гари прибыл в Индию после празднования своего юбилея в Португалии

21 мая 1498 года Васка де Гама высадился в местечке Каппад

bull Он был помилован президентом 8 сентября 1974 годаФорд помиловал Никсона 8 сентября 1974 года Никсон Форд

bull Говоря ldquogive a trinklerdquo что предлагают вам сделать британцы по приезду в город

bull Hypothesis and Evidence Scoring ndash скоринг гипотез и доказательств

Прошедшие порог мягкой фильтрации кандидаты поступают на скрупулезный процесс который включает сбор дополнительных поддерживающих доказательств для каждого кандидата на ответ или гипотезу Процесс использует широкий набор различных методов скоринговой аналитики чтобы исследовать все поддерживающие доказательства

bull Evidence Retrieval ndash извлечение доказательств

Чтобы лучше исследовать каждого кандидата прошедшего через мягкую фильтрацию система собирает дополнительные поддерживающие доказательства Архитектура поддерживает интеграцию различных evidence-gathering техник Один из применяемых способов состоит в том что проводится дополнительный поиск в котором кандидат добавляется в качестве required term к первичному запросу извлеченному из вопроса Это будет приводить к получению выражений содержащих кандидата в контексте первичных терминов вопросаПоддерживающие доказательства могут быть извлечены и из других источников например из RDF баз знаний Извлеченные поддерживающие доказательства направляются модули глубокого скоринга которые анализируют кандидата в контексте поддерживающего доказательства

bull Scoring ndash скоринг (количественное оценивание)

Алгоритмы скоринга определяют степень несомненности которую обеспечивают доказательства в поддержку кандидата The DeepQA framework поддерживает множество компонент для выработки оценки в различных измерениях каждого доказательства которая вырабатывает оценку связанную с тем насколько хорошо доказательство поддерживает кандидата на ответ в качестве ответа на заданный вопросDeepQA использует общий формат для оценок для принятых гипотез и подтверждающих оценок отражающих семантические и ограничивающие факторы Это позволяет разработчикам DeepQA быстро разворачивать перемешивать и настраивать сложные совокупности модуле для обработкиНапрмер Watson использует больше чем 50 скоринговых компонент Они производят оценки разноготипа от оценок вероятностей до подсчета категориальных свойств основанных на доказательствах от различных источников включая неструктурированные тексты полуструктурированные тексты и RDF хранилища Эти оценки используют такие данные как degree of match between a passagersquos predicate-argument structure and the question passage source reliability geospatial location temporal relationships taxonomic classification the lexical and semantic relations the candidate is known to participate in the candidatersquos correlation with question terms its popularity (or obscurity) its aliases and so on

Вопрос Чили имеет самую длинную общую границу со страной Сгенерировано несколько кандидатов среди них Аргентина и Боливия Первичный поиск даст приоритет Боливии из=а популярности обсуждений их отношений Однако собранные Watson доказательства из других источников показывают более высокую оценку для Аргентины

Скоринг (взвешивание) доказательств ndash предиктивная аналитика

- При делении клеток митозом называется деление ядра а цитокинезом ndash деление этой жидкости в которой находится ядро

Генерирование кандидатов Сбор доказательств Уверенность в доказательстве

ОрганеллыВакуольЦитоплазмаПлазмамитохондрии

Органеллы ndash не жидкостьВакуоль ndash не жидкостьЦитоплазма ndash возможно жидкостьПлазма ndash не жидкостьМитохондрии ndash не жидкость

Цитоплазма ndash 92Органеллы ndash 19Вакуоль ndash 10Плазма ndash 2Митохондрии ndash 2

Answer Merging ndash объединение ответов

Многие кандидаты в ответы на поставленный вопрос могут быть эквивалентны несмотря на различные внешне формыТехники ранжирования тем не менее рассматривают таких кандидатов как различные Без объединения алгоритмы ранжирования будут работать отдельно с эквивалентными сущностями и пытаться противопоставить одну форму другой Это приведет к проблемам принятия решений Watson содержит алгоритмы идентификации эквивалентных сущностей используя множественные сравнения нормализацию и методы разрешения совместных ссылок

Ranking and Confidence Estimation ndash ранжирование и оценивание доверияПосле объединения система должна произвести ранжирование гипотез и оценивает доверие основанное на объединенных оценках В системе подобран ML подход основанный на обучении на обучающем наборе вопросов с известными ответами и обучение модели основываясь на скоринге Применяется как весьма плоская модель и существующие алгоритмы ранжирования Для более тонких оценок применяется двухфазный процесс использующий группы оценок для оценивания профиля и для оценки доверия Используя эту промежуточную модель система производит ансамбль промежуточных оценок Здесь используется иерархическая техника метаучителя и коллектива экспертов Этот подход обеспечивает итеративное расширение обучения используя изощренные и глубокие иерархические модели обеспечивающие гибкость и робастность при выработке оценок и модифицирует системуМетаучитель в Watson использует набор многие обучаемые модели чтобы управлять различными классами вопросов которые могут быть критическими при идентификации правильных ответовНаконец важно что использование NLP-based скоринга дает весьма разреженные оценки и требует точного оценивания с применением confidence-weighted learning techniques

Развертывание Watson

bull DeepQA разработан используя Apache UIMA - framework implementation of the Unstructured Information Management Architecture (Ferrucci and Lally 2004) UIMA был разработан для поддержки взаимодействия и масштабирования приложений обработки текста и мультимодального анализа Все компоненты DeepQA имплементированы как UIMA annotators Это программные компоненты для анализа текста и получения аннотаций или заключений о тексте Watson развивался в процессе разработки от нескольких компонент до нескольких сотен UIMA обеспечивает быструю интеграцию компонент тестирование и исследование

bull Начальная имплементация Watson запускалась на одном процессоре и требовала 2 часа на ответ на один вопрос DeepQA развился в параллельную систему используя UIMA-AS часть Apache UIMA масштабируя приложения UIMA используя асинхронный механизм месседжинга UIMA-AS позволила масштабировать Watson более чем на 2500 вычислительных ядер UIMA-AS управляет коммуникациями месседжингом управлением запросами используя open JMS standard UIMA-AS позволил снизить латентность Watson до 3ndash5 секунд

bull Для препроцессинга корпуса текстов создания быстрых run-time indices использован Hadoop

UIMA annotators были развернуты как mapper ы в Hadoop map-reduce framework Hadoop распределяет контент по кластеру для обеспечения высокого использования CPU и обеспечивает подходящий набор инструментов для deploying managing and monitoring the corpus analysis process

bull Аппаратная платформа ndash это 90 серверов 2800 ядер 15 ТБ RAM 80 Тфлопс $3 000 000 10 R

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 64: !Predictive analytics part_3

bull Hypothesis and Evidence Scoring ndash скоринг гипотез и доказательств

Прошедшие порог мягкой фильтрации кандидаты поступают на скрупулезный процесс который включает сбор дополнительных поддерживающих доказательств для каждого кандидата на ответ или гипотезу Процесс использует широкий набор различных методов скоринговой аналитики чтобы исследовать все поддерживающие доказательства

bull Evidence Retrieval ndash извлечение доказательств

Чтобы лучше исследовать каждого кандидата прошедшего через мягкую фильтрацию система собирает дополнительные поддерживающие доказательства Архитектура поддерживает интеграцию различных evidence-gathering техник Один из применяемых способов состоит в том что проводится дополнительный поиск в котором кандидат добавляется в качестве required term к первичному запросу извлеченному из вопроса Это будет приводить к получению выражений содержащих кандидата в контексте первичных терминов вопросаПоддерживающие доказательства могут быть извлечены и из других источников например из RDF баз знаний Извлеченные поддерживающие доказательства направляются модули глубокого скоринга которые анализируют кандидата в контексте поддерживающего доказательства

bull Scoring ndash скоринг (количественное оценивание)

Алгоритмы скоринга определяют степень несомненности которую обеспечивают доказательства в поддержку кандидата The DeepQA framework поддерживает множество компонент для выработки оценки в различных измерениях каждого доказательства которая вырабатывает оценку связанную с тем насколько хорошо доказательство поддерживает кандидата на ответ в качестве ответа на заданный вопросDeepQA использует общий формат для оценок для принятых гипотез и подтверждающих оценок отражающих семантические и ограничивающие факторы Это позволяет разработчикам DeepQA быстро разворачивать перемешивать и настраивать сложные совокупности модуле для обработкиНапрмер Watson использует больше чем 50 скоринговых компонент Они производят оценки разноготипа от оценок вероятностей до подсчета категориальных свойств основанных на доказательствах от различных источников включая неструктурированные тексты полуструктурированные тексты и RDF хранилища Эти оценки используют такие данные как degree of match between a passagersquos predicate-argument structure and the question passage source reliability geospatial location temporal relationships taxonomic classification the lexical and semantic relations the candidate is known to participate in the candidatersquos correlation with question terms its popularity (or obscurity) its aliases and so on

Вопрос Чили имеет самую длинную общую границу со страной Сгенерировано несколько кандидатов среди них Аргентина и Боливия Первичный поиск даст приоритет Боливии из=а популярности обсуждений их отношений Однако собранные Watson доказательства из других источников показывают более высокую оценку для Аргентины

Скоринг (взвешивание) доказательств ndash предиктивная аналитика

- При делении клеток митозом называется деление ядра а цитокинезом ndash деление этой жидкости в которой находится ядро

Генерирование кандидатов Сбор доказательств Уверенность в доказательстве

ОрганеллыВакуольЦитоплазмаПлазмамитохондрии

Органеллы ndash не жидкостьВакуоль ndash не жидкостьЦитоплазма ndash возможно жидкостьПлазма ndash не жидкостьМитохондрии ndash не жидкость

Цитоплазма ndash 92Органеллы ndash 19Вакуоль ndash 10Плазма ndash 2Митохондрии ndash 2

Answer Merging ndash объединение ответов

Многие кандидаты в ответы на поставленный вопрос могут быть эквивалентны несмотря на различные внешне формыТехники ранжирования тем не менее рассматривают таких кандидатов как различные Без объединения алгоритмы ранжирования будут работать отдельно с эквивалентными сущностями и пытаться противопоставить одну форму другой Это приведет к проблемам принятия решений Watson содержит алгоритмы идентификации эквивалентных сущностей используя множественные сравнения нормализацию и методы разрешения совместных ссылок

Ranking and Confidence Estimation ndash ранжирование и оценивание доверияПосле объединения система должна произвести ранжирование гипотез и оценивает доверие основанное на объединенных оценках В системе подобран ML подход основанный на обучении на обучающем наборе вопросов с известными ответами и обучение модели основываясь на скоринге Применяется как весьма плоская модель и существующие алгоритмы ранжирования Для более тонких оценок применяется двухфазный процесс использующий группы оценок для оценивания профиля и для оценки доверия Используя эту промежуточную модель система производит ансамбль промежуточных оценок Здесь используется иерархическая техника метаучителя и коллектива экспертов Этот подход обеспечивает итеративное расширение обучения используя изощренные и глубокие иерархические модели обеспечивающие гибкость и робастность при выработке оценок и модифицирует системуМетаучитель в Watson использует набор многие обучаемые модели чтобы управлять различными классами вопросов которые могут быть критическими при идентификации правильных ответовНаконец важно что использование NLP-based скоринга дает весьма разреженные оценки и требует точного оценивания с применением confidence-weighted learning techniques

Развертывание Watson

bull DeepQA разработан используя Apache UIMA - framework implementation of the Unstructured Information Management Architecture (Ferrucci and Lally 2004) UIMA был разработан для поддержки взаимодействия и масштабирования приложений обработки текста и мультимодального анализа Все компоненты DeepQA имплементированы как UIMA annotators Это программные компоненты для анализа текста и получения аннотаций или заключений о тексте Watson развивался в процессе разработки от нескольких компонент до нескольких сотен UIMA обеспечивает быструю интеграцию компонент тестирование и исследование

bull Начальная имплементация Watson запускалась на одном процессоре и требовала 2 часа на ответ на один вопрос DeepQA развился в параллельную систему используя UIMA-AS часть Apache UIMA масштабируя приложения UIMA используя асинхронный механизм месседжинга UIMA-AS позволила масштабировать Watson более чем на 2500 вычислительных ядер UIMA-AS управляет коммуникациями месседжингом управлением запросами используя open JMS standard UIMA-AS позволил снизить латентность Watson до 3ndash5 секунд

bull Для препроцессинга корпуса текстов создания быстрых run-time indices использован Hadoop

UIMA annotators были развернуты как mapper ы в Hadoop map-reduce framework Hadoop распределяет контент по кластеру для обеспечения высокого использования CPU и обеспечивает подходящий набор инструментов для deploying managing and monitoring the corpus analysis process

bull Аппаратная платформа ndash это 90 серверов 2800 ядер 15 ТБ RAM 80 Тфлопс $3 000 000 10 R

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 65: !Predictive analytics part_3

bull Scoring ndash скоринг (количественное оценивание)

Алгоритмы скоринга определяют степень несомненности которую обеспечивают доказательства в поддержку кандидата The DeepQA framework поддерживает множество компонент для выработки оценки в различных измерениях каждого доказательства которая вырабатывает оценку связанную с тем насколько хорошо доказательство поддерживает кандидата на ответ в качестве ответа на заданный вопросDeepQA использует общий формат для оценок для принятых гипотез и подтверждающих оценок отражающих семантические и ограничивающие факторы Это позволяет разработчикам DeepQA быстро разворачивать перемешивать и настраивать сложные совокупности модуле для обработкиНапрмер Watson использует больше чем 50 скоринговых компонент Они производят оценки разноготипа от оценок вероятностей до подсчета категориальных свойств основанных на доказательствах от различных источников включая неструктурированные тексты полуструктурированные тексты и RDF хранилища Эти оценки используют такие данные как degree of match between a passagersquos predicate-argument structure and the question passage source reliability geospatial location temporal relationships taxonomic classification the lexical and semantic relations the candidate is known to participate in the candidatersquos correlation with question terms its popularity (or obscurity) its aliases and so on

Вопрос Чили имеет самую длинную общую границу со страной Сгенерировано несколько кандидатов среди них Аргентина и Боливия Первичный поиск даст приоритет Боливии из=а популярности обсуждений их отношений Однако собранные Watson доказательства из других источников показывают более высокую оценку для Аргентины

Скоринг (взвешивание) доказательств ndash предиктивная аналитика

- При делении клеток митозом называется деление ядра а цитокинезом ndash деление этой жидкости в которой находится ядро

Генерирование кандидатов Сбор доказательств Уверенность в доказательстве

ОрганеллыВакуольЦитоплазмаПлазмамитохондрии

Органеллы ndash не жидкостьВакуоль ndash не жидкостьЦитоплазма ndash возможно жидкостьПлазма ndash не жидкостьМитохондрии ndash не жидкость

Цитоплазма ndash 92Органеллы ndash 19Вакуоль ndash 10Плазма ndash 2Митохондрии ndash 2

Answer Merging ndash объединение ответов

Многие кандидаты в ответы на поставленный вопрос могут быть эквивалентны несмотря на различные внешне формыТехники ранжирования тем не менее рассматривают таких кандидатов как различные Без объединения алгоритмы ранжирования будут работать отдельно с эквивалентными сущностями и пытаться противопоставить одну форму другой Это приведет к проблемам принятия решений Watson содержит алгоритмы идентификации эквивалентных сущностей используя множественные сравнения нормализацию и методы разрешения совместных ссылок

Ranking and Confidence Estimation ndash ранжирование и оценивание доверияПосле объединения система должна произвести ранжирование гипотез и оценивает доверие основанное на объединенных оценках В системе подобран ML подход основанный на обучении на обучающем наборе вопросов с известными ответами и обучение модели основываясь на скоринге Применяется как весьма плоская модель и существующие алгоритмы ранжирования Для более тонких оценок применяется двухфазный процесс использующий группы оценок для оценивания профиля и для оценки доверия Используя эту промежуточную модель система производит ансамбль промежуточных оценок Здесь используется иерархическая техника метаучителя и коллектива экспертов Этот подход обеспечивает итеративное расширение обучения используя изощренные и глубокие иерархические модели обеспечивающие гибкость и робастность при выработке оценок и модифицирует системуМетаучитель в Watson использует набор многие обучаемые модели чтобы управлять различными классами вопросов которые могут быть критическими при идентификации правильных ответовНаконец важно что использование NLP-based скоринга дает весьма разреженные оценки и требует точного оценивания с применением confidence-weighted learning techniques

Развертывание Watson

bull DeepQA разработан используя Apache UIMA - framework implementation of the Unstructured Information Management Architecture (Ferrucci and Lally 2004) UIMA был разработан для поддержки взаимодействия и масштабирования приложений обработки текста и мультимодального анализа Все компоненты DeepQA имплементированы как UIMA annotators Это программные компоненты для анализа текста и получения аннотаций или заключений о тексте Watson развивался в процессе разработки от нескольких компонент до нескольких сотен UIMA обеспечивает быструю интеграцию компонент тестирование и исследование

bull Начальная имплементация Watson запускалась на одном процессоре и требовала 2 часа на ответ на один вопрос DeepQA развился в параллельную систему используя UIMA-AS часть Apache UIMA масштабируя приложения UIMA используя асинхронный механизм месседжинга UIMA-AS позволила масштабировать Watson более чем на 2500 вычислительных ядер UIMA-AS управляет коммуникациями месседжингом управлением запросами используя open JMS standard UIMA-AS позволил снизить латентность Watson до 3ndash5 секунд

bull Для препроцессинга корпуса текстов создания быстрых run-time indices использован Hadoop

UIMA annotators были развернуты как mapper ы в Hadoop map-reduce framework Hadoop распределяет контент по кластеру для обеспечения высокого использования CPU и обеспечивает подходящий набор инструментов для deploying managing and monitoring the corpus analysis process

bull Аппаратная платформа ndash это 90 серверов 2800 ядер 15 ТБ RAM 80 Тфлопс $3 000 000 10 R

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 66: !Predictive analytics part_3

Скоринг (взвешивание) доказательств ndash предиктивная аналитика

- При делении клеток митозом называется деление ядра а цитокинезом ndash деление этой жидкости в которой находится ядро

Генерирование кандидатов Сбор доказательств Уверенность в доказательстве

ОрганеллыВакуольЦитоплазмаПлазмамитохондрии

Органеллы ndash не жидкостьВакуоль ndash не жидкостьЦитоплазма ndash возможно жидкостьПлазма ndash не жидкостьМитохондрии ndash не жидкость

Цитоплазма ndash 92Органеллы ndash 19Вакуоль ndash 10Плазма ndash 2Митохондрии ndash 2

Answer Merging ndash объединение ответов

Многие кандидаты в ответы на поставленный вопрос могут быть эквивалентны несмотря на различные внешне формыТехники ранжирования тем не менее рассматривают таких кандидатов как различные Без объединения алгоритмы ранжирования будут работать отдельно с эквивалентными сущностями и пытаться противопоставить одну форму другой Это приведет к проблемам принятия решений Watson содержит алгоритмы идентификации эквивалентных сущностей используя множественные сравнения нормализацию и методы разрешения совместных ссылок

Ranking and Confidence Estimation ndash ранжирование и оценивание доверияПосле объединения система должна произвести ранжирование гипотез и оценивает доверие основанное на объединенных оценках В системе подобран ML подход основанный на обучении на обучающем наборе вопросов с известными ответами и обучение модели основываясь на скоринге Применяется как весьма плоская модель и существующие алгоритмы ранжирования Для более тонких оценок применяется двухфазный процесс использующий группы оценок для оценивания профиля и для оценки доверия Используя эту промежуточную модель система производит ансамбль промежуточных оценок Здесь используется иерархическая техника метаучителя и коллектива экспертов Этот подход обеспечивает итеративное расширение обучения используя изощренные и глубокие иерархические модели обеспечивающие гибкость и робастность при выработке оценок и модифицирует системуМетаучитель в Watson использует набор многие обучаемые модели чтобы управлять различными классами вопросов которые могут быть критическими при идентификации правильных ответовНаконец важно что использование NLP-based скоринга дает весьма разреженные оценки и требует точного оценивания с применением confidence-weighted learning techniques

Развертывание Watson

bull DeepQA разработан используя Apache UIMA - framework implementation of the Unstructured Information Management Architecture (Ferrucci and Lally 2004) UIMA был разработан для поддержки взаимодействия и масштабирования приложений обработки текста и мультимодального анализа Все компоненты DeepQA имплементированы как UIMA annotators Это программные компоненты для анализа текста и получения аннотаций или заключений о тексте Watson развивался в процессе разработки от нескольких компонент до нескольких сотен UIMA обеспечивает быструю интеграцию компонент тестирование и исследование

bull Начальная имплементация Watson запускалась на одном процессоре и требовала 2 часа на ответ на один вопрос DeepQA развился в параллельную систему используя UIMA-AS часть Apache UIMA масштабируя приложения UIMA используя асинхронный механизм месседжинга UIMA-AS позволила масштабировать Watson более чем на 2500 вычислительных ядер UIMA-AS управляет коммуникациями месседжингом управлением запросами используя open JMS standard UIMA-AS позволил снизить латентность Watson до 3ndash5 секунд

bull Для препроцессинга корпуса текстов создания быстрых run-time indices использован Hadoop

UIMA annotators были развернуты как mapper ы в Hadoop map-reduce framework Hadoop распределяет контент по кластеру для обеспечения высокого использования CPU и обеспечивает подходящий набор инструментов для deploying managing and monitoring the corpus analysis process

bull Аппаратная платформа ndash это 90 серверов 2800 ядер 15 ТБ RAM 80 Тфлопс $3 000 000 10 R

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 67: !Predictive analytics part_3

Answer Merging ndash объединение ответов

Многие кандидаты в ответы на поставленный вопрос могут быть эквивалентны несмотря на различные внешне формыТехники ранжирования тем не менее рассматривают таких кандидатов как различные Без объединения алгоритмы ранжирования будут работать отдельно с эквивалентными сущностями и пытаться противопоставить одну форму другой Это приведет к проблемам принятия решений Watson содержит алгоритмы идентификации эквивалентных сущностей используя множественные сравнения нормализацию и методы разрешения совместных ссылок

Ranking and Confidence Estimation ndash ранжирование и оценивание доверияПосле объединения система должна произвести ранжирование гипотез и оценивает доверие основанное на объединенных оценках В системе подобран ML подход основанный на обучении на обучающем наборе вопросов с известными ответами и обучение модели основываясь на скоринге Применяется как весьма плоская модель и существующие алгоритмы ранжирования Для более тонких оценок применяется двухфазный процесс использующий группы оценок для оценивания профиля и для оценки доверия Используя эту промежуточную модель система производит ансамбль промежуточных оценок Здесь используется иерархическая техника метаучителя и коллектива экспертов Этот подход обеспечивает итеративное расширение обучения используя изощренные и глубокие иерархические модели обеспечивающие гибкость и робастность при выработке оценок и модифицирует системуМетаучитель в Watson использует набор многие обучаемые модели чтобы управлять различными классами вопросов которые могут быть критическими при идентификации правильных ответовНаконец важно что использование NLP-based скоринга дает весьма разреженные оценки и требует точного оценивания с применением confidence-weighted learning techniques

Развертывание Watson

bull DeepQA разработан используя Apache UIMA - framework implementation of the Unstructured Information Management Architecture (Ferrucci and Lally 2004) UIMA был разработан для поддержки взаимодействия и масштабирования приложений обработки текста и мультимодального анализа Все компоненты DeepQA имплементированы как UIMA annotators Это программные компоненты для анализа текста и получения аннотаций или заключений о тексте Watson развивался в процессе разработки от нескольких компонент до нескольких сотен UIMA обеспечивает быструю интеграцию компонент тестирование и исследование

bull Начальная имплементация Watson запускалась на одном процессоре и требовала 2 часа на ответ на один вопрос DeepQA развился в параллельную систему используя UIMA-AS часть Apache UIMA масштабируя приложения UIMA используя асинхронный механизм месседжинга UIMA-AS позволила масштабировать Watson более чем на 2500 вычислительных ядер UIMA-AS управляет коммуникациями месседжингом управлением запросами используя open JMS standard UIMA-AS позволил снизить латентность Watson до 3ndash5 секунд

bull Для препроцессинга корпуса текстов создания быстрых run-time indices использован Hadoop

UIMA annotators были развернуты как mapper ы в Hadoop map-reduce framework Hadoop распределяет контент по кластеру для обеспечения высокого использования CPU и обеспечивает подходящий набор инструментов для deploying managing and monitoring the corpus analysis process

bull Аппаратная платформа ndash это 90 серверов 2800 ядер 15 ТБ RAM 80 Тфлопс $3 000 000 10 R

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 68: !Predictive analytics part_3

Развертывание Watson

bull DeepQA разработан используя Apache UIMA - framework implementation of the Unstructured Information Management Architecture (Ferrucci and Lally 2004) UIMA был разработан для поддержки взаимодействия и масштабирования приложений обработки текста и мультимодального анализа Все компоненты DeepQA имплементированы как UIMA annotators Это программные компоненты для анализа текста и получения аннотаций или заключений о тексте Watson развивался в процессе разработки от нескольких компонент до нескольких сотен UIMA обеспечивает быструю интеграцию компонент тестирование и исследование

bull Начальная имплементация Watson запускалась на одном процессоре и требовала 2 часа на ответ на один вопрос DeepQA развился в параллельную систему используя UIMA-AS часть Apache UIMA масштабируя приложения UIMA используя асинхронный механизм месседжинга UIMA-AS позволила масштабировать Watson более чем на 2500 вычислительных ядер UIMA-AS управляет коммуникациями месседжингом управлением запросами используя open JMS standard UIMA-AS позволил снизить латентность Watson до 3ndash5 секунд

bull Для препроцессинга корпуса текстов создания быстрых run-time indices использован Hadoop

UIMA annotators были развернуты как mapper ы в Hadoop map-reduce framework Hadoop распределяет контент по кластеру для обеспечения высокого использования CPU и обеспечивает подходящий набор инструментов для deploying managing and monitoring the corpus analysis process

bull Аппаратная платформа ndash это 90 серверов 2800 ядер 15 ТБ RAM 80 Тфлопс $3 000 000 10 R

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 69: !Predictive analytics part_3

Результативность Watson (по версиям)

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 70: !Predictive analytics part_3

IBM WATSON сегодня

bull Сегодня сотни клиентов и партнеров из 6 континентов 25 стран и 12 отраслей имеют проекты порожденные Watson Watson революционизирует медицину трансформирует то как бизнес взаимодействует и вовлекает кастомеров ускоряет научные исследования

bull Например три top-ranked US News и World Report for Health 2014-2015 госпиталя занимающиеся исследованиями рака работают с Watson -- Memorial Sloan Kettering University of Texas MD Anderson Cancer Center и Mayo Clinic IBM также работает с Cleveland Clinic и New York Genome Center для ускорения внедрения genomic based medicine используя Watson для идентификации паттернов в геноме и научить клинических врачей практике использования генных технологий Новое приложение Pathway Genomics анонсированное в November 2014 реализованное в Watson может обеспечить персонализацию медицины обеспечивая взаимодействие между врачами и их пациентами с использованием коллективного опыта

bull В августе 2014 IBM анонсировала главное расширение когнитивных вычислений Watson в системе Watson Discovery Advisor ndash первой из систем визуального взаимодействия и проведения исследований Watson Discovery Advisor обеспечивает научных исследователей возможностями задавать вопросы на которые еще неизвестны ответы The Watson Discovery Advisor может быть применен в многих отраслях включая финансовые сервисы customer service retail law enforcement education and life sciences

bull В последнее время в прессе появилась информация об использовании Watson Discovery Advisor для принятия решений в правительственных организациях

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 71: !Predictive analytics part_3

Для тех кто хочет узнать большеhttpwwwbobblumcomESSAYSCOMPSCIWatsonhtml httpwwwquoracomHow-does-IBMs-Watson-work

>

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 72: !Predictive analytics part_3

David Ferrucci Eric Brown Jennifer Chu-Carrol James Fan David Gondek Aditya A Kalyanpur Adam Lally J William Murdock Eric Nyberg John Prager Nico Schlaefer Chris Welty

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс
Page 73: !Predictive analytics part_3

И спасибо вам за прослушанный курс

  • Основы предиктивной аналитики Часть третья
  • Основы анализа текстов на естественном языке ndash Natural Language
  • Уровни задачи понимания текста
  • Корпус текстов
  • Форматы текста
  • Пакеты и функции в составе NLP package которые потребуются нам
  • Подготовка текста
  • Slide 8
  • Генерирование облака слов
  • Стемминг ndash морфологический анализ
  • Использование функции mystemexe от Яндекс
  • LSA - Латентный семантический анализ
  • Определения
  • Основные этапы
  • TF-IDF анализ
  • Частотная матрица для двух далеких текстов
  • Частотная матрица для двух более близких текстов
  • Карта слов для двух выбранных документов
  • Разложение матрицы laquoслова-документыraquo
  • Модель векторного пространства
  • Slide 21
  • Slide 22
  • Пример
  • Желтым отмечены слова встречающиеся хотя бы в двух заголовках
  • После SVD
  • Семантическое пространство
  • Матрица расстояний между словами
  • Результат снижения размерности кластеризация [human interface
  • Расстояния между заголовками до и после SVD
  • Slide 30
  • Применение
  • Slide 32
  • Slide 33
  • Имплементация в R - Package lsquolsarsquo
  • Пример 1
  • Пример 2
  • Пример 3
  • Пример 4
  • Вместо заключения
  • Slide 40
  • Slide 41
  • Slide 42
  • Поддерживаемые предиктивные алгоритмы в R
  • Состав pmml package
  • Пример (2)
  • Good by R see you later alligator
  • WATSON ndash одно из наиболее впечатляющих применений предиктивной
  • Slide 48
  • IBM Deep QA Project
  • Вопросы могут касаться сразу нескольких фактов чтобы ответ был
  • Вопросы - пазлы
  • Недопустимые типы вопросов
  • Лексические типы ответа ndash LAT (Lexical Answer Type)
  • Метрики качества ответов - результативность
  • Показатели результативности чемпионов шоу (2000)
  • Линия сравнения результативности (baseline performance)
  • Сравнение системы тестового поиска и поиска в базе знаний
  • Результативность Watson (по версиям)
  • Основы подхода Deep QA
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Поиск доказательств
  • Slide 66
  • Проблемы NLP
  • Slide 68
  • Slide 69
  • Скоринг (взвешивание) доказательств ndash предиктивная аналитика
  • Slide 71
  • Развертывание Watson
  • Результативность Watson (по версиям) (2)
  • IBM WATSON сегодня
  • Для тех кто хочет узнать больше httpwwwbobblumcomESSAYS
  • Slide 76
  • И спасибо вам за прослушанный курс