7
ВЕСТНИК ТОМСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА 2013 Управление, вычислительная техника и информатика 3(24) УДК 519.217.2 Т.А. Гультяева, А.А. Попов КЛАССИФИКАЦИЯ ПОСЛЕДОВАТЕЛЬНОСТЕЙ С ИСПОЛЬЗОВАНИЕМ СКРЫТЫХ МАРКОВСКИХ МОДЕЛЕЙ В УСЛОВИЯХ НЕТОЧНОГО ЗАДАНИЯ ИХ СТРУКТУРЫ Рассматривается задача классификации последовательностей с использова- нием методологии скрытых марковских моделей. Классификация проводит- ся как с использованием стандартного подхода, так и с использованием классификатора k ближайших соседей и метода опорных векторов в про- странстве признаков, инициированных скрытыми марковскими моделями. Исследовалось поведение классификаторов при ошибках в спецификации структуры марковской модели. Ключевые слова: скрытые марковские модели, производные от логарифма функции правдоподобия, классификатор k ближайших соседей, метод опор- ных векторов. Скрытые марковские модели (СММ) широко используются в задачах модели- рования различных процессов, демонстрируя при этом хорошие описательные способности. Построенные на обучающих выборках СММ используются также и для задач классификации. Однако на этих задачах СММ не всегда показывают не- обходимый уровень дискриминирующих свойств. В работе в качестве объектов классификации рассматривается множество смо- делированных последовательностей, порожденных двумя близкими по своим па- раметрам СММ. Параметризация СММ проводится в соответствии с выбранной их структурой, под которой будем понимать число скрытых состояний и размер словаря наблюдаемых символов. В реальных ситуациях априорная информация о структуре СММ, как правило, отсутствует. Задача структурной идентификации в этом случае может быть поставлена, но на практике, как правило, она не решается в полном объеме. Рассматривается возможность использования традиционного классификатора на основе СММ, классификатора k ближайших соседей (kNN) и метода опорных векторов (SVM) в пространстве признаков, инициированных обу- ченными скрытыми марковскими моделями в условиях их структурной неопреде- ленности. 1. Постановка задачи СММ это случайный процесс с ненаблюдаемой стационарной марковской цепью. СММ описывается следующими параметрами [1]: 1. Вектор вероятностей начальных состояний { } i Π= π , 1, i N = , где { } 1 i Pq i π= = , 1 q скрытое состояние в начальный момент времени 1 t = ; N количество скрытых состояний в модели. 2. Матрица вероятностей переходов { } ij A a = , , 1, i j N = ,

КЛАССИФИКАЦИЯ ПОСЛЕДОВАТЕЛЬНОСТЕЙ С ИСПОЛЬЗОВАНИЕМ СКРЫТЫХ МАРКОВСКИХ МОДЕЛЕЙ В УСЛОВИЯХ НЕТОЧНОГО

  • Upload
    -

  • View
    226

  • Download
    6

Embed Size (px)

Citation preview

Page 1: КЛАССИФИКАЦИЯ ПОСЛЕДОВАТЕЛЬНОСТЕЙ С ИСПОЛЬЗОВАНИЕМ СКРЫТЫХ МАРКОВСКИХ МОДЕЛЕЙ В УСЛОВИЯХ НЕТОЧНОГО

ВЕСТНИК ТОМСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА

2013 Управление, вычислительная техника и информатика № 3(24)

УДК 519.217.2Т.А. Гультяева, А.А. Попов

КЛАССИФИКАЦИЯ ПОСЛЕДОВАТЕЛЬНОСТЕЙС ИСПОЛЬЗОВАНИЕМ СКРЫТЫХ МАРКОВСКИХ МОДЕЛЕЙ

В УСЛОВИЯХ НЕТОЧНОГО ЗАДАНИЯ ИХ СТРУКТУРЫ

Рассматривается задача классификации последовательностей с использова-нием методологии скрытых марковских моделей. Классификация проводит-ся как с использованием стандартного подхода, так и с использованиемклассификатора k ближайших соседей и метода опорных векторов в про-странстве признаков, инициированных скрытыми марковскими моделями.Исследовалось поведение классификаторов при ошибках в спецификацииструктуры марковской модели.

Ключевые слова: скрытые марковские модели, производные от логарифмафункции правдоподобия, классификатор k ближайших соседей, метод опор-ных векторов.

Скрытые марковские модели (СММ) широко используются в задачах модели-рования различных процессов, демонстрируя при этом хорошие описательныеспособности. Построенные на обучающих выборках СММ используются также идля задач классификации. Однако на этих задачах СММ не всегда показывают не-обходимый уровень дискриминирующих свойств.

В работе в качестве объектов классификации рассматривается множество смо-делированных последовательностей, порожденных двумя близкими по своим па-раметрам СММ. Параметризация СММ проводится в соответствии с выбраннойих структурой, под которой будем понимать число скрытых состояний и размерсловаря наблюдаемых символов. В реальных ситуациях априорная информация оструктуре СММ, как правило, отсутствует. Задача структурной идентификации вэтом случае может быть поставлена, но на практике, как правило, она не решаетсяв полном объеме. Рассматривается возможность использования традиционногоклассификатора на основе СММ, классификатора k ближайших соседей (kNN) иметода опорных векторов (SVM) в пространстве признаков, инициированных обу-ченными скрытыми марковскими моделями в условиях их структурной неопреде-ленности.

1. Постановка задачи

СММ – это случайный процесс с ненаблюдаемой стационарной марковскойцепью. СММ описывается следующими параметрами [1]:

1. Вектор вероятностей начальных состояний

{ }iΠ = π , 1,i N= ,

где { }1i P q iπ = = , 1q – скрытое состояние в начальный момент времени 1t = ; N –количество скрытых состояний в модели.

2. Матрица вероятностей переходов

{ }ijA a= , , 1,i j N= ,

Page 2: КЛАССИФИКАЦИЯ ПОСЛЕДОВАТЕЛЬНОСТЕЙ С ИСПОЛЬЗОВАНИЕМ СКРЫТЫХ МАРКОВСКИХ МОДЕЛЕЙ В УСЛОВИЯХ НЕТОЧНОГО

58 Т.А. Гультяева, А.А. Попов

где { }1ij t ta P q j q i−= = = , 2,t T= , где T – длина наблюдаемой последователь-ности.

3. Матрица вероятностей наблюдаемых символов выглядит следующим образом:

( ){ }iB b t= , 1,i N= ,

где ( ) { }i t tb t P o q i= = , to – символ, наблюдаемый в момент времени 1,t T= .Рассматривается случай, когда функция распределения вероятностей наблюдае-мых символов описывается смесью нормальных распределений

( ) ( )2 21 2

1( ) 2 ,t ij ij

Mo

i ij ijj

b t e− − −μ σ

== τ πσ∑ 1,i N= , 1,t T= ,

где ijτ – это вес j-й компоненты смеси в i-м скрытом состоянии, 1,i N= , 1,j M= ,

M – это количество смесей. Параметры ijμ и 2ijσ являются соответственно мате-

матическим ожиданием и дисперсией j-й компоненты смеси в i-м скрытом со-стоянии, 1,i N= , 1,j M= .

Таким образом, СММ полностью описывается матрицей вероятностей перехо-дов, а также вероятностями наблюдаемых символов и вероятностями начальныхсостояний: ( ), , A Bλ = π .

В работе рассматривает поведение традиционного классификатора, основан-ного на отношении логарифмов функций правдоподобия, классификаторов kNN иSVM в условиях структурной неопределенности СММ. Один из возможных вари-антов такой неопределенности заключатся в том, что исследователю точно не из-вестно число скрытых состояний модели.

Метод ближайших соседей основан на оценивании сходства объектов. Клас-сифицируемый объект относится к тому классу, которому принадлежит большин-ство из его соседей – k ближайших к нему объектов обучающей выборки. Этотклассификатор достаточно подробно описан, например в [2].

Основная идея метода опорных векторов – это перевод исходных векторов впространство более высокой размерности и поиск разделяющей гиперплоскости смаксимальным зазором в этом пространстве. Этот классификатор описан в [3].

2. Пространства признаков

В качестве пространств признаков, в которых производится классификация,рассматриваются пространства первых производных от логарифма функции прав-доподобия по различным параметрам СММ.

Приведем формулы для вычисления первых производных от логарифма функ-ции правдоподобия по некоему параметру η (более подробно вывод формул при-веден в [4−6]):

( ) ( ) 1

1 1

ln,

kK Tk tt

k t

L O cc

= =

⎛ ⎞∂ λ ∂= ⎜ ⎟⎜ ⎟∂η ∂η⎝ ⎠

∑ ∑

где 1 2{ , , , }KO O O O= … , kO – k-я наблюдаемая последовательность длиной T,

K – количество последовательностей, ktc – параметр масштаба для последова-

тельности Ok. В дальнейшем индекс k будем опускать для удобства.

Page 3: КЛАССИФИКАЦИЯ ПОСЛЕДОВАТЕЛЬНОСТЕЙ С ИСПОЛЬЗОВАНИЕМ СКРЫТЫХ МАРКОВСКИХ МОДЕЛЕЙ В УСЛОВИЯХ НЕТОЧНОГО

Классификация последовательностей с использованием скрытых марковских моделей 59

Учитывая, что 1

1( ) ,

N

t ti

c i−

=

⎛ ⎞= α⎜ ⎟

⎝ ⎠∑ формула для вычисления производной от па-

раметра масштаба по параметру η имеет вид

2

1

( ),

Nt t

ti

c ic

=

∂ ∂α= −

∂η ∂η∑

где ( )t iα , 1,t T= , 1, ,i N= – так называемая прямая переменная с масштабом [6].Для вычисления производных

( )t

xz

ia

∂α∂

, ( )t

xy

i∂α∂μ

и 2( )t

xy

i∂α

∂σ, , 1,x z N= , 1, ,y M=

используются следующие формулы:

1 шаг. ( )1 1( ) ii

bi ∂∂α= π

∂η ∂η, 1,i N= ;

2 шаг. ( ) ( ) ( )11

1 1

1( )( )

N Nt it

ji i t jij j

j b tia b t j a−

−= =

⎛ ⎞ ⎛ ⎞′∂α ∂ +∂α′= + α⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟∂η ∂η ∂η⎝ ⎠ ⎝ ⎠

∑ ∑ ,

где ( )1 1 11 1

( )( )t t t

t tj с j

j c− − −− −

′∂α ∂ ∂α= α +

∂μ ∂μ ∂μ, 1,i N= , 1, 1t T= − .

Производные ( )ib t∂∂η

в зависимости от аргумента η имеют вид

( ) 0i

xz

b ta

∂=

∂; ( ) ( ) ( ) ( )

2 21 22 2 ,t im imt xy oi

im im imxy xy

ob te x y

− − −μ σ− μ∂= τ πσ δ

∂μ σ,

где ( ) {1, ,,0, ;im

если i x и m yx yиначе

= =δ =

( ) ( ) ( ) ( )2 2

2 22

2 4 ,2 2

t im imt xy xy oi imim

xy xyim

ob te x y− −μ σ− μ − σ∂ τ

= δ∂σ σπσ

.

3. Результаты

Исследования проводились при следующих условиях. Для моделирования по-следовательностей была выбрана цепь с 4N = скрытыми состояниями. Рассмат-ривалась задача двухклассовой классификации с моделями 1λ и 2λ , определен-ными на одинаковых по структуре скрытых марковских цепях и различающимисятолько в матрицах переходных вероятностей. Параметры моделей будем отличатьпо их верхнему индексу.

1

0.2 0.5 0.3 0.050.2 0.25 0.5 0.05 0.5 0.25 0.2 0.050.2 0.25 0.5 0.05

⎛ ⎞⎜ ⎟

= ⎜ ⎟⎜ ⎟⎜ ⎟⎝ ⎠

, 2

0.2 0.5 0.3 0.050.2 0.25 0.5 0.05

0.5 0.25 0.2 0.050.2 0.25 0.5 0.05

A A

A A

A A

d dd dA

d dλ

⎛ ⎞+ −⎜ ⎟

+ −⎜ ⎟=⎜ ⎟− +⎜ ⎟⎝ ⎠

.

Page 4: КЛАССИФИКАЦИЯ ПОСЛЕДОВАТЕЛЬНОСТЕЙ С ИСПОЛЬЗОВАНИЕМ СКРЫТЫХ МАРКОВСКИХ МОДЕЛЕЙ В УСЛОВИЯХ НЕТОЧНОГО

60 Т.А. Гультяева, А.А. Попов

Параметры гауссовских распределений для модели λ1 и λ2 выбирались одина-ковыми для каждой модели. Параметр dA, который можно варьировать в опреде-ленных пределах, определял степень близости конкурирующих моделей.

Таким образом, последнее скрытое состояние являлось своего рода шумовым:вероятность перейти в него и остаться в нем очень мала.

Обучающие и тестовые последовательности моделировались по методу Мон-те-Карло. Для проведения экспериментов было сгенерировано по 5 обучающихнаборов последовательностей для каждого класса. К каждому набору этих после-довательностей моделировалось по 500 тестовых последовательностей. Результа-ты классификации усреднялись.

Число скрытых состояний и количество компонент гауссовых смесей при моде-лировании последовательностей будем обозначать параметрами N и M, а параметрырабочих моделей, используемых при обучении и тестировании, – как Nl и Ml.

На рис. 1 − 3 приведены графики, отражающие результаты классификации:- для kNN в пространстве первых производных от логарифма функции правдопо-

добия по элементам матрицы переходных вероятностей имеют пунктирную линию;- для SVM в этом же пространстве – имеют штриховую линию с короткими

штрихами;- для SVM в объединенном пространстве (включаются все пространства по раз-

личным параметрам модели) – имеют штриховую линию с длинными штрихами;- графики для традиционного подхода – сплошную линию.

50

60

70

80

90

0,0 0,1 0,2 0,3 0,4

%

d A

50

60

70

80

90

0,0 0,1 0,2 0,3 0,4

%

d A

50

60

70

80

90

0,0 0,1 0,2 0,3 0,4

%

d A

50

60

70

80

90

0,0 0,1 0,2 0,3 0,4

%

d A

а б

в г

Рис. 1. Зависимость среднего процента верно классифицированных последо-вательностей от параметра близостей моделей dA при 2M = и при

2l lN M= = (а); 3l lN M= = (б); 4l lN M= = (в); 6l lN M= = (г)

Page 5: КЛАССИФИКАЦИЯ ПОСЛЕДОВАТЕЛЬНОСТЕЙ С ИСПОЛЬЗОВАНИЕМ СКРЫТЫХ МАРКОВСКИХ МОДЕЛЕЙ В УСЛОВИЯХ НЕТОЧНОГО

Классификация последовательностей с использованием скрытых марковских моделей 61

На рис. 1 приведены зависимости среднего процента верно классифицирован-ных последовательностей от параметра близостей моделей dA для случая, когдамоделирование производилось при 4N = и 2M = . Для рабочих моделей приобучении и тестировании выбирались различные параметры Nl и Ml. На рис. 2 и 3приведены аналогичные зависимости для 4M = и 6M = соответственно.

По рис. 1 можно отметить, что уже при 3l lN M= = у SVM- и kNN-классифика-торов наблюдаются примерно такие же результаты, как 6l lN M= = , в то время кактрадиционный классификатор показывает худшие результаты. Аналогичная карти-на наблюдается и на рис. 2 и 3 при 4l lN M= = . Таким образом, для классифика-ции по производным, по всей видимости, не нужны особо точные оценки, в то вре-мя как для традиционного классификатора этот момент является критическим.

50

60

70

80

90

0,0 0,1 0,2 0,3 0,4

%

d A

50

60

70

80

90

0,0 0,1 0,2 0,3 0,4

%

d A

50

60

70

80

90

0,0 0,1 0,2 0,3 0,4

%

d A

50

60

70

80

90

0,0 0,1 0,2 0,3 0,4

%

d A

а б

в г

Рис. 2. Зависимость разности среднего процента верно классифицированныхпоследовательностей от параметра близостей моделей dA при 4M = и при

2l lN M= = (а); 3l lN M= = (б); 4l lN M= = (в); 6l lN M= = (г)

При увеличении параметра dA заметна общая тенденция к уменьшению выиг-рыша от использования классификаторов в пространстве производных. Это связа-но с тем, что традиционный классификатор при достаточном различии моделейуже сам показывает хорошие результаты, близкие к 100 %. В то же время анализрис. 1 − 3 говорит о том, что чувствительность классификаторов kNN и SVM кошибкам спецификации структуры СММ несколько ниже, чем у традиционногоклассификатора. Выигрыш от их использования составил: на рис. 1, а – до 14 %,на рис. 2, а – до 18 %, на рис. 3, в – до 40 %. Общая тенденция такова: чем меньше

Page 6: КЛАССИФИКАЦИЯ ПОСЛЕДОВАТЕЛЬНОСТЕЙ С ИСПОЛЬЗОВАНИЕМ СКРЫТЫХ МАРКОВСКИХ МОДЕЛЕЙ В УСЛОВИЯХ НЕТОЧНОГО

62 Т.А. Гультяева, А.А. Попов

взято количество lN и lM , тем больший выигрыш в точности классификацииможно получить, используя kNN или SVM.

50

60

70

80

90

0,0 0,1 0,2 0,3 0,4

%

d A

50

60

70

80

90

0,0 0,1 0,2 0,3 0,4

%

d A

50

60

70

80

90

0,0 0,1 0,2 0,3 0,4

%

d A

50

60

70

80

90

0,0 0,1 0,2 0,3 0,4

%

d A

а б

в г

Рис. 3. Зависимость среднего процента верно классифицированных последо-вательностей от параметра близостей моделей dA при 6M = и при

2l lN M= = (а); 3l lN M= = (б); 4l lN M= = (в); 6l lN M= = (г)

Традиционный классификатор показывает хорошие результаты, когда выби-раются количества скрытых состояний и смесей lN и lM большие, чем истинныезначения N и M.

Таким образом, когда нет возможности провести структурную идентификациюСММ можно рекомендовать использовать классификатор kNN или SVM в про-странстве первых производных от логарифма функции правдоподобия в силу ихменьшей чувствительности к такой ошибки спецификации структуры как недоборчисла скрытых состояний и компонент гауссовых смесей.

При выборе пространства производных по тому параметру, по которому генери-рующие последовательности модели отличаются, выигрыш в сравнении с исполь-зованием объединенного пространства, получается максимально 4 % (рис. 1, а), 3%(рис. 2, в), 6 % (рис. 3, б).

Классификатор SVM всегда показывает лучшие результаты, чем kNN в про-странстве первых производных по элементам матрицы переходных вероятностей:до 10 % (рис. 1, а), 16 % (рис. 2, б), 8 % (рис. 3, а). Кроме того, по рис. 2, а, б, 3, ввидно, что kNN при некоторых значениях параметра Ad проигрывает традицион-ному классификатору.

Page 7: КЛАССИФИКАЦИЯ ПОСЛЕДОВАТЕЛЬНОСТЕЙ С ИСПОЛЬЗОВАНИЕМ СКРЫТЫХ МАРКОВСКИХ МОДЕЛЕЙ В УСЛОВИЯХ НЕТОЧНОГО

Классификация последовательностей с использованием скрытых марковских моделей 63

Заключение

Исследования показали, что в условиях структурной неопределенности ис-пользование классификатора k ближайших соседей и классификатора, основанно-го на методе опорных векторов, приводит к повышению качества классификациив сравнении с традиционным подходом, основанным на отношении логарифмовфункций правдоподобия. При этом прирост процентов верной классификации врассмотренной двухклассовой задаче в сравнении с традиционным подходом вряде случаев может достигать 40 % как для kNN, так и для SVM. Последний пока-зывает более точные результаты в сравнении с kNN. Максимальное улучшениедостигает около 18 %.

ЛИТЕРАТУРА

1. Rabiner L.R. A tutorial on hidden markov models and selected applications in speechrecognition // Proc. IEEE. 1989. V. 77(2). P. 257−285.

2. Загоруйко Н.Г. Прикладные методы анализа данных и знаний. Новосибирск: Изд-во Ин-ститута математики, 1999. 270 с.

3. Platt J.C. Sequential minimal optimization: a fast algorithm for training support VectorMachines [Электронный ресурс]: Technical Report MSR-TR-98-14; Microsoft Research.URL: http://luthuli.cs.uiuc.edu/~daf/courses/Optimization/Papers/smoTR.pdf.

4. Гультяева Т.А. Вычисление первых производных от логарифма функции правдоподобиядля скрытых марковских моделей // Сб. научных трудов НГТУ. Новосибирск: Изд-воНГТУ, 2010. № 2(60). С. 39−46.

5. Гультяева Т.А. Особенности вычисление первых производных от логарифма функцииправдоподобия для скрытых марковских моделей при длинных сигналах // Сб. научныхтрудов НГТУ. Новосибирск: Изд-во НГТУ, 2010. № 2(60). С. 47−52.

6. Гультяева Т.А., Попов А.А. Классификация зашумленных последовательностей, порож-денных близкими скрытыми марковскими моделями // Научный вестник НГТУ. Ново-сибирск: Изд-во НГТУ, 2011. № 3(44). С. 3−16.

Гультяева Татьяна АлександровнаПопов Александр АлександровичНовосибирский государственный технический университетE-mail: [email protected], [email protected] Поступила в редакцию 12 апреля 2012 г.

Gultyaeva Tatyana A., Popov Alexander A. (Novosibirsk State Technical University). Classi-fication of sequences with use of hidden Markov models under conditions of the inexact taskof their structure.

Keywords: hidden Markov models, derivative of log likelihood function, classifier of k nearestneighbors, support vector machines.

The problem of sequences classification with use of methodology of hidden Markov models(HMM) is considered. Classification is spent both with use of the standard approach, and withclassifier of k nearest neighbors (kNN), and a support vector machines in space of the signsinitiated by HMM. The behavior of qualifiers was investigated while errors in the structurespecification of HMM are presented.

Researches have shown that under conditions of structural uncertainty use of qualifiers of knearest neighbors and the classifier based on a SVM, leads to improvement of classificationquality in comparison with the traditional approach based on the ratio of logarithms of likelihoodfunction. Thus the gain in correct classification in the considered two-class problem incomparison with the traditional approach in some cases can reach 40 % both for kNN, and forSVM. The last shows more exact results in comparison with kNN. The maximum improvementreaches about 18 %.