40
1-се тема. ТӘБИҒИ ТЕЛ ТАМҒАЛАР СИСТЕМАҺЫ ТЕМАНЫҢ ТӨП ӨЛӨШТӘРЕ 1.1. Белемде тәҡдим итеү һәм ойоштороу моделдары һәм методтары - 1-се-2-се лекциялар. 1.2. Тәбиғи тел системаларының нисбәт ҡылыҡһырламаһы 3-сө-4-се, 8-се лекциялар. 1.3. Белем эҫтәүҙең логик-статистик ысулдары. 5-се-7-се лекциялар. ҮҘ-АЛЛЫ ӨЙРӘНЕЛӘСӘК ТЕМАЛАРҘЫҢ ФАКУЛЬТАТИВ БҮЛЕКТӘРЕ 1.4. Һүҙлек-тезаурусты автоматлаштырып төҙөү технологияһы. 1.5. Тәбиғи тел байлығын тикшереү миҫалы.

лекции 3 4 тема 1

Embed Size (px)

Citation preview

1-се тема. ТӘБИҒИ ТЕЛ ТАМҒАЛАР СИСТЕМАҺЫ

ТЕМАНЫҢ ТӨП ӨЛӨШТӘРЕ 1.1. Белемде тәҡдим итеү һәм ойоштороу моделдары һәм

методтары - 1-се-2-се лекциялар. 1.2. Тәбиғи тел системаларының нисбәт ҡылыҡһырламаһы —

3-сө-4-се, 8-се лекциялар. 1.3. Белем эҫтәүҙең логик-статистик ысулдары.

5-се-7-се лекциялар.ҮҘ-АЛЛЫ ӨЙРӘНЕЛӘСӘК ТЕМАЛАРҘЫҢ ФАКУЛЬТАТИВ

БҮЛЕКТӘРЕ 1.4. Һүҙлек-тезаурусты автоматлаштырып төҙөү технологияһы. 1.5. Тәбиғи тел байлығын тикшереү миҫалы.

3-сө-4-се лекциялар.

ТӘБИҒИ ТЕЛ СИСТЕМАЛАРЫНЫҢ НИСБӘТ ҠЫЛЫҠҺЫРЛАМАҺЫ

Тәбиғи тел тасуирламаһына статистик анализ .

«Дәрәжә-йышлыҡ» моделы. Ципф ҡануны. Мандельброт формулаһы. «Дәрәжә-йышлыҡ» моделының статистик

бүленеше. Тәбиғи тел тасуирламаһының үҙәген

төҙөү.

Әҙәбиәт

Материал лекции представлен в книге:

Ю.Н.Филиппович, А.В.Прохоров. Семантика информационных технологий: опыты словарно-тезаурусного описания. /

Серия «Компьютерная лингвистика». Вступ. Статья А.И.Новикова. М.: МГУП, 2002.— книга в комплекте с CD ROM— С. 34–45.

ТӘБИҒИ ТЕЛ ТАСУИРЛАМАҺЫНА СТАТИСТИК АНАЛИЗ

Лингвистик статистика, лингвостатистика

— телдең һәм телмәрҙең нисбәт ҡылыҡһырламаһын статистик ысулдар менән тикшеренеүсе тел ғилеме бүлеге.

«Русский язык» энциклопедияһы

(1) Киң мәғәнәлә —тел ғилеменең статистик ысулдарын ҡулланыу өлкәһе (йәғни ,телде һәм телмәрҙе өйрәнгәндә иҫәпләү һәм үлсәүҙең математик статистикаһына таяныу);

(2) Тар мәғәнәлә — лингвистик материалдар менән бәйле ҡайһы бер

(2) математик проблемаларҙы өйрәнеү , башлыса текста тел берәмектәренең статистик бүленеш типтарын барлау.

ЛИНГВИСТИК СТАТИСТИКА ТӨШӨНСӘҺЕТЕКСТ

лингвистик берәмектәрҙең эҙмә-эҙлеклелеге:

Хәреф, морфема, һүҙ ҡалыптары, ҙүҙ бәйләнештәр, һөйләмдәр һ.б.Лингвистик ҡалыптарҙың нисбәт ҡылыҡһырамаһы:

Ҡулланыш , йәнәшәлек, текста урынлашыу ҡануны, уларҙың физик дәүмәле.

ЛИНГВОСТАТИСТИКА КАТЕГОРИЯҺЫНЫҢ ТӨП ТӨШӨНСӘЛӘРЕ :Дөйөм күмәклек, һайланмалыҡ, йышлыҡ һәм ихтималлыҡ, урынлашыу

ихтималлығы һәм статистик баһалар.

ДӨЙӨМ КҮМӘКЛЕК ТӨРҘӘРЕ: Текстар (текст корпустары). Лингвистик кимәлдәге тел берәмектәре .

ҺҮҘ ЙЫШЛЫҒЫ ТЕОРИЯҺЫ

Һүҙ йышлығы теорияһының сығанаҡтары

А. Донъя тураһында методологик (концептуаль) фекерләүҙәр

Б. Эмпирик күҙәтеүҙәр

В. Үлсәмдәр

Г. Практик яндамалар

ҺҮҘ ЙЫШЛЫҒЫ ТЕОРИЯҺЫНЫҢ МЕТОДОЛОГИК СЫҒАНАҠТАРЫ

ЫСЫНБАРЛЫҠ (ПОРМ)

< СУБЪЕКТТЫҢ ЫСЫНБАРЛЫҠ (ПОРМ) ТУРАҺЫНДА БЕЛЕМЕ> < ТӘБИҒИ ТЕЛ ТАСУИРЛАМАҺЫ>

МЕТАФИЗИК БЕЛЕМ

ТЕЛ БЕРӘМЕКТӘРЕН (СИНТАГМАЛАРҘЫ) ОЙОШТОРОУ

ТУРАҺЫНДА БЕЛЕМ :…,

морфемалар, Һүҙ ҡалыптары, һүҙбәйләнештәр,

Һөйләмдәр , …,

текстар, …

ҺҮҘ ЙЫШЛЫҒЫ ТЕОРИЯҺЫНДАЭМПИРИК КҮҘӘТЕҮҘӘР

Тел берәмектәрен ҡулланыуға билдәле бер нисбәт (номенклатура) һәм комбинатор (аралашыуға, урын алышыуға) сикләүҙәр.

Ҡайһы бер типтағы тел берәмектәренең уғата артыҡлығы.

Синтагмаларҙың ҡатмарлы иерархик структураһы.

Тел берәмектәренең ваҡыт эҙмә-эҙлеклелеге .

ҺҮҘ ЙЫШЛЫҒЫ ТЕОРИЯҺЫНДА ҮЛСӘМДӘР

А.С.Пушкиндың әҫәрҙәрен тикшереү :Ҡулланылған һүҙҙәр – 545 000; төрлө һүҙҙәр– 21 000.

Мәктәп уҡыусыларының телмәр эшмәкәрлеген тикшереү:Текстар корпусы (хаттар, иншалар, күнегеүҙәр һ.б.) – 100 000;

Ҡулланылған һүҙҙәр – 6 000 000; төрлө һүҙ ҡалыптары– 25 000; төрлө һүҙҙәр – 2 500.

Хәҙерге инглиз текстарын тикшереү:Ҡулланылған һүҙҙәр – 250 000; китап текстарындағы төрлө һүҙ

ҡалыптары – 24 000, телмәрҙә – 10 000. Француз телмәрен тикшереү:50% ҡулланылған һүҙҙәр – 37 һүҙ, 75% – 120 һүҙ , 90% – 887 һүҙ ; 95% телефондан һөйләшкәндә ҡулланылған һүҙҙәр – 737 һүҙ .

ҺҮҘ ЙЫШЛЫҒЫ ТЕОРИЯҺЫНДА ПРАКТИК ЯНДАМАЛАР

Криптография Стенография Полиграфия Ҡулъяҙмаларҙы редакторлап баҫмаға әҙерләү Текстарҙы таныу,айырыу (баҫма һәм ҡулъяҙма) Аудиовизуаль телмәрҙе таныу,айырыу. Биремдәрҙең автоматлаштырылған таянмаларын төҙөү х Автоматлаштырылған тәржемә Биремдәрҙең күләмен ҡыҫыу Мәғлүмәт эҙләү Автоматик рәүештә тамғалау (индексирование) һәм

үҙгәртеү (реферирование).

«ДӘРӘЖӘ-ЙЫШЛЫҠ» МОДЕЛЫ

Жан.-Батист Эступ (Jеаn Bарtistе Estоuр).

Джордж Кингсли Зипф (Gеоrgе Kingslеу Ziрf),

«ДӘРӘЖӘ-ЙЫШЛЫҠ» МОДЕЛЫНЫҢ АҢЛАТМАЛАРЫ

<ТЕКСТ>

<ҺҮҘ ӨЛӨШТӘРЕ

ЙЫЙЛМАҺЫ ЙЫШЛЫҒЫ>

ДӘРӘ

ЖӘ r

ҺҮҘ

W(r)

ЙЫШЛЫҠ f(r)

1 W(1) f(1)

2 W(2) f(2)

r W(r) f(r)

Пример:

ДӘРӘЖӘ r

ҺҮҘ

W(r)

ЙЫШЛЫҠ

f(r)

1 the 245

2 of 136

3 terms 98

4 to 81

5 a 65

6 and 61

7 in 55

8 we 52

... … …

ЦИПФТЫҢ ҺҮҘ ЙЫШЛЫҒЫ ҠАНУНЫ

i(k, r)/k = 0.1r-1 = 1/(10 r), (1.0)

БЫЛ: i(k,r)/k –текстағы һүҙҙәрҙең сағыштырма йышлығы

k – текстағы һүҙҙәрҙең дөйөм һаны,

r – һүҙҙең дәрәжәһе, һүҙ йыйылмаһында йышлыҡ функцияһының кәмеүенә табан тәртипкә һалынған рәттәге урыны .

ӘҘӘБИӘТ

Дж. Солтон. Динамические библиотечные информационные системы. М.: Наука, 1979.

Б.Мандельброт. Теория информации и психолингвистика: теория частот слов // Математические методы в социальных науках / Сб. статей под ред. П.Лазарсфельда и Н.Генри. М.: Прогресс, 1973. – С. 316–337.

ҺҮҘ ЙЫШЛЫҒЫ ҠАНУНЫН «СЫҒАРЫУ» (1) Текст — символдарҙың ( хәреф һәм буш урындарҙың) аңһыҙ

эҙмә-эҙлеклелеге . Буш урындар һүҙҙәр араһындағы сиктәрҙе билдәләй.

Билдәләйбеҙ:W(r) —һүҙ; r — һүҙҙең дәрәжәһе (тотҡан урыны); k — һүҙҙең нисбәте; i (r, k)/k —һүҙҙең сағыштырма йышлығы; р (r) — һүҙҙең ихтималлығы ; р0 — буш урындарҙың ихтималлығы ихтималлығы; М —хәреф типтарының нисбәте, М>1, (1 — ро)/М —текстағы хәрефтең ихтималлығы; m — һүҙҙәге хәрефтең нисбәте.

Ошолай ҙа яҙылыу мөмкин

p0exp{-m}, ҡайҙа=log (M/(1-p0)) —ро и М –ға буйһонған.

ыңғай дәүмәл.

m хәрефтән торған һүҙҙең ихтималлығы ;

ҺҮҘ ЙЫШЛЫҒЫ ҠАНУНЫН «СЫҒАРЫУ»

(2)

Һүҙҙә хәреф

Һүҙ

тибы

Миҫал:

Буш урын: _; хәрефтәр: a,b,c; M=3.

Һүҙ

тибы

Һүҙ ихтимал

лығы

0 1 _ 1 0.2500

1 M a,b,c 3 0.0625

2 M2 aa, ab, ac, ba, bb, bc, ca, cb, cc 9 0.0153

3 M3 aaa, aab, aac, aba, abb, abc,… 27 0.0038

Дәрәжә 1 2 3 4 5 6 … 12 …

Йышлыҡ ~ 62 ~ 62 ~ 62 ~ 15 ~ 15 ~ 15 … ~ 15 …

Их-лыҡ 0.0625 0.0625 0.0625 0.0153 0.0153 0.0153 … 0.0153 …

m хәреф нисбәте m менән һүҙ дәрәжәһе r араһындағы бәйләнеш.

Миҫал: текстың күләме 1000 символ; буш урындар ~ 250, {a,b,c — ~ 62; {aa,…cc} — ~ 15; {aaa,…ccc} — ~ 3.

ҺҮҘ ЙЫШЛЫҒЫ ҠАНУНЫН «СЫҒАРЫУ» (3)

ҺҮҘ ЙЫШЛЫҒЫ ҠАНУНЫН «СЫҒАРЫУ» (4)

Дәрәжә (ранг) менән ихтималлыҡ араһында бәйләнеш үҙгәрмәүсе һикәлтәле функция ,

r үҙгәргәндә (Мm— 1)/(М — 1) араһында, т. эҙмә-эҙлекле аңлатмаға тура килә

Әгәр m ҙур булһа :

r (Мm— 1)/(М — 1), r (Мm— 1)/(М — 1);

r(Мm— 1)/(М — 1),

йәки

ҺҮҘ ЙЫШЛЫҒЫ ҠАНУНЫН «СЫҒАРЫУ» (5)

m хәрефтән торған һүҙҙең ихтималлығы

ҡайҙа:

B = /log M ; =log (M/(1-p0)); Р = p0 (М—1):

Һүҙҙең ихтимллығы менән уның дәрәжәһе араһындағы бәйләнеш Ципф ҡанунына тура

килә. Әгәр B аңлатмаһы = -1 и P = 0.1

МАНДЕЛЬБРОТ ФОРМУЛАҺЫ

Үтә йыш ҡулланылған «Поведение» һүҙе,шулай уҡ «һүҙ составы байлығын » ҡылыҡһылаған һирәк һүҙҙәр , Ципҙәрф

ҡанунына тап килмәй.

Б.Мандельброт формулаһы (Bеnоit Mаndеlbrоt)

i(k,r) = рk (r+v)-b, ҡайҙа: b, k, v – const (1.1)

0

0,02

0,04

0,06

0,08

0,1

0,12

0 5 10 15 20 25 30 35

КриваяМандельброта

КриваяЦипфа

МАНДЕЛЬБРОТ ФОРМУЛАҺЫНЫҢ ПАРАМЕТРҘАРЫ

МАНДЕЛЬБРОТ ФОРМУЛАҺЫНЫҢ

ПАРАМЕТРҘАРЫН БАҺАЛАУ (1)

Мандельброт формулаһын яҡынса баһалау өсөн түбәндәге аңлатмаларҙы алабыҙ һәм үҙгәрештәр

яһайбыҙ.

ҡайҙа: – һүҙҙең сағыштырма осрау йышлығы .

Шулай итеп:

ҡайҙа: (1.2)

;)(),( bvrkprki ,)ln(ln

),(ln ln vebp

k

rki r

k

rki ),(

,)ln()( vebPxf x

rxpPk

rkixf ln;ln;

),()(

МАНДЕЛЬБРОТ ФОРМУЛАҺЫНЫҢ ПАРАМЕТРҘАРЫН БАҺАЛАУ (2)

Тейлорҙың дәрәжәле күпбыуынлығы миҫалында формула алабыҙ (1.2)

)(!

)0(...

!2

)0(

!1

)0()0()( 1

)(2

n

nn

n Ton

xfxfxffxT

....

)()(

)()(

)ln()(

2ve

vebxf

ve

ebxf

vebPxf

x

x

x

x

x

МАНДЕЛЬБРОТ ФОРМУЛАҺЫНЫҢ ПАРАМЕТРҘАРЫН БАҺАЛАУ (3)

ӘгәрТейлор күпбыуынының коэффициентын С0,C1,...,Cn , тип билдәләһәк , килеп сыға:

...

)1(2

1

1

)1ln(

)(...)(

2

1

0

12

210

v

vbC

vbC

vbPC

ToxCxCxCCxf nn

n

МАНДЕЛЬБРОТ ФОРМУЛАҺЫНЫҢ

ПАРАМЕТРҘАРЫН БАҺАЛАУ (4)

Ошонан параметрҙар өсөн коэффициенттар аша яҡынса аңлатмалар төҙөйбөҙ:

)1(0

1

2

1

0

)1(

)1(

2

2

vb

C

e

epvbCP

vCb

CC

v

МАНДЕЛЬБРОТ ФОРМУЛАҺЫНЫҢ ПАРАМЕТРҘАРЫН БАҺАЛАУ (5)

Йышлыҡ функцияһының табылған аңлатмалары ярҙамында иң бәләкәй квадраттар ысулы менән дәрәжәле рәт коэффициенты табабыҙ

Беҙҙә S(T) = (<w, N(w,T)>).

)),(

),(ln(,ln

TwN

TwNr

),(

),(

TwN

TwN

S(T) = (< >), где

- Т тексында һүҙҙең сағыштырма йышлығы w

Түбәндәге аңлатмаларҙ индерәбеҙ:

),(

),(ln;ln

TwN

TwNyrx

j

iiii

МАНДЕЛЬБРОТ ФОРМУЛАҺЫНЫҢ

ПАРАМЕТРҘАРЫН БАҺАЛАУ (6)

nn xCxCxCCxP ...)( 2

210

min)...( 210

nni xCxCCyF

0)...(2

...

0)...(2

0)...(2

10

101

100

ninii

ni

n

niniii

ninii

xCxCCyxC

F

xCxCCyxC

F

xCxCCyC

F

Күпбыуын рәүешендәге аппроксимлаусы функцяны бирәбеҙ:

Бының өсөн түбәндәге функцияларҙы кәметәбеҙ:

Был функцияның айырым сығарылышын иҫәпләп сығарабыҙ һәм уларҙы 0 тиңәйбеҙ.

МАНДЕЛЬБРОТ ФОРМУЛАҺЫНЫҢ ПАРАМЕТРҘАРЫН БАҺАЛАУ (7)

С0,..,Cn: ҡағылған буй тигеҙләмәләр системаһын табабыҙ .

ini

nnin

ni

ni

iininii

inini

yxxCxCxC

yxxCxCxC

yxCxCNC

*110

1210

10

...

....

...

...

МАНДЕЛЬБРОТ ФОРМУЛАҺЫНЫҢ

ПАРАМЕТРҘАРЫН БАҺАЛАУ (8)

rbpk

rkilnln

),(ln

min)ln( 2ii bxpyF

1

02

ln

ln

ln

Cb

Cp

yxxbxp

yxbpN

iiii

ii

Ципф ҡануны өсөн баһалау параметрҙарының дөрөҫөрәк аңлатмаларын табырға мөмкин. Был осраҡта һүҙҙең сағыштырма йышлығы логарифмы,уның дәрәжә логарифмы менән буй бәйләнешкә инә.

Иң бәләкә квадраттар ысулын файҙаланып буй тигеҙләмәләрҙәнкоэффициенттар аңлатмаһын таба алабыҙ:

k

rkiy ii

),(ln ii rx ln;

«ДӘРӘЖӘ-ЙЫШЛЫҠ» МОДЕЛЫНДА СТАТИСТИК БҮЛЕНЕШ

bvrpk

rkirf )(

),()(

0 0

1)()( drvrpdrrf b

0

111

)1(101

)()( b

bbb vbp

b

vp

b

vrpvrp

bb vrvbrf )()1()( 1

Һүҙҙең йышлыҡ буйынса бүленешенең статистик ҡанунын табабыҙ:

Нормалау шарты:

Интегралды иҫәпләйбеҙ һәм нормалау аңлатмаһын табабыҙ:

Һүҙҙең йышлыҡ буйынса бүленешенең статистик ҡанунын ошолай яҙырға мөмкин:

(1.3)

«ДӘРӘЖӘ-ЙЫШЛЫҠ» МОДЕЛЫНДА СТАТИСТИК БҮЛЕНЕШ ҠАНУНЫН ТАБЫУ (1)

Математик көтөп алыуҙы (ожидание) һәм дисперсияны (сәсрәү) иҫәпләп сығарабыҙ.

0 0

21

2

1

)2)(1()1()()(

bv

bb

vvbdrvrrpdrrrfpE

bbb

f

0 0

2122

)3)(2(

2

)1)(3)(2(

2)1()()(2

bb

v

bbbvbvrrpdrrfrpE bb

f

)3()2(

1

)2()3)(2(

2)(

22

2

222

2

bb

bv

b

v

bb

vEED ff

Икенсе сират башланғыс моментты иҫәпләп сығарабыҙ.

Дисперсияны дисперсии:иҫәпләп сығарыу өсөн түбәндәге формуланы ҡулланабыҙ.

.

«ДӘРӘЖӘ-ЙЫШЛЫҠ» МОДЕЛЫНДА СТАТИСТИК БҮЛЕНЕШ ҠАНУНЫН ТАБЫУ (2)

2

1

bvE f )3()2(

12

2

bb

bvD f

1

13

2

2

EDE

Db )2( bEv

Математик көтөп алыуы (ожидание) һәм дисперсия(сәсрәү) :;

Моменттар ысулын файҙаланып статистик бүленеш параметрҙарының аңлатмаһын табырға мөмкин (1.3). Түбәнге формуланан табабыүҙ(1.4) :

;

Бында, E һәм D – математик көтөп алыу һәм дөйөм күмәклектәге дисперсия .

(1.4)

ТӘБИҒИ ТЕЛ ТАСУИРЛАМАҺЫ ҮҘӘГЕН ТӨҘӨҮ

Тәбиғи телдең ысынбарлыҡты (ПОРМ) тасуирлау спецификацияһы

Лексик состав Башҡа табиғи тел тасуирламалары менән

сағыштырыу

Тәғәйен ПОРМ һайлауТәбиғи тел тасуирламаларын өлөштәргә бүлеү .

Өйрәнелеүсе ПОРМ-ға ҡағылған текстарҙың һынын ҡороу

Килешеү статистик критерийын файҙаланып һайланған текстарҙың

үҙәген ҡороу,һәм уларҙың нисбәт спецификацияһын сағыштырыу.

Килешеү критерийҙары ( корреляция коэффициенты):Пирсона (E.S.Pеаrsоn), Спирмена (C.Sреаrmаn), Кендалла (M.G.Kеndаll),

дихотомик (ранг шкалаларын үҙгәрткәндә), парҙарҙың айырымлығы дәүмәлен тикшереү статистикаһы , , Вилкоксондың килешеү критерийы

(F.Wilсохоn) һ.б.

ӘҘӘБИӘТ

Дж.Гласс, Дж.Стенли. Статистические методы в педагогике и психологии. Используемый материал: с. 142–165.

Л.Закс. Статистическое оценивание / Пер. с нем. В.Н.Варыгина. Под ред. Ю.П.Адлера, В.Г.Горского. М.: Статистика, 1976. – 600 с. Используемый материал: с. 286–287. В.Е. Гмурман. Теория вероятностей и математическая статистика. М.: Высшая школа, 1998.

ТЕКСТАРҘЫҢ БЕРТӨРЛӨЛӨГӨН БИЛДӘЛӘҮ ТЕКСТАРҘЫҢ БЕРТӨРЛӨЛӨГӨН БИЛДӘЛӘҮ (1)(1)

< текстар (һыны)корпусы G> <вербаль айырыу = текст Ti>

ИКЕ ТЕКСТЫҢ БЕРТӨРЛӨДӨГӨН БИЛДӘЛӘҮСЕ АЛГОРИТМ (текстар – T1, Т2; йышлыҡ буйынса һүҙ йыйылмалары – S(T1), S(T2))

1.Тәртипкә киилтерелгән һүҙҙәр күплеге төҙөү:S1 = ( w11, w12, w13,...,w1N ), S2 = ( w21, w22, w23,...,w2M ).

2. S1 и S2 күплек элементтарын номерлау :S1 = (1,2,3,4,5,6...N), S2 = (1,3,2,5,N,4, N+1,N+2,...).

3. Һүҙҙәрҙең сағыштырма осрау йышлығын өҫтәйбеҙ.4. S1 и S2 күплеген берләштереү һәм тәртипкә һалыу.5.Берләштерелгән күплек күплек элементтарын н нмерациялау.

6. S1 (Wнабл күплек элементтары ндекстарын ҡушыу.

ТЕКСТАРҘЫҢ БЕРТӨРЛӨЛӨГӨН БИЛДӘЛӘҮ ТЕКСТАРҘЫҢ БЕРТӨРЛӨЛӨГӨН БИЛДӘЛӘҮ (2)(2)

N > 25, M > 25

Wнижн. кр. Wнабл Wверхн. кр. , где

крнижнкрверхн WNMNW ... )1(

12

)1(

2

1)1(),,(.

MNNMz

NMNMNQW кркрнижн

2

21)(

QzФ кр

x

zdzexФ

0

22

2

1)(

Q – ышаныстың ярты кимәле = /2;zкр тигеҙлек буйынса Лаплас функцияһы таблицаһында

тора

,

ЭТАЛОН ТЕКСТ НИГЕҘЕНДӘ ТӘБИҒИ ТЕЛ ТАСУИРЛАМАҺЫ ҮҘӘГЕН ТӨҘӨҮ

TeT 7

T 1

T 2

T 3

T 6 T 4

T 5

Ýòàëîííûé òåêñò

ТӘБИҒИ ТЕЛДЕҢ ЫСЫНБАРЛЛЫҠТЫ (ПОРМ)

ТАСУИРЛАМАҺЫ ҮҘӘГЕНЕҢ

ЙОНДОҘ РӘҮЕШЛЕ ТОПОЛОГИЯҺЫБыл ысул эталон текст талап итә.

Үҙәк төҙөү этаптары 1.Эталон текст һайлау.2.Текстарҙың бертөрлөлөк

гипотезаһы Te L Ti. тикшереү

3. Ti тексын G тексы корпусына индереү.

ТӘБИҒИ ТЕЛ ЫСЫНБАРЛЫҠТЫ (ПОРМ) ТАСУИРЛАМА ҮҘӘГЕН ТӨҘӨҮҘЕҢ БУЙ СХЕМА ҺЫ

T 1 T 2 T 2 T 2

ТӘБИҒИ ТЕЛДЕҢ ЫСЫНБАРЛЛЫҠТЫ (ПОРМ)

ТАСУИРЛАМАҺЫ ҮҘӘГЕНЕҢ

БУЙ ТОПОЛОГИЯҺЫ

Эталон текст булып ағымдағы текст тора

Үҙәк төҙөү этаптары

1. Ti. тексын һайлау2. Ti. тексын G текстар корусына индереү.3. (Te = Ti или Te = Σ Ti ) эталон тексын һайлау4. Ti+1. тексын һайлау5. Te LTi+1 текстарҙың бертөрлөлөк гипотезаһын

тикшереү. 6. Ti+1 тексын G текстар корпусына индереү.

ТӘБИҒИ ТЕЛ ЫСЫНБАРЛЫҠТЫ (ПОРМ) ТАСУИРЛАМА ҮҘӘГЕН ТӨҘӨҮҘЕҢ ТОТАШ СХЕМА ҺЫ

T 1 T 2

T 3T 4

ТӘБИҒИ ТЕЛДЕҢ ЫСЫНБАРЛЛЫҠТЫ (ПОРМ)

ТАСУИРЛАМАҺЫ ҮҘӘГЕНЕҢ

ТОТАШ СЕЛТӘР ТОПОЛОГИЯҺЫ

G корпусының һәр бер Ti тексы эталон булып тора

Үҙәк төҙөү этаптары Ti-1, Ti-2, Ti-3, … һ.б. текстарын G корпусына

индереү.1. Ti тексын һайлау.2. Te1 = Ti-1, Te2 = Ti-2, Te3 = Ti-3, … һ.б.эталон

текстарын һайлау.3. Te1LTi, Te2LTi, Te3LTi, … һ.б. текстарҙың

бертөрлөлөк гипотезаһын тикшереү. 4.Ti тексын G текстар корпусына индереү .

ҮҘ-ҮҘЕҢДЕ ТИКШЕРЕҮ ӨСӨН ҺОРАУҘАР.

«Дәрәжә-йышлыҡ» текст моделын тасуирлағыҙ. Ципфтың һүҙҙәр йышлығы ҡанунын әйтегеҙ. Ципф ҡанунын « сығарығыҙ». Мандельброттың һүҙҙәр йышлығы ҡануны формулаһын

яҙығыҙ. Мандельброт формулаһының коэффициенттар аңлатмаһын

табығыҙ. «Дәрәжә-йышлыҡ» статистик бүленеште сығарығыҙ. Тәбиғи тел ысынбарлыҡты (ПОРМ) тасуирлама үҙәген

төҙөү ысулдарын һанап сығығыҙ. Эталон текст нигеҙендә тәбиғи тел ысынбарлыҡты (ПОРМ)

тасуирлама үҙәген төҙөү этаптарын һанап сығығыҙ. Тәбиғи тел ысынбарлыҡты (ПОРМ) тасуирлама үҙәген

төҙөүҙең буй схемаһын тасуирлағыҙ. Тәбиғи тел ысынбарлыҡты (ПОРМ) тасуирлама үҙәген

төҙөүҙең тоташ схемаһын тасуирлағыҙ.