26
Частотные словари

Частотные словари

  • Upload
    sereno

  • View
    42

  • Download
    2

Embed Size (px)

DESCRIPTION

Частотные словари. Частотные словари. - PowerPoint PPT Presentation

Citation preview

Page 1: Частотные словари

Частотные словари

Page 2: Частотные словари

Частотные словари

• Частотный словарь, вид словаря (обычно одноязычного), в котором лексические единицы характеризуются с точки зрения степени их употребительности в совокупности текстов, представительных либо для языка в целом, либо для отдельного функционального стиля, либо для одного автора.

Page 3: Частотные словари

Частотные словари

• Информацию о каких словах следует включать?

• Как оценивать информацию о частотности слова, полученную на материале конкретного корпуса?

• Как выделять значимые слова?

Page 4: Частотные словари

Частотные словари

• F – частота• нормированная частота

• где N — число исследованных слов текста

• В большинстве Частотный словарь приводятся и абсолютные, и относительные характеристики.

Page 5: Частотные словари

Частотное поведение слова

• ipm, wpm – количество употреблений на миллион– стандартное представление частоты токена или

леммы (→ см.), вычисляемое относительно условного корпуса в миллион единиц независимо от объема реального корпуса

• ipm(x)=freq(x)*1 000 000/corp, – где freq(x) – частота единицы в корпусе, – а corp – объем реального корпуса.

Page 6: Частотные словари

ОПРЕДЕЛЕНИЯ МОДЕЛИ «РАНГ-ЧАСТОТА»

<ТЕКСТ>

<ЧАСТОТНЫЙ СЛОВНИК>

Ранг r

Слово W(r)

Частота f(r)

1 W(1) f(1)

2 W(2) f(2)

r W(r) f(r)

Пример:

Ранг r

Слово W(r)

Частота f(r)

1 the 245

2 of 136

3 terms 98

4 to 81

5 a 65

6 and 61

7 in 55

8 we 52

... … …Позиция в частотном спектре: низкоранговое (высокочастотное) vs. низкочастотное

Page 7: Частотные словари

Функции частотных словарей• изучение иностранного языка (для чтения 2% слов могут быть

незнакомы, 1000 наиболее частотных слов – без контекста)• усовершенствование различных кодовых систем• системы, основанные на статистических методах поиска

информации, кластеризации документов и т.п. • изучение словаря отдельных литературных памятников или

авторов на основе сведений о частотах употребления слов и словосочетаний

• лексикографические исследования (отношения внутри семантического поля, выделение устойчивых словосочетаний)

• контент-анализ

Page 8: Частотные словари

Примеры частотных словарей• Иоссельсон Г. [Josselson, H.] Словарь русского языка. Детройт,

1953. (Josselson Н. Н. The Russian word count... Detroit, 1953). Объем словника составляет 1700 слов.

• Штейнфельдт Э. А. Частотный словарь современного русского литературного языка. Таллин, 1963. (2 500 наиболее употребительных слов)

• Частотный словарь общенаучной лексики / Под общ. ред. Е. М. Степановой. М., 1970.

• Грузберг А. А. Частотный словарь русского языка второй половины XVI - начала XVII века. Пермь, 1974.

• Оливерус Зденек Ф. Морфемы русского языка: Частотный словарь. Praha, 1976.

Page 9: Частотные словари

Примеры частотных словарей• Частотный словарь русского языка: Около 40 000 слов / Под ред. Л.

Н. Засориной. М., 1977. (обработка средствами вычислительной техники 1 млн словоупотреблений (40 000 слов))

• Лённгрен Л. Частотный словарь современного русского языка. Uppsala, 1993.

• Ляшевская, Шаров. Частотный словарь современного русского языка (на материалах Национального корпуса русского языка). М.: Азбуковник, 2009.

Page 10: Частотные словари

Примеры частотных словарейАнглийский:• Francis W. Kučera, H. Frequency Analysis of English Usage. Boston.

1982.• John B. Carroll, Peter Davies, & Barry Richman. The American Heritage

Word Frequency Book• Mark Davies, Dee Gardner A Frequency Dictionary of American English:

Word Sketches, Collocates, and Thematic Lists. published by Routledge. 2010.

Page 11: Частотные словари

Примеры частотных словарей• Для русского языка было разработано несколько частотных словарей.

Пионером был словарь Г. Йоссельсона, изданный в 1953 году в Детройте на материале языка по преимуществу дореволюционной России.

• Словари Э.А. Штейнфельд (1963), Л.Н. Засориной (1977), Л. Леннгрена (1993) и др. были созданы на основе относительно небольших коллекций текстов (400 тысяч - 1 миллион слов) и в большой степени отражают специфику русского языка советского периода: частоты слов товарищ и партия в них сопоставимы со служебными словами, а слово расческа отсутствует. Существуют также специализированные словари, в частности, словарь Е.М. Степановой (1976), посвященный общенаучной лексике.

• Отдельную отрасль статистических словарей составляют словари языка Пушкина, Достоевского, Грибоедова, Цветаевой (Виноградов 1956-1961, Шайкевич и др. 2003, Поляков 1999, Белякова и др. 1996), которые полностью описывают язык данного писателя.

Page 12: Частотные словари

50 самых частотных слов в английском языке

1 6187267 the det 2 4239632 be v 3 3093444 of prep4 2687863 and conj 5 2186369 a det 6 1924315 in prep7 1620850 to infinitive-marker 8 1375636 have v 9 1090186 it pron

10 1039323 to prep 11 887877 for prep 12 884599 i pron13 760399 that conj 14 695498 you pron 15 681255 he pron16 680739 on prep 17 675027 with prep 18 559596 do v

19 534162 at prep 20 517171 by prep 21 465486 not adv22 461945 this det 23 459622 but conj 24 434532 from prep25 433441 they pron 26 426896 his det 27 384313 that det28 380257 she pron 29 373808 or conj 30 372031 which det31 364164 as conj 32 358039 we pron 33 343063 an det34 333518 say v 35 297281 will modal 36 272345 would modal

37 266116 can modal 38 261089 if conj 39 260919 their det40 249540 go v 41 249466 what det 42 239460 there pron

Page 13: Частотные словари

Некоторые принципы при составлении частотных словарей

Достоверность указанной частоты• Частоты слов, полученные по выборке, должны отличаться от частот

слов, существующих в совокупности, не более чем на заданную величину относительной ошибки.

• , N – объем выборки, δ - заданная относительная ошибка, p – частота, zp – константа

• • Пример: словарь Торндайка и Лорджа – указывали пределы pp

Np

z p

Page 14: Частотные словари

Сравнительная частота слов по частотным словарям

Лемма Леннгрен Засорина Штейнф. НКРЯ Интернет

власть 202 364 138 422 428

думать 609 1094 1058 865 818

загрязнение 69 1 0 9 11

задача 499 421 250 228 292

изучение 193 110 0 63 78

любить 415 632 595 549 650

милый 58 242 135 129 110

Page 15: Частотные словари

Частотные словари. Проблемы• Если слово встретилось в тексте один раз, то при нормальном

распределении это не влияет на вероятность его употребления там во второй раз.

• В реальности это не так. • Каждый текст имеет некоторую собственную тему, слова которой в

этом тексте будут употребляться намного чаще среднего. • В тексте про хоббитов слово хоббит будет употребляться так же

часто, как и многие служебные слова. • В результате частотный список, построенный на основе корпуса,

отражает специфику тех текстов, которые попали в него при его составлении.

Page 16: Частотные словари

Частотные словари. Проблемы

• Корпус большего размера, отражающий большее количество тем и функциональных стилей (корпус типа BNC или НКРЯ), – обеспечивает хорошую надежность для наиболее

частотных элементов. • Но: дальнейшее увеличение объема текстов в ущерб их

разнообразию,• например, проекты создания Гига-корпусов английского и

китайского языков, содержащих более миллиарда словоупотреблений новостных текстов, Cieri & Liberman 2002– может приводить к меньшей надежности частотного

списка на таких корпусах за счет сдвига их словаря в сторону новостной лексики.

Page 17: Частотные словари

Частотные словари. Значимая лексикаМеры распространенности

• Задача частотного словаря:• не просто ранжировать слова по их частоте в отдельном

корпусе, • но и определить лексическое ядро языка,

• необходимо отделить слова, часто встречающиеся во многих текстах, от тех, чье лексическое поведение подобно словам Норьега или хоббит, и которые случайно оказались в той или иной позиции частотного списка.

Page 18: Частотные словари

Частотные словари. Значимая лексика Меры распространенности

• коэффициент D, введенный А. Жуйаном (Juilland et al. 1970), который принимает во внимание как число документов, в которых встречается слово, так и его относительную частоту в этих документах:

• где μ – средняя частота слова по всему корпусу, σ – среднее квадратичное отклонение этой частоты на отдельных документах, n – число документов, в которых встречается это слово.

• Значение D у слов, встречающихся в большинстве документов, близко к 100, а у слов, часто встречающихся лишь в небольшом числе документов, близко к 0.

• [Juliand et al. 1977]

Page 19: Частотные словари

Частотные словари. Значимая лексика Меры распространенности

• показатель DP («deviation of proportions», «отклонение пропорций»)

• он определяет отклонение от ожидаемой величины и состоит в измерении сравниваемых частей корпуса, а также последующем вычислении разницы между ожидаемым и реальным распределением слова, которое затем делится на два.

• DP, приближающееся к нулю означает полностью однородное распределение, а равное единице – ситуацию, когда слово встречается лишь в одной части корпуса.

• [Gries 2008]

Page 20: Частотные словари

Частотные словари. Значимая лексика Меры распространенности

• формула для измерения средней уменьшенной частоты («average reduced frequency», ARF)

• В данном случае v – длина одной части, а за d взято расстояние между двумя словоформами лексемы в корпусе.

di= ni – ni-1

n - позиция нужных слов,

f - количество частей

• [Savicky ́ et Hlava ́c ̌ova 2002]́

ARFvdv

f

ii

1

},min{1

Page 21: Частотные словари

«Значимая» лексика. Меры распространенности

Коэффициент D

• слова жуткий, специфический и сырье имеют примерно равную частоту (21 употребление на миллион слов), но при этом коэффициент D у специфический - 66, сырье - 18, а у жуткий - 78, что означает, что последнее слово значимо для большего числа предметных областей и (при прочих равных условиях) имеет большие шансы на место в неспециализированном словаре.

Page 22: Частотные словари

«Значимая» лексикаМеры распространенности

• Частотные словари функциональных стилей составлены на основе подкорпусов художественной литературы, публицистики, другой нехудожественной литературы и устной речи.

• В список включены 5 000 самых частотных лемм этих подкорпусов. Список наиболее типичных лемм для каждого типа текстов был выделен на основе сравнения частоты лемм в таких текстах и в остальном корпусе.

• В качестве метрики сравнения был использован критерий отношения правдоподобия (log-likelihood), вычисляемый на основе следующей матрицы:

Подкорпус Другие тексты Весь корпусЧастота а b а+bРазмер с d c+d

Page 23: Частотные словари

Объем выборкиОшибка

Словарь объем выборки

объем словника

количество слов, частота

которых подсчитана с

δ≤0.3Элдридж 43 989 6 000 ~ 100Торндайк 4 500 000 10 000 ~ 2 200

Браун и др. 1 200 000 9 345 ~ 1 500Иоссельсон 1 000 000 1 700 ~ 1 700Гарсия Ос 400 000 13 000 ~ 1 100

Page 24: Частотные словари

Пример 1.Лексема Частота

(ШЛ)Коэф. D (ШЛ)

Частота (Засорина)

Частота (Лич)

Коэф. D (Лич)

1 2 3 4 5 6добрый 171.1 0.96 277 297, 268 0.79, 0.96злой 61.5 0.95 87 15 0.91жестокий 37.5 0.96 60 14 0.91смелый 26 0.96 73 14 0.95храбрый 9 0.88 13 18 0.92ловкий 10.3 0.93 15 18 0.92верный 98.8 0.97 119 14 0.94богатый 85 0.96 238 79 0.95бедный 84 0.96 112 108, 172 0.95, 0.96глухой 40.7 0.94 54 27 0.62слепой 22.5 0.93 31 26 0.95голый 65.4 0.93 73 20 0.90живой 284 0.95 282 43 0.93

Page 25: Частотные словари

Пример 2. Контент-анализ

Page 26: Частотные словари

Частота лексемы

• Информационный поиск (индексирование документа, поиск документа, близкого (наиболее релевантного) запросу);

• Компьютерная лексикография (выделение «значимой» лексики, выделение коллокаций (MWE), разрешение семантической неоднозначности (WSD));

• грамматическая разметка (снятие грамматической омонимии)