自然语言处理 --- 统计语言模型

自然语言处理---统计语言模型

By super.Y

自然语言怎样理解自然语言？惯性思维：分析语句，获取语义。分析语句 E.g. 男篮惨败伊朗

句子

名词动词

名字短语

句号谓语主语

名词

男篮惨败伊朗。

规则的劣势好复杂！好慢！计算机程序语言是上下文无关文法，而自

然语言是上下文有关。根据高德纳（ Donald Knuth ）提出的计算复杂度，对于上下文无关文法复杂度是语句长度的二次方，而有关文法为六次方。

常识。 The pen is in the box. The box is in the pen.

统计语言模型贾里尼克提出了基于统计的语音识别的框架。一个句子是否合理？概率大的比较合理。 S=w_1w_2….w_n. P(S)=P(w_1)P(w_2|w_1)…P(w_n|w_1..w_n-

好难算？！！！！ P(w_n|w_1..w_n-1) ，怎么算？？？？

马尔科夫假设： w_i 只与 w_i-1 有关。 P （ S ） =P(w_1)P(w_2|w_1)…P(w_n|w_n-

P(w_i|w_i-1)=P(w_i,w_i-1) /P(w_i-1)

语料库（ Corpus ），根据大数定理。 P(w_i,w_i-1) ≈ #(w_i-1,w_i)/# P(w_i-1) ≈ #(w_i-1)/#

模型的训练，零概率问题如果 #(w_i-1,w_i) = 0 , P(w_i|w_i-1)=0? 如果 #(w_i-1,w_i) = #w_i-1 = 1 P(w_i|w_i-1)=1?

显然不对

怎么办？ 1. 增加数据量，增大语料库实践证明，但现实中是无法避免零概率问题

的。

2. 古德 - 图灵估计（ Good – Turing Estimate ）

对于没有看见的事件，我们不能认为它概率为0 ，因此我们要从概率总量中，分配一个很小的比例给这些没有看见的事件。这样，看见的那些事件概率总和就小于 1.

古德 -图灵估计语料库中出现 r 次的词有 N(r) 个。则 N=∑ r N(r). 当 r 很小的时候，它的统计就不可靠，因此出现

这样的 r 次的词在估计它的概率时就要使用一个更小的次数， d_r < r.

d_r = (r+1) N(r+1) / N(r) 一般短的词出现次数大于长的词（ Zipf ’s

Law ）。即 N （ r+1 ） < N(r) ，所以一般情况下 d_r

< r 。

通过这种微调一石二鸟。 1. 解决了零概率问题。 2. 下调了出现频率很低的词的概率。

实际操作中，次数超过某个阈值的词不下调频率。

中文分词 1. 最大匹配（结婚的和尚未结婚的）结婚 / 的 / 和尚 / 未结婚的

2. 最少分词（为人民办公益）为人 / 民办 / 公益

3. 统计语言模型。找出概率最大的分词方法。

自然语言处理 --- 统计语言模型

Documents

NUS Presentation Title 2006 - bj.bcebos.combj.bcebos.com/cips-upload/贵阳战略研讨会/自然语言处理... · –面向社会媒体的自然语言处理：情感分析，话题发现，趋势分析

3. DYNAMO 语言简介

第 3 章 VHDL 语言

自然语言处理中文分词程序实验报告%28含源代码%29

第二章 HTML 语言

Part1. R语言介绍

汉语性别语言学 - abook.cn · 本书可作为汉语言文字学、语言学及应用语言学、汉语国际教育、华语与华文教育等专业的研究生教材，也可作为中国语言文学、汉语言、对外汉

第四章汇编语言程序设计 4.1汇编语言的基本语法

3 C++ 语言基础

《藏缅语区语言学》目录stedt.berkeley.edu/ltba/藏缅语区语言学目录 1974...《藏缅语区语言学》目录序号作者题目中文题目 1 (1974) Michailovsky,

第七讲语言学和语言教学

中文信息处理的机遇与挑战bj.bcebos.com/cips-upload/23_HuYu.pdf中文信息处理的机遇与挑战语音及语言信息处理国家工程实验室胡郁中文信息处理新的定义和理解

外国语言学及应用语言学 - graduate.shisu.edu.cngraduate.shisu.edu.cn/_upload/article/94/3d/302bb2f84c7faa538245af2b8a... · 语言学中的话语分析、应用语言学论

上篇 —— 语言基础

慕课：自然语言处理的一个新舞台

3 言语处理入门 - tup.com.cn · 涉及言语链的全过程。语音处理应包括：语音信号特征表示、言语识别与理解、言语合成、语音编码、说话人识别等。

如何用R语言做量化分析 - Huodongjia.compic.huodongjia.com/ganhuodocs/2017-12-22/1513908592.2.pdf目录 3 1. r语言适合做量化分析的5个理由 2. r语言的数据处理方法

汉语方言中的若干逆语法化现象 - ex.cssn.cnex.cssn.cn/yyx/yyx_fy/201810/W020181026640615127984.pdf · 汉语方言中的若干逆语法化现象吴福祥提要本文讨论汉语方言里四种逆语法化演变，即“并列连词>伴随介词”“处所介词>处所动

H T M L 语言