怎样写一个拼写检查器(�~�写癑ֺ� 您要扄��是不�?功能 )

漂漂 — Sat, 25 Jun 2011 09:29:00 GMT

原文地址�Q?a >http://blog.csdn.net/deadspace/archive/2011/02/17/6190810.aspx
上个星期, 我的两个朋友 Dean �?Bill 分别告诉我说他们�?Google 的快速高质量的拼写检查工��h��到惊�? 比如说在搜烦的时候键�?[speling], 在不�?0.1 �U�的旉��? Google 会返�? 你要扄��是不�?[spelling]. (Yahoo! 和微软也有类似的功能). 让我感到有点奇怪的是我原想 Dean �?Bill �q�两个很牛的工程师和数学家应该对于��用统计语�a�模型构徏拼写��查器有职业的敏感. 但是他们��g��没有�q�个��x��. 我后来想了想, 他们的确没什么理由很熟悉�l�计语言模型. 不是他们的知识有问题, 而是我预想的本来��是不对�?

我觉�? 如果对这斚w��的工作做个解�? 他们和其他�h肯定会受�? 然而像Google 的那样工业强度的拼写��查器的全部细节只会让人感到迷惑而不是受到启�q? 前几天我乘飞机回家的时�? ��Z��写了几十行程�? 作�ؓ一个玩��h��质的拼写检查器. �q�个拼写��查器大约1 �U�能处理10 多个单词, �q�且辑ֈ� 80% -90% 的准��率. 下面��是我的代码, 用Python 2.5 写成, 一�?1 �? 是一个功能完备的拼写��查器.

import re, collections

def words( text): return re. findall( '[a-z]+' , text. lower())

def train( features):
    model = collections. defaultdict( lambda : 1 )
    for f in features:
        model[ f] += 1
    return model

NWORDS = train( words( file( 'big.txt' ). read()))

alphabet = 'abcdefghijklmnopqrstuvwxyz'

def edits1( word):
    n = len( word)
    return set([ word[ 0 : i]+ word[ i+ 1 :] for i in range( n)] +                      # deletion
               [ word[ 0 : i]+ word[ i+ 1 ]+ word[ i]+ word[ i+ 2 :] for i in range( n- 1 )] + # transposition
               [ word[ 0 : i]+ c+ word[ i+ 1 :] for i in range( n) for c in alphabet] + # alteration
               [ word[ 0 : i]+ c+ word[ i:] for i in range( n+ 1 ) for c in alphabet])   # insertion

def known_edits2( word):
return set( e2 for e1 in edits1( word) for e2 in edits1( e1) if e2 in NWORDS)

def known( words): return set( w for w in words if w in NWORDS)

def correct( word):
candidates = known([ word]) or known( edits1( word)) or known_edits2( word) or [ word]
return max( candidates, key= lambda w: NWORDS[ w])

�q�段代码定义了一个函数叫 correct , 它以一个单词作��入参�? �q�回最可能的拼写徏议结�? 比如�?

>>> correct( 'speling' )
'spelling'
>>> correct( 'korrecter' )
'corrector'

拼写��查器的原�? 一些简单的概率知识

我简单的介绍一下它的工作原�? �l�定一个单�? 我们的�Q务是选择和它最�怼�的拼写正��的单词. ( 如果�q�个单词本��n拼写��是正确�? 那么最相近的就是它自己�?. 当然, 不可能绝对的扑ֈ�相近的单�? 比如说给�?lates �q�个单词, 它应该别更正�?late 呢还�?latest �? �q�些困难指示我们, 需要��用概率论, 而不是基于规则的判断. 我们�? �l�定一个词 w, 在所有正��的拼写词中, 我们惌��找一个正��的�?c, 使得对于 w 的条件概率最�? 也就是说:

argmaxc P(c |w )

按照贝叶斯理�?上面的式子等价于:

argmaxc P(w |c ) P(c ) / P(w )

因�ؓ用户可以输错��M��? 因此对于��M�� c 来讲, 出现 w 的概�?P(w) 都是一��L��, 从而我们在上式中忽略它, 写成:

argmaxc P(w |c ) P(c )

�q�个式子有三个部�? 从右到左, 分别�?

1. P(c), 文章中出��C��个正��拼写词 c 的概�? 也就是说, 在英语文章中, c 出现的概率有多大�? 因�ؓ�q�个概率完全��p��语这�U�语�a�军_��, 我们�U�C��为做语言模型 . 好比�? ��p��中出�?the 的概�?P('the') ��q��寚w��, 而出�?P('zxzxzxzyy') 的概率接�q?( 假设后者也是一个词的话).

2. P(w|c), 在用��h��键入 c 的情况下敲成 w 的概�? 因�ؓ�q�个是代表用户会以多大的概率�?c 敲错�?w, 因此�q�个被称��差模�?.

3. argmaxc , 用来枚�D所有可能的 c �q�且选取概率最大的, 因�ؓ我们有理��q��? 一�? 正确�? 单词出现的频率高, 用户又容易把它敲成另一个错误的单词, 那么, 那个敲错的单词应该被更正��个正��的.

有�h肯定要问, 你笨�? ��Z��么把最��单的一�?P(c |w ) 变成两项复杂的式子来计算? �{�案是本质上 P(c|w) ��是和这两项同时相关�? 因此拆成两项反而容易处�? 举个例子, 比如一个单�?thew 拼错�? 看上�?thaw 应该是正��的, 因�ؓ��是�?a 打成 e �? 然�? 也有可能用户惌��的是 the, 因�ؓ the 是英语中常见的一个词, �q�且很有可能打字时候手不小心从 e 滑到 w �? 因此, 在这�U�情况下, 我们惌��计算 P(c |w ), ��必��d��时考虑 c 出现的概率和�?c �?w 的概�? 把一��Ҏ��成两��反而让�q�个问题更加�Ҏ��更加清晰.

现在, 让我们看看程序究竟是怎么一回事. 首先是计��?P(c), 我们可以��d��一个巨大的文本文�g, big.txt , �q�个里面大约有几百万个词( 相当于是语料库了). �q�个文�g是由Gutenberg 计划中可以获取的一些书, Wiktionary �?British National Corpus 语料库构�? ( 当时在飞��Z��我只有福��摩斯全�? 我后来又加入了一�? 直到效果不再显著提高为止).

然后, 我们利用一个叫 words 的函数把语料中的单词全部抽取出来, 转成��写, �q�且去除单词中间的特�D�符�? �q�样, 单词��׃��成�ؓ字母序列, don't ��变�?don �?t �?1 接着我们训练一个概率模�? 别被�q�个术语吓�? 实际上就是数一数每个单词出现几��? �?train 函数�? 我们��做�q�个事情.

def words( text): return re. findall( '[a-z]+' , text. lower())

def train( features):
    model = collections. defaultdict( lambda : 1 )
    for f in features:
        model[ f] += 1
    return model

NWORDS = train( words( file( 'big.txt' ). read()))

实际�? NWORDS[w] 存储了单�?w 在语料中出现了多��次. 不过一个问题是要是遇到我们从来没有�q�见�q�的新词怎么�? 假如说一个词拼写完全正确, 但是语料库中没有包含�q�个�? 从而这个词也永�q�不会出现在训练集中. 于是, 我们��p��q�回出现�q�个词的概率�?. �q�个情况不太�? 因�ؓ概率�? �q�个代表了这个事件绝对不可能发生, 而在我们的概率模型中, 我们期望用一个很��的概率来代表这�U�情�? 实际上处理这个问题有很多成型的标准方�? 我们选取一个最��单的�Ҏ��: 从来没有�q�见�q�的新词一律假讑և�现过一��? �q�个�q�程一般成�?#8221; �q�x��?#8221;, 因�ؓ我们把概率分布�ؓ0 的设�|��ؓ一个小的概率�? 在语�a�实现�? 我们可以使用Python collention 包中�?defaultdict �c? �q�个�c�d�� python 标准�?dict ( 其他语言中可能称之�ؓ hash �? 一�? 唯一的不同就是可以给��L��的键讄��一个默认�? 在我们的例子�? 我们使用一个匿名的 lambda:1 函数, 讄��默认��gؓ 1.

然后的问题是: �l�定一个单�?w, 怎么能够枚�D所有可能的正确的拼写呢? 实际上前人已�l�研�I�得很充分了, �q�个��是一个编辑距��?的概�? �q�两个词之间的编辑距��?br />定义��Z��用了几次插入( 在词中插入一个单字母), 删除( 删除一个单字母), 交换( 交换盔R��两个字母), 替换( 把一个字母换成另一�? 的操作从一个词变到另一个词.
下面�q�个函数可以�q�回所有与单词 w �~�辑距离�?1 的集�?

昄��, �q�个集合很大. 对于一个长度�ؓ n 的单�? 可能有n �U�删�? n-1 中对�? 26n �U?( 译注: 实际上是 25n �U? 替换 �?26(n+1) �U�插�?( 译注: 实际上比�q�个��? 因�ؓ在一个字母前后再插入�q�个字母构成的词是等��L��). �q�样的话, 一共就�?54n + 25 中情�?( 当中�q�有一炚w��?. 比如�? �?something �q�个单词的编辑距��Mؓ1 的词按照�q�个��来�?511 �? 而实际上�?494 �?

一般讲拼写��查的文献宣称大约80-95% 的拼写错误都是介于编译距��?1 以内. 然而下面我们看�? 当我对于一个有270 个拼写错误的语料做实验的时�? 我发现只�?6% 的拼写错误是属于�~�辑距离�? 的集�? 或许是我选取的例子比典型的例子难处理一点吧. 不管怎样, 我觉得这个结果不够好, 因此我开始考虑�~�辑距离�?2 的那些单词了. �q�个事情很简�? 递归的来�? ��是�?edit1 函数再作用在 edit1 函数的返回集合的每一个元素上��p��? 因此, 我们定义函数 edit2:

def edits2( word):
return set( e2 for e1 in edits1( word) for e2 in edits1( e1))

�q�个语句写�v来很��? 实际上背后是很庞大的计算�? �?something �~�辑距离�? 的单词居然达��C�� 114,324 �? 不过�~�辑距离攑֮��? 以后, 我们基本上就能覆盖所有的情况�? �?70 个样例中, 只有3 个的�~�辑距离大于2. 当然我们可以做一些小��的优化: 在这些编辑距��d��? 的词中间, 只把那些正确的词作�ؓ候选词. 我们仍然考虑所有的可能�? 但是不需要构��Z��个很大的集合, 因此, 我们构徏一个函数叫�?known_edits2 , �q�个函数只返回那些正��的�q�且�?w �~�辑距离��于2 的词的集�?

def known_edits2( word):
return set( e2 for e1 in edits1( word) for e2 in edits1( e1) if e2 in NWORDS)

现在, 在刚才的 something 例子�? known_edits2('something') 只能�q�回 3 个单�? 'smoothing', 'something' �?'soothing', 而实际上所有编辑距��Mؓ 1 或�?2 的词一共有 114,324 �? �q�个优化大约把速度提高�?10%.

最后剩下的��是误差模型部分 P(w |c ) �? �q�个也是当时难住我的部分. 当时我在飞机�? 没有�|�络, 也就没有数据用来构徏一个拼写错误模�? 不过我有一些常识性的知识: 把一个元��x��成另一个的概率要大于辅�?( 因�ؓ人常常把 hello 打成 hallo �q�样); 把单词的�W�一个字母拼错的概率会相对小, �{�等. 但是我�ƈ没有具体的数字去支撑�q�些证据. 因此, 我选择了一个简单的�Ҏ��: �~�辑距离�? 的正��单词比�~�辑距离�? 的优先��? 而编辑距��Mؓ0 的正��单词优先��比编辑距��Mؓ1 的高. 因此, 用代码写出来��是:

( 译注: 此处作者��用了Python 语言的一个��y妙性质: 短�\表达�? 在下面的代码�? 如果known(set) 非空, candidate ��׃��选取�q�个集合, 而不�l�箋计算后面�? 因此, 通过Python 语言的短路表辑ּ�, 作者很��单的实现了优先��)

def known( words): return set( w for w in words if w in NWORDS)

def correct( word):
candidates = known([ word]) or known( edits1( word)) or known_edits2( word) or [ word]
return max( candidates, key= lambda w: NWORDS[ w])

correct 函数从一个候选集合中选取最大概率的. 实际�? ��是选取有最�?P(c ) 值的那个. 所有的 P(c) 值都存储�?NWORDS �l�构�?

效果

现在我们看看��法效果怎么�? 在飞��Z��我尝试了好几个例�? 效果�q�行. 飞机着陆后, 我从牛��|文本��案�?(Oxford Text Archive) 下蝲�?Roger Mitton �?Birkbeck 拼写错误语料�?. 从这个库�? 我取��Z��两个集合, 作�ؓ我要做拼写检查的目标. �W�一个集合用来作为在开发中作�ؓ参�? �W�二个作为最后的�l�果��试. 也就是说, 我程序完成之前不参考它, 而把�E�序在其上的��试�l�果作�ؓ最后的效果. 用两个集合一个训�l�一个对照是一�U�良好的实践, 臛_��q�样可以避免我通过对特定数据集合进行特�D�调整从而自�ƺ欺�? �q�里我给��Z��一个测试的例子和一个运行测试的例子. 实际的完整测试例子和�E�序可以参见 spell.py .

代码下蝲�Q?br />本文来自CSDN博客�Q��{载请标明出处�Q?a >http://blog.csdn.net/deadspace/archive/2011/02/17/6190810.aspx

漂漂 2011-06-25 17:29 发表评论

免费观看久久久4p,国产日韩欧美一区在线,欧美精品日韩三级

怎样写一个拼写检查器(�~�写 癑ֺ� 您要扄���是不�?功能 )

怎样写一个拼写检查器(�~�写癑ֺ� 您要扄��是不�?功能 )