koson — Fri, 23 Apr 2010 09:41:00 GMT

目前�Ҏ(gu��)��语分词方法的研究主要有三个方面：(x��)��Z��规则的分词方法、基于统计的分词�Ҏ(gu��)��和基于理解的分词�Ҏ(gu��)��?

��Z��规则的分词方�?/font>

�? 于规则的分词�Ҏ(gu��)��Q�这�U�方法又叫做机械分词�Ҏ(gu��)��,它是按照一定的�{�略��待分析的汉字串与一�?#8220;充分大的”机器词典中的词条�q�行匚w��,若在词典中找到某个字 �W�串,则匹配成�?识别��Z��个词) 。常用的�Ҏ(gu��)��Q�最��匹配算�?Minimum Matching)�Q�正向（逆向�Q�最大匹配法(Maximum Matching)�Q�逐字匚w��法,��经�|�络法、联想一回溯法，��Z��N-最短�\径分词算�?以及可以�怺��l�合�Q�例�?可以��正向最大匹配方法和逆向最大匹配方法结合�v来构成双向匹配法�{�。目前机械式分词占主��地位的是正向最大匹配法和逆向最大匹配法�?/p>

�?最��匹配算�?/strong>

    在所有的分词��法中，最早研�I�的是最��匹配算�?Minimum Matching)�Q�该��法从待比较字符串左边开始比较，先取前两个字�W�组成的字段与词�怸�的词�q�行比较�Q�如果词�怸�有该词，则分出此词，�l�箋从第三个�? �W�开始取两个字符�l�成的字�D�进行比较，如果没有匚w��刎ͼ�则取�?个字�W�串�l�成的字�D�进行比较，依次�c�L��Q�直到取的字�W�串的长度等于预先设定的阈��|��如果�q? 没有匚w��成功�Q�则从待处理字串的第二个字符开始比较，如此循环�?/p>
例如�Q?#8220;如果�q�没有匹配成�?#8221;�Q�取出左边两个字 �l�成的字�D�与词典�q�行比较�Q�分�?#8220;如果”�Q�再�?#8220;�q?#8221;开始，�?#8220;�q�没”�Q�字�怸�没有此词�Q��l�取“�q�没�?#8221;�Q�依�ơ取到字�D?#8220;�q�没有匹�?#8221;(假设阈��gؓ(f��) 5)�Q�然后从“�?#8221;开始，�?#8220;没有”�Q�如此��@环直到字�W�串末尾为止。这�U�方法的优点是速度快，但是准确率却不是很高�Q�比如待处理字符串�ؓ(f��)“中华人民共和 �?#8221;�Q�此匚w��法分出的结果�ؓ(f��)�Q�中华、�h民、共和国�Q�因此该�Ҏ(gu��)��基本上已�l�不被采�?�?/p>
�?最大匹配算�?/strong>

    ��Z��字符串的最大匹配，�q�种�Ҏ(gu��)��现在仍比较常用。最大匹�?Maximum Matching)分�ؓ(f��)正向和逆向两种最大匹配，正向匚w��的基本思想是：(x��)假设词典中最大词条所含的汉字个数为n个，取待处理字符串的前n个字作�ؓ(f��)匚w��? �D�，查找分词词典。若词典中含有该词，则匹配成功，分出该词�Q�然后从被比较字�W�串的n+1处开始再取n个字�l�成的字�D�重新在词典中匹配；如果没有匚w��? 功，则将�q�n个字�l�成的字�D늚�最后一位剔除，用剩下的n一1个字�l�成的字�D�在词典中进行匹配，如此�q�行下去�Q�直到切分成功�ؓ(f��)止�?/p>
�? 如，待处理字�W�串�?#8220;汉字多�ؓ(f��)表意文字”�Q�取字符�?#8220;汉语多�ؓ(f��)�?#8221;(假设比较的步长�ؓ(f��)5�Q�本文步长step都取5)与词典进行比较，没有与之对应的词�Q�去 �?#8220;�?#8221;字，用字�D?#8220;汉语多�ؓ(f��)”�q�行匚w��Q�直臛_��配到“汉语”��Q�再取字�W�串“多�ؓ(f��)表意”�Q��@环到切分�?#8220;文字”一词。目前，正向最大匹配方法作��Z��U? 基本的方法已被肯定下来，但是�׃��错误比较大，一般不单独使用。如字符�?#8220;处理机器发生的故�?#8221;�Q�在正向最大匹配方法中�?x��)出现歧义切分，该字�W�串被分为：(x��) 处理机、发生、故障，但是使用逆向匚w��p��得到有效的切分�?/p>
    逆向最大匹配RMM(Reverse Directional Maximum Matching Method)的分词原理和�q�程与正向最大匹配相��|��区别在于前者从文章或者句�?字串)的末��ּ�始切分，若不成功则减��L��前面的一个字。比如对于字�W�串 “处理机器发生的故�?#8221;�Q�第一步，从字串的双��取长度以步长为单位的字段“发生的故�?#8221;在词�怸��q�行匚w��Q�匹配不成功�Q�再取字�D?#8220;生的故障”�q�行匚w��Q�依 �ơ匹配，直到分出“故障”一词，最�l��用RMM�Ҏ(gu��)��切分的结果�ؓ(f��)�Q�故障、发生、机器、处理。该�Ҏ(gu��)��要求配备逆序词典�?/p>
    一般来说根据汉语词汇构成的特点�Q�从理论上说明了逆向匚w��的精��度高于正向匚w��Q�汉语语句的特点一般中心语偏后。有研究数据,单纯使用正向最大匹配的错误率�ؓ(f��)1/ 169 ,单纯使用逆向最大匹配的错误率�ؓ(f��)1/245。实际应用中可以从下面几斚w��改进�Q�同旉��取几�U�分词算法，来提高正��率;改进扫描方式�Q�称为特征扫描或标志切分,优先在待分析字符串中识别和切分出一些带有明昄��征的�?以这些词作�ؓ(f��)断点,可将原字�W�串分�ؓ(f��)较小的串再来�q�机械分词，从而减��匹配的错误率等�?/p>
�?nbsp; 逐字匚w��法

    逐字匚w��法�Q�基于TRIE索引�?w��i)的逐字匚w��法,是徏立在�?w��i)型词典机制上，匚w��的过�E�是从烦引树(w��i)的根�l�点依次同步匚w��待查词中的每个字�Q�可以看成是�Ҏ(gu��)��(w��i) 某一分枝的遍历。因此，采用该算法的分词速度较快�Q�但�?w��i)的构造和�l�护比较复杂。一�U�改�q�的��法是和最大匹配算法相�l�合�Q�吸取最大匹配算法词典结构简单�? TRIE索引�?w��i)算法查询速度快的优点。因此词典结构和最大匹配词典构造机制相��|��区别在于词典正文前增加了多��索引。匹配过�E�类似TRIE索引�?w��i)进行逐字匚w��Q�在性能上和TRIE索引�?w��i)相�q��?/p>
�?nbsp; ��经�|�络分词��法

    ��经�|�络分词��法�Q��a峰等提出了以��经�|�络理论(BP模型)为基��的汉语分词模�?为汉语分词研�I�开辟了新途径。在实用�?BP��法存在收敛速度慢、易�? 入局部最��等�~�点,严重妨碍了分词速度。一�U�改�q�算法采用Levenbery2Marquart ��法来加速收敛速度,加快了收敛速度利用��经�|�络的基本原理进行分词�?/p>
�?nbsp; 联想—回溯法

    联想—回溯法(Association�Q�Backtracking Method�Q�简�U?AB �?。这�U�方法要求徏立三个知识库——特征词词库、实词词库和规则库。首先将待切分的汉字字符串序列按特征词词库分割�ؓ(f��)若干子串�Q�子串可以是词，也可以是由几个词�l�合而成的词��；然后�Q�再利用实词词库和规则库��词��再�l�分��。切词时�Q�要利用一定的语法知识�Q�徏立联��x��制和回溯机制。联��x��制由联想�|�络�? 联想推理构成�Q�联想网�l�描�q�每个虚词的构词能力�Q�联��x��理利用相应的联想�|�络来判定所描述的虚词究竟是单独成词�q�是作�ؓ(f��)其他词中的构词成分。回溯机制主�? 用于处理歧义句子的切分。联想—回溯法虽然增加了算法的旉��复杂度和�I�间复杂度，但这�U�方法的切词正确率较高，是一�U�行之有效的�Ҏ(gu��)��?/p>
�?nbsp; N-最�D��\径分词算�?/strong>

    ��Z��N-最短�\径分词算法，其基本思想是根据词典，扑և�字串中所有可能的词，构造词语切分有向无环图。每个词对应图中的一条有向边�Q��ƈ赋给相应的边�?�? �?。然后针对该切分图，在�v点到�l�点的所有�\径中�Q�求出长度值按严格升序排列(��M��两个不同位置上的��g��定不�{�，下同)依次为第1�Q�第2�Q?#8230;�Q�第 i�Q?#8230;�Q�第N的�\径集合作为相应的�_�分�l�果集。如果两条或两条以上路径长度相等�Q�那么他们的长度�q�列�W? i�Q�都要列入粗分结果集�Q�而且不媄响其他�\径的排列序号�Q�最后的�_�分�l�果集合大小大于或等于N。N一最短�\径方法实际上是最短�\径方法和全切分的有机�l? 合。该�Ҏ(gu��)��的出发点是尽量减��切分出来的词数�Q�这和最短�\径分词方法是完全一致的�Q�同时又要尽可能的包含最�l�结果，�q�和全切分的思想是共通的。通过�q�种�l? 合，一斚w��避免了最短�\径分词方法大量舍弃正 ��结果的可能�Q�另一斚w��又大大解决了全切分搜索空间过大，�q�行效率差的弊端。N一最短�\径方法相对的不��是�_�分�l�果不唯一 �Q�后�l�过�E�需要处理多个粗分结果�?但是 �Q�对于预处理�q�程来讲�Q�粗分结果的高召回率臛_��重要。因��Z��召回率就意味着没有办法再作后箋的补救措施。预处理一旦出错，后箋处理只能是一错再�?�Q�基本上得不到正��的最�l? �l�果。而少量的�_�分�l�果对后�l�过�E�的�q�行效率影响不会(x��)太大�Q�后�l�处理可以进一步优选排错，如词性标注、句法分析等�?/p>
    除上面之外，�q�有��Z��词频�l�计的切词法�Q?��Z��期望的切词法�Q�有�I�多�U�列举法�{��?/p>

��Z��l�计的分词方�?/font>

    ��Z��l�计的分词方法，��Z��l�计的方法是��Z��(两个或多�? 汉字同时出现的概�?通过对语料库(�l�过处理的大量领域文本的集合)中的文本�q�行有监督或无监督的学习(f��n)�Q�可以获取该�c�L��本的某些整体特征或规律。如�? 能够充分地利用这些统计现象、规�?�Q�就可以构造基于语�? 库的�l�计学信息抽取算法统计的分析�Ҏ(gu��)��多种多样�Q�近来研�I�的热点主要集中于由随机�q�程发展而来的理论和�Ҏ(gu��)��Q�其中最重要的是应用隐马��?d��ng)科夫模�?HMM) �q�行自然语言处理的方法。隐马尔�U�夫模型,在语韌��别领域已�l�取得了很好的成�?在信息抽取领域的应用也正在不断的��试和推�q�中 �?/p>

��Z��理解分词的方�?/font>

    ��Z��理解分词的方法，又称之�ؓ(f��)知识分词,知识分词是一�U�理想的分词�Ҏ(gu��)��,但这�c�d��词方案的��法复杂度高,其有效性与可行性尚需在实际工作中得到�q�一步的�? 证。知识分词利用有兌��、句子等的句法和语义信息或者从大量语料中找出汉字组词的�l�合特点来进行评�?以期扑ֈ�最贴近于原句语义的分词�l�果�?/p>

什么是中文分词

　　众所周知�Q�英文是�? 词�ؓ(f��)单位的，词和词之间是靠空格隔开�Q�而中文是以字为单位，句子中所有的字连��h��才能描述一个意思。例如，英文句子I am a student�Q�用中文则�ؓ(f��)�Q?#8220;我是一个学�?#8221;。计��机可以很简单通过�I�格知道student是一个单词，但是不能很容易明�?#8220;�?#8221;�?#8220;�?#8221;两个字合��h�� 才表�C�Z��个词。把中文的汉字序列切分成有意义的词，��是中文分词�Q�有些�h也称为切词。我是一个学生，分词的结果是�Q�我 �?一�?学生�?/p>
　　中文分词和搜索引�?/p>
　　中文分词到底�Ҏ(gu��)��索引擎有多大影响�Q�对于搜索引擎来��_��最重要的�ƈ不是扑ֈ�所有结果，因�ؓ(f��)在上百亿的网��中扑ֈ�所有结果没有太多的意义�Q�没有�h能看得完�Q�最重要的是把最相关的结果排在最前面�Q�这也称为相兛_��排序�?span class="relatedlinks-highlight">中文分词的准��与否，常常直接影响到对搜烦�l�果的相兛_��排序。笔者最�q�替朋友找一些关于日本和服的资料�Q�在搜烦引擎上输�?#8220;和服”�Q�得到的�l�果��发��C��很多问题。下面就以这个例子来说明分词�Ҏ(gu��)��索结果的影响�Q�在现有三个中文搜烦引擎上做��试�Q�测试方法是直接在Google�Q?a >http://www.google.com�Q�、百度（http://www.baidu.com�Q�上�?#8220;和服”为关键词�q�行搜烦�Q?/p>
　　在Google上输�?#8220;和服”搜烦所有中文简体网��，��d��l�果507,000条，�?0条结果中�?4条与和服一点关�p�都没有�?/p>
　　在百度上输入“和服”搜烦�|�页�Q��d��l�果�?87,000条，�?0条结果中�?条与和服一点关�p�都没有�?/p>
　　在中搜上输入“和服”搜烦�|�页�Q��d��l�果�?6,917条，�?0条结果都是与和服相关的网��c�?/p>
　　�q�次搜烦引擎�l�果中的错误�Q�就是由于分词的不准��所造成的。通过�W�者的了解�Q�Google�?span class="relatedlinks-highlight">中文分词技术采用的是美国一家名叫Basis Technology�Q?a >http://www.basistech.com�Q�的公司提供�?span class="relatedlinks-highlight">中文分词技术，癑ֺ�使用的是自己公司开发的分词技术，中搜使用的是国内��量�U�技�Q?a >http://www.hylanda.com�Q�提供的分词技术。由此可见，中文分词的准��度�Q�对搜烦引擎�l�果相关性和准确性有相当大的关系�?/p>
　　中文分词技�?/p>
　　中文分词技术属于自然语�a�处理技术范��_��对于一句话�Q��h可以通过自己的知识来明白哪些是词�Q�哪些不是词�Q�但如何让计��机也能理解�Q�其处理�q�程��是分词��法�?/p>
　　现有的分词算法可分�ؓ(f��)三大�c�：(x��)��Z��字符串匹配的分词�Ҏ(gu��)��、基于理解的分词�Ҏ(gu��)��和基于统计的分词�Ҏ(gu��)��?/p>
　　1、基于字�W�串匚w��的分词方�?/p>
�q�种�Ҏ(gu��)��又叫做机械分词方法，它是按照一定的�{�略��待分析的汉字串与一�?#8220;充分大的”机器词典中的词条�q�行配，若在词典中找到某个字�W�串�Q�则匚w��成功 �Q�识别出一个词�Q�。按照扫描方向的不同�Q�串匚w��分词�Ҏ(gu��)��可以分�ؓ(f��)正向匚w��和逆向匚w��Q�按照不同长度优先匹配的情况�Q�可以分为最大（最长）匚w��和最��（最短）匚w��Q�按照是否与词性标注过�E�相�l�合�Q�又可以分�ؓ(f��)单纯分词�Ҏ(gu��)��和分词与标注相结合的一体化�Ҏ(gu��)��。常用的几种机械分词�Ҏ(gu��)��如下�Q?/p>
　　1�Q�正向最大匹配法�Q�由左到右的方向�Q�；

　　2�Q�逆向最大匹配法�Q�由叛_��左的方向�Q�；

　　3�Q�最��切分（使每一句中切出的词数最��）�?/p>
�q�可以将上述各种�Ҏ(gu��)��怺��l�合�Q�例如，可以��正向最大匹配方法和逆向最大匹配方法结合�v来构成双向匹配法。由于汉语单字成词的特点�Q�正向最��匹配和逆向最��匹配一般很��用。一般说来，逆向匚w��的切分精度略高于正向匚w��Q�遇到的歧义现象也较?y��u)��。统计结果表明，单纯使用正向最大匹配的错误率�ؓ(f��)1/169�Q? 单纯使用逆向最大匹配的错误率�ؓ(f��)1/245。但�q�种�_�ֺ��q�远�q�不能满��_��际的需要。实际��用的分词�pȝ��Q�都是把机械分词作�ؓ(f��)一�U�初分手�D�，�q�需通过利用�? �U�其它的语言信息来进一步提高切分的准确率�?/p>
　　一�U�方法是改进扫描方式�Q�称为特征扫描或标志切分�Q�优先在待分析字�W�串中识别和切分��Z��? 带有明显特征的词�Q�以�q�些词作为断点，可将原字�W�串分�ؓ(f��)较小的串再来�q�机械分词，从而减��匹配的错误率。另一�U�方法是��分词和词类标注�l�合��h��Q�利用丰�? 的词�c�M��息对分词决策提供帮助�Q��ƈ且在标注�q�程中又反过来对分词�l�果�q�行��验、调��_��从而极大地提高切分的准��率�?/p>
　　对于机械分词�Ҏ(gu��)��Q�可以徏立一个一般的模型�Q�在�q�方面有专业的学术论文，�q�里不做详细��?/p>
　　2、基于理解的分词�Ҏ(gu��)��

�q�种分词�Ҏ(gu��)��是通过让计��机模拟人对句子的理解，辑ֈ�识别词的效果。其基本思想��是在分词的同时�q�行句法、语义分析，利用句法信息和语义信息来处理歧义现象。它通常包括三个部分�Q�分词子�pȝ��、句法语义子�pȝ��、��L��部分。在��L��部分的协调下�Q�分词子�pȝ��可以获得有关词、句子等的句法和语义信息来对分词歧义 �q�行判断�Q�即它模拟了人对句子的理解过�E�。这�U�分词方法需要��用大量的语言知识和信息。由于汉语语�a�知识的笼�l�、复杂性，难以��各�U�语�a�信息�l�织成机器可直接��d��的�Ş式，因此目前��Z��理解的分词系�l�还处在试验阶段�?/p>
　　3、基于统计的分词�Ҏ(gu��)��

　　从�Ş式上看，词是�E�_��的字的组合，因此在上下文中，盔R��的字同时出现的次数越多，��p��有可能构成一个词。因此字与字盔R��q��的频率或概率能够较好的反映成词的可信度。可以对语料中相�? ��q��的各个字的组合的频度�q�行�l�计�Q�计��它们的互现信息。定义两个字的互��C��息，计算两个汉字X、Y的相��d��现概率。互��C��息体��C��汉字之间�l�合关系的紧密程度。当紧密�E�度高于某一个阈值时�Q�便可认为此字组可能构成了一个词。这�U�方法只需对语料中的字�l�频度进行统计，不需要切分词典，因而又叫做无词典分�? 法或�l�计取词�Ҏ(gu��)��。但�q�种�Ҏ(gu��)��也有一定的局限性，�?x��)经常抽��Z��些共现频度高、但�q�不是词的常用字�l�，例如“�q�一”�?#8220;之一”�?#8220;有的”�?#8220;我的”�?#8220;许多 �?#8221;�{�，�q�且对常用词的识别精度差�Q�时�I�开销大。实际应用的�l�计分词�pȝ��都要使用一部基本的分词词典�Q�常用词词典�Q�进行串匚w��分词�Q�同时��用统计方法识�? 一些新的词�Q�即��串频统计和串匹配结合�v来，既发挥匹配分词切分速度快、效率高的特点，又利用了无词典分词结合上下文识别生词、自动消除歧义的优点�?/p>
到底哪种分词��法的准��度更高�Q�目前�ƈ无定论。对于�Q何一个成熟的分词�pȝ��来说�Q�不可能单独依靠某一�U�算法来实现�Q�都需要综合不同的��法。笔者了解，��? 量科技的分词算法就采用“复方分词�?#8221;�Q�所谓复方，相当于用中药中的复方概念�Q�即用不同的药才�l�合��h��d��ȝ��病，同样�Q�对于中文词的识别，需要多�U�算�? 来处理不同的问题�?/p>
　　分词中的��N��

　　有了成熟的分词算法，是否��p��Ҏ(gu��)��的解�?span class="relatedlinks-highlight">中文分词的问题呢�Q�事实远非如此。中文是一�U�十分复杂的语言�Q�让计算机理解中文语�a�更是困难。在中文分词�q�程中，有两大难题一直没有完全突破�?/p>
　　1、歧义识�?/p>
歧义是指同样的一句话�Q�可能有两种或者更多的切分�Ҏ(gu��)��。例如：(x��)表面的，因�ؓ(f��)“表面”�?#8220;面的”都是词，那么�q�个短语��可以分�?#8220;表面 �?#8221;�?#8220;�? 面的”。这�U�称��Z��叉歧义。像�q�种交叉歧义十分常见�Q�前面�D�?#8220;和服”的例子，其实��是因�ؓ(f��)交叉歧义引�v的错误�?#8220;化妆和服�?#8221;可以分成“化妆 �? 服装”或�?#8220;化妆和服 �?#8221;。由于没有�h的知识去理解�Q�计��机很难知道到底哪个�Ҏ(gu��)��正确�?/p>
　　交叉歧义相对�l�合歧义来说是还��比较容易处理，�l�合歧义��必需�Ҏ(gu��)��整个句子来判断了。例如，在句�?#8220;�q�个门把手坏�?#8221;中，“把手”是个词，但在句子“��h��手拿开”中，“把手”��׃��是一个词�Q�在句子 “��军��d��了一名中��?#8221;中，“中将”是个词，但在句子“产量三年中将增长两�?#8221;中，“中将”��׃��再是词。这些词计算机又如何去识�?

　　�? 果交叉歧义和�l�合歧义计算机都能解决的话，在歧义中�q�有一个难题，是真歧义。真歧义意思是�l�出一句话�Q�由人去判断也不知道哪个应该是词�Q�哪个应该不是词�? 例如�Q?#8220;乒乓球拍卖完�?#8221;�Q�可以切分成“乒乓球拍 �?�?�?#8221;、也可切分成“乒乓�?拍卖 �? �?#8221;�Q�如果没有上下文其他的句子，恐怕谁也不知道“拍卖”在这里算不算一个词�?/p>
　　2、新词识�?/p>
　　新词�Q�专业术语称为未�? 录词。也��是那些在字�怸�都没有收录过�Q�但又确实能�U�Cؓ(f��)词的那些词。最典型的是人名�Q��h可以很容易理解句�?#8220;王军虎去�q�州�?#8221;中，“王军�?#8221;是个词，因�ؓ(f��) 是一个�h的名字，但要是让计算机去识别��困难了。如果把“王军�?#8221;做�ؓ(f��)一个词收录到字�怸�去，全世界有那么多名字，而且每时每刻都有新增的�h名，收录�q�些人名本��n��是一��巨大的工程。即使这��工作可以完成，�q�是�?x��)存在问题，例如�Q�在句子“王军虎头虎脑�?#8221;中，“王军�?#8221;�q�能不能��词�Q?/p>
　　新词中除了�h名以外，�q�有机构名、地名、��品名、商标名、简�U�、省略语�{�都是很隑֤�理的问题�Q�而且�q�些又正好是��Z��l�常使用的词�Q�因此对于搜索引擎来��_��分词�pȝ��中的新词识别十分重要。目前新词识别准��率已经成�ؓ(f��)评�h(hu��n)一个分词系�l�好坏的重要标志之一�?/p>
　　中文分词的应�?/p>
　　目前在自然语�a�处理技术中�Q�中文处理技术比西文处理技术要落后很大一�D�距��，许多西文的处理方法中文不能直接采用，��是因�ؓ(f��)中文必需有分词这道工序�?span class="relatedlinks-highlight">中文分词是其他中文信息处理的基础�Q�搜索引擎只�?span class="relatedlinks-highlight">中文分词的一个应用。其他的比如机器��译�Q�MT�Q�、语韛_��成、自动分�c�R��自动摘要、自动校对等�{�，都需要用到分词。因��Z��文需要分词，可能�?x��)媄响一些研�IӞ��但同时也��Z��些企业带来机�?x��)，因��?f��)国外的计��机处理技术要惌��入中国市场，首先也是要解�?span class="relatedlinks-highlight">中文分词问题。在中文研究斚w��Q�相比外国�h来说�Q�中国�h有十分明昄��优势�?/p>
分词准确性对搜烦引擎来说十分重要�Q�但如果分词速度太慢�Q�即使准��性再高，对于搜烦引擎来说也是不可用的�Q�因为搜索引擎需要处理数以亿计的�|�页�Q�如果分词耗用的时间过长，�?x��)严重媄响搜索引擎内��?gu��)��新的速度。因此对于搜索引擎来��_��分词的准��性和速度�Q�二者都需要达到很高的要求。目前研�I?span class="relatedlinks-highlight">中文分词的大多是�U�研院校�Q�清华、北大、中�U�院、北京语�a�学院、东北大学、IBM研究院、微软中国研�I��{�都有自��q��研究队伍�Q�而真正专业研�I?span class="relatedlinks-highlight">中文分词的商业公叔R��了�v量科技以外�Q�几乎没有了。科研院校研�I�的技术，大部分不能很快��品化�Q�而一个专业公司的力量毕竟有限�Q�看�?span class="relatedlinks-highlight">中文分词技术要��x��好的服务于更多的产品�Q�还有很长一�D��\�?/p>

koson 2010-04-23 17:41 发表评论

国产精品jvid在线观看蜜臀,欧美激情视频一区二区三区免费,欧美激情2020午夜免费观看