• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>

            kenlistian

            厚積薄發. 勤為槳,思為帆

               :: 首頁 :: 新隨筆 ::  :: 聚合  :: 管理 ::
              73 隨筆 :: 4 文章 :: 22 評論 :: 0 Trackbacks
              中文分詞看似簡單,但其實不是一個小課題,我想在中文分詞上研究的絕不是一個兩個人就可以搞定的事情,不過因時置地的開發適合自己用的分詞也是不錯的打算。不過能夠借用別人的研究結果而最大化的達到效果則也是一種辦法。
            如果非要投入到中文分詞的研究中,就不能單純的在分詞中分詞.如很多時候我們自己讀一篇難以歧義的句子,都是通過上下文來判斷的,估計那個時候的分詞則是人工智能的領域.

            下面全面介紹下其中文分類的細節
             

            1. 如何進行分詞?

              最容易想到的辦法是,用一個大詞典,把所有的詞都存入詞典中,掃描輸入的文本,查找所有可能的詞,然后看哪個詞可以做為輸出。例如:

            輸入文本: 我是學生
            詞: 我/是/學生

              其實這樣做了以后,可以解決60%的問題。總結起來,分詞的算法分為:
            1. 基于字符串匹配的分詞方法
            2. 基于理解的分詞方法
            3. 基于統計的分詞方法

               關于這3種算法的詳細介紹,可以查看中文分詞技術.


            2.分詞的問題

             1.通用詞表和切分規范
               信息處理中分詞單位的定義比傳統意義上的詞更寬泛些。分詞系統可以面向解決實際問題的需求和真實語料中使用的頻繁程度來規定“分詞單位”。而傳統詞語是可能不包含所有的詞語的,例如,一些人名、地名、機構名、外國人譯名,應予以識別和切分。一些動詞和形容詞重疊結構,如“高高大大”、“甜甜蜜蜜”等;一些附加詞,如后綴,“親和性”、“熱敏性”等;都可以作為分詞單位予以識別和切分。故對于一個分詞系統而言,制定一個一致性的分詞單位切分規范是需要考慮的.
            2.歧義切分字段
              文本中歧義切分字段的判別。漢語中歧義切分字段最基本有兩種類型:
              交集型歧義字段,如:“中國/人”,“中/國人”兩種切分結果。 組合型歧義。如:“有/才能/”。“他/才/能/告訴/你”
            3.未登錄詞識別(新詞)
              語言的發展和變化,以及詞的衍生現象非常普遍,不可能都收入辭典中。特別是人名、地名等專有名詞,在文本中有非常高的使用頻度和比例。
            3.中文分詞解決方法

             a.處理新詞。

                如:2003年之前,沒有人知道"非典 "。"非典"剛出現的時候,這就是新詞。還有"超女", "三個代表","芙蓉姐姐"。識別新詞的能力是評估一個分詞系統的重要指標。在國際上每年進行的分詞大賽中,識別新詞的比賽也單獨提出。2006年 SIGHAN的分詞大賽中,就增添了對于機構名識別的比賽。

              識別新詞是最近幾年分詞技術研究的重點。總結起來,無非分成兩種:
            1. 基于規則的方法。
            2. 基于統計、機器學習。

               拿人名識別為例。你不可能把所有的人名都放入詞典中,這決定了人名注定會是新詞。從人名構造來說,很有規律:姓+名。張王劉李陳、天下一半人。也就是說可 能有一半的人,是這五個姓。名也有一定規律:建華/建國/志強.....等有許多經常用于名字中的漢字;對于地名識別也可以找出很多規則,省/縣/村/鎮 /灣/河等,都是很常用的后綴,如果他們出現,之前出現地名的可能性比較大。如果把這些規律轉化成計算機能識別的算法,就是基于規則的算法。這種基于規則 的算法簡單有效,而且發現規則可很方便加入。

               規則總會有例外,規則過多以后,如何去權衡這些規則,會是十分頭疼的問題。人們試著告訴計算機目標,讓計算機自己去嘗試各種方法組合這些規則并得到最優參 數,這就機器學習。隨著Machine Learning(機器學習)技術的不斷進步,其應用范圍也越來越廣,中文分詞算法也從中受益。ANN(人工神經網絡), 最大熵模型, HMM(隱馬爾可夫模型)等算法都在新詞識別中有應用。

               通過機器學習識別新詞的原理并不復雜。一般都是先定義一些特征,然后利用訓練語料進行學習,建立模 型。還是以人名識別為例,可以定義姓名前面的字、姓、名、姓名后面的字做為特征,通過利用標注好姓名的語料庫進行學習訓練。

               機器學習識別新詞的好處在于自動尋找一些識別新詞的特征,其準確度和召回率都能達到比較高的水平。但機器學習算法需要有足夠多的訓練語料,人工準備準確的 大規模的訓練語料也會十分困難。另外,機器學習算法一般速度會比較慢,優化速度,使之用于海量數據處理,也是使用機器學習的一個關鍵點。


            4.目前分詞廣泛的方法

            1.基于詞表的分詞-最大匹配(MM)
              這是一種有著廣泛應用的機械分詞方法,該方法依據一個分詞詞表和一個基本的切分評估原則,即“長詞優先”原則,來進行分詞。這種評估原則雖然在大多數情況下是合理的,但也會引發一些切分錯誤。根據我們小規模測試的結果,其正確率為95.422%,速度為65,000字/分鐘。
            這種切分方法,需要最少的語言資源(僅需一個詞表,不需要任何詞法、句法、語義知識),程序實現簡單,開發周期短,是一個簡單實用的方法。

            2.基于統計的分詞
             這種方法首先切分出與詞表匹配的所有可能的詞,這種切分方法稱為“全切分”,運用統計語言模型和決策算法決定最優的切分結果。
            這種方法的優點是可以發現所有的切分歧義,但是解決歧義的方法很大程度上取決于統計語言模型的精度和決策算法。需要大量的標注語料,并且分詞速度也因搜索空間的增大而有所緩慢。根據我們小規模測試的結果,其正確率為96.252%。分詞速度為:40,000字/分鐘。

            3.基于規則和基于統計相結合
              這種方法首先運用最大匹配作為一種初步切分,再對切分的邊界處進行歧義探測,發現歧義。再運用統計和規則結合的方法來判別正確的切分,運用不同的規則解決人名、地名、機構名識別,運用詞法結構規則來生成復合詞和衍生詞。 

              這段話來自微軟開發分詞的一段.







            posted on 2007-09-18 17:54 kenlistian 閱讀(1719) 評論(3)  編輯 收藏 引用

            評論

            # 補充下3種分詞的方法 2007-09-18 18:05 kenlistian
            來源于http://www.dedecms.com/html/chanpinxiazai/20061229/3.html
            1、 基于字符串匹配的分詞方法
              這種方法又叫做機械分詞方法,它是按照一定的策略將待分析的漢字串與一個“充分大的”機器詞典中的詞條進行配,若在詞典中找到某個字符串,則匹配成功(識別出一個詞)。按照掃描方向的不同,串匹配分詞方法可以分為正向匹配和逆向匹配;按照不同長度優先匹配的情況,可以分為最大(最長)匹配和最小(最短)匹配;按照是否與詞性標注過程相結合,又可以分為單純分詞方法和分詞與標注相結合的一體化方法。常用的幾種機械分詞方法如下:
              1)正向最大匹配法(由左到右的方向);
              2)逆向最大匹配法(由右到左的方向);
              3)最少切分(使每一句中切出的詞數最小)。
              還可以將上述各種方法相互組合,例如,可以將正向最大匹配方法和逆向最大匹配方法結合起來構成雙向匹配法。由于漢語單字成詞的特點,正向最小匹配和逆向最小匹配一般很少使用。一般說來,逆向匹配的切分精度略高于正向匹配,遇到的歧義現象也較少。統計結果表明,單純使用正向最大匹配的錯誤率為1/169,單純使用逆向最大匹配的錯誤率為1/245。但這種精度還遠遠不能滿足實際的需要。實際使用的分詞系統,都是把機械分詞作為一種初分手段,還需通過利用各種其它的語言信息來進一步提高切分的準確率。
              一種方法是改進掃描方式,稱為特征掃描或標志切分,優先在待分析字符串中識別和切分出一些帶有明顯特征的詞,以這些詞作為斷點,可將原字符串分為較小的串再來進機械分詞,從而減少匹配的錯誤率。另一種方法是將分詞和詞類標注結合起來,利用豐富的詞類信息對分詞決策提供幫助,并且在標注過程中又反過來對分詞結果進行檢驗、調整,從而極大地提高切分的準確率。
              對于機械分詞方法,可以建立一個一般的模型,在這方面有專業的學術論文,這里不做詳細論述。
              
            2、 基于理解的分詞方法
              這種分詞方法是通過讓計算機模擬人對句子的理解,達到識別詞的效果。其基本思想就是在分詞的同時進行句法、語義分析,利用句法信息和語義信息來處理歧義現象。它通常包括三個部分:分詞子系統、句法語義子系統、總控部分。在總控部分的協調下,分詞子系統可以獲得有關詞、句子等的句法和語義信息來對分詞歧義進行判斷,即它模擬了人對句子的理解過程。這種分詞方法需要使用大量的語言知識和信息。由于漢語語言知識的籠統、復雜性,難以將各種語言信息組織成機器可直接讀取的形式,因此目前基于理解的分詞系統還處在試驗階段。
              
            3、 基于統計的分詞方法
              從形式上看,詞是穩定的字的組合,因此在上下文中,相鄰的字同時出現的次數越多,就越有可能構成一個詞。因此字與字相鄰共現的頻率或概率能夠較好的反映成詞的可信度。可以對語料中相鄰共現的各個字的組合的頻度進行統計,計算它們的互現信息。定義兩個字的互現信息,計算兩個漢字X、Y的相鄰共現概率。互現信息體現了漢字之間結合關系的緊密程度。當緊密程度高于某一個閾值時,便可認為此字組可能構成了一個詞。這種方法只需對語料中的字組頻度進行統計,不需要切分詞典,因而又叫做無詞典分詞法或統計取詞方法。但這種方法也有一定的局限性,會經常抽出一些共現頻度高、但并不是詞的常用字組,例如“這一”、“之一”、“有的”、“我的”、“許多的”等,并且對常用詞的識別精度差,時空開銷大。實際應用的統計分詞系統都要使用一部基本的分詞詞典(常用詞詞典)進行串匹配分詞,同時使用統計方法識別一些新的詞,即將串頻統計和串匹配結合起來,既發揮匹配分詞切分速度快、效率高的特點,又利用了無詞典分詞結合上下文識別生詞、自動消除歧義的優點。  回復  更多評論
              

            # re: 中文分詞介紹1 2007-09-20 16:49 kenlistian
            學校學費要一次性交一千元
            長春市長春節致詞
            我在長春市長春藥店買藥
            我看到長春市長春藥店買藥
            劉善根本來就沒來

            這幾個切的準確的化,就說明分詞很好了.  回復  更多評論
              

            # re: 中文分詞介紹1 2008-08-23 20:36
            這有個免費的中文分詞系統,貌似還不錯,好像還在測試中說是要公開呢,不知道以后有開源的用沒
            http://dev.8jiao.com/index.php/Wb_cws_index  回復  更多評論
              

            热久久视久久精品18| 久久99精品国产| 中文无码久久精品| 人妻丰满AV无码久久不卡| 日本精品久久久久中文字幕8| 日本久久久久久中文字幕| 久久九九久精品国产| 亚洲乱码精品久久久久..| 91麻精品国产91久久久久| 伊人色综合九久久天天蜜桃| 久久亚洲AV成人无码电影| 久久一区二区免费播放| 大伊人青草狠狠久久| 久久精品亚洲AV久久久无码| 久久国产精品99精品国产987| 亚洲国产成人精品久久久国产成人一区二区三区综 | 久久久久一本毛久久久| 色狠狠久久综合网| 久久99热这里只有精品国产| 久久香综合精品久久伊人| 亚洲国产日韩欧美综合久久| 亚洲乱亚洲乱淫久久| 久久天堂AV综合合色蜜桃网 | 9久久9久久精品| 免费精品久久天干天干| 久久人人爽人爽人人爽av| 中文字幕久久欲求不满| 久久国产精品77777| 人妻无码αv中文字幕久久 | 色综合久久夜色精品国产| 久久最近最新中文字幕大全| 久久久国产精品亚洲一区| 亚洲AV无码久久精品色欲| 久久精品国产99久久久古代| 一本大道久久香蕉成人网| 久久亚洲国产成人影院网站 | 国内精品久久久久久麻豆| 久久夜色tv网站| 久久精品无码一区二区三区免费 | 久久中文娱乐网| 国产69精品久久久久99|