• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>

            sunrise

            每天不斷學習,才能不斷提升自己。

              C++博客 :: 首頁 :: 新隨筆 :: 聯系 :: 聚合  :: 管理 ::
              64 隨筆 :: 0 文章 :: 92 評論 :: 0 Trackbacks

              最近的工作都是小任務,很簡單的小任務,水水的就寫好了。因為覺得自己在自然語言處理方面了解甚少,剩下的時間就在看《人工智能》,最近再看第8章自然語言理解。很認真的看過了解過,現在做一下總結。

                自然語言理解現在大體分為5個層次:語音分析,詞法分析,語義分析和語用分析。

                一.語音分析跳過,直接進入詞法分析。所謂詞法分析就是從句子中切分出單詞,找出詞匯的各個詞素,從中獲得單詞的語言學信息并確定單詞的詞義。

                1.for English

                repeat 

                    look for word in dictionary

                    If  not found 

                    Then modify the word 

            Until word found or no further modification possible

            所以在自然語言理解的詞典中一般只放詞根,支持詞素分析可以大大的壓縮電子詞典的規模。英語詞法分析的難度在于詞義判斷,以為單詞有很多解釋,要判定詞義只能依靠句子中其他相關單詞和詞組的分析。

            2.對于漢語

            漢語中的每一字都是一個詞素,但是要切分出各個詞就非常困難,最主要的就是切分歧義。一句話可以有多種拆分方式,要是遇到那種“下雨天留客天留我不留”,基本就死翹翹了。

            二.句法分析 

            這個和匯編原理里的那個好像是一樣的,至于到底是不是一個,我也忘卻了。主要分為兩類:基于規則的方法和基于統計的方法。

            1.短語結構語法

            2.喬姆斯基形式語法

            3.語法分析樹

            4.轉移網絡

            5.擴充轉移網絡

            具體細節自己查去,我主要寫一下擴充轉移網絡(Augmented Transition Network,ANT),該語法屬于一種增強型的上下文無關語法。

            ANT主要對轉移網絡中的弧附加了過程得到的,過程的主要功能:對文法特征進行賦值。前后把書翻看幾遍也沒有發現對文法特征進行賦值是什么,暫理解成把一個單詞賦給ART,當隨著弧走到這時,檢查詞性部分是否等于ART。如果是則把ART賦值給NP,S\DET,否則,失敗引起回溯。第二個就是檢查數或人稱條件是否滿足,并據此允許或不允許轉移,整個ANT語法就構成了一個句法樹。

               三.語義分析(百度去吧,谷歌去吧)

               大規模真實文本的處理

               最近做的處理工作好像就是這些,在各種語料中提取各種庫,里面的很多發現自己也斷斷續續的在接觸。

               這里的兩個語料庫一個是基于wordnet,另一種是hownet.hownet以前介紹過,直接wordnet.

              其實wordnet就是把所有的詞構建成一棵樹,整個名詞組成一個繼承關系。

              

            補充一下:在利用worknet進行相似度計算的時候,詞與詞之間的距離對于路徑相同的,層次高的要比層次低的層次低的距離遠,稀疏的要比稠密的距離遠。所以用worknethownet考慮更多的問題。對于句子與句子之間的相似度計算很容易實現,但是時間復雜度太高,上次做優化的時候,在89萬次計算中,只有1000+的有效計算,所以選擇把詞與詞之間的距離先算好,直接讀取,要快很多。

            最后后面的詞性標注和分詞一直都是直接用公司的代碼去調用的,自己還在學習中,期待在不久的將來能夠掌握這些。

            一天比一天多一點的進步就好,快樂碼農中。

            posted on 2012-05-22 14:55 SunRise_at 閱讀(1550) 評論(1)  編輯 收藏 引用 所屬分類: 人工智能

            評論

            # re: 自然語言理解總結 2012-05-22 14:58 C小加
            有進步  回復  更多評論
              

            久久国产综合精品五月天| 亚洲精品无码久久久影院相关影片| 中文字幕乱码人妻无码久久| 久久青青草原亚洲av无码| 国产免费久久久久久无码| 久久伊人精品青青草原高清| 精品熟女少妇a∨免费久久| 久久久久久午夜成人影院| 欧美黑人又粗又大久久久| 欧美牲交A欧牲交aⅴ久久| 久久ZYZ资源站无码中文动漫| 99精品国产免费久久久久久下载| 久久久久亚洲AV成人网人人网站| 国产午夜电影久久| 久久国产精品免费一区| 亚洲精品综合久久| 国产精品成人久久久| 精品多毛少妇人妻AV免费久久| 日本五月天婷久久网站| 国产A三级久久精品| 精品国际久久久久999波多野| 97久久精品人妻人人搡人人玩| 久久不射电影网| 久久这里只有精品视频99| 亚洲精品第一综合99久久| 日韩人妻无码精品久久免费一 | 欧洲精品久久久av无码电影| 国产精品久久久久国产A级| 国产精品成人99久久久久 | 久久天天躁狠狠躁夜夜不卡 | 亚洲精品视频久久久| 久久棈精品久久久久久噜噜| 91精品国产91久久| 无码精品久久一区二区三区 | 久久无码人妻一区二区三区 | 久久精品无码免费不卡| 久久久久久久久久久| 久久精品国内一区二区三区| 无夜精品久久久久久| 99久久精品午夜一区二区| 亚洲国产成人久久综合一区77|