ï»??xml version="1.0" encoding="utf-8" standalone="yes"?>99久久国产热无码精品免费久久久久,色综合久久久久网,久久久免费观成人影院http://www.shnenglu.com/koson/category/13629.htmlzh-cnFri, 23 Apr 2010 10:16:20 GMTFri, 23 Apr 2010 10:16:20 GMT60中文分è¯ç›¸å…³æŠ€æœ¯ç®€ä»?/title><link>http://www.shnenglu.com/koson/archive/2010/04/23/113356.html</link><dc:creator>koson</dc:creator><author>koson</author><pubDate>Fri, 23 Apr 2010 09:41:00 GMT</pubDate><guid>http://www.shnenglu.com/koson/archive/2010/04/23/113356.html</guid><wfw:comment>http://www.shnenglu.com/koson/comments/113356.html</wfw:comment><comments>http://www.shnenglu.com/koson/archive/2010/04/23/113356.html#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://www.shnenglu.com/koson/comments/commentRss/113356.html</wfw:commentRss><trackback:ping>http://www.shnenglu.com/koson/services/trackbacks/113356.html</trackback:ping><description><![CDATA[ç›®å‰å¯Òޱ‰è¯­åˆ†è¯æ–¹æ³•çš„ç ”ç©¶ä¸»è¦æœ‰ä¸‰ä¸ªæ–¹é¢ï¼šåŸÞZºŽè§„åˆ™çš„åˆ†è¯æ–¹æ³•ã€åŸºäºŽç»Ÿè®¡çš„åˆ†è¯æ–ÒŽ³•和基于ç†è§£çš„åˆ†è¯æ–ÒŽ³•ã€? <p><strong><font size="3">åŸÞZºŽè§„åˆ™çš„åˆ†è¯æ–¹æ³?/font></strong></p> <p>åŸ? äºŽè§„åˆ™çš„åˆ†è¯æ–ÒŽ³•åQŒè¿™¿U方法åˆå«åšæœºæ¢°åˆ†è¯æ–ÒŽ³•,它是按照一定的½{–ç•¥ž®†å¾…分æžçš„æ±‰å­—串与一ä¸?#8220;充分大的”机器è¯å…¸ä¸­çš„è¯æ¡˜q›è¡ŒåŒšw…,若在è¯å…¸ä¸­æ‰¾åˆ°æŸä¸ªå­— ½W¦ä¸²,åˆ™åŒ¹é…æˆåŠ?识别å‡ÞZ¸€ä¸ªè¯) 。常用的æ–ÒŽ³•åQšæœ€ž®åŒ¹é…ç®—æ³?Minimum Matching)åQŒæ­£å‘(逆å‘åQ‰æœ€å¤§åŒ¹é…法(Maximum Matching)åQŒé€å­—匚w…½Ž—法,¼œžç»¾|‘络法ã€è”想一回溯法,åŸÞZºŽN-最短èµ\径分è¯ç®—æ³?以åŠå¯ä»¥ç›æ€º’¾l„åˆåQŒä¾‹å¦?å¯ä»¥ž®†æ­£å‘æœ€å¤§åŒ¹é…æ–¹æ³•å’Œé€†å‘æœ€å¤§åŒ¹ é…æ–¹æ³•结åˆè“væ¥æž„æˆåŒå‘åŒ¹é…æ³•½{‰ã€‚ç›®å‰æœºæ¢°å¼åˆ†è¯å ä¸»‹¹åœ°ä½çš„æ˜¯æ­£å‘æœ€å¤§åŒ¹é…æ³•å’Œé€†å‘æœ€å¤§åŒ¹é…法ã€?/p> <p><strong>â—?最ž®åŒ¹é…ç®—æ³?/strong></p> <p>    åœ¨æ‰€æœ‰çš„åˆ†è¯½Ž—æ³•ä¸­ï¼Œæœ€æ—©ç ”½I¶çš„æ˜¯æœ€ž®åŒ¹é…ç®—æ³?Minimum Matching)åQŒè¯¥½Ž—法从待比较字符串左边开始比较,先å–å‰ä¸¤ä¸ªå­—½W¦ç»„æˆçš„字段与è¯å…怸­çš„诘q›è¡Œæ¯”较åQŒå¦‚æžœè¯å…怸­æœ‰è¯¥è¯ï¼Œåˆ™åˆ†å‡ºæ­¤è¯ï¼Œ¾l§ç®‹ä»Žç¬¬ä¸‰ä¸ªå­? ½W¦å¼€å§‹å–两个字符¾l„æˆçš„å­—ŒDµè¿›è¡Œæ¯”较,如果没有匚w…刎ͼŒåˆ™å–å‰?个字½W¦ä¸²¾l„æˆçš„å­—ŒDµè¿›è¡Œæ¯”è¾ƒï¼Œä¾æ¬¡¾cÀLލåQŒç›´åˆ°å–的字½W¦ä¸²çš„长度等于预先设定的阈å€û|¼Œå¦‚æžœ˜q? 没有匚w…æˆåŠŸåQŒåˆ™ä»Žå¾…处ç†å­—串的第二个字符开始比较,如此循环ã€?/p> <p>例如åQ?#8220;如果˜q˜æ²¡æœ‰åŒ¹é…æˆåŠ?#8221;åQŒå–出左边两个字 ¾l„æˆçš„å­—ŒDµä¸Žè¯å…¸˜q›è¡Œæ¯”较åQŒåˆ†å‡?#8220;如果”åQ›å†ä»?#8220;˜q?#8221;开始,å?#8220;˜q˜æ²¡”åQŒå­—å…æ€¸­æ²¡æœ‰æ­¤è¯åQŒç‘ô¾l­å–“˜q˜æ²¡æœ?#8221;åQŒä¾‹Æ¡å–到字ŒD?#8220;˜q˜æ²¡æœ‰åŒ¹é…?#8221;(å‡è®¾é˜ˆå€égØ“ 5)åQŒç„¶åŽä»Ž“æ²?#8221;开始,å?#8220;没有”åQŒå¦‚æ­¤åó@环直到字½W¦ä¸²æœ«å°¾ä¸ºæ­¢ã€‚è¿™¿U方法的优点是速度快,但是准确率å´ä¸æ˜¯å¾ˆé«˜åQŒæ¯”如待处ç†å­—ç¬¦ä¸²äØ““中åŽäººæ°‘共和 å›?#8221;åQŒæ­¤åŒšw…½Ž—æ³•åˆ†å‡ºçš„ç»“æžœäØ“åQšä¸­åŽã€ähæ°‘ã€å…±å’Œå›½åQŒå› æ­¤è¯¥æ–ÒŽ³•基本上已¾lä¸è¢«é‡‡ç”?ã€?/p> <p><strong>â—?最大匹é…ç®—æ³?/strong></p> <p>    åŸÞZºŽå­—符串的最大匹é…,˜q™ç§æ–ÒŽ³•çŽ°åœ¨ä»æ¯”较常用。最大匹é…?Maximum Matching)åˆ†äØ“æ­£å‘和逆å‘ä¸¤ç§æœ€å¤§åŒ¹é…,正å‘匚w…çš„åŸºæœ¬æ€æƒ³æ˜¯ï¼šå‡è®¾è¯å…¸ä¸­æœ€å¤§è¯æ¡æ‰€å«çš„æ±‰å­—个数为n个,å–待处ç†å­—符串的å‰nä¸ªå­—ä½œäØ“åŒšw…å­? ŒDµï¼ŒæŸ¥æ‰¾åˆ†è¯è¯å…¸ã€‚è‹¥è¯å…¸ä¸­å«æœ‰è¯¥è¯ï¼Œåˆ™åŒ¹é…æˆåŠŸï¼Œåˆ†å‡ºè¯¥è¯åQŒç„¶åŽä»Žè¢«æ¯”较字½W¦ä¸²çš„n+1处开始å†å–n个字¾l„æˆçš„å­—ŒDµé‡æ–°åœ¨è¯å…¸ä¸­åŒ¹é…;如果没有匚w…æˆ? 功,则将˜q™n个字¾l„æˆçš„å­—ŒD늚„最åŽä¸€ä½å‰”除,用剩下的n一1个字¾l„æˆçš„å­—ŒDµåœ¨è¯å…¸ä¸­è¿›è¡ŒåŒ¹é…,如此˜q›è¡Œä¸‹åŽ»åQŒç›´åˆ°åˆ‡åˆ†æˆåŠŸäØ“æ­¢ã€?/p> <p>ä¾? 如,待处ç†å­—½W¦ä¸²ä¸?#8220;æ±‰å­—å¤šäØ“è¡¨æ„æ–‡å­—”åQŒå–字符ä¸?#8220;æ±‰è¯­å¤šäØ“è¡?#8221;(å‡è®¾æ¯”è¾ƒçš„æ­¥é•¿äØ“5åQŒæœ¬æ–‡æ­¥é•¿step都å–5)与è¯å…¸è¿›è¡Œæ¯”较,没有与之对应的è¯åQŒåŽ» é™?#8220;è¡?#8221;字,用字ŒD?#8220;æ±‰è¯­å¤šäØ“”˜q›è¡ŒåŒšw…åQŒç›´è‡›_Œ¹é…到“汉语”䏸™‡³åQŒå†å–å­—½W¦ä¸²“å¤šäØ“è¡¨æ„”åQŒåó@环到切分å‡?#8220;文字”一è¯ã€‚ç›®å‰ï¼Œæ­£å‘æœ€å¤§åŒ¹é…æ–¹æ³•作ä¸ÞZ¸€¿U? 基本的方法已被肯定下æ¥ï¼Œä½†æ˜¯ç”׃ºŽé”™è¯¯æ¯”较大,一般ä¸å•独使用。如字符ä¸?#8220;å¤„ç†æœºå™¨å‘生的故éš?#8221;åQŒåœ¨æ­£å‘æœ€å¤§åŒ¹é…æ–¹æ³•中会出现歧义切分,该字½W¦ä¸²è¢«åˆ†ä¸ºï¼š å¤„ç†æœºã€å‘ç”Ÿã€æ•…障,但是使用逆å‘匚w…ž®Þpƒ½å¾—到有效的切分ã€?/p> <p>    逆呿œ€å¤§åŒ¹é…RMM(Reverse Directional Maximum Matching Method)的分è¯åŽŸç†å’Œ˜q‡ç¨‹ä¸Žæ­£å‘最大匹é…相ä¼û|¼ŒåŒºåˆ«åœ¨äºŽå‰è€…从文章或者å¥å­?字串)的末ž®‘Ö¼€å§‹åˆ‡åˆ†ï¼Œè‹¥ä¸æˆåŠŸåˆ™å‡åŽÀLœ€å‰é¢çš„一个字。比如对于字½W¦ä¸² “å¤„ç†æœºå™¨å‘生的故éš?#8221;åQŒç¬¬ä¸€æ­¥ï¼Œä»Žå­—串的匙¾¹å–长度以步长为å•ä½çš„字段“å‘生的故éš?#8221;在è¯å…怸­˜q›è¡ŒåŒšw…åQŒåŒ¹é…䏿ˆåŠŸåQŒå†å–å­—ŒD?#8220;生的故障”˜q›è¡ŒåŒšw…åQŒä¾ ‹Æ¡åŒ¹é…,直到分出“æ•…éšœ”一è¯ï¼Œæœ€¾lˆä‹É用RMMæ–ÒŽ³•åˆ‡åˆ†çš„ç»“æžœäØ“åQšæ•…éšœã€å‘ç”Ÿã€æœºå™¨ã€å¤„ç†ã€‚该æ–ÒŽ³•è¦æ±‚é…备逆åºè¯å…¸ã€?/p> <p>    一般æ¥è¯´æ ¹æ®æ±‰è¯­è¯æ±‡æž„æˆçš„特点åQŒä»Žç†è®ºä¸Šè¯´æ˜Žäº†é€†å‘匚w…的精¼‹®åº¦é«˜äºŽæ­£å‘匚w…åQŒæ±‰è¯­è¯­å¥çš„特点一般中心语ååŽã€‚有研究数æ®,å•çº¯ä½¿ç”¨æ­£å‘æœ€å¤§åŒ¹é…的错误 çŽ‡äØ“1/ 169 ,å•çº¯ä½¿ç”¨é€†å‘æœ€å¤§åŒ¹é…çš„é”™è¯¯çŽ‡äØ“1/245。实际应用中å¯ä»¥ä»Žä¸‹é¢å‡ æ–šw¢æ”¹è¿›åQŒåŒæ—‰™‡‡å–几¿U分è¯ç®—æ³•ï¼Œæ¥æé«˜æ­£¼‹®çއ;æ”¹è¿›æ‰«ææ–¹å¼åQŒç§°ä¸ºç‰¹å¾æ‰«ææˆ–标志 切分,优先在待分æžå­—符串中识别和切分出一些带有明昄¡‰¹å¾çš„è¯?以这些è¯ä½œäؓ断点,å¯å°†åŽŸå­—½W¦ä¸²åˆ†äؓ较å°çš„䏲冿¥˜q›æœºæ¢°åˆ†è¯ï¼Œä»Žè€Œå‡ž®‘匹é…的错误率等ã€?/p> <p><strong>â—?nbsp;  é€å­—匚w…½Ž—法</strong></p> <p>    é€å­—匚w…½Ž—法åQŒåŸºäºŽTRIE索引树的é€å­—匚w…½Ž—法,是å¾ç«‹åœ¨æ ‘åž‹è¯å…¸æœºåˆ¶ä¸Šï¼ŒåŒšw…的过½E‹æ˜¯ä»Žçƒ¦å¼•树的根¾l“ç‚¹ä¾æ¬¡åŒæ­¥åŒšw…待查è¯ä¸­çš„æ¯ä¸ªå­—åQŒå¯ä»¥çœ‹æˆæ˜¯å¯ÒŽ ‘ æŸä¸€åˆ†æžçš„é历。因此,采用该算法的分è¯é€Ÿåº¦è¾ƒå¿«åQŒä½†æ ‘的构造和¾l´æŠ¤æ¯”è¾ƒå¤æ‚。一¿U改˜q›çš„½Ž—法是和最大匹é…算法相¾l“åˆåQŒå¸å–最大匹é…算法è¯å…¸ç»“构简å•ã€? TRIE索引树算法查询速度快的优点。因此è¯å…¸ç»“构和最大匹é…è¯å…¸æž„造机制相ä¼û|¼ŒåŒºåˆ«åœ¨äºŽè¯å…¸æ­£æ–‡å‰å¢žåŠ äº†å¤šçñ”索引。匹é…过½E‹ç±»ä¼¼TRIE索引树进行é€å­— 匚w…åQŒåœ¨æ€§èƒ½ä¸Šå’ŒTRIE索引树相˜q‘ã€?/p> <p><strong>â—?nbsp;  ¼œžç»¾|‘ç»œåˆ†è¯½Ž—æ³•</strong></p> <p>    ¼œžç»¾|‘ç»œåˆ†è¯½Ž—æ³•åQŒåóaå³°ç­‰æå‡ºäº†ä»¥¼œžç»¾|‘络ç†è®º(BP模型)为基¼‹€çš„æ±‰è¯­åˆ†è¯æ¨¡åž?为汉语分è¯ç ”½I¶å¼€è¾Ÿäº†æ–°é€”径。在实用ä¸?BP½Ž—æ³•å­˜åœ¨æ”¶æ•›é€Ÿåº¦æ…¢ã€æ˜“é™? 入局部最ž®ç­‰¾~ºç‚¹,严é‡å¦¨ç¢äº†åˆ†è¯é€Ÿåº¦ã€‚一¿U改˜q›ç®—法采用Levenbery2Marquart ½Ž—法æ¥åŠ é€Ÿæ”¶æ•›é€Ÿåº¦,加快了收敛速度利用¼œžç»¾|‘络的基本原ç†è¿›è¡Œåˆ†è¯ã€?/p> <p><strong>â—?nbsp;  è”æƒ³â€”回溯法</strong></p> <p>    è”æƒ³â€”回溯法(AssociationåQBacktracking MethodåQŒç®€¿U?AB æ³?。这¿Uæ–¹æ³•è¦æ±‚å¾ç«‹ä¸‰ä¸ªçŸ¥è¯†åº“——特å¾è¯è¯åº“ã€å®žè¯è¯åº“和规则库。首先将待切分的汉字字符串åºåˆ—按特å¾è¯è¯åº“åˆ†å‰²äØ“è‹¥å¹²å­ä¸²åQŒå­ä¸²å¯ä»¥æ˜¯è¯ï¼Œä¹Ÿå¯ä»¥æ˜¯ 由几个课l„åˆè€Œæˆçš„课Ÿ¤ï¼›ç„¶åŽåQŒå†åˆ©ç”¨å®žè¯è¯åº“和规则库ž®†è¯¾Ÿ¤å†¾l†åˆ†ä¸ø™¯ã€‚åˆ‡è¯æ—¶åQŒè¦åˆ©ç”¨ä¸€å®šçš„语法知识åQŒå¾ç«‹è”æƒÏxœºåˆ¶å’Œå›žæº¯æœºåˆ¶ã€‚è”æƒÏxœºåˆ¶ç”±è”想¾|‘络å’? è”æƒ³æŽ¨ç†æž„æˆåQŒè”想网¾lœæ˜q°æ¯ä¸ªè™šè¯çš„æž„è¯èƒ½åŠ›åQŒè”æƒÏxލç†åˆ©ç”¨ç›¸åº”çš„è”æƒ³¾|‘络æ¥åˆ¤å®šæ‰€æè¿°çš„虚è¯ç©¶ç«Ÿæ˜¯å•独æˆè¯˜q˜æ˜¯ä½œäؓ其他è¯ä¸­çš„æž„è¯æˆåˆ†ã€‚回溯机制主è¦? ç”¨äºŽå¤„ç†æ­§ä¹‰å¥å­çš„åˆ‡åˆ†ã€‚è”æƒ³â€”回溯法虽然增加了算法的旉™—´å¤æ‚度和½Iºé—´å¤æ‚度,但这¿Uæ–¹æ³•çš„åˆ‡è¯æ­£ç¡®çŽ‡è¾ƒé«˜ï¼Œæ˜¯ä¸€¿U行之有效的æ–ÒŽ³•ã€?/p> <p><strong>â—?nbsp;  N-最ŒDµèµ\径分è¯ç®—æ³?/strong></p> <p>    åŸÞZºŽN-最短èµ\径分è¯ç®—æ³•ï¼Œå…¶åŸºæœ¬æ€æƒ³æ˜¯æ ¹æ®è¯å…¸ï¼Œæ‰‘Ö‡ºå­—串中所有å¯èƒ½çš„è¯ï¼Œæž„造è¯è¯­åˆ‡åˆ†æœ‰å‘无环图。æ¯ä¸ªè¯å¯¹åº”å›¾ä¸­çš„ä¸€æ¡æœ‰å‘è¾¹åQŒåƈ赋给相应的边é•?æ? å€?。然åŽé’ˆå¯¹è¯¥åˆ‡åˆ†å›¾ï¼Œåœ¨è“v点到¾lˆç‚¹çš„æ‰€æœ‰èµ\径中åQŒæ±‚出长度值按严格å‡åºæŽ’列(ä»ÖM½•两个ä¸åŒä½ç½®ä¸Šçš„å€ég¸€å®šä¸½{‰ï¼Œä¸‹åŒ)便¬¡ä¸ºç¬¬1åQŒç¬¬2åQ?#8230;åQŒç¬¬ iåQ?#8230;åQŒç¬¬Nçš„èµ\径集åˆä½œä¸ºç›¸åº”çš„¾_—分¾l“æžœé›†ã€‚å¦‚æžœä¸¤æ¡æˆ–两æ¡ä»¥ä¸Šè·¯å¾„长度相等åQŒé‚£ä¹ˆä»–们的长度òq¶åˆ—½W? iåQŒéƒ½è¦åˆ—入粗分结果集åQŒè€Œä¸”ä¸åª„å“å…¶ä»–èµ\径的排列åºå·åQŒæœ€åŽçš„¾_—分¾l“果集åˆå¤§å°å¤§äºŽæˆ–等于N。N一最短èµ\径方法实际上是最短èµ\径方法和全切分的有机¾l? åˆã€‚该æ–ÒŽ³•的出å‘点是尽é‡å‡ž®‘切分出æ¥çš„è¯æ•°åQŒè¿™å’Œæœ€çŸ­èµ\å¾„åˆ†è¯æ–¹æ³•是完全一致的åQ›åŒæ—¶åˆè¦å°½å¯èƒ½çš„åŒ…å«æœ€¾lˆç»“果,˜q™å’Œå…¨åˆ‡åˆ†çš„æ€æƒ³æ˜¯å…±é€šçš„ã€‚é€šè¿‡˜q™ç§¾l? åˆï¼Œä¸€æ–šw¢é¿å…了最短èµ\å¾„åˆ†è¯æ–¹æ³•大é‡èˆå¼ƒæ­£ ¼‹®ç»“果的å¯èƒ½åQŒå¦ä¸€æ–šw¢åˆå¤§å¤§è§£å†³äº†å…¨åˆ‡åˆ†æœç´¢ç©ºé—´è¿‡å¤§ï¼Œ˜q行效率差的弊端。N一最短èµ\径方法相对的ä¸èƒöž®±æ˜¯¾_—分¾l“æžœä¸å”¯ä¸€ åQŒå޾l­è¿‡½E‹éœ€è¦å¤„ç†å¤šä¸ªç²—分结果ã€?但是 åQŒå¯¹äºŽé¢„处熘q‡ç¨‹æ¥è®²åQŒç²—分结果的高å¬å›žçŽ‡è‡›_…³é‡è¦ã€‚å› ä¸ÞZ½Žå¬å›žçއ就æ„å‘³ç€æ²¡æœ‰åŠžæ³• å†ä½œåŽç®‹çš„补救措施。预处ç†ä¸€æ—¦å‡ºé”™ï¼ŒåŽç®‹å¤„ç†åªèƒ½æ˜¯ä¸€é”™å†é”?åQŒåŸºæœ¬ä¸Šå¾—ä¸åˆ°æ­£¼‹®çš„æœ€¾l? ¾l“果。而少é‡çš„¾_—分¾l“果对厾l­è¿‡½E‹çš„˜q行效率影å“ä¸ä¼šå¤ªå¤§åQŒå޾l­å¤„ç†å¯ä»¥è¿›ä¸€æ­¥ä¼˜é€‰æŽ’ é”™ï¼Œå¦‚è¯æ€§æ ‡æ³¨ã€å¥æ³•分æžç­‰ã€?/p> <p>    除上é¢ä¹‹å¤–,˜q˜æœ‰åŸÞZºŽè¯é¢‘¾lŸè®¡çš„åˆ‡è¯æ³•åQ?åŸÞZºŽæœŸæœ›çš„åˆ‡è¯æ³•åQŒæœ‰½I·å¤š¾U§åˆ—举法½{‰ã€?/p> <p> </p> <p><strong><font size="3">åŸÞZºŽ¾lŸè®¡çš„åˆ†è¯æ–¹æ³?/font></strong></p> <p>    åŸÞZºŽ¾lŸè®¡çš„åˆ†è¯æ–¹æ³•,åŸÞZºŽ¾lŸè®¡çš„æ–¹æ³•是åŸÞZºŽ(两个或多ä¸? æ±‰å­—åŒæ—¶å‡ºçŽ°çš„æ¦‚çŽ?通过对语料库(¾l过处ç†çš„大é‡é¢†åŸŸæ–‡æœ¬çš„集åˆ)中的文本˜q›è¡Œæœ‰ç›‘ç£æˆ–无监ç£çš„学习åQŽå¯ä»¥èŽ·å–该¾cÀL–‡æœ¬çš„æŸäº›æ•´ä½“ç‰¹å¾æˆ–规律。如æž? 能够充分地利用这些统计现象ã€è§„å¾?åQŽå°±å¯ä»¥æž„造基于语æ–? 库的¾lŸè®¡å­¦ä¿¡æ¯æŠ½å–ç®—æ³•ç»Ÿè®¡çš„åˆ†æžæ–ÒŽ³•多ç§å¤šæ ·åQŽè¿‘æ¥ç ”½I¶çš„热点主è¦é›†ä¸­äºŽç”±éšæœº˜q‡ç¨‹å‘展而æ¥çš„ç†è®ºå’Œæ–ÒŽ³•åQŒå…¶ä¸­æœ€é‡è¦çš„æ˜¯åº”用éšé©¬ž®”科夫模åž?HMM) ˜q›è¡Œè‡ªç„¶è¯­è¨€å¤„ç†çš„æ–¹æ³•。éšé©¬å°”¿U‘夫模型,在语韌™¯†åˆ«é¢†åŸŸå·²¾lå–å¾—äº†å¾ˆå¥½çš„æˆæ•?åœ¨ä¿¡æ¯æŠ½å–é¢†åŸŸçš„åº”ç”¨ä¹Ÿæ­£åœ¨ä¸æ–­çš„ž®è¯•å’ŒæŽ¨òq¿ä¸­ ã€?/p> <p> </p> <p><strong><font size="3">åŸÞZºŽç†è§£åˆ†è¯çš„æ–¹æ³?/font></strong></p> <p>    åŸÞZºŽç†è§£åˆ†è¯çš„æ–¹æ³•,åˆç§°ä¹‹äؓ知识分è¯,çŸ¥è¯†åˆ†è¯æ˜¯ä¸€¿Uç†æƒ³çš„åˆ†è¯æ–ÒŽ³•,但这¾cÕdˆ†è¯æ–¹æ¡ˆçš„½Ž—æ³•å¤æ‚度高,其有效性与å¯è¡Œæ€§å°šéœ€åœ¨å®žé™…工作中得到˜q›ä¸€æ­¥çš„éª? è¯ã€‚知识分è¯åˆ©ç”¨æœ‰å…Œ™¯ã€å¥å­ç­‰çš„奿³•å’Œè¯­ä¹‰ä¿¡æ¯æˆ–者从大é‡è¯­æ–™ä¸­æ‰¾å‡ºæ±‰å­—组è¯çš„¾l“åˆç‰¹ç‚¹æ¥è¿›è¡Œè¯„ä»?以期扑ֈ°æœ€è´´è¿‘于原å¥è¯­ä¹‰çš„分课l“æžœã€?/p> <p><br></p> <p>什么是<span id="vn5hbn3" class="relatedlinks-highlight">中文分è¯</span></p> <p>  众所周知åQŒè‹±æ–‡æ˜¯ä»? è¯äØ“å•ä½çš„,è¯å’Œè¯ä¹‹é—´æ˜¯é ç©ºæ ¼éš”å¼€åQŒè€Œä¸­æ–‡æ˜¯ä»¥å­—为å•ä½ï¼Œå¥å­ä¸­æ‰€æœ‰çš„字连èµäh¥æ‰èƒ½æè¿°ä¸€ä¸ªæ„æ€ã€‚例如,英文å¥å­I am a studentåQŒç”¨ä¸­æ–‡åˆ™äØ“åQ?#8220;我是一个学ç”?#8221;。计½Ž—机å¯ä»¥å¾ˆç®€å•通过½Iºæ ¼çŸ¥é“student是一个å•è¯ï¼Œä½†æ˜¯ä¸èƒ½å¾ˆå®¹æ˜“明ç™?#8220;å­?#8221;ã€?#8220;ç”?#8221;两个字åˆèµäh¥ æ‰è¡¨½CÞZ¸€ä¸ªè¯ã€‚把中文的汉字åºåˆ—åˆ‡åˆ†æˆæœ‰æ„义的è¯ï¼Œž®±æ˜¯<span id="j355plb" class="relatedlinks-highlight">中文分è¯</span>åQŒæœ‰äº›äh也称为切è¯ã€‚我是一个学生,分è¯çš„结果是åQšæˆ‘ æ˜?一ä¸?学生ã€?/p> <p>  <span id="rdt5p5l" class="relatedlinks-highlight">中文分è¯</span>å’Œæœç´¢å¼•æ“?/p> <p>  <span id="33fn5vb" class="relatedlinks-highlight">中文分è¯</span>到底å¯ÒŽœç´¢å¼•æ“Žæœ‰å¤šå¤§å½±å“åQŸå¯¹äºŽæœç´¢å¼•擎æ¥è¯ß_¼Œæœ€é‡è¦çš„åÆˆä¸æ˜¯æ‰‘Öˆ°æ‰€æœ‰ç»“æžœï¼Œå› äØ“åœ¨ä¸Šç™¾äº¿çš„ç½‘™åµä¸­æ‰‘Öˆ°æ‰€æœ‰ç»“果没有太多的æ„义åQŒæ²¡æœ‰äh能看得完åQŒæœ€é‡è¦çš„æ˜¯æŠŠæœ€ç›¸å…³çš„结果排在最å‰é¢åQŒè¿™ä¹Ÿç§°ä¸ºç›¸å…›_º¦æŽ’åºã€?span class="relatedlinks-highlight">中文分è¯</span>的准¼‹®ä¸Žå¦ï¼Œå¸¸å¸¸ç›´æŽ¥å½±å“到对æœçƒ¦¾l“果的相兛_º¦æŽ’åºã€‚笔者最˜q‘æ›¿æœ‹å‹æ‰¾ä¸€äº›å…³äºŽæ—¥æœ¬å’Œæœçš„资料åQŒåœ¨æœçƒ¦å¼•擎上输å…?#8220;和朔åQŒå¾—到的¾l“æžœž®±å‘çŽîCº†å¾ˆå¤šé—®é¢˜ã€‚下é¢å°±ä»¥è¿™ä¸ªä¾‹å­æ¥è¯´æ˜Žåˆ†è¯å¯ÒŽœç´¢ç»“æžœçš„å½±å“åQŒåœ¨çŽ°æœ‰ä¸‰ä¸ªä¸­æ–‡æœçƒ¦å¼•擎上嚋¹‹è¯•åQŒæµ‹è¯•方法是直接在GoogleåQ?a >http://www.google.com</a>åQ‰ã€ç™¾åº¦ï¼ˆ<a >http://www.baidu.com</a>åQ‰ä¸Šä»?#8220;和朔为关键诘q›è¡Œæœçƒ¦åQ?/p> <p>  在Google上输å…?#8220;和朔æœçƒ¦æ‰€æœ‰ä¸­æ–‡ç®€ä½“网™åµï¼Œæ€Õd…±¾l“æžœ507,000æ¡ï¼Œå‰?0æ¡ç»“果中æœ?4æ¡ä¸Žå’Œæœä¸€ç‚¹å…³¾p»éƒ½æ²¡æœ‰ã€?/p> <p>  在百度上输入“和朔æœçƒ¦¾|‘页åQŒæ€Õd…±¾l“æžœä¸?87,000æ¡ï¼Œå‰?0æ¡ç»“果中æœ?æ¡ä¸Žå’Œæœä¸€ç‚¹å…³¾p»éƒ½æ²¡æœ‰ã€?/p> <p>  在中æœä¸Šè¾“å…¥“和朔æœçƒ¦¾|‘页åQŒæ€Õd…±¾l“æžœä¸?6,917æ¡ï¼Œå‰?0æ¡ç»“果都是与和æœç›¸å…³çš„网™åüc€?/p> <p>  ˜q™æ¬¡æœçƒ¦å¼•擎¾l“果中的错误åQŒå°±æ˜¯ç”±äºŽåˆ†è¯çš„ä¸å‡†¼‹®æ‰€é€ æˆçš„。通过½W”者的了解åQŒGoogleçš?span class="relatedlinks-highlight">中文分è¯</span>技术采用的是美国一家åå«Basis TechnologyåQ?a >http://www.basistech.com</a>åQ‰çš„公叿供çš?span class="relatedlinks-highlight">中文分è¯</span>技术,癑ֺ¦ä½¿ç”¨çš„æ˜¯è‡ªå·±å…¬å¸å¼€å‘çš„åˆ†è¯æŠ€æœ¯ï¼Œä¸­æœä½¿ç”¨çš„æ˜¯å›½å†…‹¹·é‡¿U‘技åQ?a >http://www.hylanda.com</a>åQ‰æä¾›çš„åˆ†è¯æŠ€æœ¯ã€‚ç”±æ­¤å¯è§ï¼Œ<span id="zr35hh3" class="relatedlinks-highlight">中文分è¯</span>的准¼‹®åº¦åQŒå¯¹æœçƒ¦å¼•擎¾l“果相关性和准确性有相当大的关系ã€?/p> <p>  <span id="3x5535v" class="relatedlinks-highlight">中文分è¯</span>技æœ?/p> <p>  <span id="xdjhf3z" class="relatedlinks-highlight">中文分è¯</span>技术属于自然语­a€å¤„ç†æŠ€æœ¯èŒƒç•ß_¼Œå¯¹äºŽä¸€å¥è¯åQŒähå¯ä»¥é€šè¿‡è‡ªå·±çš„çŸ¥è¯†æ¥æ˜Žç™½å“ªäº›æ˜¯è¯åQŒå“ªäº›ä¸æ˜¯è¯åQŒä½†å¦‚何让计½Ž—机也能ç†è§£åQŸå…¶å¤„熘q‡ç¨‹ž®±æ˜¯åˆ†è¯½Ž—法ã€?/p> <p>  现有的分è¯ç®—法å¯åˆ†äؓ三大¾c»ï¼šåŸÞZºŽå­—符串匹é…çš„åˆ†è¯æ–ÒŽ³•ã€åŸºäºŽç†è§£çš„åˆ†è¯æ–ÒŽ³•å’ŒåŸºäºŽç»Ÿè®¡çš„åˆ†è¯æ–ÒŽ³•ã€?/p> <p>  1ã€åŸºäºŽå­—½W¦ä¸²åŒšw…çš„åˆ†è¯æ–¹æ³?/p> <p> ˜q™ç§æ–ÒŽ³•åˆå«åšæœºæ¢°åˆ†è¯æ–¹æ³•,它是按照一定的½{–ç•¥ž®†å¾…分æžçš„æ±‰å­—串与一ä¸?#8220;充分大的”机器è¯å…¸ä¸­çš„è¯æ¡˜q›è¡Œé…,若在è¯å…¸ä¸­æ‰¾åˆ°æŸä¸ªå­—½W¦ä¸²åQŒåˆ™åŒšw…æˆåŠŸ åQˆè¯†åˆ«å‡ºä¸€ä¸ªè¯åQ‰ã€‚æŒ‰ç…§æ‰«ææ–¹å‘çš„ä¸åŒåQŒä¸²åŒšw…åˆ†è¯æ–ÒŽ³•å¯ä»¥åˆ†äؓ正å‘匚w…和逆å‘匚w…åQ›æŒ‰ç…§ä¸åŒé•¿åº¦ä¼˜å…ˆåŒ¹é…的情况åQŒå¯ä»¥åˆ†ä¸ºæœ€å¤§ï¼ˆæœ€é•¿ï¼‰åŒšw…和最ž®ï¼ˆæœ€ 短)匚w…åQ›æŒ‰ç…§æ˜¯å¦ä¸Žè¯æ€§æ ‡æ³¨è¿‡½E‹ç›¸¾l“åˆåQŒåˆå¯ä»¥åˆ†äØ“å•çº¯åˆ†è¯æ–ÒŽ³•和分è¯ä¸Žæ ‡æ³¨ç›¸ç»“åˆçš„一体化æ–ÒŽ³•ã€‚å¸¸ç”¨çš„å‡ ç§æœºæ¢°åˆ†è¯æ–ÒŽ³•如下åQ?/p> <p>  1åQ‰æ­£å‘æœ€å¤§åŒ¹é…æ³•åQˆç”±å·¦åˆ°å³çš„æ–¹å‘åQ‰ï¼›</p> <p>  2åQ‰é€†å‘æœ€å¤§åŒ¹é…æ³•åQˆç”±å›_ˆ°å·¦çš„æ–¹å‘åQ‰ï¼›</p> <p>  3åQ‰æœ€ž®‘切分(使æ¯ä¸€å¥ä¸­åˆ‡å‡ºçš„è¯æ•°æœ€ž®ï¼‰ã€?/p> <p> ˜q˜å¯ä»¥å°†ä¸Šè¿°å„ç§æ–ÒŽ³•ç›æ€º’¾l„åˆåQŒä¾‹å¦‚,å¯ä»¥ž®†æ­£å‘æœ€å¤§åŒ¹é…æ–¹æ³•å’Œé€†å‘æœ€å¤§åŒ¹é…方法结åˆè“væ¥æž„æˆåŒå‘åŒ¹é…æ³•。由于汉语å•å­—æˆè¯çš„特点åQŒæ­£å‘最ž®åŒ¹é…å’Œé€†å‘ æœ€ž®åŒ¹é…一般很ž®‘ä‹É用。一般说æ¥ï¼Œé€†å‘匚w…的切分精度略高于正å‘匚w…åQŒé‡åˆ°çš„æ­§ä¹‰çŽ°è±¡ä¹Ÿè¾ƒž®‘。统计结果表明,å•çº¯ä½¿ç”¨æ­£å‘æœ€å¤§åŒ¹é…çš„é”™è¯¯çŽ‡äØ“1/169åQ? å•çº¯ä½¿ç”¨é€†å‘æœ€å¤§åŒ¹é…çš„é”™è¯¯çŽ‡äØ“1/245。但˜q™ç§¾_‘Öº¦˜q˜è¿œ˜qœä¸èƒ½æ»¡­‘›_®žé™…的需è¦ã€‚实际ä‹É用的分课pÈ»ŸåQŒéƒ½æ˜¯æŠŠæœºæ¢°åˆ†è¯ä½œäؓ一¿Uåˆåˆ†æ‰‹ŒDµï¼Œ˜q˜éœ€é€šè¿‡åˆ©ç”¨å? ¿Uå…¶å®ƒçš„è¯­è¨€ä¿¡æ¯æ¥è¿›ä¸€æ­¥æé«˜åˆ‡åˆ†çš„准确率ã€?/p> <p>  一¿Uæ–¹æ³•æ˜¯æ”¹è¿›æ‰«ææ–¹å¼åQŒç§°ä¸ºç‰¹å¾æ‰«ææˆ–标志切分åQŒä¼˜å…ˆåœ¨å¾…分æžå­—½W¦ä¸²ä¸­è¯†åˆ«å’Œåˆ‡åˆ†å‡ÞZ¸€äº? 带有明显特å¾çš„è¯åQŒä»¥˜q™äº›è¯ä½œä¸ºæ–­ç‚¹ï¼Œå¯å°†åŽŸå­—½W¦ä¸²åˆ†äؓ较å°çš„䏲冿¥˜q›æœºæ¢°åˆ†è¯ï¼Œä»Žè€Œå‡ž®‘匹é…的错误率。å¦ä¸€¿U方法是ž®†åˆ†è¯å’Œè¯ç±»æ ‡æ³¨¾l“åˆèµäh¥åQŒåˆ©ç”¨ä¸°å¯? 的课cÖM¿¡æ¯å¯¹åˆ†è¯å†³ç­–æä¾›å¸®åŠ©åQŒåƈ且在标注˜q‡ç¨‹ä¸­åˆå过æ¥å¯¹åˆ†è¯¾l“æžœ˜q›è¡Œ‹‚€éªŒã€è°ƒæ•ß_¼Œä»Žè€Œæžå¤§åœ°æé«˜åˆ‡åˆ†çš„准¼‹®çއã€?/p> <p>ã€€ã€€å¯¹äºŽæœºæ¢°åˆ†è¯æ–ÒŽ³•åQŒå¯ä»¥å¾ç«‹ä¸€ä¸ªä¸€èˆ¬çš„æ¨¡åž‹åQŒåœ¨˜q™æ–¹é¢æœ‰ä¸“业的学术论文,˜q™é‡Œä¸åšè¯¦ç»†è®ø™¿°ã€?/p> <p>  2ã€åŸºäºŽç†è§£çš„åˆ†è¯æ–ÒŽ³•</p> <p> ˜q™ç§åˆ†è¯æ–ÒŽ³•是通过让计½Ž—机模拟人对å¥å­çš„ç†è§£ï¼Œè¾‘Öˆ°è¯†åˆ«è¯çš„æ•ˆæžœã€‚å…¶åŸºæœ¬æ€æƒ³ž®±æ˜¯åœ¨åˆ†è¯çš„åŒæ—¶˜q›è¡Œå¥æ³•ã€è¯­ä¹‰åˆ†æžï¼Œåˆ©ç”¨å¥æ³•ä¿¡æ¯å’Œè¯­ä¹‰ä¿¡æ¯æ¥å¤„ç†æ­§ä¹‰ 现象。它通常包括三个部分åQšåˆ†è¯å­¾pÈ»Ÿã€å¥æ³•语义孾pÈ»Ÿã€æ€ÀLŽ§éƒ¨åˆ†ã€‚åœ¨æ€ÀLŽ§éƒ¨åˆ†çš„å调下åQŒåˆ†è¯å­¾pÈ»Ÿå¯ä»¥èŽ·å¾—æœ‰å…³è¯ã€å¥å­ç­‰çš„奿³•å’Œè¯­ä¹‰ä¿¡æ¯æ¥å¯¹åˆ†è¯æ­§ä¹‰ ˜q›è¡Œåˆ¤æ–­åQŒå³å®ƒæ¨¡æ‹Ÿäº†äººå¯¹å¥å­çš„ç†è§£è¿‡½E‹ã€‚è¿™¿Uåˆ†è¯æ–¹æ³•需è¦ä‹É用大é‡çš„语言知识和信æ¯ã€‚由于汉语语­a€çŸ¥è¯†çš„笼¾lŸã€å¤æ‚性,难以ž®†å„¿U语­a€ä¿¡æ¯¾l„ç»‡æˆæœºå™¨å¯ 直接è¯Õd–çš„åÅžå¼ï¼Œå› æ­¤ç›®å‰åŸÞZºŽç†è§£çš„分è¯ç³»¾lŸè¿˜å¤„在试验阶段ã€?/p> <p>  3ã€åŸºäºŽç»Ÿè®¡çš„åˆ†è¯æ–ÒŽ³•</p> <p>  从åÅžå¼ä¸Šçœ‹ï¼Œè¯æ˜¯½E›_®šçš„字的组 åˆï¼Œå› æ­¤åœ¨ä¸Šä¸‹æ–‡ä¸­ï¼Œç›”R‚»çš„å­—åŒæ—¶å‡ºçŽ°çš„æ¬¡æ•°è¶Šå¤šï¼Œž®Þp¶Šæœ‰å¯èƒ½æž„æˆä¸€ä¸ªè¯ã€‚因此字与字盔R‚»å…ÞqŽ°çš„é¢‘çŽ‡æˆ–æ¦‚çŽ‡èƒ½å¤Ÿè¾ƒå¥½çš„åæ˜ æˆè¯çš„å¯ä¿¡åº¦ã€‚å¯ä»¥å¯¹è¯­æ–™ä¸­ç›¸é‚? å…ÞqŽ°çš„å„个字的组åˆçš„频度˜q›è¡Œ¾lŸè®¡åQŒè®¡½Ž—它们的互现信æ¯ã€‚定义两个字的互çŽîC¿¡æ¯ï¼Œè®¡ç®—两个汉字Xã€Y的相é‚Õd…±çŽ°æ¦‚çŽ‡ã€‚äº’çŽîC¿¡æ¯ä½“çŽîCº†æ±‰å­—之间¾l“åˆå…³ç³»çš„ç´§ 密程度。当紧密½E‹åº¦é«˜äºŽæŸä¸€ä¸ªé˜ˆå€¼æ—¶åQŒä¾¿å¯è®¤ä¸ºæ­¤å­—组å¯èƒ½æž„æˆäº†ä¸€ä¸ªè¯ã€‚è¿™¿U方法åªéœ€å¯¹è¯­æ–™ä¸­çš„å­—¾l„频度进行统计,ä¸éœ€è¦åˆ‡åˆ†è¯å…¸ï¼Œå› è€Œåˆå«åšæ— è¯å…¸åˆ†è¯? 法或¾lŸè®¡å–è¯æ–ÒŽ³•。但˜q™ç§æ–ÒŽ³•ä¹Ÿæœ‰ä¸€å®šçš„å±€é™æ€§ï¼Œä¼šç»å¸¸æŠ½å‡ÞZ¸€äº›å…±çŽ°é¢‘åº¦é«˜ã€ä½†òq¶ä¸æ˜¯è¯çš„常用字¾l„,例如“˜q™ä¸€”ã€?#8220;之一”ã€?#8220;有的”ã€?#8220;我的”ã€?#8220;许多 çš?#8221;½{‰ï¼Œòq¶ä¸”对常用è¯çš„识别精度差åQŒæ—¶½Iºå¼€é”€å¤§ã€‚实际应用的¾lŸè®¡åˆ†è¯¾pÈ»Ÿéƒ½è¦ä½¿ç”¨ä¸€éƒ¨åŸºæœ¬çš„分è¯è¯å…¸åQˆå¸¸ç”¨è¯è¯å…¸åQ‰è¿›è¡Œä¸²åŒšw…分è¯åQŒåŒæ—¶ä‹É用统计方法识åˆ? 一些新的è¯åQŒå³ž®†ä¸²é¢‘统计和串匹é…结åˆè“væ¥ï¼Œæ—¢å‘挥匹é…分è¯åˆ‡åˆ†é€Ÿåº¦å¿«ã€æ•ˆçŽ‡é«˜çš„ç‰¹ç‚¹ï¼Œåˆåˆ©ç”¨äº†æ— è¯å…¸åˆ†è¯ç»“åˆä¸Šä¸‹æ–‡è¯†åˆ«ç”Ÿè¯ã€è‡ªåŠ¨æ¶ˆé™¤æ­§ä¹‰çš„ä¼˜ç‚¹ã€?/p> <p> 到底哪ç§åˆ†è¯½Ž—法的准¼‹®åº¦æ›´é«˜åQŒç›®å‰åƈ无定论。对于ä“Q何一个æˆç†Ÿçš„分课pÈ»Ÿæ¥è¯´åQŒä¸å¯èƒ½å•独ä¾é æŸä¸€¿U算法æ¥å®žçްåQŒéƒ½éœ€è¦ç»¼åˆä¸åŒçš„½Ž—法。笔者了解,‹¹? é‡ç§‘技的分è¯ç®—法就采用“夿–¹åˆ†è¯æ³?#8221;åQŒæ‰€è°“夿–¹ï¼Œç›¸å½“于用中è¯ä¸­çš„夿–¹æ¦‚念åQŒå³ç”¨ä¸åŒçš„è¯æ‰¾l¼åˆèµäh¥åŽÕdŒ»æ²È–¾ç—…ï¼ŒåŒæ ·åQŒå¯¹äºŽä¸­æ–‡è¯çš„识别,需è¦å¤š¿Uç®—æ³? æ¥å¤„ç†ä¸åŒçš„问题ã€?/p> <p>  分è¯ä¸­çš„éšùN¢˜</p> <p>  有了æˆç†Ÿçš„分è¯ç®—法,是妞®Þpƒ½å®ÒŽ˜“的解å†?span class="relatedlinks-highlight">中文分è¯</span>的问题呢åQŸäº‹å®žè¿œéžå¦‚此。中文是一¿Uååˆ†å¤æ‚的语言åQŒè®©è®¡ç®—机ç†è§£ä¸­æ–‡è¯­­a€æ›´æ˜¯å›°éš¾ã€‚在<span id="drvfr3h" class="relatedlinks-highlight">中文分è¯</span>˜q‡ç¨‹ä¸­ï¼Œæœ‰ä¸¤å¤§éš¾é¢˜ä¸€ç›´æ²¡æœ‰å®Œå…¨çªç ´ã€?/p> <p>  1ã€æ­§ä¹‰è¯†åˆ?/p> <p> æ­§ä¹‰æ˜¯æŒ‡åŒæ ·çš„一å¥è¯åQŒå¯èƒ½æœ‰ä¸¤ç§æˆ–者更多的切分æ–ÒŽ³•。例如:表é¢çš„ï¼Œå› äØ““表颔å’?#8220;é¢çš„”都是è¯ï¼Œé‚£ä¹ˆ˜q™ä¸ªçŸ­è¯­ž®±å¯ä»¥åˆ†æˆ?#8220;è¡¨é¢ çš?#8221;å’?#8220;è¡? é¢çš„”。这¿Uç§°ä¸ÞZº¤å‰æ­§ä¹‰ã€‚僘q™ç§äº¤å‰æ­§ä¹‰å分常è§åQŒå‰é¢ä‹Dçš?#8220;和朔的例å­ï¼Œå…¶å®žž®±æ˜¯å› äØ“äº¤å‰æ­§ä¹‰å¼•è“v的错误ã€?#8220;化妆和æœè£?#8221;å¯ä»¥åˆ†æˆ“化妆 å’? æœè£…”或è€?#8220;化妆 å’Œæœ è£?#8221;。由于没有äh的知识去ç†è§£åQŒè®¡½Ž—机很难知é“到底哪个æ–ÒŽ¡ˆæ­£ç¡®ã€?/p> <p>ã€€ã€€äº¤å‰æ­§ä¹‰ç›¸å¯¹¾l„åˆæ­§ä¹‰æ¥è¯´æ˜¯è¿˜½Ž—比较容易处 ç†ï¼Œ¾l„åˆæ­§ä¹‰ž®±å¿…需æ ÒŽ®æ•´ä¸ªå¥å­æ¥åˆ¤æ–­äº†ã€‚例如,在å¥å­?#8220;˜q™ä¸ªé—¨æŠŠæ‰‹åäº?#8221;中,“把手”是个è¯ï¼Œä½†åœ¨å¥å­“è¯ähŠŠæ‰‹æ‹¿å¼€”中,“把手”ž®×ƒ¸æ˜¯ä¸€ä¸ªè¯åQ›åœ¨å¥å­ “ž®†å†›ä»Õd‘½äº†ä¸€å中ž®?#8221;中,“中将”是个è¯ï¼Œä½†åœ¨å¥å­“产é‡ä¸‰å¹´ä¸­å°†å¢žé•¿ä¸¤å€?#8221;中,“中将”ž®×ƒ¸å†æ˜¯è¯ã€‚这些è¯è®¡ç®—机åˆå¦‚何去识åˆ?</p> <p>  å¦? æžœäº¤å‰æ­§ä¹‰å’Œ¾l„åˆæ­§ä¹‰è®¡ç®—机都能解决的è¯ï¼Œåœ¨æ­§ä¹‰ä¸­˜q˜æœ‰ä¸€ä¸ªéš¾é¢˜ï¼Œæ˜¯çœŸæ­§ä¹‰ã€‚çœŸæ­§ä¹‰æ„æ€æ˜¯¾l™å‡ºä¸€å¥è¯åQŒç”±äººåŽ»åˆ¤æ–­ä¹Ÿä¸çŸ¥é“哪个应该是è¯åQŒå“ªä¸ªåº”è¯¥ä¸æ˜¯è¯ã€? 例如åQ?#8220;ä¹’ä¹“çƒæ‹å–完äº?#8221;åQŒå¯ä»¥åˆ‡åˆ†æˆ“乒乓 çƒæ‹ å?å®?äº?#8221;ã€ä¹Ÿå¯åˆ‡åˆ†æˆ“乒乓ç?æ‹å– å®? äº?#8221;åQŒå¦‚果没有上下文其他的å¥å­ï¼Œææ€•è°ä¹Ÿä¸çŸ¥é““æ‹å–”在这里算ä¸ç®—一个è¯ã€?/p> <p>  2ã€æ–°è¯è¯†åˆ?/p> <p>  新è¯åQŒä¸“业术语称为未ç™? 录è¯ã€‚也ž®±æ˜¯é‚£äº›åœ¨å­—å…æ€¸­éƒ½æ²¡æœ‰æ”¶å½•过åQŒä½†åˆç¡®å®žèƒ½¿UîCØ“è¯çš„那些è¯ã€‚最典型的是人ååQŒähå¯ä»¥å¾ˆå®¹æ˜“ç†è§£å¥å­?#8220;王军虎去òq¿å·žäº?#8221;中,“王军è™?#8221;是个è¯ï¼Œå› äØ“ 是一个ähçš„åå­—ï¼Œä½†è¦æ˜¯è®©è®¡ç®—机去识别ž®±å›°éš¾äº†ã€‚如果把“王军è™?#8221;åšäØ“ä¸€ä¸ªè¯æ”¶å½•åˆ°å­—å…æ€¸­åŽ»ï¼Œå…¨ä¸–ç•Œæœ‰é‚£ä¹ˆå¤šåå­—ï¼Œè€Œä¸”æ¯æ—¶æ¯åˆ»éƒ½æœ‰æ–°å¢žçš„ähå,收录˜q™äº› äººåæœ¬èínž®±æ˜¯ä¸€™å¹å·¨å¤§çš„工程。å³ä½¿è¿™™å¹å·¥ä½œå¯ä»¥å®Œæˆï¼Œ˜q˜æ˜¯ä¼šå­˜åœ¨é—®é¢˜ï¼Œä¾‹å¦‚åQšåœ¨å¥å­“王军虎头虎脑çš?#8221;中,“王军è™?#8221;˜q˜èƒ½ä¸èƒ½½Ž—è¯åQ?/p> <p>  新è¯ä¸­é™¤äº†ähå以外,˜q˜æœ‰æœºæž„åã€åœ°åã€äñ”å“åã€å•†æ ‡åã€ç®€¿U°ã€çœç•¥è¯­½{‰éƒ½æ˜¯å¾ˆéš‘Ö¤„ç†çš„问题åQŒè€Œä¸”˜q™äº›åˆæ­£å¥½æ˜¯äºÞZ»¬¾l常使用的è¯åQŒå› æ­¤å¯¹äºŽæœç´¢å¼•擎æ¥è¯ß_¼Œåˆ†è¯¾pÈ»Ÿä¸­çš„æ–°è¯è¯†åˆ«å分é‡è¦ã€‚ç›®å‰æ–°è¯è¯†åˆ«å‡†¼‹®çŽ‡å·²ç»æˆäؓ评ä­h一个分è¯ç³»¾lŸå¥½åçš„é‡è¦æ ‡å¿—之一ã€?/p> <p>  <span id="vtdxrtt" class="relatedlinks-highlight">中文分è¯</span>的应ç”?/p> <p>  目å‰åœ¨è‡ªç„¶è¯­­a€å¤„ç†æŠ€æœ¯ä¸­åQŒä¸­æ–‡å¤„ç†æŠ€æœ¯æ¯”è¥¿æ–‡å¤„ç†æŠ€æœ¯è¦è½åŽå¾ˆå¤§ä¸€ŒDµè·¼›»ï¼Œè®¸å¤šè¥¿æ–‡çš„å¤„ç†æ–¹æ³•中文ä¸èƒ½ç›´æŽ¥é‡‡ç”¨ï¼Œž®±æ˜¯å› äؓ中文必需有分è¯è¿™é“å·¥åºã€?span class="relatedlinks-highlight">中文分è¯</span>是其他中文信æ¯å¤„ç†çš„基础åQŒæœç´¢å¼•æ“Žåªæ˜?span class="relatedlinks-highlight">中文分è¯</span>的一个应用。其他的比如机器¾˜»è¯‘åQˆMTåQ‰ã€è¯­éŸ›_ˆæˆã€è‡ªåŠ¨åˆ†¾c…R€è‡ªåŠ¨æ‘˜è¦ã€è‡ªåŠ¨æ ¡å¯¹ç­‰½{‰ï¼Œéƒ½éœ€è¦ç”¨åˆ°åˆ†è¯ã€‚å› ä¸ÞZ¸­æ–‡éœ€è¦åˆ†è¯ï¼Œå¯èƒ½ä¼šåª„å“一些研½IÓž¼Œä½†åŒæ—¶ä¹Ÿä¸ÞZ¸€äº›ä¼ä¸šå¸¦æ¥æœºä¼šï¼Œå› äؓ国外的计½Ž—æœºå¤„ç†æŠ€æœ¯è¦æƒŒ™¿›å…¥ä¸­å›½å¸‚场,首先也是è¦è§£å†?span class="relatedlinks-highlight">中文分è¯</span>问题。在中文研究斚w¢åQŒç›¸æ¯”外国ähæ¥è¯´åQŒä¸­å›½äh有å分明昄¡š„优势ã€?/p> <p> 分è¯å‡†ç¡®æ€§å¯¹æœçƒ¦å¼•擎æ¥è¯´å分é‡è¦åQŒä½†å¦‚果分è¯é€Ÿåº¦å¤ªæ…¢åQŒå³ä½¿å‡†¼‹®æ€§å†é«˜ï¼Œå¯¹äºŽæœçƒ¦å¼•擎æ¥è¯´ä¹Ÿæ˜¯ä¸å¯ç”¨çš„åQŒå› ä¸ºæœç´¢å¼•擎需è¦å¤„ç†æ•°ä»¥äº¿è®¡çš„¾|‘页åQŒå¦‚果分 è¯è€—用的时间过长,会严é‡åª„哿œç´¢å¼•擎内å®ÒŽ›´æ–°çš„速度。因此对于æœç´¢å¼•擎æ¥è¯ß_¼Œåˆ†è¯çš„准¼‹®æ€§å’Œé€Ÿåº¦åQŒäºŒè€…都需è¦è¾¾åˆ°å¾ˆé«˜çš„è¦æ±‚。目å‰ç ”½I?span class="relatedlinks-highlight">中文分è¯</span>的大多是¿U‘研院校åQŒæ¸…åŽã€åŒ—大ã€ä¸­¿U‘院ã€åŒ—京语­a€å­¦é™¢ã€ä¸œåŒ—大学ã€IBM研究院ã€å¾®è½¯ä¸­å›½ç ”½I‰™™¢½{‰éƒ½æœ‰è‡ªå·Þqš„研究队ä¼åQŒè€ŒçœŸæ­£ä¸“业研½I?span class="relatedlinks-highlight">中文分è¯</span>的商业公å”R™¤äº†æ“vé‡ç§‘技以外åQŒå‡ ä¹Žæ²¡æœ‰äº†ã€‚科研院校研½I¶çš„æŠ€æœ¯ï¼Œå¤§éƒ¨åˆ†ä¸èƒ½å¾ˆå¿«äñ”å“化åQŒè€Œä¸€ä¸ªä¸“业公å¸çš„åŠ›é‡æ¯•竟有é™åQŒçœ‹æ?span class="relatedlinks-highlight">中文分è¯</span>æŠ€æœ¯è¦æƒÏx›´å¥½çš„æœåŠ¡äºŽæ›´å¤šçš„äº§å“åQŒè¿˜æœ‰å¾ˆé•¿ä¸€ŒDµèµ\ã€?/p><img src ="http://www.shnenglu.com/koson/aggbug/113356.html" width = "1" height = "1" /><br><br><div align=right><a style="text-decoration:none;" href="http://www.shnenglu.com/koson/" target="_blank">koson</a> 2010-04-23 17:41 <a href="http://www.shnenglu.com/koson/archive/2010/04/23/113356.html#Feedback" target="_blank" style="text-decoration:none;">å‘表评论</a></div>]]></description></item></channel></rss> <footer> <div class="friendship-link"> <p>¸ÐлÄú·ÃÎÊÎÒÃǵÄÍøÕ¾£¬Äú¿ÉÄÜ»¹¶ÔÒÔÏÂ×ÊÔ´¸ÐÐËȤ£º</p> <a href="http://www.shnenglu.com/" title="精品视频久久久久">精品视频久久久久</a> <div class="friend-links"> </div> </div> </footer> <a href="http://www.axtea2007.cn" target="_blank">ÑÇÖ޺ݺÝ×ۺϾþÃ</a>| <a href="http://www.ehxs.cn" target="_blank">¹ú²ú¾«Æ·¾Ã¾Ã¾Ã¾Ã¾Ã¸£Àû69ÌÃ</a>| <a href="http://www.mllp.net.cn" target="_blank">¾Ã¾Ã³ÉÈËÓÀ¾ÃÃâ·Ñ²¥·Å</a>| <a href="http://www.jj123.com.cn" target="_blank">ÑÇÖÞ¾«Æ·ÎÞÂë×¨Çø¾Ã¾ÃͬÐÔÄÐ</a>| <a href="http://www.d5430.cn" target="_blank">avÉ«×ۺϾþÃÌìÌÃavÉ«×ÛºÏÔÚ</a>| <a href="http://www.c825.cn" target="_blank">¾Ã¾Ã¹ú²ú¾«Æ·¹ú²ú×ÔÏßÅÄÃâ·Ñ</a>| <a href="http://www.0513act.cn" target="_blank">¾Ã¾Ã×ۺϾþÃÐÔ¾Ã99ëƬ</a>| <a href="http://www.jfjn.net.cn" target="_blank">ÐÔÅ·ÃÀ·áÂúÊ츾XXXXÐԾþþÃ</a>| <a href="http://www.ip-domain.com.cn" target="_blank">¾Ã¾ÃÃâ·Ñ¸ßÇåÊÓÆµ</a>| <a href="http://www.nicnr.cn" target="_blank">ÒÁÈ˾þþ«Æ·ÎÞÂëavÒ»Çø</a>| <a href="http://www.jm1818.cn" target="_blank">¹ú²ú¾«Æ·Çà²Ý¾Ã¾Ã¾Ã¾ÃæÃæÃ</a>| <a href="http://www.handyx.cn" target="_blank">ÈÕº«AVëƬ¾«Æ·¾Ã¾Ã¾Ã</a>| <a href="http://www.yonganwl.cn" target="_blank">¹ú²ú91¾Ã¾Ã¾«Æ·Ò»Çø¶þÇø</a>| <a href="http://www.ixlg.cn" target="_blank">ÑÇÖÞ¹ú²ú¾«Æ·×ۺϾþÃÍøÂç </a>| <a href="http://www.51maicha.cn" target="_blank">ÑÇÖÞ¹ú²úæÃæÃÏã½¶¾Ã¾Ã¾Ã¾Ã¾Ã</a>| <a href="http://www.xuanhaoma.com.cn" target="_blank">¾Ã¾ÃÈË×öÈËË¬Ò»Çø¶þÇøÈýÇø</a>| <a href="http://www.maishuhua.cn" target="_blank">¾«Æ·¹ú²úÒ»Çø¶þÇøÈýÇø¾Ã¾Ã</a>| <a href="http://www.123pojie.cn" target="_blank">¾Ã¾Ã¾Ã¾Ã99ÕâÀïÓо«Æ·10 </a>| <a href="http://www.58city.cn" target="_blank">¹ú²ú³ÉÈËÎÞÂ뾫Ʒ¾Ã¾Ã¾Ã¾ÃÃâ·Ñ </a>| <a href="http://www.zjuny.cn" target="_blank">É«³ÉÄ꼤Çé¾Ã¾Ã×ÛºÏ</a>| <a href="http://www.fl07.cn" target="_blank">¾Ã¾Ã¾Ã¾Ã¾ÃÑÇÖÞAvÎÞÂ뾫Ʒר¿Ú </a>| <a href="http://www.banzheng128.cn" target="_blank">ÑÇÖÞAVÈÕº«¾«Æ·¾Ã¾Ã¾Ã¾Ã</a>| <a href="http://www.xoci.cn" target="_blank">¾Ã¾Ã¾Ã¾ÃÎÞÂë×¨ÇøÑÇÖÞav</a>| <a href="http://www.976z.cn" target="_blank">³ÉÈ˹úÄÚ¾«Æ·¾Ã¾Ã¾Ã¾ÃÒ»Çø</a>| <a href="http://www.upvd.cn" target="_blank">¾Ã¾Ã¾Ã¾Ã¾Ã¹ú²ú¾«Æ·Ãâ·ÑÎÞÂë </a>| <a href="http://www.iview-inc.com.cn" target="_blank">¾Ã¾Ã¾Ã¾ÃÑÇÖÞ¹ú²ú</a>| <a href="http://www.sxjax.cn" target="_blank">¾Ã¾ÃÈËÈËˬÈËÈËˬAVƬ</a>| <a href="http://www.gzkyzc.com.cn" target="_blank">ÈÕ±¾¾Ã¾Ã¾Ã¾«Æ·ÖÐÎÄ×ÖÄ»</a>| <a href="http://www.ip-domain.com.cn" target="_blank">¾Ã¾Ã¾«Æ·¹ú²ú99¾Ã¾ÃÎÞ¶¾²»¿¨</a>| <a href="http://www.sdlove.cn" target="_blank">Ò»±¾É«µÀ¾Ã¾Ã88×ÛºÏÈÕº«¾«Æ· </a>| <a href="http://www.biancheng88.cn" target="_blank">¹ú²úV×ÛºÏVÑÇÖÞÅ·ÃÀ¾Ã¾Ã</a>| <a href="http://www.gakr.cn" target="_blank">ÑÇÖÞAVÎÞÒ»Çø¶þÇøÈýÇø¾Ã¾Ã</a>| <a href="http://www.liaoningluntan.cn" target="_blank">Å·ÃÀ³ÉÈËÃâ·Ñ¹Û¿´¾Ã¾Ã</a>| <a href="http://www.lvtonggaoerfu.cn" target="_blank">¾Ã¾Ã¾«Æ·ÎÞÂëÒ»Çø¶þÇøÈýÇøÈÕº«</a>| <a href="http://www.jimoge.cn" target="_blank">ÑÇÖÞ¹ú²ú¾«Æ·¾Ã¾Ã¾Ã¾ÃæÃæÃÈí¼þ</a>| <a href="http://www.zambak.cn" target="_blank">¾Ã¾Ã¹ú²ú¾«Æ·¾Ã¾Ã¾«Æ·¹ú²ú</a>| <a href="http://www.pz25555.cn" target="_blank">¹ú²ú91É«×ۺϾþÃÃâ·Ñ</a>| <a href="http://www.tzzdj.cn" target="_blank">³ÉÈ˾«Æ·Ò»Çø¶þÇø¾Ã¾Ã¾Ã</a>| <a href="http://www.minghuzisha.cn" target="_blank">Çà²ÝÓ°ÔºÌìÌÃÄÐÈ˾þÃ</a>| <a href="http://www.up598.cn" target="_blank">¾Ã¾Ã¹ú²ú¾«Æ·ÊÓÆµ</a>| <a href="http://www.tingyuxuan999.cn" target="_blank">¾Ã¾Ã¾Ã¾ÃÎÞÂë¹ú²ú¾«Æ·²»¿¨</a>| <script> (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })(); </script> </body>