一本色道久久99精品综合,亚洲美女av黄,欧美视频1区

召回率和準(zhǔn)確率

轉(zhuǎn)自：http://uwei.blogbus.com/logs/11424864.html
外行人做互聯(lián)網(wǎng)，很多概念不懂。就拿最基礎(chǔ)的“召回率”和“準(zhǔn)確率”這種概念，看看網(wǎng)上資料知道大概，自己用的時(shí)候，腦子里繞著彎兒能想明白，可碰到別人活用的時(shí)候，腦子里還是沒(méi)法一下子反應(yīng)過(guò)來(lái)，還是要繞彎想一下。特地找了些資料，將這兩個(gè)概念整理一下，希望能更熟練。

召回率和準(zhǔn)確率是搜索引擎（或其它檢索系統(tǒng)）的設(shè)計(jì)中很重要的兩個(gè)概念和指標(biāo)。
召回率：Recall，又稱(chēng)“查全率”；
準(zhǔn)確率：Precision，又稱(chēng)“精度”、“正確率”。
在一個(gè)大規(guī)模數(shù)據(jù)集合中檢索文檔時(shí)，可把集合中的所有文檔分成四類(lèi)：

	相關(guān)	不相關(guān)
檢索到	A	B
未檢索到	C	D

A：檢索到的，相關(guān)的                   （搜到的也想要的）
B：檢索到的，但是不相關(guān)的           （搜到的但沒(méi)用的）
C：未檢索到的，但卻是相關(guān)的        （沒(méi)搜到，然而實(shí)際上想要的）
D：未檢索到的，也不相關(guān)的          （沒(méi)搜到也沒(méi)用的）

通常我們希望：數(shù)據(jù)庫(kù)中相關(guān)的文檔，被檢索到的越多越好，這是追求“查全率”，即A/(A+C)，越大越好。
同時(shí)我們還希望：檢索到的文檔中，相關(guān)的越多越好，不相關(guān)的越少越好，這是追求“準(zhǔn)確率”，即A/(A+B)，越大越好。

歸納如下：
召回率：檢索到的相關(guān)文檔比庫(kù)中所有的相關(guān)文檔
準(zhǔn)確率：檢索到的相關(guān)文檔比所有被檢索到的文檔

“召回率”與“準(zhǔn)確率”雖然沒(méi)有必然的關(guān)系（從上面公式中可以看到），然而在大規(guī)模數(shù)據(jù)集合中，這兩個(gè)指標(biāo)卻是相互制約的。
由于“檢索策略”并不完美，希望更多相關(guān)的文檔被檢索到時(shí)，放寬“檢索策略”時(shí)，往往也會(huì)伴隨出現(xiàn)一些不相關(guān)的結(jié)果，從而使準(zhǔn)確率受到影響。
而希望去除檢索結(jié)果中的不相關(guān)文檔時(shí)，務(wù)必要將“檢索策略”定的更加嚴(yán)格，這樣也會(huì)使有一些相關(guān)的文檔不再能被檢索到，從而使召回率受到影響。

凡是設(shè)計(jì)到大規(guī)模數(shù)據(jù)集合的檢索和選取，都涉及到“召回率”和“準(zhǔn)確率”這兩個(gè)指標(biāo)。而由于兩個(gè)指標(biāo)相互制約，我們通常也會(huì)根據(jù)需要為“檢索策略”選擇一個(gè)合適的度，不能太嚴(yán)格也不能太松，尋求在召回率和準(zhǔn)確率中間的一個(gè)平衡點(diǎn)。這個(gè)平衡點(diǎn)由具體需求決定。

其實(shí)，準(zhǔn)確率（precision，精度）比較好理解。往往難以迅速反應(yīng)的是“召回率”。我想這與字面意思也有關(guān)系，從“召回”的字面意思不能直接看到其意義。
我覺(jué)得“召回率”這個(gè)詞翻譯的不夠好。“召回”在中文的意思是：把xx調(diào)回來(lái)。比如sony電池有問(wèn)題，廠家召回。
既然說(shuō)翻譯的不好，我們回頭看“召回率”對(duì)應(yīng)的英文“recall”，recall除了有上面說(shuō)到的“order sth to return”的意思之外，還有“remember”的意思。

Recall：the ability to remember sth. that you have learned or sth. that has happened in the past.

這里，recall應(yīng)該是這個(gè)意思，這樣就更容易理解“召回率”的意思了。
當(dāng)我們問(wèn)檢索系統(tǒng)某一件事的所有細(xì)節(jié)時(shí)（輸入檢索query），Recall就是指：檢索系統(tǒng)能“回憶”起那些事的多少細(xì)節(jié)，通俗來(lái)講就是“回憶的能力”。能回憶起來(lái)的細(xì)節(jié)數(shù) 除以系統(tǒng)知道這件事的所有細(xì)節(jié)，就是“記憶率”，也就是recall——召回率。

這樣想，要容易的多了。

posted on 2012-07-23 09:41 SunRise_at 閱讀(2394) 評(píng)論(0) 編輯收藏引用所屬分類(lèi): 自然語(yǔ)言處理

只有注冊(cè)用戶(hù)登錄后才能發(fā)表評(píng)論。
【推薦】100%開(kāi)源！大型工業(yè)跨平臺(tái)軟件C++源碼提供，建模，組態(tài)！

相關(guān)文章: NLP數(shù)據(jù)收集搭建wiki鏡像小結(jié) Penn Treebank Tags 召回率和準(zhǔn)確率《數(shù)學(xué)之美》－－馬爾可夫鏈統(tǒng)計(jì)自然語(yǔ)言處理--互信息基于HowNet語(yǔ)義相似度的ＦＡＱ的研究自然語(yǔ)言處理相關(guān)書(shū)籍及其他資源

網(wǎng)站導(dǎo)航: 博客園 IT新聞 BlogJava 博問(wèn) Chat2DB 管理

sunrise

常用鏈接

留言簿(12)

隨筆分類(lèi)(63)

隨筆檔案(64)

收藏夾

ACMer

技術(shù)聯(lián)盟

可愛(ài)的python

數(shù)據(jù)挖掘

算法之道

友情鏈接

最新隨筆

搜索

積分與排名

最新隨筆

最新評(píng)論

閱讀排行榜

評(píng)論排行榜