這一篇簡(jiǎn)單介紹比賽以及比賽用的數(shù)據(jù)集。
kddcup 08 是由ACM SIGKDD 主辦的年度數(shù)據(jù)挖掘競(jìng)賽,kddcup本身是第一個(gè)也是最具歷史的數(shù)據(jù)挖掘競(jìng)賽。
今年的數(shù)據(jù)是由Siemens Medical Solutions USA提供的,這個(gè)數(shù)據(jù)原來(lái)是用于早期從x光圖像檢測(cè)乳腺癌。Siemens的這些醫(yī)療器械涉及到機(jī)器學(xué)習(xí)算法,因此將這個(gè)處理過(guò)的(參賽者無(wú)法從該數(shù)據(jù)集中得到與算法無(wú)關(guān)的其它信息,如Siemens的產(chǎn)品信息等)數(shù)據(jù)集提供給kddcup 08, 一方面提高自身的聲譽(yù),一方面可以將競(jìng)賽中優(yōu)秀的算法應(yīng)用到實(shí)際產(chǎn)品中。
kddcup08的challenge分為2部分,challenge 1是測(cè)試FP(False Positive)在02.~0.3區(qū)間內(nèi)的ROC面積(AUC),面積越大越好。challenge 2是測(cè)試在TP(True Positive)達(dá)到100%時(shí)的FP率,這要越小越好,因?yàn)檫@可以在保證沒(méi)有漏檢的情況下,盡量減少人工判斷的工作量。