這一篇簡單介紹比賽以及比賽用的數據集。
kddcup 08 是由ACM SIGKDD 主辦的年度數據挖掘競賽,kddcup本身是第一個也是最具歷史的數據挖掘競賽。
今年的數據是由Siemens Medical Solutions USA提供的,這個數據原來是用于早期從x光圖像檢測乳腺癌。Siemens的這些醫療器械涉及到機器學習算法,因此將這個處理過的(參賽者無法從該數據集中得到與算法無關的其它信息,如Siemens的產品信息等)數據集提供給kddcup 08, 一方面提高自身的聲譽,一方面可以將競賽中優秀的算法應用到實際產品中。
kddcup08的challenge分為2部分,challenge 1是測試FP(False Positive)在02.~0.3區間內的ROC面積(AUC),面積越大越好。challenge 2是測試在TP(True Positive)達到100%時的FP率,這要越小越好,因為這可以在保證沒有漏檢的情況下,盡量減少人工判斷的工作量。