Posted on 2005-12-08 21:11
inwind 閱讀(1337)
評論(2) 編輯 收藏 引用
項目的終極目標是輿情分析,為主管部門及時掌握網絡輿論情況,以及了解輿論發展的時間和空間上的發生發展情況。所作的工作必須以此為判斷的唯一標準。
分類,首先要有個分類體系,現在掌握的情況是,分類是根據學科體制,在分類樹的某個節點上,按照唯一的標準進行分類。
但是,人類知識本身就是渾然一體的,存在大量的交叉,甚至不同領域研究同一對象,甚至使用相同或者相似方法。(這時感覺,徐小棟老師的說法還是對的,呵呵,知識是渾然一體的,分類是人工雕琢,但是為了掌握的方便,只好如此了)。
更何況,網絡信息的多樣性,隨意性,以及貼近生活,使得網絡信息,尤其是新聞,難以按照學科體制分類,或者很不適合用學科體制分類。
例如,管理部門想要了解民眾對神六的看法,討論和關注程度,以及關注的方面。但是按照分類體系,神六對經濟的影響屬于經濟類,對外交的影響屬于政治類,對民俗的影響又屬于文化類。這樣,對于管理部門,可能是不想要得結果。
又考慮到了主題的概念,一篇文章舉的例子,地震是主題,但是,唐山地震又是另外的概念,事件;載人航天是主題,但是神六上天又是事件。沒有人給出確切的定義。
可否這樣定義呢:主題,是關于一個較為抽象概念的所有文章。
事件,是關于一個確切的事件。
但是,問題是,較為抽象的概念,分類的定義就是,對概念進行劃分,概念是關于本質屬性的反應。本質屬性呢,就是決定一個事物或者一類事物不是其他的決定性屬性。主題和分類還是有些混亂啊。
現在想了兩種方案,
一是分大類,僅一級,分個十幾二十類,然后在下面進行聚類和事件發現跟蹤。
二是分得比較細,仿照北大或者google的三級分類,然后進行聚類和事件發現跟蹤,然后給出事件發現跟蹤的結果。
哪一個比較好呢,似乎第一類,簡單分類后,對于聚類和事件發現跟蹤的影響小。
但是,新聞的特征向量如何選取呢,理論上分類和聚類的要求是相同的,但是肯定會有細微的差別,更何況聚類還需要考慮新聞的時間分布。
另外一個問題了,事件發現需要利用新聞事件的時間特性,但是,在比較長一段時間內,關于一系列事件的主題,如何挖掘呢,比如,礦難。——給每個新聞事件確定一個特征向量,然后對事件的特征向量進行聚類?
嗯,繼續研究繼續研究