• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            posts - 12, comments - 4, trackbacks - 0, articles - 36

            文本分類(lèi)與輿情分析

            Posted on 2005-12-08 21:11 inwind 閱讀(1349) 評(píng)論(2)  編輯 收藏 引用

               項(xiàng)目的終極目標(biāo)是輿情分析,為主管部門(mén)及時(shí)掌握網(wǎng)絡(luò)輿論情況,以及了解輿論發(fā)展的時(shí)間和空間上的發(fā)生發(fā)展情況。所作的工作必須以此為判斷的唯一標(biāo)準(zhǔn)。
               
               分類(lèi),首先要有個(gè)分類(lèi)體系,現(xiàn)在掌握的情況是,分類(lèi)是根據(jù)學(xué)科體制,在分類(lèi)樹(shù)的某個(gè)節(jié)點(diǎn)上,按照唯一的標(biāo)準(zhǔn)進(jìn)行分類(lèi)。
               
               但是,人類(lèi)知識(shí)本身就是渾然一體的,存在大量的交叉,甚至不同領(lǐng)域研究同一對(duì)象,甚至使用相同或者相似方法。(這時(shí)感覺(jué),徐小棟老師的說(shuō)法還是對(duì)的,呵呵,知識(shí)是渾然一體的,分類(lèi)是人工雕琢,但是為了掌握的方便,只好如此了)。
               更何況,網(wǎng)絡(luò)信息的多樣性,隨意性,以及貼近生活,使得網(wǎng)絡(luò)信息,尤其是新聞,難以按照學(xué)科體制分類(lèi),或者很不適合用學(xué)科體制分類(lèi)。
               例如,管理部門(mén)想要了解民眾對(duì)神六的看法,討論和關(guān)注程度,以及關(guān)注的方面。但是按照分類(lèi)體系,神六對(duì)經(jīng)濟(jì)的影響屬于經(jīng)濟(jì)類(lèi),對(duì)外交的影響屬于政治類(lèi),對(duì)民俗的影響又屬于文化類(lèi)。這樣,對(duì)于管理部門(mén),可能是不想要得結(jié)果。
               
               又考慮到了主題的概念,一篇文章舉的例子,地震是主題,但是,唐山地震又是另外的概念,事件;載人航天是主題,但是神六上天又是事件。沒(méi)有人給出確切的定義。
               可否這樣定義呢:主題,是關(guān)于一個(gè)較為抽象概念的所有文章。
               事件,是關(guān)于一個(gè)確切的事件。
               
               但是,問(wèn)題是,較為抽象的概念,分類(lèi)的定義就是,對(duì)概念進(jìn)行劃分,概念是關(guān)于本質(zhì)屬性的反應(yīng)。本質(zhì)屬性呢,就是決定一個(gè)事物或者一類(lèi)事物不是其他的決定性屬性。主題和分類(lèi)還是有些混亂啊。

               現(xiàn)在想了兩種方案,
            一是分大類(lèi),僅一級(jí),分個(gè)十幾二十類(lèi),然后在下面進(jìn)行聚類(lèi)和事件發(fā)現(xiàn)跟蹤。
            二是分得比較細(xì),仿照北大或者google的三級(jí)分類(lèi),然后進(jìn)行聚類(lèi)和事件發(fā)現(xiàn)跟蹤,然后給出事件發(fā)現(xiàn)跟蹤的結(jié)果。

            哪一個(gè)比較好呢,似乎第一類(lèi),簡(jiǎn)單分類(lèi)后,對(duì)于聚類(lèi)和事件發(fā)現(xiàn)跟蹤的影響小。
            但是,新聞的特征向量如何選取呢,理論上分類(lèi)和聚類(lèi)的要求是相同的,但是肯定會(huì)有細(xì)微的差別,更何況聚類(lèi)還需要考慮新聞的時(shí)間分布。

            另外一個(gè)問(wèn)題了,事件發(fā)現(xiàn)需要利用新聞事件的時(shí)間特性,但是,在比較長(zhǎng)一段時(shí)間內(nèi),關(guān)于一系列事件的主題,如何挖掘呢,比如,礦難。——給每個(gè)新聞事件確定一個(gè)特征向量,然后對(duì)事件的特征向量進(jìn)行聚類(lèi)?

            嗯,繼續(xù)研究繼續(xù)研究

            Feedback

            # re: 文本分類(lèi)與輿情分析  回復(fù)  更多評(píng)論   

            2007-01-23 21:24 by youyou
            最近準(zhǔn)備研究文本分類(lèi),能否給與賜教?不知道有沒(méi)有文本分類(lèi)的代碼,可否給我一份,謝謝!myyouyou1979@126.com

            # re: 文本分類(lèi)與輿情分析  回復(fù)  更多評(píng)論   

            2008-04-20 16:44 by 發(fā)達(dá)省份
            zhaiyongzy@126.com
            我也想要文本分類(lèi)相關(guān)算法

            只有注冊(cè)用戶(hù)登錄后才能發(fā)表評(píng)論。
            網(wǎng)站導(dǎo)航: 博客園   IT新聞   BlogJava   博問(wèn)   Chat2DB   管理


            久久国产热这里只有精品| 亚洲国产精品成人AV无码久久综合影院 | 亚洲国产精品高清久久久| 亚洲国产成人精品女人久久久 | 久久久这里只有精品加勒比| 无码精品久久一区二区三区 | 国产精品无码久久四虎| 亚洲国产成人久久一区久久| 99久久婷婷国产综合亚洲| 狠狠色丁香婷婷综合久久来来去| 久久男人AV资源网站| 久久永久免费人妻精品下载| 精品久久久久久国产三级| 国产成人久久精品一区二区三区 | 亚洲午夜久久久久久久久电影网| 久久婷婷人人澡人人爽人人爱| 久久久久久久综合日本亚洲| 一本色道久久综合狠狠躁| 婷婷久久综合九色综合绿巨人| 97久久精品国产精品青草| 久久国产精品无码HDAV| 久久婷婷五月综合97色| 亚洲国产精品无码久久| 欧洲成人午夜精品无码区久久| 伊人久久大香线蕉综合影院首页| 亚洲欧美成人久久综合中文网 | 久久精品国产亚洲网站| 久久精品国产91久久综合麻豆自制| 久久久女人与动物群交毛片| 久久99精品综合国产首页| 国产精品欧美久久久久无广告 | yellow中文字幕久久网| 精品久久国产一区二区三区香蕉| 国产精品永久久久久久久久久| 亚洲国产婷婷香蕉久久久久久| 人妻精品久久久久中文字幕一冢本| 国产精品视频久久久| 中文字幕精品无码久久久久久3D日动漫 | 久久久久99精品成人片欧美 | 人妻无码久久精品| 国产亚洲精品自在久久|