• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            隨筆 - 89  文章 - 118  trackbacks - 0
            <2025年8月>
            272829303112
            3456789
            10111213141516
            17181920212223
            24252627282930
            31123456

            留言簿(16)

            隨筆分類(56)

            隨筆檔案(89)

            文章分類

            推薦博客

            搜索

            •  

            最新隨筆

            最新評論

            閱讀排行榜

            詞典壓縮:減小詞典的內(nèi)存占用
            好的壓縮算法:壓縮率,壓縮速度,解壓速度(最重要)
            一元編碼
            10
            210
            3110
            41110
            511110
            Elias Gamma:
            x=2^e+d
            e+1:一元編碼
            d:二元編碼
            Elias Delta:
            x=2^e+d
            e+1:再使用Elias Gamma編碼一次
            d:二元編碼
            Golomb & Rice
            因子1=(X-1)/b,因子1+1,一元編碼
            因子2=(X-1) mod b,使用二元編碼,編碼寬度在log(b)
            Golomb: b=0.69*Avg(序列平均值)
            Rice:2的整數(shù)次冪,所有小于Avg中最接近Avg的數(shù)值
            變長壓縮算法SimpleX
            Simple9: 32位比特位,4個比特為管理數(shù)據(jù)存儲區(qū),28個比特壓縮數(shù)據(jù)存儲區(qū)
            Simple9的28位有9種表示形式
            Simple16: 28位有16種表示形式,并且通過非當項完全固定長度,解決數(shù)據(jù)區(qū)有浪費位的情況
            PForDelta:目前解壓速度最快的一種倒排文件壓縮算法
            1,對待編碼的連續(xù)K個數(shù)值(一般為128),確定10%的大數(shù)數(shù)值,根據(jù)70%小數(shù)確定奪取的比特寬度,確定整個序列
            2,對原始數(shù)據(jù)遍歷,將大數(shù)放置到尾端,并轉(zhuǎn)換成鏈表結(jié)構(gòu)的序列
            3、將所有數(shù)字壓縮到隊列中
            文檔編號重排序
            網(wǎng)頁的文檔ID+單詞詞頻信息,文檔ID使用D-Gap進行編碼
            將內(nèi)容越相似的網(wǎng)頁,在編排文檔號時越相鄰
            海量數(shù)據(jù)文本聚類速度較慢,將URL相似的網(wǎng)頁聚合在一起,假設同一個網(wǎng)站的很多頁面表達的主題內(nèi)容是近似的
            靜態(tài)索引裁剪:主動拋棄一部分不重要的信息(索引項)來達到數(shù)據(jù)壓縮的效果
            以單詞為中心的索引裁剪
            判斷單詞與文檔的相似性,每個詞典中的單詞,其對應的倒排排列中至少保留K個索引項,還要保留若干富余項目
            實驗證明,如果首先對所有索引項的原始得分減去得分最低索引項的得分,再采取(對K個項進行折扣,乘一個折扣因子,得出閾值a,剩下的大于a保留)方法進行裁剪,效果會大大提升
            因為
            索引項得分分差相關不大,比較集中在某個區(qū)間,所以減掉得分最低項
            以文檔為中心的索引裁剪:更為常用
            在建立索引之前進行數(shù)據(jù)預處理,把與文檔主題表達不相關的單詞拋棄,如停用詞
            posted on 2013-11-04 12:56 胡滿超 閱讀(880) 評論(0)  編輯 收藏 引用 所屬分類: 搜索引擎
            久久这里只有精品18| 国产精品一久久香蕉产线看| 久久久久久国产a免费观看黄色大片 | 亚洲中文字幕久久精品无码喷水| 久久狠狠高潮亚洲精品| 国产精品热久久无码av| 亚洲精品午夜国产VA久久成人| 草草久久久无码国产专区| 久久久国产亚洲精品| 久久亚洲高清观看| 亚洲va久久久噜噜噜久久男同| 国产精品女同一区二区久久| 日韩精品久久无码人妻中文字幕 | 粉嫩小泬无遮挡久久久久久| 久久99久久成人免费播放| 人妻少妇久久中文字幕| 久久久久久久久久久久久久| 久久播电影网| 伊人久久大香线焦综合四虎| 久久天天躁狠狠躁夜夜网站| 久久人人添人人爽添人人片牛牛| 久久国产精品免费一区二区三区| 久久国产一区二区| 久久精品午夜一区二区福利| 日韩人妻无码一区二区三区久久99| 久久久精品久久久久久| 色综合久久综合网观看| 精品久久久久久亚洲精品| 欧美丰满熟妇BBB久久久| 久久精品日日躁夜夜躁欧美| 亚洲国产精品无码久久九九| 精品久久久久久无码中文字幕 | 亚洲婷婷国产精品电影人久久| 国产精品va久久久久久久| 99久久精品九九亚洲精品| 久久免费视频网站| 久久亚洲国产中v天仙www | 蜜臀久久99精品久久久久久小说 | 色偷偷偷久久伊人大杳蕉| 久久无码专区国产精品发布| 国产精品中文久久久久久久|