• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            隨筆 - 42  文章 - 3  trackbacks - 0
            <2011年3月>
            272812345
            6789101112
            13141516171819
            20212223242526
            272829303112
            3456789

            常用鏈接

            留言簿(2)

            隨筆檔案

            文章檔案

            網(wǎng)頁收藏

            搜索

            •  

            最新評論

            閱讀排行榜

            評論排行榜

            問題實(shí)例:給你A,B兩個(gè)文件,各存放50億條URL,每條URL占用64字節(jié),內(nèi)存限制是4G,讓你找出A,B文件共同的URL。如果是三個(gè)乃至n個(gè)文件呢?

            根據(jù)這個(gè)問題我們來計(jì)算下內(nèi)存的占用,4G=2^32大概是40億*8大概是340億,n=50億,如果按出錯(cuò)率0.01算需要的大概是650億個(gè)bit。現(xiàn)在可用的是340億,相差并不多,這樣可能會使出錯(cuò)率上升些。另外如果這些urlip是一一對應(yīng)的,就可以轉(zhuǎn)換成ip,則大大簡單了。

            問題實(shí)例:
            1).海量日志數(shù)據(jù),提取出某日訪問百度次數(shù)最多的那個(gè)IP。

            IP的數(shù)目還是有限的,最多2^32個(gè),所以可以考慮使用hash將ip直接存入內(nèi)存,然后進(jìn)行統(tǒng)計(jì)。

            問題實(shí)例:

            1)已知某個(gè)文件內(nèi)包含一些電話號碼,每個(gè)號碼為8位數(shù)字,統(tǒng)計(jì)不同號碼的個(gè)數(shù)。

            8位最多99 999 999,大概需要99m個(gè)bit,大概10幾m字節(jié)的內(nèi)存即可。

            2)2.5億個(gè)整數(shù)中找出不重復(fù)的整數(shù)的個(gè)數(shù),內(nèi)存空間不足以容納這2.5億個(gè)整數(shù)。

            將bit-map擴(kuò)展一下,用2bit表示一個(gè)數(shù)即可,0表示未出現(xiàn),1表示出現(xiàn)一次,2表示出現(xiàn)2次及以上。或者我們不用2bit來進(jìn)行表示,我們用兩個(gè)bit-map即可模擬實(shí)現(xiàn)這個(gè)2bit-map。

            問題實(shí)例:
            1)100w個(gè)數(shù)中找最大的前100個(gè)數(shù)。

            用一個(gè)100個(gè)元素大小的最小堆即可。

            問題實(shí)例:
            1).2.5億個(gè)整數(shù)中找出不重復(fù)的整數(shù)的個(gè)數(shù),內(nèi)存空間不足以容納這2.5億個(gè)整數(shù)。

            有點(diǎn)像鴿巢原理,整數(shù)個(gè)數(shù)為2^32,也就是,我們可以將這2^32個(gè)數(shù),劃分為2^8個(gè)區(qū)域(比如用單個(gè)文件代表一個(gè)區(qū)域),然后將數(shù)據(jù)分離到不同的區(qū)域,然后不同的區(qū)域在利用bitmap就可以直接解決了。也就是說只要有足夠的磁盤空間,就可以很方便的解決。

            2).5億個(gè)int找它們的中位數(shù)。

            這個(gè)例子比上面那個(gè)更明顯。首先我們將int劃分為2^16個(gè)區(qū)域,然后讀取數(shù)據(jù)統(tǒng)計(jì)落到各個(gè)區(qū)域里的數(shù)的個(gè)數(shù),之后我們根據(jù)統(tǒng)計(jì)結(jié)果就可以判斷中位數(shù)落到那個(gè)區(qū)域,同時(shí)知道這個(gè)區(qū)域中的第幾大數(shù)剛好是中位數(shù)。然后第二次掃描我們只統(tǒng)計(jì)落在這個(gè)區(qū)域中的那些數(shù)就可以了。

            實(shí)際上,如果不是int是int64,我們可以經(jīng)過3次這樣的劃分即可降低到可以接受的程度。即可以先將int64分成2^24個(gè)區(qū)域,然后確定區(qū)域的第幾大數(shù),在將該區(qū)域分成2^20個(gè)子區(qū)域,然后確定是子區(qū)域的第幾大數(shù),然后子區(qū)域里的數(shù)的個(gè)數(shù)只有2^20,就可以直接利用direct addr table進(jìn)行統(tǒng)計(jì)了。

            問題實(shí)例:
            1).有一個(gè)1G大小的一個(gè)文件,里面每一行是一個(gè)詞,詞的大小不超過16個(gè)字節(jié),內(nèi)存限制大小是1M。返回頻數(shù)最高的100個(gè)詞。

            這個(gè)數(shù)據(jù)具有很明顯的特點(diǎn),詞的大小為16個(gè)字節(jié),但是內(nèi)存只有1m做hash有些不夠,所以可以用來排序。內(nèi)存可以當(dāng)輸入緩沖區(qū)使用。

            問題實(shí)例:
            1).有10個(gè)文件,每個(gè)文件1G, 每個(gè)文件的每一行都存放的是用戶的query,每個(gè)文件的query都可能重復(fù)。要你按照query的頻度排序 。

            2).1000萬字符串,其中有些是相同的(重復(fù)),需要把重復(fù)的全部去掉,保留沒有重復(fù)的字符串。請問怎么設(shè)計(jì)和實(shí)現(xiàn)?

            3).尋找熱門查詢:查詢串的重復(fù)度比較高,雖然總數(shù)是1千萬,但如果除去重復(fù)后,不超過3百萬個(gè),每個(gè)不超過255字節(jié)。

            1. 給你A,B兩個(gè)文件,各存放50億條URL,每條URL占用64字節(jié),內(nèi)存限制是4G,讓你找出:A,B文件共同的URL。 
            解法一:Hash成內(nèi)存大小的小塊文件,然后分塊內(nèi)存內(nèi)查交集。
            解法二:Bloom Filter(廣泛應(yīng)用于URL過濾、查重。參考http://en.wikipedia.org/wiki/Bloom_filterhttp://blog.csdn.net/jiaomeng/archive/2007/01/28/1496329.aspx

            2. 有10個(gè)文件,每個(gè)文件1G, 每個(gè)文件的每一行都存放的是用戶的query,每個(gè)文件的query都可能重復(fù)。要你按照query的頻度排序。
            解法一:根據(jù)數(shù)據(jù)稀疏程度算法會有不同,通用方法是用Hash把文件重排,讓相同query一定會在同一個(gè)文件,同時(shí)進(jìn)行計(jì)數(shù),然后歸并,用最小堆來統(tǒng)計(jì)頻度最大的。
            解法二:類似1,但是用的是與簡單Bloom Filter稍有不同的CBF(Counting Bloom Filter)或者更進(jìn)一步的SBF(Spectral Bloom Filter,參考http://blog.csdn.net/jiaomeng/archive/2007/03/19/1534238.aspx
            解法三:MapReduce,幾分鐘可以在hadoop集群上搞定。參考http://en.wikipedia.org/wiki/MapReduce

            3. 有一個(gè)1G大小的一個(gè)文件,里面每一行是一個(gè)詞,詞的大小不超過16個(gè)字節(jié),內(nèi)存限制大小是1M。返回頻數(shù)最高的100個(gè)詞。
            解法一:跟2類似,只是不需要排序,各個(gè)文件分別統(tǒng)計(jì)前100,然后一起找前100。

            posted on 2011-03-14 14:25 鷹擊長空 閱讀(1225) 評論(0)  編輯 收藏 引用

            只有注冊用戶登錄后才能發(fā)表評論。
            網(wǎng)站導(dǎo)航: 博客園   IT新聞   BlogJava   博問   Chat2DB   管理


            久久久久久亚洲精品影院| 久久福利青草精品资源站| 久久久久亚洲av毛片大| 精品久久久久久国产| 国产精品美女久久久久| 久久噜噜久久久精品66| 久久亚洲私人国产精品vA| 亚洲伊人久久大香线蕉苏妲己| 亚洲人成无码久久电影网站| 亚洲国产精品无码久久98| 国产精品一区二区久久精品无码| 久久99久国产麻精品66| 久久久久国产一级毛片高清板| 久久久黄色大片| 久久亚洲精品视频| 无码精品久久久久久人妻中字| 久久99精品九九九久久婷婷| 久久精品99久久香蕉国产色戒| 久久激情亚洲精品无码?V| 久久99精品久久久久久久不卡| 伊人久久亚洲综合影院| 久久黄色视频| 国产福利电影一区二区三区久久久久成人精品综合 | 国产成人久久精品区一区二区| 久久精品国产亚洲7777| 国产精品久久国产精品99盘| 一本久久a久久精品亚洲| 中文字幕无码久久久| 麻豆久久久9性大片| 青青久久精品国产免费看| 99久久国产综合精品网成人影院| 国产精品99久久免费观看| 国产人久久人人人人爽| 久久精品中文字幕无码绿巨人| 久久天天躁狠狠躁夜夜躁2O2O| 无码人妻精品一区二区三区久久久| 久久精品国产乱子伦| 无码人妻精品一区二区三区久久久| 亚洲AV乱码久久精品蜜桃| 久久免费的精品国产V∧| 国产午夜福利精品久久2021|