posts - 7, comments - 64, trackbacks - 0

我想寫一個爬蟲程序。現在需要存放訪問過的URL。如果用數據庫存放則太慢，若放在默認的SET容器中，當到達一定數量時會使程序崩潰。

現在我想把文件直接映射成set<string>容器的空間。也就是set申請的內存全部在我所指定的文件中。

另外程序可用4G空間中有2G是系統保留的。如果進行文件映射后，是不是也只能訪問2G的空間？

最后，我想問問，如果我進行了文件映射，同時又從實際內存中申請了一快內存，如何保證映射的地址和從內存中申請的地址不重復呢？

請大家幫幫忙，最后有源碼或網站參考。

posted on 2010-12-10 16:18 HIT@ME 閱讀(2036) 評論(6) 編輯收藏引用

FeedBack:

# re: 求助。關于如何將文件映射成STL容器內存空間的方法。[未登錄]

2010-12-10 18:49 | 壞

自己研究下set的第三個模板參數
basic_string也同樣是第三個模板參數
回復更多評論

# re: 求助。關于如何將文件映射成STL容器內存空間的方法。[未登錄]

2010-12-10 20:58 | hdqqq

文件映射無助于增加進程可用地址空間。除非你修改set的實現，把對節點的訪問直接
對應到對文件的訪問，但是在大數據量的情況下，隨機訪問的效率很差。

關鍵還是在于減少內存的使用上

1. stl 中的set使用紅黑樹實現的,一個節點有左,右,父節點三個指針和一個紅黑標志位.32位系統下最少占用13個字節,
考慮內存對齊下,可能使用到16個字節,在大數據量的情況下,為了保持這個樹結構,額外使用的內存是很多的,可以考慮使用hash set.

2. url長度都比較長,可考慮計算md5 hash,減少存儲占用.

3. 不要妄想把所有數據都存在內存,總會有內存耗盡的時候,另外,如果程序異常或者崩潰,所有數據將丟失.

我以前實現的一種方式是,以數據庫為主要存儲,內存作為優先查詢cache.
1. 數據庫建散列表, 以十六進制 0-F 開始,根據md5第一位決定存儲表,用于存儲md5值,并對md5建索引加快查詢.
2. 在內存中用set或map保存md5值,查詢時先計算url md5值,再查詢內存,如果不存在,則從數據庫加載.如為新url,先存入內存.
3. 內存總量到一定閥值,進行數據保存,并清空內存cache.

不過這種實現存在cache命中問題,你可以一次加載整張表,也可以用 like 查詢條件,減少數據庫返回的記錄數.

已有的php實現,內存cache200萬條記錄,總內存使用在1200M左右,可長時間運行,沒有內存使用問題.
回復更多評論

# re: 求助。關于如何將文件映射成STL容器內存空間的方法。

2010-12-11 16:15 | 匿名人士

按你描述，問題可以拆成兩個，1是文件到內存數據的轉換，2是數據的組織

一個一個來解決。問題1 用序列化就得了，boost還是什么的隨意
問題2 你可以不用把數據類（假設是用序列化）的本體放set/map里啊，自己用new來控制數據，map里只索引數據的引用或指針，那不就得了回復更多評論

# re: 求助。關于如何將文件映射成STL容器內存空間的方法。

2010-12-12 20:26 | 陳梓瀚(vczh)

CreateFileMappingObject?這個api是不是這么叫我忘記了
第二個是set最后一個模板參數，是一個allocator，用來控制set內部的內存。回復更多評論

# re: 求助。關于如何將文件映射成STL容器內存空間的方法。

2010-12-12 21:31 | 空明流轉

現在首頁求助都成風了。。。回復更多評論

# re: 求助。關于如何將文件映射成STL容器內存空間的方法。

2010-12-12 21:34 | 空明流轉

回答你部分問題的說，
第一個，內存映射會吃你的地址空間，所以也就是只有2G可用，在32bit下。
如果你需要巨大的空間，建議使用64bit，或者使用其他的存儲方案，比方說B-Tree；
第二個問題，關于Address Overlapping的問題，因為第一條，所以不會的。回復更多評論

刷新評論列表

只有注冊用戶登錄后才能發表評論。
【推薦】100%開源！大型工業跨平臺軟件C++源碼提供，建模，組態！



網站導航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

2011年3月

日

一

二

三

四

五

六

常用鏈接

留言簿(5)

隨筆檔案

test

搜索

最新評論

閱讀排行榜

評論排行榜