posts - 14, comments - 57, trackbacks - 0

昨天一個同事一大早在群里推薦了一個google project上的開源內存分配器（http://code.google.com/p/google-perftools/），據說google的很多產品都用到了這個內存分配庫，而且經他測試，我們的游戲客戶端集成了這個最新內存分配器后，FPS足足提高了將近10幀左右，這可是個了不起的提升，要知道3D組的兄弟忙了幾周也沒見這么大的性能提升。

如果我們自己本身用的crt提供的內存分配器，這個提升也算不得什么。問題是我們內部系統是有一個小內存管理器的，一般來說小內存分配的算法都大同小異，現成的實現也很多，比如linux內核的slab、SGI STL的分配器、ogre自帶的內存分配器，我們自己的內存分配器也和前面列舉的實現差不多。讓我們來看看這個項目有什么特別的吧。

一、使用方法

打開主頁，由于公司網絡禁止SVN從外部更新，所以只能下載了打包的源代碼。解壓后，看到有個doc目錄，進去，打開使用文檔，發現使用方法極為簡單：
To use TCMalloc, just link TCMalloc into your application via the "-ltcmalloc" linker flag.再看算法，也沒什么特別的，還是和slab以及SGI STL分配器類似的算法。
unix環境居然只要鏈接這個tcmalloc庫就可以了！，太方便了，不過我手頭沒有linux環境，文檔上也沒提到windows環境怎么使用，
打開源代碼包，有個vs2003解決方案，打開，隨便挑選一個測試項目，查看項目屬性，發現僅僅有2點不同：
1、鏈接器命令行里多了
"..\..\release\libtcmalloc_minimal.lib"，就是鏈接的時候依賴了這個內存優化庫。
2、鏈接器->輸入->強制符號引用多了 __tcmalloc。
這樣就可以正確的使用tcmalloc庫了，測試了下，測試項目運行OK!

二、如何替換CRT的malloc

從前面的描述可知，項目強制引用了__tcmalloc，搜索了測試代碼，沒發現用到_tcmalloc相關的函數和變量,這個選項應該是為了防止dll被優化掉(因為代碼里沒有什么地方用到這個dll的符號)。
初看起來，鏈接這個庫后，不會影響任何現有代碼:我們沒有引用這個Lib庫的頭文件，也沒有使用過這個dll的導出函數。那么這個dll是怎么優化應用程序性能的呢？
實際調試，果然發現問題了，看看如下代碼
    void* pData = malloc(100);
00401085 6A 64            push        64h
00401087 FF 15 A4 20 40 00 call        dword ptr [__imp__malloc (4020A4h)]
跟蹤 call malloc這句，step進去，發現是
78134D09 E9 D2 37 ED 97   jmp         `anonymous namespace'::LibcInfoWithPatchFunctions<8>::Perftools_malloc (100084E0h)
果然，從這里開始，就跳轉到libtcmalloc提供的Perftools_malloc了。
原來是通過API掛鉤來實現無縫替換系統自帶的malloc等crt函數的，而且還是通過大家公認的不推薦的改寫函數入口指令來實現的，一般只有在游戲外掛和金山詞霸之類的軟件才會用到這樣的掛鉤技術，
而且金山詞霸經常需要更新補丁解決不同系統兼容問題。

三、性能差別原因

如前面所述，tcmalloc確實用了很hacker的辦法來實現無縫的替換系統自帶的內存分配函數（本人在使用這類技術通常是用來干壞事的。。。），但是這也不足以解釋為什么它的效率比我們自己的好那么多。
回到tcmalloc 的手冊，tcmalloc除了使用常規的小內存管理外，對多線程環境做了特殊處理，這和我原來見到的內存分配器大有不同，一般的內存分配器作者都會偷懶，把多線程問題扔給使用者，大多是加
個bool型的模板參數來表示是否是多線程環境，還美其名曰:可定制，末了還得吹噓下模板的優越性。
tcmalloc是怎么做的呢？答案是每線程一個ThreadCache，大部分操作系統都會支持thread local storage 就是傳說中的TLS,這樣就可以實現每線程一個分配器了，
這樣，不同線程分配都是在各自的threadCache里分配的。我們的項目的分配器由于是多線程環境的，所以不管三七二十一，全都加鎖了，性能自然就低了。

僅僅是如此，還是不足以將tcmalloc和ptmalloc2分個高下，后者也是每個線程都有threadCache的。
關于這個問題，doc里有一段說明，原文貼出來：
ptmalloc2 also reduces lock contention by using per-thread arenas but there is a big problem with ptmalloc2's use of per-thread arenas. In ptmalloc2 memory can never move from one arena to another. This can lead to huge amounts of wasted space.
大意是這樣的：ptmalloc2 也是通過tls來降低線程鎖，但是ptmalloc2各個線程的內存是獨立的，也就是說，第一個線程申請的內存，釋放的時候還是必須放到第一個線程池中（不可移動），這樣可能導致大量內存浪費。

四、代碼細節

1、無縫替換malloc等crt和系統分配函數。

前面提到tcmalloc會無縫的替換掉原有dll中的malloc，這就意味著使用tcmalloc的項目必須是 MD（多線程dll）或者MDd（多線程dll調試）。tcmalloc的dll定義了一個
static TCMallocGuard module_enter_exit_hook;
的靜態變量，這個變量會在dll加載的時候先于DllMain運行，在這個類的構造函數，會運行PatchWindowsFunctions來掛鉤所有dll的 malloc、free、new等分配函數，這樣就達到了替換功能，除此之外，
為了保證系統兼容性，掛鉤API的時候還實現了智能分析指令，否則寫入第一條Jmp指令的時候可能會破環后續指令的完整性。

2、LibcInfoWithPatchFunctions 和ThreadCache。

LibcInfoWithPatchFunctions模板類包含tcmalloc實現的優化后的malloc等一系列函數。LibcInfoWithPatchFunctions的模板參數在我看來沒什么用處，tcmalloc默認可以掛鉤
最多10個帶有malloc導出函數的庫(我想肯定是夠用了)。ThreadCache在每個線程都會有一個TLS對象：
__thread ThreadCache* ThreadCache::threadlocal_heap_。

3、可能的問題

設想下這樣一個情景：假如有一個dll 在tcmalloc之前加載，并且在分配了內存（使用crt提供的malloc），那么在加載tcmalloc后，tcmalloc會替換所有的free函數，然后，在某個時刻，
在前面的那個dll代碼中釋放該內存，這豈不是很危險。實際測試發現沒有任何問題，關鍵在這里：
span = Static::pageheap()->GetDescriptor(p);
    if (!span) {
      // span can be NULL because the pointer passed in is invalid
      // (not something returned by malloc or friends), or because the
      // pointer was allocated with some other allocator besides
      // tcmalloc. The latter can happen if tcmalloc is linked in via
      // a dynamic library, but is not listed last on the link line.
      // In that case, libraries after it on the link line will
      // allocate with libc malloc, but free with tcmalloc's free.
      (*invalid_free_fn)(ptr); // Decide how to handle the bad free request
      return;
    }
tcmalloc會通過span識別這個內存是否自己分配的，如果不是，tcmalloc會調用該dll原始對應函數(這個很重要)釋放。這樣就解決了這個棘手的問題。

五、其他

其實tcmalloc使用的每個技術點我從前都用過，但是我從來沒想過用API掛鉤來實現這樣一個有趣的內存優化庫（即使想過，也是一閃而過就否定了）。
從tcmalloc得到靈感，結合常用的外掛技術，可以很輕松的開發一個獨立工具：這個工具可以掛載到指定進程進行內存優化，在我看來，這可能可以作為一個外掛輔助工具來優化那些
內存優化做的很差導致幀速很低的國產游戲。

posted on 2010-07-10 17:32 feixuwu 閱讀(10108) 評論(14) 編輯收藏引用所屬分類: 游戲開發

FeedBack:

# re: 推薦一個跨平臺內存分配器

2010-07-10 19:52 | chaogu

好像內存分配策略沒有講明白.....
回復更多評論

# re: 推薦一個跨平臺內存分配器

2010-07-10 20:39 | feixuwu

@chaogu
恩，這篇主要不是講常規小內存分配的，那個到處都在講，沒啥新意了，文章資料里提到的很多都是常規小內存實現，也可以直接看代碼或者侯捷的STL源碼剖析，有詳細內容的。回復更多評論

# re: 推薦一個跨平臺內存分配器

2010-08-07 08:27 | maxime

小內存分配器主要作用是“減小內存碎片化趨勢，減小薄記內存比例，提高小內存利用率”，從性能上說，系統內存分配器已針對小內存分配進行優化，單純使用自定義的小內存分配器，對性能幫助不會很大。內置分配器意義還是體現在，實現無鎖分配，避免API調用切換開銷。
CRT自身new-delete會用到500個時鐘周期，而一個CS會消耗50個時鐘周期，一個mutex會用到2000個時鐘周期，以上是無競爭的情況。所以，如果用mutex做互斥，那還不如用系統的分配器；如果用CS，也不見會好多少，因為CS會隨鎖競爭加劇大幅增加時間，甚至會超過mutex。
所以結論是，對于單線程，內置分配器有一定的價值；對于多線程，帶鎖內置分配器基本上可以無視了（至少對于winxp以后是這樣，win2k好像要打補丁）呵呵，從你說的情況來看，很有可能你們原來的分配器用mutex幫倒忙了。

tcmalloc中的唯一亮點應該是，如何做到跨線程歸還內存，又能保持高性能，猜想可能使用了某種二級分配策略，內存塊可以屬于任何線程的內存池，歸還到那個線程內存池，就由這個內存池管理。由于各個線程的分配和釋放多半不平衡，有線程池會撐滿，有的會不足。估計撐滿的就會歸還到公共內存池。第一級分配無鎖，如果內存池不足了，就進入第二級帶鎖批量分配，而且第二級分配會先從公共內存池獲取，如果還不夠，這才使用系統內存分配，這該算是第三級分配了。

最后，tcmalloc也是可以用于MT版本的哦，詳見（要翻墻才能看見）http://groups.google.com/group/google-perftools/browse_thread/thread/41cd3710af85e57b 回復更多評論

# re: 推薦一個跨平臺內存分配器

2010-08-07 08:31 | maxime

為避免大家翻墻，將原文貼在下面了。另外，如果下載chrome的源代碼，其中就包含了tcmalloc的，它里面已經幫你把這篇文章要做的都做了，用腳本的形式。

Hi,

I wanted to post a little information about some changes that I'm
working on finishing up for the windows version of tcmalloc. If
you've ever had trouble overriding malloc/free on windows, you might
find this useful.

With Chrome, we wanted to override the default C runtime allocators
with TCMalloc. Chrome links the C runtime statically (/MT) in
VS2005. Unfortunately, VS2005 does not have a static mechanism to
override all allocators. This sounds easy, but it is not - VS2005 and
VS2008 both use C runtimes with internal functions that cannot be
overridden. We also didn't like the runtime patching approach which
tcmalloc currently uses. So, to get static linkage to work, we take
the C runtime library from Microsoft and remove all heap allocators
from it using the LIB.EXE tool. We then implement stub functions for
the non-overridable functions in the C runtime and manually link
Chrome to use the new library.

If you want to do this too, here are the steps:

Steps
1) Create a slimmed down version of the C Runtime Library. The C
Runtime Library ships with VS2005 in $VCInstallDir\lib\libcmt.lib. We
use the script below to do this.
2) In TCMalloc's config.h, define WIN32_OVERRIDE_ALLOCATORS
3) Modify your DLL or EXE build with the following:
a) link in tcmalloc.lib by adding a Project Dependency to it.
b) in Properties -> Linker -> Input, set "Ignore Specific Library"
to "libcmt.lib"
c) in Properties -> Linker -> Input, add "mylibcmt.lib" to the
"Additional Dependencies" line.

SLIM_CRT.BAT
REM
REM This script takes libcmt.lib for VS2005 and removes the allocation
related
REM functions from it.
REM
REM Usage: prep_libcmt.bat <VCInstallDir> <OutputFile>
REM
REM VCInstallDir is the path where VC is installed, typically:
REM C:\Program Files\Microsoft Visual Studio 8\VC\
REM
REM OutputFile is the directory where the modified libcmt file should
be stored.
REM

SET LIBCMT=%1lib\libcmt.lib
SET LIBCMTPDB=%1lib\libcmt.pdb
SET OUTDIR=%2
SET OUTCMT=%2\libcmt.lib

MKDIR %OUTDIR%
COPY %LIBCMT% %OUTDIR%
COPY %LIBCMTPDB% %OUTDIR%
LIB /IGNORE:4006,4221 /REMOVE:build\intel\mt_obj\malloc.obj %OUTCMT%
LIB /IGNORE:4006,4221 /REMOVE:build\intel\mt_obj\free.obj %OUTCMT%
LIB /IGNORE:4006,4221 /REMOVE:build\intel\mt_obj\realloc.obj %OUTCMT%
LIB /IGNORE:4006,4221 /REMOVE:build\intel\mt_obj\calloc.obj %OUTCMT%
LIB /IGNORE:4006,4221 /REMOVE:build\intel\mt_obj\new.obj %OUTCMT%
LIB /IGNORE:4006,4221 /REMOVE:build\intel\mt_obj\delete.obj %OUTCMT%
LIB /IGNORE:4006,4221 /REMOVE:build\intel\mt_obj\new2.obj %OUTCMT%
LIB /IGNORE:4006,4221 /REMOVE:build\intel\mt_obj\delete2.obj %OUTCMT%
LIB /IGNORE:4006,4221 /REMOVE:build\intel\mt_obj\align.obj %OUTCMT%
LIB /IGNORE:4006,4221 /REMOVE:build\intel\mt_obj\msize.obj %OUTCMT%

LIB /IGNORE:4006,4221 /REMOVE:build\intel\mt_obj\heapinit.obj %OUTCMT%
LIB /IGNORE:4006,4221 /REMOVE:build\intel\mt_obj\expand.obj %OUTCMT%
LIB /IGNORE:4006,4221 /REMOVE:build\intel\mt_obj\heapchk.obj %OUTCMT%
LIB /IGNORE:4006,4221 /REMOVE:build\intel\mt_obj\heapwalk.obj %OUTCMT%
LIB /IGNORE:4006,4221 /REMOVE:build\intel\mt_obj\heapmin.obj %OUTCMT%
LIB /IGNORE:4006,4221 /REMOVE:build\intel\mt_obj\sbheap.obj %OUTCMT%
LIB /IGNORE:4006,4221 /REMOVE:build\intel\mt_obj\smalheap.obj %OUTCMT%
回復更多評論

# re: 推薦一個跨平臺內存分配器

2010-08-07 09:15 | feixuwu

@maxime
同意加鎖的自定義分配器還不如不用的說法(所以說設計討論在項目中是需要的，除了開發者，我們大家都不知道項目的多線程分配加鎖了：）)。

對“系統內存分配器已針對小內存分配進行優化”，這個我觀點覺得有可能（畢竟沒有驗證），不過我倒覺得crt分配小內存的至少還是會有個head的，這個浪費免不了了（當然tcmalloc現在也是有頭的，一般自己實現的內存分配器是不會有頭的），從比例上來說浪費的還是比較多的，這個可以做個實驗驗證，一次分配50M和多次分配10byte至50M，2者進程的內存差距還是比較明顯的。
好在現在PC和服務器內存越來越大，內存分配器的主要焦點都集中在速度上了。

tcmalloc跨線程歸還內存，確實是因為所有線程公用了底層的一個分配器，所以跨線程歸還是無需加鎖的（從手冊上看的，不知道博文提了沒有）。
關于tcmalloc亮點，我倒覺得算法上的小優化其實倒沒那么振奮，給我沖擊最大的是產品的可用性，以往一個產品要使用新的內存分配器，一般需要改很多代碼，最常見的是將已有類從一個SmallObject之類的類繼承，很麻煩，這方面tcmalloc干的不錯。

最后感謝maxime提供了MT使用tcmalloc的資料，以我從前的看法，靜態編譯的版本是無法使用tcmalloc的。回復更多評論

# re: 推薦一個跨平臺內存分配器

2010-08-08 11:19 | kingzt

不知道博主能否做出一個外掛式的內存優化工具分享一下，現在的國產游戲優化確實是讓人無語，如果有這個的話情況估計會好很多回復更多評論

# re: 推薦一個跨平臺內存分配器

2010-08-08 11:22 | kingzt

博主能否實現一個這樣的外掛式內存優化工具分享給國內的游戲玩家，現在有的游戲優化確實是讓人無語，如果有這個的話情況估計會好很多回復更多評論

# re: 推薦一個跨平臺內存分配器

2010-09-15 01:08 | 求助啊

請問如何在MFC程序中使用此tcmalloc？
能說下嗎？
多謝了。
回復更多評論

# re: 推薦一個跨平臺內存分配器

2010-09-17 21:03 | Roger

@求助啊
我在我的VS2003工程中用到TCMalloc,此功能有很多其他DLL模塊.
出現2個問題:
1。有些DLL模塊在TCMall模塊之前加載,并且分配了內存,此時不能被TCMalloc管理
2。在進程退出時異常崩潰
出現在:(*invalid_free_fn)(ptr)
好像是地址無效了.
我猜想是:hook其他dll模塊的函數,而此時的dll模塊已經卸載了,因此此指針函數無效.
// This lets you call back to a given function pointer if ptr is invalid.
// It is used primarily by windows code which wants a specialized callback.
inline void do_free_with_callback(void* ptr, void (*invalid_free_fn)(void*)) {
if (ptr == NULL) return;
ASSERT(Static::pageheap() != NULL); // Should not call free() before malloc()
const PageID p = reinterpret_cast<uintptr_t>(ptr) >> kPageShift;
Span* span = NULL;
size_t cl = Static::pageheap()->GetSizeClassIfCached(p);

if (cl == 0) {
span = Static::pageheap()->GetDescriptor(p);
if (!span) {
// span can be NULL because the pointer passed in is invalid
// (not something returned by malloc or friends), or because the
// pointer was allocated with some other allocator besides
// tcmalloc. The latter can happen if tcmalloc is linked in via
// a dynamic library, but is not listed last on the link line.
// In that case, libraries after it on the link line will
// allocate with libc malloc, but free with tcmalloc's free.
(*invalid_free_fn)(ptr); // Decide how to handle the bad free request
return;
} 回復更多評論

# re: 推薦一個跨平臺內存分配器

2010-09-17 21:03 | Roger

我的QQ:roger201008@qq.com 回復更多評論

# re: 推薦一個跨平臺內存分配器[未登錄]

2011-08-25 22:12 | Lee

很奇怪，我在MFC工程里面把tcmalloc編譯進去，vc居然報內存泄漏。
我的環境是vc2010.
不知道可否有人碰到這個情況啊？回復更多評論

# re: 推薦一個跨平臺內存分配器

2012-11-16 18:06 | gohay

大哥，tcmalloc 不是通過API掛鉤來實現無縫替換系統自帶的malloc等crt函數的。
tcmalloc是通過靜態全局變量的初始化早于main函數這個原理搞的，它定義了一個全局變量（tcmalloc.cc 文件中920行） static TCMallocGuard module_enter_exit_hook;
在TCMallocGuard這個類的構造函數中做了一大堆事情用來替換系統自帶的malloc等crt函數回復更多評論

# re: 推薦一個跨平臺內存分配器

2012-11-29 14:21 | feiwu

@gohay
抱歉我沒說清楚。
你說的那個是在tcmalooc在linux下的做法。在windows下就是改寫指令來處理的。
linux下不能掛鉤，但是可以先加載來覆蓋系統crtAPI，相比之下，linux下做這個更容易，linux甚至都不同編譯進去就可以直接用。回復更多評論

# re: 推薦一個跨平臺內存分配器

2013-05-17 22:02 | leehark

在windows下怎么做堆檢測呢？回復更多評論

刷新評論列表

只有注冊用戶登錄后才能發表評論。
【推薦】100%開源！大型工業跨平臺軟件C++源碼提供，建模，組態！

相關文章: 項目開發中的一些思考 linux下PageHeap core和CallStack GCC項目編譯速度優化定時器的實現 Ogre初體驗 select 和 epoll 推薦一個跨平臺內存分配器

網站導航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

2013年5月

日

一

二

三

四

五

六

文章轉載請注明出處

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

一、使用方法

二、如何替換CRT的malloc

三、性能差別原因

四、代碼細節

1、無縫替換malloc等crt和系統分配函數。

2、LibcInfoWithPatchFunctions 和ThreadCache。

3、可能的問題

五、其他

常用鏈接

留言簿(11)

隨筆分類

隨筆檔案

搜索

最新評論

閱讀排行榜

評論排行榜