https://blog.csdn.net/chuanhehuan1/article/details/40651891
轉(zhuǎn)自:http://blog.sina.com.cn/s/blog_622a99700100pjv3.html 感謝這位大神,我剛好遇到這個問題
嘗試解答以下問題:
1.為什么cp的方式更新運行中進程的so,程序會coredump
2.采用什么方式更新已經(jīng)加載了的so,就可以避免coredump
我們的公共組件絕大部分都支持so形式的自定義插件,比如s++,qzhttp,ttc。在不停進程更新so的時候往往會產(chǎn)生coredump,并且肯定core得莫名其妙,core得讓人心碎。
先看一下用cp的方式更新so的時候發(fā)生了什么事情
strace cp new.so old.so #strace是人間利器

發(fā)現(xiàn)老的so被trunc了,這個過程發(fā)生的具體的事情是:
1.應用程序通過dlopen打開so的時候,kernel通過mmap把so加載到進程地址空間,對應于vma里的幾個page.
2.在這個過程中l(wèi)oader會把so里面引用的外部符號例如malloc printf等解析成真正的虛存地址。
3.當so被cp覆蓋時,確切地說是被trunc時,kernel會把so文件在虛擬內(nèi)的頁purge 掉。
4.當運行到so里面的代碼時,因為物理內(nèi)存中不再有實際的數(shù)據(jù)(僅存在于虛存空間內(nèi)),會產(chǎn)生一次缺頁中斷。
5.Kernel從so文件中copy一份到內(nèi)存中去,a)但是這時的全局符號表并沒有經(jīng)過解析,當調(diào)用到時就產(chǎn)生segment fault , b)如果需要的文件偏移大于新的so的地址范圍,就會產(chǎn)生buserror.
所以,如果用相同的so去覆蓋
A) 如果so里面依賴了外部符號,coredump
B) 如果so里面沒有依賴外部符號,運氣不錯,不會coredump
所有問題的產(chǎn)生都是因為so被trunc了一把,所以如果不用turnc的方式就避免這個問題。Ok,該我們的install 上場了。
strace install new.so old.so

install 的方式跟cp不同,先unlink再creat,當unlink的時候,已經(jīng)map的虛擬空間vma中的inode結(jié)點沒有變,只有inode結(jié)點的引用計數(shù)為0是,kernel才把它干掉。
也就是新的so和舊的so用的不是同一個inode結(jié)點,所以不會相互影響。這時只有得啟程序才會使用到新的so。所以采用這種方式的話就可以避免先stop進程,更新so,再重啟進程這樣比較耗時的操作。