狠狠入ady亚洲精品,国产精品久在线观看,国产日韩av一区二区

一場虛驚——記大量心跳超時事件的排查

項目終于上線了，伴隨著人數的逐步上升，最近查看日志，發現了大量連接超時的日志。項目中使用的是TCP長連接，為了保證網絡資源及時有效的釋放，程序中是1分鐘一次心跳，3分鐘無心跳即認為超時。此為本文的背景
相對于TCP連接建立時的三次握手，我想很多人對斷開連接的四次招呼就不是那么熟了，這里先談一下TCP的斷開，下面給出TCP斷開連接的過程圖：

（peakflys注：TIME_WAIT狀態到CLOSED狀態的轉變視SO_LINGER選項的設置）
從上圖可以看到，在服務器不主動關閉客戶端TCP連接的情況下，需要客戶端發送一個FIN分節，然后服務器端OS TCP棧對這個數據包回復ACK后，服務器處理程序從TCP棧內取出此連接斷開的消息，一般服務器程序的處理是：做完收尾清理工作后馬上調用close或者shutdown操作來關閉相應的socket。這樣雙方都調用了關閉套接口的操作，經過后面的一次確認后才正常的關閉全雙工工作的TCP連接。但是如果客戶端出現了異常，導致FIN包發不到服務器端，那服務器端就只能一直保持這種“死連接”存在。目前解決這種問題的方法有兩個：一、開啟TIME_OUT選項，默認情況下TCP棧兩小時后保活一次（如果要改變這個值，需要修改TCP的全局配置選項，對所有在此機器上跑的TCP程序都生效！），保活失敗后則關閉連接、回收資源，但這種?；顧C制有很多明顯或隱藏的問題，不建議使用）；二、在應用層面上定義?；顧C制，即在應用層固定時間雙方保持數據的交換即可，超出這個固定時間就認為連接已不存在，執行回收關閉的操作。
之前我對TCP超時的理解就是Client端環境（或者中間路由）發生了異常導致TCP不優雅的斷開，這種異常存在于兩種情況：
①、客戶端OS崩潰(peakflys注：程序崩潰時，OS會代進程發送FIN，所以這種情況的出現時在OS負責TCP處理的內核機制失效時，這種失效可以是軟件層面的，如OS自身bug，或驅動層面的故障亦或是直接硬件損壞導致的)
②、雙方網絡中斷(peakflys注：這種中斷可能是中間網絡服務商的路由出現故障，或者客戶端機器的網線拔掉了，斷開了同最后一跳的路由器直接的連接，這種情況下就回觸發TCP的重傳機制，linux下是基于Berkaly的實現方法，默認重傳15分次，持續時間半個小時左右)
上述情況最終表現出來的結果為“主機不可達”或“重傳超時”的錯誤(peakflys注：如果第一種情況被最后一跳的路由器探測到，更新完路由表后就會反饋"主機不可達"的錯誤，探測不到或者第二種情況的重傳機制規定次數還是失敗的話就會反饋“重傳超時”的錯誤)，在這兩種錯誤后，TCP棧就無能為力了。這時服務器端就出現了不優雅的“死鏈接”。
其實這兩種錯誤很容易理解，這就像兩個打電話的人約定如果要掛電話必須要讓對方知道，第二種情況對應的場景是：一方突然被綁架，嘴上被綁上膠帶，然后使勁在心里喊我要掛電話了，我要掛電話了，但是對方聽不到，只能一直傻傻的等著。第一種情況對應的場景是：一方直接被爆頭了，連遺言都沒來得及說就掛了，對方沒聽到他說掛電話，所以也只能傻傻的等到花兒也落了……
言歸正傳，重新回到本次事件的描述上?？吹酱罅康倪B接超時的日志（一天有四百多條記錄，當時用戶量才3000人左右），首先基本排除網絡問題，因為通過對超時的連接IP分析，發現并沒有明顯的區域性，美國很多州的IP都有。那么最有可能的就是客戶端問題了，因為客戶端如果出現死循環或者進程死鎖之類的問題時，因為進程未崩潰，OS的TCP棧不會管你的，這時候客戶端也無力處理服務器發送過來的?；钚畔ⅲ瑢е路掌鞫顺绦蛘J為此鏈接已不存在。但是客戶端的同事說應該不會出現這么多客戶端異常的情況吧，因為測試了很久，最近也沒放出特別的代碼，內部QA人員也從沒有反饋有這種情況。
沒辦法，繼續搜集日志，找找規律。當時的思維就停留在這里了，非優雅連接產生除了客戶端問題，還可能有什么情況？不同地方這么多用戶的OS一天內都崩潰？概率應該很小啊，而且前后連續的幾天都是這樣的情況，從概率上講應該是0了吧？難道是不同地方的這么多用戶網絡一天內都出現問題？倒是可能出現，但是美國那邊的產品經理和運維人員都說沒有聽過這種情況……
直到第二天和QA的經理在聊起時他說了一句話：如果對方電腦休眠會出現這種情況嗎？我才柯南一般的靈光一閃，電腦休眠或者待機時應該會出現這種情況吧。馬上去微軟官網幫助信息里查找關于待機、休眠的描述：

“休眠”將保存一份桌面及所有打開文件和文檔的映像，然后關閉計算機電源。打開電源時，文件和文檔就會按原來離開時的樣子在桌面上打開。“待機”功能則切斷所用硬件組件的電源，從而減少計算機的電源消耗。“待機”可切斷外圍設備、顯示器甚至硬盤驅動器的電源，但會保留計算機內存的電源，以不至于丟失工作數據。

從上面可以看到休眠直接關閉了計算機的電源，就算是待機也是關閉了外圍設備，因為網絡功能的處理肯定都是最終通過網卡來實現的，如果它關閉了，自然一切的網絡功能都失效了，而且OS還無恥的自己直接“睡”了，導致在服務器程序不知情的情況下，客戶端程序直接被“雪藏”了……
在自己電腦上模擬了一下，日志表現出來的狀況也證實了應該是個答案。至于為什么這種情況每天有上百個，因為外網環境復雜，使用者的習慣更難以捉摸，但持續觀察了很多天，都沒有人反饋客戶端有什么異常，所以基本可以肯定是因windows電源管理策略的待機和休眠導致的。
其實這種情況可以歸為第一種情況：客戶端OS“崩潰”，認真想一下應該可以想到休眠這種情況的，但是當時思維愣是沒往那方面想，一直認為可能是客戶端程序出了問題，導致浪費了將近一天的時間，虛驚一場。很多事情都是這樣，結果出來后再去倒推感覺每個過程都是順理成章的，但是正推時如果有一層窗戶紙沒捅開，就很可能跑到迷宮的另一個方向了……
--peakflys 16:42:04 Monday, May 27, 2013

posted on 2013-05-27 16:56 peakflys 閱讀(5871) 評論(2) 編輯收藏引用所屬分類: 服務器、操作系統、雜談

@zuhd
如果使用成熟的網絡庫大可不必特別關注連接超時的問題，但是如果是自己按實際需要重新寫的網絡層，那么網絡層的容錯性和健壯性就需要通過很多指標來考核，前期連接超時如果很多的話，就需要排查一下雙方網絡層代碼是否有異常。回復更多評論

刷新評論列表

只有注冊用戶登錄后才能發表評論。
【推薦】100%開源！大型工業跨平臺軟件C++源碼提供，建模，組態！

相關文章: 說說服務器宕機恢復和負載均衡那些事(上) 一場虛驚——記大量心跳超時事件的排查 TCP滑動窗口易錯處，后來者戒之！由段錯誤引申出的緩沖區溢出攻擊分析段錯誤造成的常見詭異宕機情況總結(下) 段錯誤造成的常見詭異宕機情況總結(中) 段錯誤造成的常見詭異宕機情況總結(上) 論epoll的使用論大小端

網站導航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

# re: 一場虛驚——記大量心跳超時事件的排查 2013-05-28 09:48 zuhd

# re: 一場虛驚——記大量心跳超時事件的排查 2013-05-28 10:27 peakflys

一場虛驚——記大量心跳超時事件的排查

評論

導航

統計

公告

常用鏈接

留言簿(4)

隨筆分類

隨筆檔案

文章檔案

搜索

最新評論

閱讀排行榜

評論排行榜