從上周開始,當大規模測試商城購買道具時,偶爾會出現客戶端收不到消息的情況。一開始懷疑是邏輯層出了問題,排查3天后,把問題定位在了底層的
發送網絡消息這塊有問題。大家都知道分析網絡包是一件非常痛苦的事情,主要是費眼。
我抓取了一下包,進行大致了分析:
// 發送方
data=0 18 6 5E 0 FFFFFFD5 5B 2E 53 5D FFFFFFCA 52 12 FFFFFFB7 FFFFFF8E 7D 1D 40 FFFFFFBC 4E 6B 46 59 FFFFFFFA C FFFFFFDF FFFFFF92 37 FFFFFFE0 3F
//接收方
data=46 59 FFFFFFFA C FFFFFFDF FFFFFF92 37 FFFFFFE0 3F 5D FFFFFFCA 52 12 FFFFFFB7 FFFFFF8E 7D 1D 40 FFFFFFBC 4E 6B 46 59 FFFFFFFA C FFFFFFDF FFFFFF92 37 FFFFFFE0 3F
data=C FFFFFFDF FFFFFF92 37 FFFFFFE0 3F C FFFFFFDF FFFFFF92 37 FFFFFFE0 3F C FFFFFFDF FFFFFF92 37 FFFFFFE0 3F C FFFFFFDF FFFFFF92 37 FFFFFFE0 3F C FFFFFFDF FFFFFF92 37 FFFFFFE0 3F
發送方的數據和我程序解析后的數據是一致的,但是接收方的數據出錯了,經過多次的對比發現,發送方和接收方的數據有交集,而且有一定規律的偏移。
最終的定論接收方在拆包和粘包時處理數據出錯了。
其中有一段代碼如下:
memcpy(m_pSrc, &m_pSrc[nLen], nOffset);
引用上述的網絡包為用例如下:
拷貝前的數據為:
data=46 59 FFFFFFFA C FFFFFFDF FFFFFF92 37 FFFFFFE0 3F 5D FFFFFFCA 52 12 FFFFFFB7 FFFFFF8E 7D 1D 40 FFFFFFBC 4E 6B 46 59 FFFFFFFA C FFFFFFDF FFFFFF92 37 FFFFFFE0 3Fm_pSrc定義為 char m_pSrc[1024*10];
當nLen=6, nOffset=24,調用
memcpy(m_pSrc, &m_pSrc[nLen], nOffset);
拷貝后的數據為:
data=C FFFFFFDF FFFFFF92 37 FFFFFFE0 3F C FFFFFFDF FFFFFF92 37 FFFFFFE0 3F C FFFFFFDF FFFFFF92 37 FFFFFFE0 3F C FFFFFFDF FFFFFF92 37 FFFFFFE0 3F C FFFFFFDF FFFFFF92 37 FFFFFFE0 3F這里我均打印出了m_pSrc的前30個字節的數據。
對,問題就是出在這里了,至于為什么,現在還沒有時間去仔細排查,據說是memcpy的一個使用陷阱,我換了一種方式移動數據后,貌似問題就解決了。
等我確定原因后,把答案補充在這里,目前緊張測試中。
眼睛盯著屏幕的0XABCDEF,都快花眼了,這真是一件苦逼的活。。。。
2012-09-11
第一次更新:
用memmove取代memcpy之后,問題得到了解決,但不符合常理,因為這里基本否定了地址重疊的情況,摸索中。。。
第二次更新:
左思右想,沒有想到結論的前提下,我照抄了memcpy函數,給他起了個別名
void * my_memcpy (void *dest, const void *src, size_t len)
{
char *d = (char*)dest;
const char *s = (const char*)src;
while (len--)
*d++ = *s++;
return dest;
}
改成:my_memcpy(m_pSrc, &m_pSrc[nLen], nOffset);
后,運行結果正常,我了個擦,到底發生了什么,難道系統函數不是這么寫的?
付上版本號:
Linux version 2.6.32-38-generic-pae (buildd@rothera) (gcc version 4.4.3 (Ubuntu 4.4.3-4ubuntu5) ) #85-Ubuntu SMP Wed Jan 25 15:37:46 UTC 2012