• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>

            飄雪

            C++博客 首頁 新隨筆 聯系 聚合 管理
              31 Posts :: 0 Stories :: 60 Comments :: 0 Trackbacks
                vc 2005 sp1下isspace函數的debug版本對中文處理有問題

                今天碰到一個怪問題,從別人那兒拿來的一段代碼先在gcc下過了,又移植到vc下編譯,結果debug時老是有assert錯誤。看了一下代碼,錯誤發生在一個trim函數中。trim函數接受一個char*類型的字符串參數,去掉字符串前后的空格、制表符等空白字符。其中判斷是否是空白字符用的是isspace函數。按照一般的想法,char*字符串里的字符編碼無論是GBK還是utf-8,因為都兼容ASCII,所以isspace函數都不應該發生問題。但事實是只要是字符串有中文,無論是gbk還是utf-8編碼,isspace內都有assert錯誤。為了便于說明,把其中的代碼抽像出來如下:

                char* lpszBuffer = (char*)"高";
                int nLen = (int)strlen(lpszBuffer);
                for( int i=0;i
                {
                    printf("0x%x %dn",lpszBuffer[i],isspace(lpszBuffer[i]) );
                }

                這段代碼在debug編譯的情況下會assert失敗。沒有辦法,只好跟蹤到c運行庫里,isspace的實現如下(在"_ctype.c"文件里):

            extern __inline int (__cdecl isspace) (
                    int c
                    )
            {
                if (__locale_changed == 0)
                {
                    return __fast_ch_check(c, _SPACE);
                }
                else
                {
                    return (_isspace_l)(c, NULL);
                }
            }

                跟蹤發現,__locale_changed的值為0,走第一個分支,調用__fast_ch_check,它其實是個宏定義,最后進入_chvalidator函數,它的實現代碼如下:

            extern "C" int __cdecl _chvalidator(
                    int c,
                    int mask
                    )
            {
                    _ASSERTE((unsigned)(c + 1) <= 256);
                    return _chvalidator_l(NULL, c, mask);
            }

                錯誤就發生在這個函數的第一行“ _ASSERTE((unsigned)(c + 1) <= 256);”。
                
                代碼看到這里,錯誤的原因基本也就出來了。“高”的GBK編碼是“b8 df”,調用isspace函數是逐個字節判斷,但是isspace和_chvalidator接受的參數都是int,這樣就會產生一個char到int的轉型,在vc下,char默認是"signed char",這樣char“b8”轉型到int后,會變成一個負數,然后在assert的時候,又強制轉型為unsigned,它又變成了一個非常巨大的正數,自然assert就失敗了。
                為什么在gcc下沒有錯誤?gcc下的isspace函數實現我倒沒看,不過我的gcc中的char默認就是“unsighed char”,所以即使isspace的實現跟上面的一樣,也不會產生問題。
                另:在win32 release和wince下,也不會有上述問題,因為這幾種環境下isspace的實現跟上面不一樣。
                
                問題找到了,剩下的就看怎么解決了。
                首先用用一個最簡單的方法,既然問題發生在轉型上,只要把char的默認類型改為unsigned char就可以了,vc也提供了這個選項。但這有幾個問題,一是別人用我的代碼的時候還得修改編譯選項,二是修改了整個工程的編譯選項可能會對其它代碼產生不好的影響。
                既然上面的方法不大好操作,那就再想想別的方法。經觀察發現,isspace函數中靠__locale_changed變量控制流程走向,搜索整個crt的源代碼,發現__locale_changed的值只有在setlocale函數中發生了改變。最后,我把代碼修改成如下:

                #if defined(WIN32) && defined(_DEBUG)
                char* locale = setlocale( LC_ALL, ".OCP" );
                #endif
                char* lpszBuffer = (char*)"高";
                int nLen = (int)strlen(lpszBuffer);
                for( int i=0;i
                {
                    printf("0x%x %dn",lpszBuffer[i],isspace(lpszBuffer[i]) );
                }
               
                這樣在debug版本上就不會再有問題,但是可能其中仍有隱患,等到具體碰到的時候再說吧。先把目前的工作繼續下去。

            posted on 2009-03-12 14:04 飄雪 閱讀(4656) 評論(5)  編輯 收藏 引用

            Feedback

            # re: vc 2005 sp1下isspace函數對中文處理有問題[未登錄] 2009-03-13 17:39 foxriver
            自己寫一個isspace啊,十幾行的事情,我一直不太相信vc crt string部分。  回復  更多評論
              

            # re: vc 2005 sp1下isspace函數對中文處理有問題 2009-03-13 17:54 飄雪
            @foxriver
            自己寫一個isspace啊,十幾行的事情,我一直不太相信vc crt string部分

            最終他給我的是一個靜態庫,在靜態庫里調用的isspace,沒法自己寫呀,只能繞過去  回復  更多評論
              

            # re: vc 2005 sp1下isspace函數對中文處理有問題 2009-04-05 21:13 Dancefire
            如果我沒有理解錯,你試圖用locale為ASCII的isspace來判斷GBK編碼的空格,對么?如果我理解正確的話,那么這不是VC的問題,而是使用上的問題。

            對于C++而言,應該使用isspace(ch, loc); 這個版本,loc是類型為std::locale的變量,如果你想判斷GBK的空格,那么讓loc是GBK的locale,然后這個函數就正常了。

            你現在使用的是C的isspace(ch)函數,這個函數使用的是默認的全局locale,你把這個全局的設為GBK,也應該可以解決這個問題。總之調用locale為默認的ASCII的locale的isspace去判斷編碼為GBK的字串是否是空格,邏輯上不對。  回復  更多評論
              

            # re: vc 2005 sp1下isspace函數對中文處理有問題 2010-10-27 10:07 leeeryan
            @Dancefire
            同意樓上,分析的很在理  回復  更多評論
              

            # re: vc 2005 sp1下isspace函數對中文處理有問題[未登錄] 2012-12-17 13:59 jack
            我也遇到這個問題,輸出“包”字符(0xfc)時,用isspace檢查返回值為0x08,所以輸出亂碼。后來我使用iswspace就好了,程序中應該盡可能的使用寬字符函數  回復  更多評論
              

            国产成人精品久久免费动漫| 国产精品久久久久久久久免费| 久久亚洲国产中v天仙www| 狠狠色综合久久久久尤物| 日本五月天婷久久网站| 久久婷婷五月综合国产尤物app| 亚洲国产精品久久66| 精品国产99久久久久久麻豆| 国产精品亚洲综合专区片高清久久久| 2019久久久高清456| 久久综合给合久久狠狠狠97色69| 久久91精品久久91综合| 久久99亚洲网美利坚合众国| 久久夜色精品国产亚洲| 久久精品国产亚洲一区二区| 久久久久波多野结衣高潮| 99精品久久久久久久婷婷| 久久久久久国产精品无码超碰| 久久夜色精品国产噜噜亚洲a| 日本精品久久久久中文字幕| 久久亚洲sm情趣捆绑调教| 久久99精品久久久久久野外| www.久久热.com| 久久发布国产伦子伦精品| 亚洲午夜精品久久久久久浪潮| 中文字幕亚洲综合久久菠萝蜜| 久久伊人精品青青草原高清| 久久久久人妻一区精品色 | 久久精品国产亚洲AV不卡| 天天综合久久久网| 久久久久久久尹人综合网亚洲 | 一本久久a久久精品综合夜夜| 色8久久人人97超碰香蕉987| 综合久久精品色| 欧美精品乱码99久久蜜桃| 久久毛片一区二区| 久久久精品人妻一区二区三区蜜桃| 欧美成人免费观看久久| 久久狠狠爱亚洲综合影院| 国产亚洲精久久久久久无码77777| 色偷偷88888欧美精品久久久|