Symbian OS平臺簡體漢字編程編碼處理
相信大家都在處理symbian中文顯示的時候遇到了編碼的問題,我現(xiàn)在就給總結(jié)一下這種問題的解決方法:
字符串編碼中文表示常用的有:GB2312,GBK,Unicode,UTF-8
其中GBK是GB2312的超集,也就是涵蓋了GB2312編碼的所有內(nèi)容;
UTF-8是Unicode的在網(wǎng)絡(luò)傳輸中的一種編碼格式。
如果我們使用vc做為開發(fā)工具,在win下面進行開發(fā),那么win的默認(rèn)字符集是GBK的;由于中文資源文件采用UTF-8存儲,所以也有種情況是將代碼文件也采用用UTF-8編碼(目前我們在Carbide上就是這樣做的)。然而symbian系統(tǒng)默認(rèn)的編碼方式卻是Unicode,所以說直接寫在程序里面的漢字在手機上顯示的時候,就會變成亂碼。
以下對S60應(yīng)用處理簡體漢字編碼情況分為兩大類即UTF-8和非UTF-8(通稱GBK):
一UTF-8編碼字串
1.資源文件中的UTF-8編碼字串
理論上,從資源文件中獲取的字串可以直接用于顯示(直接寫屏、應(yīng)用標(biāo)題、按鈕、菜單及各種UI控件)和寫文件等操作。但關(guān)鍵是:由于 Symbian OS默認(rèn)編碼與Windows等操作系統(tǒng)默認(rèn)編碼不同,所以在Windows等環(huán)境中編輯資源源文件(.rss、.rls、.loc)時必須將文件的頭部加入CHARACTER_SET UTF8設(shè)置,并以UTF-8編碼保存,如此編譯后的資源文件字串才能得到正常處理。特別是對于漢字這種非ASCII標(biāo)準(zhǔn)字符(這里的ASCII標(biāo)準(zhǔn)字符是指單字節(jié)編碼字符,漢字是擴展的多字節(jié)編碼字符,一般為GBK/GB2312編碼)。
能將文件以UTF-8編碼保存的編輯器有許多(例如Windows的記事本),但最好是用一些16位的編輯器將以UTF-8編碼保存的文件開頭的3個字節(jié)長的字節(jié)序標(biāo)記(Byte Order Mark)刪除以便編譯系統(tǒng)識別(例如Windows中命令行的Edit),這一點對于S60 3.0平臺更是如此。(在這里做下延伸,本人在編程中就遇到過類似問題,代碼原先用Utf8的,后來用記事本打開修改了下,之后存儲就多了3個字節(jié)序的標(biāo)記,編譯時就問題多多了)
2.程序文件中的UTF-8編碼字串
同樣,程序源文件(.cpp)中的字串默認(rèn)情況下也不是UTF-8編碼,如要直接使用也必須以UTF-8編碼保存程序源文件。例如某程序源文件中:
LIT( KUTF8String, "簡體漢字串");
CAknInformationNote* InfoNote;
InfoNote = new ( ELeave ) CAknInformationNote;
InfoNote->ExecuteLD( KUTF8String);
用記事本將此源文件保存為UTF-8編碼,這樣編譯后可正常顯示,無需編碼轉(zhuǎn)換,不過由于編譯環(huán)境的識別問題需要注意的是:
1).模擬器平臺應(yīng)用(WINS、WINSCW等)不可將文件開頭的字節(jié)序標(biāo)記(Byte Order Mark)刪除;
2).真機平臺應(yīng)用(THUMB、ARMI、GCCE等)必須將文件開頭的字節(jié)序標(biāo)記(Byte Order Mark)刪除。
順便提一下Carbide中簡體漢字的處理,重點是修改工程或文件的文本編碼方式。對于通過.inf或.mmp導(dǎo)入的工程(這種方法比較好),只要導(dǎo)入前源文件符合前面以UTF-8編碼保存的那些要求,就不必修改文本編碼方式。而對于新工程,資源源文件中除了加入CHARACTER_SET UTF8設(shè)置,最好將源文件的文本編碼方式改為UTF-8,否則Carbide將不按UTF-8編碼處理文本,顯示將不正常。具體方法如下:
1).右鍵點擊工程文件夾的某個資源源文件->properties->Info,將Text file ecoding改為others中的UTF-8;
2).右鍵點擊工程文件夾->properties->Info,將Text file encoding改為others中的UTF-8。
兩者取一即可,只是后一種將使工程所有源文件的文本編碼方式變?yōu)?/span>UTF-8。另外需要注意,Carbide中一旦有文本編碼方式的修改,特別是資源源文件,最好重新寫入字串,清除(clean)之后再建立應(yīng)用或運行(build或run),否則上一次的結(jié)果仍可能會存在而影響這一次的建立。
二.非UTF-8編碼字串
如前所述,如果不以UTF-8編碼保存程序源文件,則程序源文件(.cpp)中的字串即為非UTF-8 編碼字串。要想正常操作,則必須進行編碼轉(zhuǎn)換,但不是轉(zhuǎn)換為UTF-8編碼,而是必須轉(zhuǎn)換成Unicode(標(biāo)準(zhǔn)的Unicode也稱UTF-16)編碼。例如:
_LIT8( KNonUnicodeString, "簡體漢字串");
TPtrC8 point8( KNonUnicodeString );
CCnvCharacterSetConverter* converter = CCnvCharacterSetConverter::NewLC();
//一般簡體中文Windows使用的簡體漢字編碼是Gb2312或Gbk(ASCII字符集的擴展,
//也稱ASCI字符集),所以如果既不是這兩者則直接報異常KErrNotSupported
if(converter ->PrepareToConvertToOrFromL(KCharacterSetIdentifierGbk,
iEikonEnv->FsSession()) == CCnvCharacterSetConverter::EAvailable )
{
}
else if(converter->PrepareToConvertToOrFromL(KCharacterSetIdentifierGb2312,
iEikonEnv->FsSession()) != CCnvCharacterSetConverter::EAvailable)
{
CleanupStack::PopAndDestroy();
User::Leave( KErrNotSupported );
}
//進行GBK到Unicode的轉(zhuǎn)換
TInt state=CCnvCharacterSetConverter::KStateDefault;
HBufC* UnicodeString = HBufC::NewL( point8 );
TPtr16 point16 = UnicodeString->Des();
if(CCnvCharacterSetConverter::EErrorIllFormedInput ==
converter->ConvertToUnicode(point16, point8, state ) )
{
CleanupStack::PopAndDestroy();
User::Leave(KErrArgument);
}
CleanupStack::PopAndDestroy(2); // converter UnicodeString
UnicodeString即為Unicode編碼的字串,可以直接用于顯示及寫文件等操作。簡體漢字串的顯示除了編碼問題,還要注意字體的選擇,特別是對UI控件,最好是用LatinBold12()(2版),AknLayoutUtils::FontFromId( ELatinBold12 )(3版)。簡體漢字串顯示的相關(guān)文檔,例程很多,在這里就不多說了。至于文件中讀寫簡體漢字串則要提幾點注意:
1.自己寫自己讀
借助Symbian的文件服務(wù)將字串寫入文件,一般都是帶格式的,文件的首字符用來表示緊跟字串的長度和編碼,所以不是什么文件都可以讀的,例如用記事本編輯的文件一般就無法正確讀出,除非寫對了格式,而這種格式手工寫是很煩瑣的。所以對于程序內(nèi)部文件讀寫,最好是:拿什么寫就用什么讀,要拿什么讀就用什么寫。
2.UTF-8編碼簡體漢字串讀寫文件
無論是從資源文件中讀取的,還是.cpp中定義的UTF-8編碼字串,都可以直接寫直接讀,無需編碼轉(zhuǎn)換。例如:
//寫文件
_LIT( KFileName, "\\private\\xxxxxxxx\\aTextFile.txt" );
_LIT( KUTF8String, "簡體漢字串");
//或者HBufC* UTF8String=StringLoader::LoadLC(R_UTF8_RESOURCE_STRING );
RFs FileServerSession;
User::LeaveIfError(FileServerSession.Connect());
RFile file;
if ( file.Replace(FileServerSession, KFileName, EFileWrite ) != KErrNone )
{
return;
}
CleanupClosePushL( file );
RFileWriteStream StreamWriteToFile(file);
CleanupClosePushL( StreamWriteToFile );
StreamWriteToFile << KUTF8String;//或者StreamWriteToFile << *UTF8String
CleanupStack::PopAndDestroy(2); //file StreamWriteToFile
//讀文件
RFs FileServerSession;
RFile file;
User::LeaveIfError(FileServerSession.Connect());
CleanupClosePushL(FileServerSession);
User::LeaveIfError(file.Open(FileServerSession,KHelloFileName, EFileStreamText));
CleanupClosePushL(file);
RFileReadStream StreamReadFromFile(file);
CleanupClosePushL(StreamReadFromFile);
HBufC* StreamData= HBufC::NewLC(StreamReadFromFile, 32);
CleanupStack::PopAndDestroy(3); //file StreamReadFromFile StreamData
FileServerSession.Close();
以上得到的StreamData可以通過:
CAknInformationNote* InfoNote;
InfoNote = new ( ELeave ) CAknInformationNote;
InfoNote->ExecuteLD( *StreamData )
加以顯示驗證。
3.非UTF-8編碼簡體漢字串讀寫文件
如前所述,非UTF8編碼簡體漢字串必須進行編碼轉(zhuǎn)換,主要有兩種方法:
1).將字串轉(zhuǎn)換為Unicode編碼寫入文件后直接讀取
//轉(zhuǎn)換后寫文件 前面部分代碼跟之前GBK轉(zhuǎn)Unicode的轉(zhuǎn)換是一樣的
_LIT( KFileName, "\\private\\xxxxxxxx\\aTextFile.txt" );
RFs FileServerSession;
User::LeaveIfError(FileServerSession.Connect());
RFile file;
if ( file.Replace(FileServerSession, KFileName, EFileWrite ) != KErrNone )
{
return;
}
CleanupClosePushL( file );
_LIT8( KNonUnicodeString, "簡體漢字串");
TPtrC8 point8( KNonUnicodeString );
CCnvCharacterSetConverter* converter=CCnvCharacterSetConverter::NewLC();
if( converter->PrepareToConvertToOrFromL(KCharacterSetIdentifierGbk,
iEikonEnv->FsSession()) == CCnvCharacterSetConverter::EAvailable )
{
}
elseif ( converter->PrepareToConvertToOrFromL(KCharacterSetIdentifierGb2312,
iEikonEnv->FsSession())!= CCnvCharacterSetConverter::EAvailable )
{
CleanupStack::PopAndDestroy();
User::Leave( KErrNotSupported );
}
TInt state=CCnvCharacterSetConverter::KStateDefault;
HBufC* UnicodeString = HBufC::NewL( point8 );
TPtr16 point16 = UnicodeString->Des();
if( CCnvCharacterSetConverter::EErrorIllFormedInput ==
converter->ConvertToUnicode(point16, point8, state ) )
{
CleanupStack::PopAndDestroy();
User::Leave(KErrArgument);
}
RFileWriteStream StreamWriteToFile( file );
CleanupClosePushL( StreamWriteToFile );
StreamWriteToFile << *UnicodeString;
CleanupStack::PopAndDestroy(4);//file StreamWriteToFile converter UnicodeString
FileServerSession.Close();
直接讀取的方法與UTF-8編碼簡體漢字串讀寫文件的讀文件操作相同。
2).將字串直接寫入文件后再讀取轉(zhuǎn)換
直接寫文件的方法與UTF-8編碼簡體漢字串讀寫文件的寫文件操作相同。
//讀取后轉(zhuǎn)換 先寫文件,GBK也是8位的編碼
RFs FileServerSession;
RFile file;
User::LeaveIfError(FileServerSession.Connect());
CleanupClosePushL(FileServerSession);
User::LeaveIfError(file.Open(FileServerSession,KHelloFileName, EFileStreamText));
CleanupClosePushL(file);
RFileReadStream StreamReadFromFile(file);
CleanupClosePushL(StreamReadFromFile);
HBufC* StreamData = HBufC::NewLC(StreamReadFromFile, 32);
HBufC8* StreamData8 = HBufC8::NewLC( StreamData->Length() );
StreamData8->Des().Copy(*StreamData);
//轉(zhuǎn)換 GBK轉(zhuǎn)Unicode,代碼跟之前的一樣
TPtrC8 point8( *StreamData8 );
CCnvCharacterSetConverter* converter=CCnvCharacterSetConverter::NewLC();
if(converter->PrepareToConvertToOrFromL(KCharacterSetIdentifierGbk,
iEikonEnv->FsSession()) == CCnvCharacterSetConverter::EAvailable )
{
}
else if ( converter->PrepareToConvertToOrFromL(KCharacterSetIdentifierGb2312,
iEikonEnv->FsSession())!= CCnvCharacterSetConverter::EAvailable )
{
CleanupStack::PopAndDestroy();
User::Leave( KErrNotSupported );
}
TInt state=CCnvCharacterSetConverter::KStateDefault;
HBufC* UnicodeString = HBufC::NewL( point8 );
TPtr16 point16 = UnicodeString->Des();
if( CCnvCharacterSetConverter::EErrorIllFormedInput ==
converter->ConvertToUnicode(point16, point8, state ) )
{
CleanupStack::PopAndDestroy();
User::Leave(KErrArgument);
}
CleanupStack::PopAndDestroy(6); //file StreamReadFromFile StreamData StreamData8 converter UnicodeString
FileServerSession.Close();
得到的UnicodeString也可以通過:
CAknInformationNote* InfoNote;
InfoNote = new ( ELeave ) CAknInformationNote;
InfoNote->ExecuteLD( *UnicodeString );
加以顯示驗證。()
以上代碼的集成開發(fā)環(huán)境為:
Active Perl 5.6.1 build 631
Java Runtime Enviroment v1.5.0_07
CodeWarrior Personal Edition 3.1
S60 3RD EDITION SDK FOR SYMBIAN OS, FOR C++
在以命令行建立的應(yīng)用中驗證正常(WINSCW、GCCE)。如果是其它的建立應(yīng)用方式或IDE可能需要做相應(yīng)的變化,或根本不可行,在這里只是給大家提供一種思路和方法。
總之,簡體漢字的處理,最重要的在于對字符編碼的掌握,說到底就是要依據(jù)不同的編碼情況進行相應(yīng)的編碼轉(zhuǎn)換操作。最為理想和不受開發(fā)環(huán)境影響的方法個人認(rèn)為是:資源文件法,也就是將字符串以UTF-8編碼保存在資源源文件中,并設(shè)置以UTF-8編碼去處理。它最為簡便,也最為有效,且便于本地化的移植。其它方法只是提供一種參考,一個可行的方案。
其實,本文所討論的方法不僅僅對簡體漢字有效,理論上對所有非ANSII標(biāo)準(zhǔn)字符都適用。
補記一:字節(jié)序標(biāo)記(Byte Order Mark)
BOM(Byte Order Mark),是在Unicode標(biāo)準(zhǔn)(UTF-16)引入后,對于Unicode純文本文件判斷其比特順序的標(biāo)記,在UTF-16 Little Endian字節(jié)序下為(0xFF,0xFE),在UTF-16 Big Endian下為(0xFE,0xFF);如果進行相應(yīng)的UTF-16到UTF-8轉(zhuǎn)換,該處兩個字節(jié)會被處理成為三個字節(jié)的UTF-8編碼字節(jié)序標(biāo)記。(在Windows系統(tǒng)中是小端字節(jié)序的,所以保存為UTF16帶BOM的前面字節(jié)序為0xFF 0xFE;同理UTF-8在Windows小端字節(jié)序下為0xEF 0xBB 0xBF)。
補記二:網(wǎng)上流傳的GBK和Unicode互轉(zhuǎn)函數(shù)
代碼中添加頭文件
#include <charconv.h> // for char set convert GBK - Unicode
在mmp里面添加
LIBRARY charconv.lib // for GBK to Unicode converter
這兩步完成后,將下面的這兩個函數(shù)就可以正常編譯和使用了。
//GBK轉(zhuǎn)Unicode
void ConvGbk2Uni(TDesC8& original, TDes& res)
{
RFs fileServerSession;
aFileServerSession.Connect();
CCnvCharacterSetConverter* converter=CCnvCharacterSetConverter::NewLC();
if(converter->PrepareToConvertToOrFromL(KCharacterSetIdentifierGbk, aFileServerSession) != CCnvCharacterSetConverter::EAvailable)
{
User::Leave(KErrNotSupported);
}
TInt state=CCnvCharacterSetConverter::KStateDefault;
TPtrC8 str(original);
HBufC* iInfoText = HBufC::NewL(str.Length());
TPtr16 ptr = iInfoText->Des();
if(CCnvCharacterSetConverter::EErrorIllFormedInput == converter->ConvertToUnicode(ptr, str, state))
{
User::Leave(KErrArgument);
}
res.Zero();
res.Copy(ptr);
fileServerSession.Close();
CleanupStack::PopAndDestroy();
delete iInfoText;
}
//Unicode 轉(zhuǎn)GBK,也許有些人覺得沒必要轉(zhuǎn)GBK但是數(shù)據(jù)庫中文排序之類的就需要
void ConvUni2Gbk(TDesC& original, TDes8& res)
{
TInt state=CCnvCharacterSetConverter::KStateDefault ;
CCnvCharacterSetConverter* iConv ;
iConv = CCnvCharacterSetConverter::NewLC();
if(iConv->PrepareToConvertToOrFromL(KCharacterSetIdentifierGbk,
iEikonEnv->FsSession())!=CCnvCharacterSetConverter::EAvailable)
{
User::Leave(KErrNotSupported);
}
iConv->ConvertFromUnicode(res, original, state) ;
CleanupStack::PopAndDestroy();
}
具體的使用方法:
TBuf8<20> title8 ;
TBuf<20> title16 ;
TBuf8<20> msg8 ;
TBuf<20> msg16 ;
title8.Format(_L8("友情提示")) ;
ConvGbk2Uni(title8, title16) ;
msg8.Format(_L8(" 謝謝您的使用")) ;
ConvGbk2Uni(msg8, msg16) ;
現(xiàn)在title16和msg16里面都存放的是16位的unicode中文字符串了,
本文是對網(wǎng)上兩篇文檔的合并,具體見下面鏈接
http://my.sdlgame.com/programming/116-symbian/3175-s60
http://soft6.com/tech/6/60568.html
posted on 2008-09-10 20:11
frank.sunny 閱讀(4094)
評論(1) 編輯 收藏 引用 所屬分類:
symbian 開發(fā)