woaidongmao

文章均收錄自他人博客，但不喜標題前加-[轉貼]，因其丑陋，見諒！~

隨筆 - 1469, 文章 - 0, 評論 - 661, 引用 - 0

數據加載中……

C程序實現漢字內碼與GB碼

　// HZEncode.cpp : Defines the entry point for the console application.

　　參考文獻：

　　漢字的編碼和表示

　　1)漢字交換碼(國標碼) 漢字交換碼(國標碼)主要用于漢字信息交換。

　　國標碼：以國家標準局1980年頒布的《信息交換用漢字編碼字符集"基本集》(代號為GB2312 80)規定的漢字交換碼作為國家標準漢字編碼。 GB2312 80中共有7445個字符符號：漢字符號6763個一級漢字3755個(按漢語拼音字母順序排列) 二級漢字3008個(按部首筆劃順序排列) 非漢字符號682個 GB2312 80規定，所有的國標碼漢字及符號組成一個94 94的方陣。在此方陣中，每一行稱為一個"區"，每一列稱為一個"位"。這個方陣實際上組成一個有94個區(編號由01到94)，每個區有94個位(編號由01到94)的漢字字符集。一個漢字所在的區號和位號的組合就構成了該漢字的"區位碼"。其中，高兩位為區號，低兩位為位號。這樣區位碼可以唯一地確定某一漢字或字符;反之，任何一個漢字或符號都對應一個唯一的區位碼，沒有重碼。

　　區位碼分布情況如下：

　　區號內容 1區鍵盤上沒有的各種符號 2區各種序號 3區鍵盤上的各種符號(按中文方式給出) 4 -5區日文字母 6區希臘字母 7區俄文字母 8區標識拼音聲調的母音及拼音字母名稱 9區制表符號 10- 15區未用 16-55區一級漢字(按拼音字母順序排列) 56- 87區二級漢字(按部首筆劃順序排列) 88- 94區自定義漢字

　　由上可以看出，所有漢字與符號的94個區，可以分為四個組：

　?、?/span>1 -15區：為圖形符號區。其中1 9區為標準符號區;10 15區為自定義符號區。

　　②16 -55區：為一級漢字區，包含3755個漢字。這些區中的漢字按漢語拼音順序排序，同音字按筆畫順序列出。

　?、?/span>56 -87區：為二級漢字區，包含3008個漢字。這些區中的漢字是按部首筆劃順序排序的。

　　④88 -94區：為自定義漢字區。

　　國標碼規定，每個漢字(包括非漢字的一些符號)由2字節代碼表示。每個字節的最高位為0，只使用低7位，而低7位的編碼中又有34個適用于控制用的，這樣每個字節只有27 - 34 = 94個編碼用于漢字。2個字節就有94 94=8836個漢字編碼。在表示一個漢字的2個字節中，高字節對應編碼表中的行號，稱為區號;低字節對應編碼表中的列號，稱為位號。

　　漢字國標碼的范圍用二進制表示是： 00100001 00100001 01111110 01111110 (1+32)10 (1+32)10 (94+32)10 (94+32)10 7 位ASCII碼是128個字符組成的字符集。其中編碼值0 31(00000000 00011111)不對應任何印刷字符，通常稱為控制符，用于計算機通信中的通信控制或對計算機設備的功能控制。編碼值32(00100000)是空格字符SP。編碼值127(1111111)是刪除字符DEL。

　　漢字國標碼的起始二進制位置選擇00100001即(33)10是為了跳過ASCII碼的32個控制字符和空格字符。所以，漢字國標碼的高位和低位分別比對應的區位碼大(32)10或(00100000)2或(20)H，即：國標碼高位 = 區碼 + 20H (H表示十六進制) 國標碼低位 = 位碼 + 20H

　　2) 漢字機內碼(內碼)(漢字存儲碼)

　　漢字機內碼(內碼)(漢字存儲碼)的作用是統一了各種不同的漢字輸入碼在計算機內部的表示。為了將漢字的各種輸入碼在計算機內部統一起來，就有了專用于計算機內部存儲漢字使用的漢字機內碼，用以將輸入時使用的多種漢字輸入碼統一轉換成漢字機內碼進行存儲，以方便機內的漢字處理漢字機內碼是在計算機內部存儲、處理的代碼。計算機既要處理漢字，又要處理英文。因此計算機必須能區別漢字字符和英文字符。英文字符的的機內碼是最高為為0的8位ASCII碼。為了不與7位ASCII碼發生沖突，把國標碼每個字節的最高位由0改為1，其余位不變的編碼作為漢字字符的機內碼。

　　漢字機內碼的范圍用二進制表示是： 10100001 10100001 11111110 11111110 機內碼的高位和低位比對應的國標碼的高位和低位大(128)10或(10000000)2或(80)H 即：機內碼高位 = 國標碼高位 + 80H 機內碼低位 = 國標碼低位 + 80H 又因為：國標碼高位 = 區碼 + 20H 國標碼低位 = 位碼 + 20H 所以：機內碼高位 = 區碼 + A0H 機內碼低位 = 位碼 + A0H 也就是說，機內碼高位和機內碼低位分別比對應的區碼和位碼大(160)10或(10100000)2或 (A0)H 例如：漢字"啊"的區位碼為"1601"，其中區碼為(16)10或(10)H，位碼為(01)10或(01)H。則：機內碼高位 = 10H + A0H = B0H 機內碼低位 = 01H + A0H = A1H 所以：機內碼= B0A1H

以下是引用片段：

　　3) 漢字輸入碼(外碼)

　　漢字輸入碼(外碼)是為了通過鍵盤字符把漢字輸入計算機而設計的一種編碼。英文輸入時，相輸入什么字符便按什么鍵，輸入碼和機內碼一致。漢字輸入時，可能要按幾個鍵才能輸入一個漢字。漢字輸入方案有成百上千個，但是這千差萬別的外碼輸入進計算機后都會轉換成統一的內碼。漢字輸入方案大致可分為以下4種類型：

　　(1) 音碼：如全拼、雙拼、微軟拼音等

　　(2) 形碼：如五筆字型、鄭碼、表形碼等

　　(3) 音形碼：如智能ABC、自然碼等

　　(4) 數字碼：如區位碼、電報碼等

　　4) 漢字字形碼(輸出碼)

　　漢字字形碼(輸出碼)用于漢字的顯示和打印，是漢字字形的數字化信息。漢字的內碼是用數字代碼來表示漢字，但是為了在輸出時讓人們看到漢字，就必須輸出漢字的字形。在漢字系統中，一般采用點陣來表示字形。 16 *16漢字點陣示意 16 * 16點陣字形的字要使用32個字節(16 * 16/8= 32)存儲，24 * 24點陣字形的字要使用72個字節(24 * 24/8=72)存儲。

　　一般來說，表現漢字時使用的點陣越大，則漢字字形的質量也越好，當然每個漢字點陣所需的存儲量也越大。

　　5) 漢字地址碼

　　漢字地址碼是指漢字庫(這里主要指整字形的點陣式字模庫)中存儲漢字字形信息的邏輯地址。在漢字庫中，字形信息都是按一定順序(大多數按標準漢字交換碼中漢字的排列順序)連續存放在存儲介質上的，所以漢字地址碼也大多是連續有序的，而且與漢字內碼間有著簡單的對應關系，以簡化漢字內碼到漢字地址碼的轉換。

以下是引用片段：
*/
 
#include "stdafx.h"
#include "HZEncode.h"
 
#ifdef _DEBUG
#define new DEBUG_NEW
#undef THIS_FILE
static char THIS_FILE[] = __FILE__;
#endif
#define UNICODE
#define _UNICODE
/////////////////////////////////////////////////////////////////////////////
// The one and only application object
 
CWinApp theApp;
 
using namespace std;
unsigned short* ptr;
char* pszHZ = "啊";
byte bt[] = {0xc4,0xe3,0xBA,0xC3};//“你好”的機內碼
int _tmain(int argc, TCHAR* argv[], TCHAR* envp[])
{
       int nRetCode = 0;
 
       // initialize MFC and print and error on failure
       if (!AfxWinInit(::GetModuleHandle(NULL), NULL, ::GetCommandLine(), 0))
       {
              // TODO: change error code to suit your needs
              cerr << _T("Fatal Error: MFC initialization failed") << endl;
              nRetCode = 1;
       }
       else
       {
              for (int i = 16;i <= 55; i++)
              {
                     byte Temp[3];
                     Temp[2] = 0;
                     Temp[0] = i + 0xA0;
                     for (int j = 1;j < 94;j++)
                     {

                            Temp[1] = j + 0xA0;
                            cout << (LPCTSTR) Temp;

                     }
                     cout << endl;
              }
 
       }
 
       system("pause");
       return nRetCode;
}

posted on 2008-11-08 12:17 肥仔閱讀(708) 評論(0) 編輯收藏引用所屬分類: 字符編碼

只有注冊用戶登錄后才能發表評論。
【推薦】100%開源！大型工業跨平臺軟件C++源碼提供，建模，組態！

相關文章: 字符編碼筆記：ASCII，Unicode和UTF-8 寫入UTF-16文件的時候，不要忘記在文件頭添加BOM 判斷字符串是否UTF8編碼 EUC 怎樣學習使用libiconv庫 unicode utf-8 gb18030 gb2312 gbk各種編碼對比 GB18030編碼研究以及GBK、GB18030與Unicode的映射 GBK, UCS和UTF8相互轉換 C程序實現漢字內碼與GB碼 C++的三種字符編碼方式

網站導航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

woaidongmao

C程序實現漢字內碼與GB碼

導航

常用鏈接

留言簿(10)

隨筆分類

隨筆檔案

搜索

最新評論

閱讀排行榜

評論排行榜