Thronds

一問你會什么二問你做出過什么三問你為了什么

C++博客 :: 首頁 :: 新隨筆 :: 聯(lián)系 :: 聚合

:: 管理 ::

36 隨筆 :: 0 文章 :: 56 評論 :: 0 Trackbacks

<

2009年6月

>

日

一

二

三

四

五

六

31

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

1

2

3

4

5

6

7

8

9

10

11

公告

1、本博文章包括個人原創(chuàng)和轉(zhuǎn)載他處。轉(zhuǎn)載他處的文章均已標明出處。如轉(zhuǎn)載本人原創(chuàng)文章請注明出處。 2、歡迎交流

常用鏈接

留言簿(15)

隨筆分類

隨筆檔案

文章分類

C/C++語法 (rss)

Linux技術(shù)鏈接

Linux壓縮解壓方式大集合專題

論壇列表

TopLanguage
我們分享和討論，而不是提問和回答。與他人的討論是對自己想法的整理，也是獲得新視角的重要途徑。

一些個人的鏈接

Forrest Sheng Bao

Yin Wang's Homepage
劉未鵬|C++的羅浮宮
閱微堂-Zhiqiang Zhang's Homepage

搜索

積分與排名

積分 - 81600
排名 - 293

閱讀排行榜

評論排行榜

終端VI支持gb2312[轉(zhuǎn)]--字符編碼的糾結(jié)

修改.vimrc文件，讓其支持 gb2312就行
"設(shè)定文件編碼類型，徹底解決中文編碼問題
let &termencoding=&encoding
set fileencodings=utf-8,gbk,ucs-bom,cp936

略微查了一下.vimrc中添加內(nèi)容的含意，這篇文章有相關(guān)解釋。
http://blog.dawnh.net/comment.php?type=trackback&entry_id=59
內(nèi)容如下：

vim中編輯不同編碼的文件時需要注意的一些地方
此文講解的是vim編輯多字節(jié)編碼文檔（中文）所要了解的一些基礎(chǔ)知識，注意其沒有涉及gvim，純指字符終端下的vim。
vim編碼方面的基礎(chǔ)知識：

1，存在3個變量：
encoding----該選項使用于緩沖的文本(你正在編輯的文件)，寄存器，Vim 腳本文件等等。你可以把 'encoding' 選項當作是對 Vim 內(nèi)部運行機制的設(shè)定。
fileencoding----該選項是vim寫入文件時采用的編碼類型。
termencoding----該選項代表輸出到客戶終端（Term）采用的編碼類型。
2，此3個變量的默認值：
encoding----與系統(tǒng)當前l(fā)ocale相同，所以編輯文件的時候要考慮當前l(fā)ocale，否則要設(shè)置的東西就比較多了。
fileencoding----vim打開文件時自動辨認其編碼，fileencoding就為辨認的值。為空則保存文件時采用encoding的編碼，如果沒有修改encoding，那值就是系統(tǒng)當前l(fā)ocale了。
termencoding----默認空值，也就是輸出到終端不進行編碼轉(zhuǎn)換。

由此可見，編輯不同編碼文件需要注意的地方不僅僅是這3個變量，還有系統(tǒng)當前l(fā)ocale和、文件本身編碼以及自動編碼識別、客戶運行vim的終端所使用的編碼類型3個關(guān)鍵點，這3個關(guān)鍵點影響著3個變量的設(shè)定。
如果有人問：為什么我用vim打開中文文檔的時候出現(xiàn)亂碼？
答案是不確定的，原因上面已經(jīng)講了，不搞清楚這3個關(guān)鍵點和這3個變量的設(shè)定值，出現(xiàn)亂碼是正常的，倒是不出現(xiàn)亂碼那反倒是湊巧的。

再來看一下常見情況下這三個關(guān)鍵點的值以及在這種情況下這3個變量的值：
1，locale----目前大部分Linux系統(tǒng)已經(jīng)將utf-8作為默認locale了，不過也有可能不是，例如有些系統(tǒng)使用中文locale zh_CN.GB18030。在locale為utf-8的情況下，啟動vim后encoding將會設(shè)置為utf-8，這是兼容性最好的方式，因為內(nèi)部處理使用utf-8的話，無論外部存儲編碼為何都可以進行無缺損轉(zhuǎn)換。locale決定了vim內(nèi)部處理數(shù)據(jù)的編碼，也就是encoding。
2，文件的編碼以及自動編碼識別----這方面牽扯到各種編碼的規(guī)則，就不一一細講了。但需要明白的是，文件編碼類型并不是保存在文件內(nèi)的，也就是說沒有任何描述性的字段來記錄文檔是何種編碼類型的。因此我們在編輯文檔的時候，要么必須知道這文檔保存時是以什么編碼保存的，要么通過另外的一些手段來斷定編碼類型，這另外的手段，就是通過某些編碼的碼表特征來斷定，例如每個字符占用的字節(jié)數(shù)，每個字符的ascii值是否都大于某個字段來斷定這個文件屬于何種編碼。這種方式vim也使用了，這就是vim的自動編碼識別機制了。但這種機制由于編碼各式各樣，不可能每種編碼都有顯著的特征來辨別，所以是不可能 100%準確的。對于我們GB2312編碼，由于其中文是使用了2個acsii值高于127的字符組成漢字字符的，因此不可能把gb2312編碼的文件與 latin1編碼區(qū)分開來，因此自動識別編碼的機制對于gb2312是不成功的，它只會將文件辨識為latin1編碼。此問題同樣出現(xiàn)在gbk，big5 上等。因此我們在編輯此類文檔時，需要手工設(shè)定encoding和fileencoding。如果文檔編碼為utf-8時，一般vim都能自動識別正確的編碼。

3，客戶運行vim的終端所使用的編碼類型----同第二條一樣，這也是一個比較難以斷定的關(guān)鍵點。第二個關(guān)鍵點決定著從文件讀取內(nèi)容和寫入內(nèi)容到文件時使用的編碼，而此關(guān)鍵點則決定vim輸出內(nèi)容到終端時使用的編碼，如果此編碼類型和終端認為它收到的數(shù)據(jù)的編碼類型不同，則又會產(chǎn)生亂碼問題。在 linux本地X環(huán)境下，一般終端都認為其接收的數(shù)據(jù)的編碼類型和系統(tǒng)locale類型相符，因此不需關(guān)心此方面是否存在問題。但如果牽涉到遠程終端，例如ssh登錄服務(wù)器，則問題就有可能出現(xiàn)了。例如從1臺locale為GB2310的系統(tǒng)（稱作客戶機）ssh到locale為utf-8的系統(tǒng)（稱作服務(wù)器）并開啟vim編輯文檔，在不加任何改動的情況下，服務(wù)器返回的數(shù)據(jù)為utf-8的，但客戶機認為服務(wù)器返回的數(shù)據(jù)是gb2312的，按照 gb2312來解釋數(shù)據(jù)，則肯定就是亂碼了，這時就需要設(shè)置termencoding為gb2312來解決這個問題。此問題更多出現(xiàn)在我們的 windows desktop機遠程ssh登錄服務(wù)器的情況下，這里牽扯到不同系統(tǒng)的編碼轉(zhuǎn)換問題。所以又與windows本身以及ssh客戶端有很大相關(guān)性。在 windows下存在兩種編碼類型的軟件，一種是本身就為unicode編碼方式編寫的軟件，一種是ansi軟件，也就是程序處理數(shù)據(jù)直接采用字節(jié)流，不關(guān)心編碼。前一種程序可以在任何語言的windows上正確顯示多國語言，而后一種則編寫在何種語言的系統(tǒng)上則只能在何種語言的系統(tǒng)上顯示正確的文字。對于這兩種類型的程序，我們需要區(qū)別對待。以ssh客戶端為例，我們使用的putty是unicode軟件，而secure CRT則是ansi 軟件。對于前者，我們要正確處理中文，只要保證vim輸出到終端的編碼為utf-8即可，就是termencoding=utf-8。但對于后者，一方面我們要確認我們的windows系統(tǒng)默認代碼頁為cp936（中文windows默認值），另一方面要確認vim設(shè)置的termencoding= cp936。

最后來看看處理中文文檔最典型的幾種情況和設(shè)置方式：

1，系統(tǒng)locale是utf-8（很多l(xiāng)inux系統(tǒng)默認的locale形式），編輯的文檔是GB2312或GBK形式的（Windows記事本默認保存形式，大部分編輯器也默認保存為這個形式，所以最常見），終端類型utf-8（也就是假定客戶端是putty類的unicode軟件）
則vim打開文檔后，encoding=utf-8（locale決定的），fileencoding=latin1（自動編碼判斷機制不準導(dǎo)致的），termencoding=空（默認無需轉(zhuǎn)換term編碼），顯示文件為亂碼。
解決方案1：首先要修正fileencoding為cp936或者euc-cn（二者一樣的，只不過叫法不同），注意修正的方法不是:set fileencoding=cp936，這只是將文件保存為cp936，正確的方法是重新以cp936的編碼方式加載文件為:edit ++enc=cp936，可以簡寫為:e ++enc=cp936。
解決方案2：臨時改變vim運行的locale環(huán)境，方法是以LANG=zh_CN vim abc.txt的方式來啟動vim，則此時encoding=euc-cn（locale決定的），fileencoding=空（此locale下文件編碼自動判別功能不啟用，所以fileencoding為文件本身編碼方式不變，也就是euc-cn），termencoding=空（默認值，為空則等于encoding）此時還是亂碼的，因為我們的ssh終端認為接受的數(shù)據(jù)為utf-8，但vim發(fā)送數(shù)據(jù)為euc-cn，所以還是不對。此時再用命令: set termencoding=utf-8將終端數(shù)據(jù)輸出為utf-8，則顯示正常。

2，情況與1基本相同，只是使用的ssh軟件為secure CRT類ansi類軟件。

vim打開文檔后，encoding=utf-8（locale決定的），fileencoding=latin1（自動編碼判斷機制不準導(dǎo)致的），termencoding=空（默認無需轉(zhuǎn)換term編碼），顯示文件為亂碼。

解決方案1：首先要保證運行secure CRT的windows機器的默認代碼頁為CP936，這一點中文windows已經(jīng)是默認設(shè)置了。其他的與上面方案1相同，只是要增加一步，:set termencoding=cp936

解決方案2：與上面方案2類似，不過最后一步修改termencoding省略即可，在此情況下需要的修改最少，只要以locale為zh_CN 開啟 vim，則encoding=euc-cn，fileencoding和termencoding都為空即為encoding的值，是最理想的一種情況。

可見理解這3個關(guān)鍵點和3個參數(shù)的意義，對于編碼問題有很大助力，以后就可以隨心所欲的處理文檔了，同時不僅僅是應(yīng)用于vim，在其他需要編碼轉(zhuǎn)換的環(huán)境里，都可以應(yīng)用類似的思路來處理問題解決問題。

http://blog.chinaunix.net/u/8111/showart_498103.html

posted on 2009-06-02 02:23 thronds 閱讀(1014) 評論(0) 編輯收藏引用所屬分類: Linux桌面技術(shù)

只有注冊用戶登錄后才能發(fā)表評論。
【推薦】100%開源！大型工業(yè)跨平臺軟件C++源碼提供，建模，組態(tài)！

相關(guān)文章: 終端VI支持gb2312[轉(zhuǎn)]--字符編碼的糾結(jié) 10個你也許不知道的Ubuntu技巧在移動存儲設(shè)備中安裝Ubuntu系統(tǒng)全攻略 VMware中安裝Ubuntu后鼠標滾輪問題解決轉(zhuǎn)載 ubuntu上關(guān)于Code::Blocks(8.02RC)的安裝全記錄 Windows轉(zhuǎn)向Linux的一百個困難 Linux下的PDF閱讀器概覽 Ubuntu快捷鍵 Linux下的IM(Pidgin,EVA,QQlinux,...) linux下的gftp中文亂碼問題

網(wǎng)站導(dǎo)航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品