成人午夜精品无码区久久,99久久久精品,日韩欧美亚洲综合久久影院Ds

python漢字編碼

在處理一段文本的時候，首先了解文本的漢字編碼。在windows下默認的文件編碼是GBK，而

linux的一般是utf-8.

想要查看文件的編碼方式，使用vim打開文本，然后在命令行模式下輸入：set fileencoding,回車

即可。

Python中有兩種默認的字符串：str和unicode。在Python中一定要注意區分“Unicode字符串”

和“unicode對象”的區別。后面所有的“unicode字符串”指的都是python里的“unicode對象”

。

事實上在Python中并沒有“Unicode字符串”這樣的東西，只有“unicode”對象。一個傳統意義上

的unicode字符串完全可以用str對象表示。只是這時候它僅僅是一個字節流，除非解碼為unicode

對象，沒有任何實際的意義。

函數 decode( char_set )可以實現其它編碼到 Unicode 的轉換，函數 encode( char_set )實

現 Unicode 到其它編碼方式的轉換。

比如 ("你好").decode( "GB2312") 將得到 u'\u4f60\u597d'，即 "你"和“好"的 Unicode 碼

分別是 0x4f60 和 0x597d

再用 (u'\u4f60\u597d').encode("UTF-8") 將得到 '\xe4\xbd\xa0\xe5\xa5\xbd'，它是 “你好

”的UTF-8編碼結果。

python中使用 unicode的關鍵：unicode是一個類，函數unicode(str,"utf8")從utf8編碼（當然也

可以是別的編碼）的字符串str生成 unicode類的對象，而函數unc.encode("utf8")將unicode類的

對象unc轉換為（編碼為）utf8編碼（當然也可以是別的編碼）的字符串。于是，編寫unicode相關

程序，需要做的事情是

* 獲取數據（字符串）時，用unicode(str, "utf8")生成unicode對象

* 在程序中僅使用unicode對象，對程序中出現的字符串常量都以u"字符串"的形式書寫

* 輸出時，可將unicode對象轉換為任意編碼輸出，使用str.encode("some_encoding")

>>> unicode("你好", "utf8")
u'\u4f60\u597d'
>>> x = _
>>> type(x)
>>> type("你好")
>>> x.encode("utf8")
'\xe4\xbd\xa0\xe5\xa5\xbd'
>>> x.encode("gbk")
'\xc4\xe3\xba\xc3'
>>> x.encode("gb2312")
'\xc4\xe3\xba\xc3'
>>> print x
你好
>>> print x.encode("utf8")
你好
>>> print x.encode("gbk")
???

還有一種就是對于特殊字符的處理：

try:
    print i.decode('unicode_escape').encode('utf8')
  except:
    print i

posted on 2012-03-26 20:41 SunRise_at 閱讀(1677) 評論(1) 編輯收藏引用所屬分類: 可愛的python

只有注冊用戶登錄后才能發表評論。
【推薦】100%開源！大型工業跨平臺軟件C++源碼提供，建模，組態！

相關文章: turbogear2上傳文件功能關于PIL庫的一些概念 python的默認參數 Google Translate API json的編碼和解析 python多線程 python編碼轉換 Python yield 用法 python enumerate用法 python之Queue

網站導航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

sunrise

常用鏈接

留言簿(12)

隨筆分類(63)

隨筆檔案(64)

收藏夾

ACMer

技術聯盟

可愛的python

數據挖掘

算法之道

友情鏈接

最新隨筆

搜索

積分與排名

最新隨筆

最新評論

閱讀排行榜

評論排行榜

評論