PSP上的閱讀軟件我所知道的有bookr和XReader(沒用過)等,我比較喜歡bookr,不過bookr在閱讀很多pdf時,中文會顯示成亂碼,閱讀txt時,根本就無法顯示中文,
這確實很讓人不爽。
過年前閑著沒事,順便解決了bookr中文問題,本文記錄了那段時間的工作:如何從官方版bookr修改,解決pdf中文亂碼問題,支持txt中文、中文目錄顯示的問題,拋磚引玉和大家分享下整個的思路
和問題的解決方式,解決過程比較丑陋,希望高手多多指點。
貌似這里不能貼超過2M的附件,這里就不貼出修改后的bookr的發布文件了,在PSP2000測試通過,最近也一直在用,需要的同學可以email問我要。
注:已經上傳到csdn:http://download.csdn.net/source/2578241
內置了少量字體,大家可以自行擴展字體。
準備工作
1、搭建PSP開發環境。sourceforge上集成的安裝包,下載下來直接安裝即可,這里不多說了。
2、下載bookr源碼,我下載的是0.7.1版本。可以用SVN下載最新的,也可以在sourceForge下載打包的源碼包。
解決PDF中文問題
bookr的代碼結果很清晰,由于是用c++開發的,所以代碼很好理解,BKLayer 是基礎的顯示類,BKDocument是基礎的文檔處理類。
bookr支持pdf、txt、html和 PalmDoc(我沒用過這種),分別由從BKDocument的派生類來處理。
pdf是由BKPDF來處理的。解決pdf中文問題的關鍵就在BKPDF類了。
1、如何調試
PSP開發首先遇到的問題是調試,PSP并不能實時調試,這確實是個問題。好在Bookr源碼級支持了跨平臺,在windows下,使用Makefile.cygwin
就可以編譯一個windows版本
的Bookr了。一般來說,在windows下bookr運行正常,大致在PSP上的版本也是正常的,當然,在細節上其實是有差別的。另外,還可以通過日志來實現跟蹤。
2、解決字體問題
實際上,有些中文pdf用bookr打開時是正常的,比如Programming_In_Lua.pdf,但是在打開經常溫習的金庸全集的時候,就出現亂碼了。
注意到Bookr的pdf顯示其實是主要是mudpf來實現的。那么bookr中文顯示問題到底是bookr自身的還是mupdf的呢?
為了確認這個問題,先從sourceforge下載mupdf,建立一個vs2005的項目,編譯,OK,可以運行了,打開金庸全集一看,還是亂碼,這下基本可以確認,這個
問題是從mupdf就存在了。要定位中文顯示亂碼的問題,自然需要了解pdf的內部格式,從adobe的官網下載了最新的pdf手冊,打開一看,一共700多頁。。。
好在我們不需要從頭開始閱讀,只要挑關鍵的地方看就可以了,中文問題一般是因為字體引起的。
所以我們可以直接挑Text的字體相關部分看。
mupdf的字體加載在pdf_loadfont里,從pdf手冊可知,pdf支持了若干種字體,反正我是沒什么耐心看下去,直接打開金庸全集單步調試了下,
發現問題在TrueType字體的加載里,TrueType字體的加載是loadsimplefont來處理的,通過跟蹤可知,在獲取字體的FontDescriptor的時候失敗了,然后就是用內置的默認字體來處理了。
默認字體都不支持中文,所以自然就顯示成亂碼了。
最簡單的辦法就是只要是TrueType字體,不管具體是什么字體,都強制從硬盤加載一種指定字體(例如黑體),當然,這樣會導致我們看到的pdf和實際應該顯示的樣子有差別,只有一種字體了。
讓我們先這樣試試吧:在發現pdf_loadfontdescriptor
加載失敗后,強制用loadCustomFont
加載硬盤指定字體"font/simhei.ttf",這樣字體加載的問題貌似解決了。
編譯,運行,發現還是有問題,這次的問題在文字編碼了。
3、編碼問題
一般顯示不正常的中文pdf都是GBK編碼的,mupdf的顯示是通過如下兩個步驟來做的:
首先解碼,將文字內容全部轉化成cid,然后將要顯示的cid全部push到一個隊列,然后遍歷cid,將cid轉化成gid(對trueType就是轉成unicode),接著顯示。
mupdf本身有一個比較優雅的辦法來解碼,通過pdf_lookupcmap來得到unicode,我用了比較笨的辦法:自己暴力做GBK到unicode的轉換。
一般在windows和linux下都有庫或者API來完成編碼轉換問題。不過在PSP下卻沒有這樣的API,只好自己做一個編碼轉換了,
在http://unicode.org/Public/MAPPINGS/VENDORS/MICSFT/WINDOWS/CP936.TXT
找到了轉換表,復制粘貼到txt文本,用lua腳本處理下,生成一個.c文件,分別將GBK和unicode值存儲到2個數組里,
現在你一定知道怎么轉換了:二分查找到指定GBK值在GBK數組的下標,然后直接在unicode數組用這個下標,可以得到對應的unicode值。
編譯測試,OK了,終于能正常顯示中文了。
不過到現在為止,整個頁面只有一種字體,要解決這個問題,我們可以根據名字匹配來找到指定的字體,名字匹配不到的,使用默認的字體(我是用的simsun.ttf)。
txt中文問題
相對來說txt的中文問題比較好解決了,基本都是些常規開發,從FzFont.cpp代碼可知,txt顯示不了中文主要是字體加載的時候,只加載了前面的256個字形。那么我們只要做2件事情就可以顯示中文了:
1、文字解碼,現在大部分的txt電子書都是gbk編碼的,這樣比較省空間,解碼算法前面已經提過了。
2、中文文字紋理管理和效率問題。一般在PC游戲中,中文字體一般都是將多個連續的漢字按照存儲到一張64X64的紋理中,這樣可以節省顯存,降低渲染批次(3D菜鳥的簡單推測)。
不過如果在psp也這樣做,會發現顯示頁面是在太慢,最后發現,最簡單的辦法居然是每個漢字一個紋理,當然要實際用到的時候才生成該漢字紋理。
3、顯示頁分割。bookr閱讀txt的時候,會自己將電子書分割成若干頁面,并且支持書簽功能,因此,不可避免的涉及到頁面分割問題,引入中文顯示后,這里稍微有點不同,要注意不能拆分一個漢字,
當然,還有其他細節需要處理,這里不多說了。
目錄中文問題
必須承認,這是我遇到的最痛苦的問題了,原因是從API上就有問題了,讀取出來的目錄名居然是Shift-jis編碼的,誰讓PSP是索尼產的呢,我嘗試過將PSP的語言設置、時間等本地化設置改成中文、中國等。
發現讀取到的目錄名還是shift-jis編碼。我先將目錄名從shift-jis轉回gb2312,然后顯示,結果發現很多漢字丟失,因為從gb2312轉到shift-jis的時候已經失真了,轉回來顯示很多字體就顯示不了了。
看上去這個問題無法解決了,其實不然,PSP的API提供了打開記憶卡設備的功能,這樣,我們自己做一個FAT32驅動(叫驅動不合適,其實就是自己讀取FAT32文件系統管理文件)就可以了,FAT32的文檔
到處都是,linux下也有vfat文件系統的實現,不過我偷懶了,我直接從PMP Player的代碼里拷貝了FAT32相關文件,直接移植過來,修改了FzScreenPsp.cpp文件里目錄相關的目錄讀取函數,
然后修改目錄相關顯示代碼后,編碼顯示,一切終于解決了。。。
posted on 2010-07-26 21:41
feixuwu 閱讀(7008)
評論(5) 編輯 收藏 引用 所屬分類:
PSP開發