PSP上的閱讀軟件我所知道的有bookr和XReader(沒用過)等,我比較喜歡bookr,不過bookr在閱讀很多pdf時,中文會顯示成亂碼,閱讀txt時,根本就無法顯示中文,
這確實很讓人不爽。
過年前閑著沒事,順便解決了bookr中文問題,本文記錄了那段時間的工作:如何從官方版bookr修改,解決pdf中文亂碼問題,支持txt中文、中文目錄顯示的問題,拋磚引玉和大家分享下整個的思路
和問題的解決方式,解決過程比較丑陋,希望高手多多指點。
貌似這里不能貼超過2M的附件,這里就不貼出修改后的bookr的發(fā)布文件了,在PSP2000測試通過,最近也一直在用,需要的同學(xué)可以email問我要。
注:已經(jīng)上傳到csdn:http://download.csdn.net/source/2578241
內(nèi)置了少量字體,大家可以自行擴展字體。
準(zhǔn)備工作
1、搭建PSP開發(fā)環(huán)境。sourceforge上集成的安裝包,下載下來直接安裝即可,這里不多說了。
2、下載bookr源碼,我下載的是0.7.1版本。可以用SVN下載最新的,也可以在sourceForge下載打包的源碼包。
解決PDF中文問題
bookr的代碼結(jié)果很清晰,由于是用c++開發(fā)的,所以代碼很好理解,BKLayer 是基礎(chǔ)的顯示類,BKDocument是基礎(chǔ)的文檔處理類。
bookr支持pdf、txt、html和 PalmDoc(我沒用過這種),分別由從BKDocument的派生類來處理。
pdf是由BKPDF來處理的。解決pdf中文問題的關(guān)鍵就在BKPDF類了。
1、如何調(diào)試
PSP開發(fā)首先遇到的問題是調(diào)試,PSP并不能實時調(diào)試,這確實是個問題。好在Bookr源碼級支持了跨平臺,在windows下,使用Makefile.cygwin
就可以編譯一個windows版本
的Bookr了。一般來說,在windows下bookr運行正常,大致在PSP上的版本也是正常的,當(dāng)然,在細節(jié)上其實是有差別的。另外,還可以通過日志來實現(xiàn)跟蹤。
2、解決字體問題
實際上,有些中文pdf用bookr打開時是正常的,比如Programming_In_Lua.pdf,但是在打開經(jīng)常溫習(xí)的金庸全集的時候,就出現(xiàn)亂碼了。
注意到Bookr的pdf顯示其實是主要是mudpf來實現(xiàn)的。那么bookr中文顯示問題到底是bookr自身的還是mupdf的呢?
為了確認(rèn)這個問題,先從sourceforge下載mupdf,建立一個vs2005的項目,編譯,OK,可以運行了,打開金庸全集一看,還是亂碼,這下基本可以確認(rèn),這個
問題是從mupdf就存在了。要定位中文顯示亂碼的問題,自然需要了解pdf的內(nèi)部格式,從adobe的官網(wǎng)下載了最新的pdf手冊,打開一看,一共700多頁。。。
好在我們不需要從頭開始閱讀,只要挑關(guān)鍵的地方看就可以了,中文問題一般是因為字體引起的。
所以我們可以直接挑Text的字體相關(guān)部分看。
mupdf的字體加載在pdf_loadfont里,從pdf手冊可知,pdf支持了若干種字體,反正我是沒什么耐心看下去,直接打開金庸全集單步調(diào)試了下,
發(fā)現(xiàn)問題在TrueType字體的加載里,TrueType字體的加載是loadsimplefont來處理的,通過跟蹤可知,在獲取字體的FontDescriptor的時候失敗了,然后就是用內(nèi)置的默認(rèn)字體來處理了。
默認(rèn)字體都不支持中文,所以自然就顯示成亂碼了。
最簡單的辦法就是只要是TrueType字體,不管具體是什么字體,都強制從硬盤加載一種指定字體(例如黑體),當(dāng)然,這樣會導(dǎo)致我們看到的pdf和實際應(yīng)該顯示的樣子有差別,只有一種字體了。
讓我們先這樣試試吧:在發(fā)現(xiàn)pdf_loadfontdescriptor
加載失敗后,強制用loadCustomFont
加載硬盤指定字體"font/simhei.ttf",這樣字體加載的問題貌似解決了。
編譯,運行,發(fā)現(xiàn)還是有問題,這次的問題在文字編碼了。
3、編碼問題
一般顯示不正常的中文pdf都是GBK編碼的,mupdf的顯示是通過如下兩個步驟來做的:
首先解碼,將文字內(nèi)容全部轉(zhuǎn)化成cid,然后將要顯示的cid全部push到一個隊列,然后遍歷cid,將cid轉(zhuǎn)化成gid(對trueType就是轉(zhuǎn)成unicode),接著顯示。
mupdf本身有一個比較優(yōu)雅的辦法來解碼,通過pdf_lookupcmap來得到unicode,我用了比較笨的辦法:自己暴力做GBK到unicode的轉(zhuǎn)換。
一般在windows和linux下都有庫或者API來完成編碼轉(zhuǎn)換問題。不過在PSP下卻沒有這樣的API,只好自己做一個編碼轉(zhuǎn)換了,
在http://unicode.org/Public/MAPPINGS/VENDORS/MICSFT/WINDOWS/CP936.TXT
找到了轉(zhuǎn)換表,復(fù)制粘貼到txt文本,用lua腳本處理下,生成一個.c文件,分別將GBK和unicode值存儲到2個數(shù)組里,
現(xiàn)在你一定知道怎么轉(zhuǎn)換了:二分查找到指定GBK值在GBK數(shù)組的下標(biāo),然后直接在unicode數(shù)組用這個下標(biāo),可以得到對應(yīng)的unicode值。
編譯測試,OK了,終于能正常顯示中文了。
不過到現(xiàn)在為止,整個頁面只有一種字體,要解決這個問題,我們可以根據(jù)名字匹配來找到指定的字體,名字匹配不到的,使用默認(rèn)的字體(我是用的simsun.ttf)。
txt中文問題
相對來說txt的中文問題比較好解決了,基本都是些常規(guī)開發(fā),從FzFont.cpp代碼可知,txt顯示不了中文主要是字體加載的時候,只加載了前面的256個字形。那么我們只要做2件事情就可以顯示中文了:
1、文字解碼,現(xiàn)在大部分的txt電子書都是gbk編碼的,這樣比較省空間,解碼算法前面已經(jīng)提過了。
2、中文文字紋理管理和效率問題。一般在PC游戲中,中文字體一般都是將多個連續(xù)的漢字按照存儲到一張64X64的紋理中,這樣可以節(jié)省顯存,降低渲染批次(3D菜鳥的簡單推測)。
不過如果在psp也這樣做,會發(fā)現(xiàn)顯示頁面是在太慢,最后發(fā)現(xiàn),最簡單的辦法居然是每個漢字一個紋理,當(dāng)然要實際用到的時候才生成該漢字紋理。
3、顯示頁分割。bookr閱讀txt的時候,會自己將電子書分割成若干頁面,并且支持書簽功能,因此,不可避免的涉及到頁面分割問題,引入中文顯示后,這里稍微有點不同,要注意不能拆分一個漢字,
當(dāng)然,還有其他細節(jié)需要處理,這里不多說了。
目錄中文問題
必須承認(rèn),這是我遇到的最痛苦的問題了,原因是從API上就有問題了,讀取出來的目錄名居然是Shift-jis編碼的,誰讓PSP是索尼產(chǎn)的呢,我嘗試過將PSP的語言設(shè)置、時間等本地化設(shè)置改成中文、中國等。
發(fā)現(xiàn)讀取到的目錄名還是shift-jis編碼。我先將目錄名從shift-jis轉(zhuǎn)回gb2312,然后顯示,結(jié)果發(fā)現(xiàn)很多漢字丟失,因為從gb2312轉(zhuǎn)到shift-jis的時候已經(jīng)失真了,轉(zhuǎn)回來顯示很多字體就顯示不了了。
看上去這個問題無法解決了,其實不然,PSP的API提供了打開記憶卡設(shè)備的功能,這樣,我們自己做一個FAT32驅(qū)動(叫驅(qū)動不合適,其實就是自己讀取FAT32文件系統(tǒng)管理文件)就可以了,F(xiàn)AT32的文檔
到處都是,linux下也有vfat文件系統(tǒng)的實現(xiàn),不過我偷懶了,我直接從PMP Player的代碼里拷貝了FAT32相關(guān)文件,直接移植過來,修改了FzScreenPsp.cpp文件里目錄相關(guān)的目錄讀取函數(shù),
然后修改目錄相關(guān)顯示代碼后,編碼顯示,一切終于解決了。。。
posted on 2010-07-26 21:41
feixuwu 閱讀(7010)
評論(5) 編輯 收藏 引用 所屬分類:
PSP開發(fā)