URL 含中文路徑名稱的終極解法 - 利用 mod_fileiri 解決中文檔名問題
當然,對付中文檔名問題的最好的解決方法就是「絕對不要用中文檔名」,然而在許多不得已的狀況下,我們還是被迫要使用中文檔名,這時候問題就來了....
在 Web Server 上使用中文檔名最常遇到的問題就是會發生無法存取的錯誤
發生這種狀況最主要的原因就是在 URL 的定義當中,并沒有任何關于字符集(Charset)的信息。只有要求對于 URL 中的非 ASCII 符號,要用百分比符號的方式去編碼 (例如: %A4 )
舉個例子來說,對于下面這個含中文檔名的 URL
http://bbs.giga.net.tw/fileiri/中文.html
由于「中文」兩個字并非合法的 ASCII 字符,因此當你在瀏覽器的網址列輸入上面這串 URL 時,瀏覽器會把非 ASCII 字符部分轉換成 %HH 的形式輸出
(關于 URL 的編碼方式,可參閱 Non-ASCII characters in URI attribute values 一文的說明)
但是,URL 中的中文字到底要用 BIG5 還是用 UTF-8 字符集來表示并編碼呢?
在微軟的 IE 里面,工具→因特網選項→進階 有個選項「永遠將 URL 傳送成 UTF-8」
如果是英文版則是「Always send URLs as UTF-8」

這個選項打勾的時候(這也是大部分計算機內定的狀況),URL 中的中文字會被當成 Unicode,并用 UTF-8 編碼方式送出,因此 URL 會被瀏覽器偷偷轉成:
http://bbs.giga.net.tw/fileiri/%E4%B8%AD%E6%96%87.html
也就是說,「中文」這兩個字會被瀏覽器用 UTF-8 編碼成「%E4%B8%AD%E6%96%87」的型式后,再把這個編碼過的 URL 送去給服務器
大部分的中文字用 UTF-8 編碼會變成 3 個 bytes,所以「中文」兩字就變成上面這 6 個 bytes 的編碼「%E4%B8%AD%E6%96%87」
但如果前述的「永遠將 URL 傳送成 UTF-8」選項是沒有打勾的,那情況就不一樣了,
這時候 URL 中的中文字會以 BIG5 的形式編碼送出,URL 就會變成這樣:
http://bbs.giga.net.tw/fileiri/%A4%A4%A4%A5.html
每個中文字用 BIG5 編碼會變成 2 個 bytes,所以「中文」這兩個字就變成上面這 4 個 bytes 的編碼「%A4%A4%A4%A5」
這是在客戶端瀏覽器的亂象,不同的瀏覽器或甚至只是不同的設定,對同樣中文檔名所送出的 URL 編碼格式都可能會不一樣
那服務器收到這串 URL 要怎么處理呢?
如同前面所述,URL 網址本身并不含字符集(Charset)的信息,因此服務器當然也無法知道客戶端瀏覽器采用那個字符集來對 URL 中的中文文件名解釋、編碼
所以服務器的標準動作就變成「收到什么檔名就去讀什么檔案」
收到 UTF-8 編碼的 URL,就用這個 UTF-8 的文件名稱去 File System 找檔案,收到 BIG5 編碼的 URL,就用這個 BIG5 的文件名稱去 File System 找檔案
所以如果檔案系統中的文件名是采用 UTF-8 編碼,那用 BIG5 編碼的 URL 去找檔案就會找不到... 相反的,如果檔案系統中的文件名是采用 BIG5 編碼,那么用 UTF-8 編碼的 URL 也會找不到檔案!
尤其在 Apache/UNIX 的環境下,從 Windows 用 FTP 把檔案上傳時,中文文件名稱大多會使用 BIG5 的檔名格式上傳儲存
所以大多數這類的系統都會要求用戶不要在上述「永遠將 URL 傳送成 UTF-8」這個選項打勾,這樣存取 BIG5 的中文檔名就不會有問題了
不過,這種方式不是很友善,對于大多數的網友而言,要去改瀏覽器設定是很不方便的!
那有沒有辦法讓瀏覽器不用更改設定就可以完美解決呢?
其實是有的,那就是這篇文章要介紹的 mod_fileiri 這個 Apache module
mod_fileiri 的最主要功用就是讓服務器可以想辦法去判斷 URL 的編碼,然后幫忙做轉碼、轉址的動作,讓服務器可以同時處理 UTF-8 及其它字符集的 URL 編碼
以下是在 FreeBSD 下安裝及設定 mod_fileiri 的方法:
首先是從 CVS 中取得這個 module:
# fetch http://dev.w3.org/cvsweb/~checkout~/apache-modules/mod_fileiri/mod_fileiri.c
然后用 apxs 來編譯及安裝這個 module... (請用 root 身份執行)
# /usr/local/sbin/apxs -i -a -c mod_fileiri.c
/usr/local/share/apache2/build/libtool .....
/usr/local/share/apache2/build/libtool .....
/usr/local/share/apache2/build/libtool .....
cp .libs/mod_fileiri.so /usr/local/libexec/apache2/mod_fileiri.so
----------------------------------------------------------------------
Libraries have been installed in:
/usr/local/libexec/apache2
If you ever happen to want to link against installed libraries
in a given directory, LIBDIR, you must either use libtool, and
specify the full pathname of the library, or use the `-LLIBDIR'
flag during linking and do at least one of the following:
- add LIBDIR to the `LD_LIBRARY_PATH' environment variable
during execution
- add LIBDIR to the `LD_RUN_PATH' environment variable
during linking
- use the `-Wl,--rpath -Wl,LIBDIR' linker flag
See any operating system documentation about shared libraries for
more information, such as the ld(1) and ld.so(8) manual pages.
----------------------------------------------------------------------
grep: /usr/local/libexec/apache2/mod_fileiri.la: No such file or directory
grep: /usr/local/libexec/apache2/mod_fileiri.la: No such file or directory
Warning! dlname not found in /usr/local/libexec/apache2/mod_fileiri.la.
Assuming installing a .so rather than a libtool archive.
chmod 755 /usr/local/libexec/apache2/mod_fileiri.so
[activating module `fileiri' in /usr/local/etc/apache2/httpd.conf]
apxs 不但會產生 mod_fileiri.so 并把它復制到 /usr/local/libexec/apache2/ 下面,
甚至還會幫你把 httpd.conf 的設定改好喔!
然后你只要重新啟動 Apache 就完成了,簡單吧!
# /usr/local/etc/rc.d/apache2.sh restart
接下來就要開始設定 mod_fileiri 的工作了...
mod_fileiri 有三個 directives 可用,分別是 FileIRI、FilenameCharset、OldFilenameCharset,位置可以放在 Server Config / Directory / Virtual Host 里面,甚至 .htaccess 里面也可..
FileIRI 有四個選項: Off、On、Backwards、Only
Off 就不用說了,設定成 Off 等于是沒有設定的狀況
On 則是指檔案系統上面的目錄或文件名稱使用的是比較舊的編碼方式(Legacy Encoding),例如 BIG5,然后提供檔案給所有采用 UTF-8 編碼過的 URL,同時,如果 mod_fileiri 發現 URL 并不是采用 UTF-8 編碼,就會對該 URL 做一個 HTTP/1.0 301 Moved Permanently,把它 redirect 到 UTF-8 型式的 URL
如果以前述的例子來看,設定應該是這樣的 (我習慣直接設在目錄的 .htaccess 下面)
<IfModule mod_fileiri.c>
FileIRI On
FilenameCharset Big5
</IfModule>
這樣設定之后,我們用 wget 來測試一下:
# wget -S -O /dev/null http://bbs.giga.net.tw/fileiri/中文.html
--10:29:34-- http://bbs.giga.net.tw/fileiri/%A4%A4%A4%E5.html
=> `/dev/null'
Resolving bbs.giga.net.tw... 203.187.29.180
Connecting to bbs.giga.net.tw|203.187.29.180|:80... connected.
HTTP request sent, awaiting response...
HTTP/1.0 301 Moved Permanently
Date: Thu, 08 Sep 2005 02:29:37 GMT
Server: Apache/2.0.54 (FreeBSD) PHP/5.0.4
Location: http://bbs.giga.net.tw/fileiri/%e4%b8%ad%e6%96%87.html
Content-Length: 354
Content-Type: text/html; charset=iso-8859-1
X-Cache: MISS from WebAmpRP@GIGAMEDIA
Connection: keep-alive
Location: http://bbs.giga.net.tw/fileiri/%e4%b8%ad%e6%96%87.html [following]
--10:29:34-- http://bbs.giga.net.tw/fileiri/%e4%b8%ad%e6%96%87.html
=> `/dev/null'
Reusing existing connection to bbs.giga.net.tw:80.
HTTP request sent, awaiting response...
HTTP/1.0 200 OK
Date: Wed, 07 Sep 2005 12:36:30 GMT
Server: Apache/2.0.54 (FreeBSD) PHP/5.0.4
Last-Modified: Wed, 07 Sep 2005 12:31:33 GMT
ETag: "30bd3-14-b986f340;bc359880"
Accept-Ranges: bytes
Content-Length: 20
Content-Type: text/html
Age: 451
X-Cache: HIT from WebAmpRP@GIGAMEDIA
Connection: keep-alive
Length: 20 [text/html]
100%[====================================>] 20
10:29:34 (1.59 MB/s) - `/dev/null' saved [20/20]
從上面可以看到,原本用 BIG5 編碼的 URL,被 redirect 成 UTF-8 型式的 URL,然后就可以正確取得檔案,而這個檔案「中文.html」在檔案系統上是用 BIG5 型式命名的
因此,利用 FileIRI On 就可以順利解決大部分的中文檔名問題了!
那如果你的文件名稱是采用 UTF-8 命名的呢?這時候你就需要使用 Backwards 這個選項,例如:
<IfModule mod_fileiri.c>
FileIRI Backwards
OldFilenameCharset Big5
</IfModule>
上述設定的意思是說,所有檔案系統上的檔案都是用 UTF-8 命名,但是對于不是使用 UTF-8 編碼方式的 URL,就會把它 redirect 到 UTF-8 的版本,一樣可以提供服務
FileIRI 還有另外一個選項 Only,這個選項則是設定只提供服務給 UTF-8 編碼過的 URL,而檔案系統上的檔案則是使用 Legacy Encoding。這個方式較不常用,就不多作介紹了
各種設定組合產生的效果可以參考 mod_fileiri 原始網站上面的說明:
http://www.w3.org/2003/06/mod_fileiri/
關于 URL 的字符集編碼問題,可以參考下面這篇更詳細的說明:
An Introduction to Multilingual Web Addresses - Handling the path