• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>

            eXile 的專欄

            純真IP數(shù)據(jù)庫(kù)格式詳解(zt)

            轉(zhuǎn)自http://lumaqq.linuxsir.org/article/qqwry_format_detail.html

            純真IP數(shù)據(jù)庫(kù)格式詳解

            摘要
            網(wǎng)絡(luò)上的IP數(shù)據(jù)庫(kù)以純真版的最為流行,LumaQQ也采用了純真版IP數(shù)據(jù)庫(kù)做為IP查詢功能的 基礎(chǔ)。不過(guò)關(guān)于其格式的文檔卻非常之少,后來(lái)終于在網(wǎng)上找到了一份文檔,得以了解其內(nèi)幕,不過(guò)那份文檔寥寥數(shù)語(yǔ),也是頗為耐心才讀明白。在這里我重寫(xiě)一 份,以此做為L(zhǎng)umaQQ開(kāi)發(fā)者文檔的一部分,我想還是必要的。本文詳細(xì)介紹了純真IP數(shù)據(jù)庫(kù)的格式,并且給出了一些Demo以供參考。

            Luma, 清華大學(xué)
            修改日期: 2005/01/14

            Note: 在此感謝純真IP數(shù)據(jù)庫(kù)作者金狐和那唯一一份文檔的作者。

            修改歷史:
            2005-01-14 修改了原來(lái)一些表達(dá)不清和錯(cuò)誤的地方

            自從有了IP數(shù)據(jù)庫(kù)這種東西,QQ外掛的顯示IP功能也隨之而生,本人見(jiàn)識(shí)頗窄,是否還有其他應(yīng)用不得而知,不過(guò),IP數(shù)據(jù)庫(kù)確實(shí)是個(gè)不錯(cuò)的東西。 如今網(wǎng)絡(luò)上最流行的IP數(shù)據(jù)庫(kù)我想應(yīng)該是純真版的(說(shuō)錯(cuò)了也不要扁我),迄今為止其IP記錄條數(shù)已經(jīng)接近30000,對(duì)于有些IP甚至能精確到樓層,不亦 快哉。2004年4、5月間,正逢LumaQQ破土動(dòng)工,為了加上這個(gè)人人都喜歡,但是好像人人都不知道為什么喜歡的顯IP功能,我也采用了純真版IP數(shù) 據(jù)庫(kù),它的優(yōu)點(diǎn)是記錄多,查詢速度快,它只用一個(gè)文件QQWry.dat就包含了所有記錄,方便嵌入到其他程序中,也方便升級(jí)。

            基本結(jié)構(gòu)

            QQWry.dat文件在結(jié)構(gòu)上分為3塊:文件頭,記錄區(qū),索引區(qū)。一般我們要查找IP時(shí),先在索引區(qū)查找記錄偏移,然后再到記錄區(qū)讀出信息。由于 記錄區(qū)的記錄是不定長(zhǎng)的,所以直接在記錄區(qū)中搜索是不可能的。由于記錄數(shù)比較多,如果我們遍歷索引區(qū)也會(huì)是有點(diǎn)慢的,一般來(lái)說(shuō),我們可以用二分查找法搜索 索引區(qū),其速度比遍歷索引區(qū)快若干數(shù)量級(jí)。圖1是QQWry.dat的文件結(jié)構(gòu)圖。



            圖1. QQWry.dat文件結(jié)構(gòu)

            要注意的是,QQWry.dat里面全部采用了little-endian字節(jié)序

            一. 了解文件頭

            QQWry.dat的文件頭只有8個(gè)字節(jié),其結(jié)構(gòu)非常簡(jiǎn)單,首四個(gè)字節(jié)是第一條索引的絕對(duì)偏移,后四個(gè)字節(jié)是最后一條索引的絕對(duì)偏移。

            二. 了解記錄區(qū)

            每條IP記錄都由國(guó)家和地區(qū)名組成,國(guó)家地區(qū)在這里并不是太確切,因?yàn)榭赡軙?huì)查出來(lái)“清華大學(xué)計(jì)算機(jī)系”之類的,這里清華大學(xué)就成了國(guó)家名了,所以 這個(gè)國(guó)家地區(qū)名和IP數(shù)據(jù)庫(kù)制作的時(shí)候有關(guān)系。所以記錄的格式有點(diǎn)像QName,有一個(gè)全局部分和局部部分組成,我們這里還是沿用國(guó)家名和地區(qū)名的說(shuō)法。

            于是我們想象著一條記錄的格式應(yīng)該是: [IP地址][國(guó)家名][地區(qū)名],當(dāng)然,這個(gè)沒(méi)有什么問(wèn)題,但是這只是最簡(jiǎn)單的情況。很顯然,國(guó)家名和地區(qū)名可能會(huì)有很多的重復(fù),如果每條記錄都保存一 個(gè)完整的名稱拷貝是非常不理想的,所以我們就需要重定向以節(jié)省空間。所以為了得到一個(gè)國(guó)家名或者地區(qū)名,我們就有了兩個(gè)可能:第一就是直接的字符串表示的 國(guó)家名,第二就是一個(gè)4字節(jié)的結(jié)構(gòu),第一個(gè)字節(jié)表明了重定向的模式,后面3個(gè)字節(jié)是國(guó)家名或者地區(qū)名的實(shí)際偏移位置。對(duì)于國(guó)家名來(lái)說(shuō),情況還可能更復(fù)雜 些,因?yàn)檫@樣的重定向最多可能有兩次。

            那么什么是重定向模式?根據(jù)上面所說(shuō),一條記錄的格式是[IP地址][國(guó)家記錄](méi)[地區(qū)記錄](méi),如果國(guó)家記錄是重定向的話,那么地區(qū)記錄是有可能沒(méi)有的,于是就有了兩種情況,我管他叫做模式1和模式2。我們對(duì)這些格式的情況舉圖說(shuō)明:



            圖2. IP記錄的最簡(jiǎn)單形式

            圖2表示了最簡(jiǎn)單的IP記錄格式,我想沒(méi)有什么可以解釋的



            圖3. 重定向模式1

            圖3演示了重定向模式1的情況。我們看到在模式1的情況下,地區(qū)記錄也跟著國(guó)家記錄走了,在IP地址之后只剩下了國(guó)家記錄的4字節(jié),后面3個(gè)字節(jié)構(gòu)成了一個(gè)指針,指向了實(shí)際的國(guó)家名,然后又跟著地址名。模式1的標(biāo)識(shí)字節(jié)是0x01。



            圖4. 重定向模式2

            圖4演示了重定向模式2的情況。我們看到了在模式2的情況下(其標(biāo)識(shí)字節(jié)是0x02),地區(qū)記錄沒(méi)有跟著國(guó)家記錄走,因此在國(guó)家記錄之后4個(gè)字節(jié)之 后還是有地區(qū)記錄。我想你已經(jīng)明白了模式1和模式2的區(qū)別,即:模式1的國(guó)家記錄后面不會(huì)再有地區(qū)記錄,模式2的國(guó)家記錄后會(huì)有地區(qū)記錄。下面我們來(lái)看一 下更復(fù)雜的情況。



            圖5. 混和情況1

            圖5演示了當(dāng)國(guó)家記錄為模式1的時(shí)候可能出現(xiàn)的更復(fù)雜情況,在這種情況下,重定向指向的位置仍然是個(gè)重定向,不過(guò)第二次重定向?yàn)槟J?。大家不用擔(dān) 心,沒(méi)有模式3了,這個(gè)重定向也最多只有兩次,并且如果發(fā)生了第二次重定向,則其一定為模式2,而且這種情況只會(huì)發(fā)生在國(guó)家記錄上,對(duì)于地區(qū)記錄,模式1 和模式2是一樣的,地區(qū)記錄也不會(huì)發(fā)生2次重定向。不過(guò),這個(gè)圖還可以更復(fù)雜,如圖7:



            圖6. 混和情況2

            圖6是模式1下最復(fù)雜的混和情況,不過(guò)我想應(yīng)該也很好理解,只不過(guò)地區(qū)記錄也來(lái)重定向而已,有一點(diǎn)我要提醒你,如果重定向的地址是0,則表示未知的地區(qū)名。

            所以我們總結(jié)如下:一條IP記錄由[IP地址][國(guó)家記錄](méi)[地區(qū)記錄](méi)組成,對(duì)于國(guó)家記錄,可以有三種表示方式:字符串形式,重定向模式1和重定 向模式2。對(duì)于地區(qū)記錄,可以有兩種表示方式:字符串形式和重定向,另外有一條規(guī)則:重定向模式1的國(guó)家記錄后不能跟地區(qū)記錄。按照這個(gè)總結(jié),在這些方式 中合理組合,就構(gòu)成了IP記錄的所有可能情況。

            設(shè)計(jì)的理由

            在我們繼續(xù)去了解索引區(qū)的結(jié)構(gòu)之前,我們先來(lái)了解一下為何記錄區(qū)的結(jié)構(gòu)要如此設(shè)計(jì)。我想你可能想到了答案:字符串重用。沒(méi)錯(cuò),在這種結(jié)構(gòu)下,對(duì)于一 個(gè)國(guó)家名和地區(qū)名,我只需要保存其一次就可以了。我們舉例說(shuō)明,為了表示方便,我們用小寫(xiě)字母代表IP記錄,C表示國(guó)家名,A表示地區(qū)名:

            1. 有兩條記錄a(C1, A1), b(C2, A2),如果C1 = C2, A1 = A2,那么我們就可以使用圖3顯示的結(jié)構(gòu)來(lái)實(shí)現(xiàn)重用
            2. 有三條記錄a(C1, A1), b(C2, A2), c(C3, A3),如果C1 = C2, A2 = A3,現(xiàn)在我們想存儲(chǔ)記錄b,那么我們可以用圖6的結(jié)構(gòu)來(lái)實(shí)現(xiàn)重用
            3. 有兩條記錄a(C1, A1), b(C2, A2),如果C1 = C2,現(xiàn)在我們想存儲(chǔ)記錄b,那么我們可以采用模式2表示C2,用字符串表示A2

            你可以舉出更多的情況,你也會(huì)發(fā)現(xiàn)在這種結(jié)構(gòu)下,不同的字符串只需要存儲(chǔ)一次。

            了解索引區(qū)

            在"了解文件頭"部分,我們說(shuō)明了文件頭實(shí)際上是兩個(gè)指針,分別指向了第一條索引和最后一條索引的絕對(duì)偏移。如圖8所示:



            圖8. 文件頭指向索引區(qū)圖示

            實(shí)在是很簡(jiǎn)單,不是嗎?從文件頭你就可以定位到索引區(qū),然后你就可以開(kāi)始搜索IP了!每條索引長(zhǎng)度為7個(gè)字節(jié),前4個(gè)字節(jié)是起始IP地址,后三個(gè)字 節(jié)就指向了IP記錄。這里有些概念需要說(shuō)明一下,什么是起始IP,那么有沒(méi)有結(jié)束IP? 假設(shè)有這么一條記錄:166.111.0.0 - 166.111.255.255,那么166.111.0.0就是起始IP,166.111.255.255就是結(jié)束IP,結(jié)束IP就是IP記錄中的那頭 4個(gè)字節(jié),這下你應(yīng)該就清楚了吧。于是乎,每條索引配合一條記錄,構(gòu)成了一個(gè)IP范圍,如果你要查找166.111.138.138所在的位置,你就會(huì)發(fā) 現(xiàn)166.111.138.138落在了166.111.0.0 - 166.111.255.255 這個(gè)范圍內(nèi),那么你就可以順著這條索引去讀取國(guó)家和地區(qū)名了。那么我們給出一個(gè)最詳細(xì)的圖解吧:



            圖9. 文件詳細(xì)結(jié)構(gòu)

            現(xiàn)在一切都清楚了是不是?也許還有一點(diǎn)你不清楚,QQWry.dat的版本信息存在哪里呢? 答案是:最后一條IP記錄實(shí)際上就是版本信息,最后一條記錄顯示出來(lái)就是這樣:255.255.255.0 255.255.255.255 純真網(wǎng)絡(luò) 2004年6月25日IP數(shù)據(jù)。OK,到現(xiàn)在你應(yīng)該全部清楚了。

            Demo

            下一步:我給出一個(gè)讀取IP記錄的程序片斷,此片斷摘錄自LumaQQ源文件edu.tsinghua.lumaqq.IPSeeker.java,如果你有興趣,可以下載源代碼詳細(xì)看看。

             /**
            * 給定一個(gè)ip國(guó)家地區(qū)記錄的偏移,返回一個(gè)IPLocation結(jié)構(gòu)
            * @param offset 國(guó)家記錄的起始偏移
            * @return IPLocation對(duì)象
            */
            private IPLocation getIPLocation(long offset) {
            try {
            // 跳過(guò)4字節(jié)ip
            ipFile.seek(offset + 4);
            // 讀取第一個(gè)字節(jié)判斷是否標(biāo)志字節(jié)
            byte b = ipFile.readByte();
            if(b == REDIRECT_MODE_1) {
            // 讀取國(guó)家偏移
            long countryOffset = readLong3();
            // 跳轉(zhuǎn)至偏移處
            ipFile.seek(countryOffset);
            // 再檢查一次標(biāo)志字節(jié),因?yàn)檫@個(gè)時(shí)候這個(gè)地方仍然可能是個(gè)重定向
            b = ipFile.readByte();
            if(b == REDIRECT_MODE_2) {
            loc.country = readString(readLong3());
            ipFile.seek(countryOffset + 4);
            } else
            loc.country = readString(countryOffset);
            // 讀取地區(qū)標(biāo)志
            loc.area = readArea(ipFile.getFilePointer());
            } else if(b == REDIRECT_MODE_2) {
            loc.country = readString(readLong3());
            loc.area = readArea(offset + 8);
            } else {
            loc.country = readString(ipFile.getFilePointer() - 1);
            loc.area = readArea(ipFile.getFilePointer());
            }
            return loc;
            } catch (IOException e) {
            return null;
            }
            }

            /**
            * 從offset偏移開(kāi)始解析后面的字節(jié),讀出一個(gè)地區(qū)名
            * @param offset 地區(qū)記錄的起始偏移
            * @return 地區(qū)名字符串
            * @throws IOException 地區(qū)名字符串
            */
            private String readArea(long offset) throws IOException {
            ipFile.seek(offset);
            byte b = ipFile.readByte();
            if(b == REDIRECT_MODE_1 || b == REDIRECT_MODE_2) {
            long areaOffset = readLong3(offset + 1);
            if(areaOffset == 0)
            return LumaQQ.getString("unknown.area");
            else
            return readString(areaOffset);
            } else
            return readString(offset);
            }

            /**
            * 從offset位置讀取3個(gè)字節(jié)為一個(gè)long,因?yàn)閖ava為big-endian格式,所以沒(méi)辦法
            * 用了這么一個(gè)函數(shù)來(lái)做轉(zhuǎn)換
            * @param offset 整數(shù)的起始偏移
            * @return 讀取的long值,返回-1表示讀取文件失敗
            */
            private long readLong3(long offset) {
            long ret = 0;
            try {
            ipFile.seek(offset);
            ipFile.readFully(b3);
            ret |= (b3[0] & 0xFF);
            ret |= ((b3[1] << 8) & 0xFF00);
            ret |= ((b3[2] << 16) & 0xFF0000);
            return ret;
            } catch (IOException e) {
            return -1;
            }
            }

            /**
            * 從當(dāng)前位置讀取3個(gè)字節(jié)轉(zhuǎn)換成long
            * @return 讀取的long值,返回-1表示讀取文件失敗
            */
            private long readLong3() {
            long ret = 0;
            try {
            ipFile.readFully(b3);
            ret |= (b3[0] & 0xFF);
            ret |= ((b3[1] << 8) & 0xFF00);
            ret |= ((b3[2] << 16) & 0xFF0000);
            return ret;
            } catch (IOException e) {
            return -1;
            }
            }

            /**
            * 從offset偏移處讀取一個(gè)以0結(jié)束的字符串
            * @param offset 字符串起始偏移
            * @return 讀取的字符串,出錯(cuò)返回空字符串
            */
            private String readString(long offset) {
            try {
            ipFile.seek(offset);
            int i;
            for(i = 0, buf[i] = ipFile.readByte(); buf[i] != 0; buf[++i] = ipFile.readByte());
            if(i != 0)
            return Utils.getString(buf, 0, i, "GBK");
            } catch (IOException e) {
            log.error(e.getMessage());
            }
            return "";
            }

            代碼并不復(fù)雜,getIPLocation是主要方法,它檢查國(guó)家記錄格式,并針對(duì)字符串形式,模式1,模式2采用不同的代碼,readArea則相對(duì)簡(jiǎn)單,因?yàn)橹挥凶址椭囟ㄏ騼煞N情況需要處理。

            總結(jié)

            純真IP數(shù)據(jù)庫(kù)的結(jié)構(gòu)使得查找IP簡(jiǎn)單迅速,不過(guò)你想要編輯它卻是比較麻煩的,我想應(yīng)該需要專門(mén)的工具來(lái)生成QQWry.dat文件,由于其文件格式的限制,你要直接添加IP記錄就不容易了。不過(guò),能查到IP已經(jīng)很開(kāi)心了,希望純真記錄越來(lái)越多~。

            posted on 2008-07-20 13:46 eXile 閱讀(735) 評(píng)論(0)  編輯 收藏 引用 所屬分類: 編程與設(shè)計(jì)

            導(dǎo)航

            <2008年5月>
            27282930123
            45678910
            11121314151617
            18192021222324
            25262728293031
            1234567

            統(tǒng)計(jì)

            常用鏈接

            留言簿(18)

            隨筆分類

            隨筆檔案

            服務(wù)器編程

            搜索

            最新評(píng)論

            閱讀排行榜

            評(píng)論排行榜

            久久亚洲精品人成综合网| 久久99热只有频精品8| 久久九九免费高清视频| 伊人久久综合无码成人网| 97久久久久人妻精品专区| 久久涩综合| 国产精品久久一区二区三区| 欧美久久亚洲精品| 久久被窝电影亚洲爽爽爽| 伊人久久无码精品中文字幕| 成人免费网站久久久| 波多野结衣久久一区二区| 免费精品99久久国产综合精品| 偷窥少妇久久久久久久久| 亚洲欧美日韩精品久久| 欧美午夜精品久久久久免费视| 久久影院午夜理论片无码| 97精品伊人久久大香线蕉app | 久久99精品久久久久子伦| 久久久久人妻一区精品 | 中文字幕成人精品久久不卡| 日韩欧美亚洲综合久久| 色综合合久久天天给综看| 99久久精品国产一区二区| 久久精品国产亚洲AV无码偷窥| 亚洲伊人久久成综合人影院| 久久se精品一区精品二区国产| 97久久天天综合色天天综合色hd | 精品少妇人妻av无码久久| 久久久高清免费视频| 久久久久无码国产精品不卡| 99热成人精品免费久久| 久久精品国产亚洲欧美| 久久精品国产99久久无毒不卡| 亚洲国产精品无码久久久不卡| 要久久爱在线免费观看| 亚洲国产高清精品线久久 | 办公室久久精品| 97精品国产97久久久久久免费| 亚洲狠狠久久综合一区77777| 热99re久久国超精品首页|