純真IP數(shù)據(jù)庫格式詳解(zt)

轉(zhuǎn)自http://lumaqq.linuxsir.org/article/qqwry_format_detail.html

純真IP數(shù)據(jù)庫格式詳解

摘要
網(wǎng)絡(luò)上的IP數(shù)據(jù)庫以純真版的最為流行，LumaQQ也采用了純真版IP數(shù)據(jù)庫做為IP查詢功能的基礎(chǔ)。不過關(guān)于其格式的文檔卻非常之少，后來終于在網(wǎng)上找到了一份文檔，得以了解其內(nèi)幕，不過那份文檔寥寥數(shù)語，也是頗為耐心才讀明白。在這里我重寫一份，以此做為LumaQQ開發(fā)者文檔的一部分，我想還是必要的。本文詳細介紹了純真IP數(shù)據(jù)庫的格式，并且給出了一些Demo以供參考。
Luma, 清華大學(xué)
修改日期： 2005/01/14

Note: 在此感謝純真IP數(shù)據(jù)庫作者金狐和那唯一一份文檔的作者。
修改歷史:
2005-01-14 修改了原來一些表達不清和錯誤的地方

自從有了IP數(shù)據(jù)庫這種東西，QQ外掛的顯示IP功能也隨之而生，本人見識頗窄，是否還有其他應(yīng)用不得而知，不過，IP數(shù)據(jù)庫確實是個不錯的東西。如今網(wǎng)絡(luò)上最流行的IP數(shù)據(jù)庫我想應(yīng)該是純真版的（說錯了也不要扁我），迄今為止其IP記錄條數(shù)已經(jīng)接近30000，對于有些IP甚至能精確到樓層，不亦快哉。2004年4、5月間，正逢LumaQQ破土動工，為了加上這個人人都喜歡，但是好像人人都不知道為什么喜歡的顯IP功能，我也采用了純真版IP數(shù) 據(jù)庫，它的優(yōu)點是記錄多，查詢速度快，它只用一個文件QQWry.dat就包含了所有記錄，方便嵌入到其他程序中，也方便升級。

基本結(jié)構(gòu)

QQWry.dat文件在結(jié)構(gòu)上分為3塊：文件頭，記錄區(qū)，索引區(qū)。一般我們要查找IP時，先在索引區(qū)查找記錄偏移，然后再到記錄區(qū)讀出信息。由于記錄區(qū)的記錄是不定長的，所以直接在記錄區(qū)中搜索是不可能的。由于記錄數(shù)比較多，如果我們遍歷索引區(qū)也會是有點慢的，一般來說，我們可以用二分查找法搜索索引區(qū)，其速度比遍歷索引區(qū)快若干數(shù)量級。圖1是QQWry.dat的文件結(jié)構(gòu)圖。

圖1. QQWry.dat文件結(jié)構(gòu)

要注意的是，QQWry.dat里面全部采用了little-endian字節(jié)序

一. 了解文件頭

QQWry.dat的文件頭只有8個字節(jié)，其結(jié)構(gòu)非常簡單，首四個字節(jié)是第一條索引的絕對偏移，后四個字節(jié)是最后一條索引的絕對偏移。

二. 了解記錄區(qū)

每條IP記錄都由國家和地區(qū)名組成，國家地區(qū)在這里并不是太確切，因為可能會查出來“清華大學(xué)計算機系”之類的，這里清華大學(xué)就成了國家名了，所以這個國家地區(qū)名和IP數(shù)據(jù)庫制作的時候有關(guān)系。所以記錄的格式有點像QName，有一個全局部分和局部部分組成，我們這里還是沿用國家名和地區(qū)名的說法。

于是我們想象著一條記錄的格式應(yīng)該是: [IP地址][國家名][地區(qū)名]，當(dāng)然，這個沒有什么問題，但是這只是最簡單的情況。很顯然，國家名和地區(qū)名可能會有很多的重復(fù)，如果每條記錄都保存一個完整的名稱拷貝是非常不理想的，所以我們就需要重定向以節(jié)省空間。所以為了得到一個國家名或者地區(qū)名，我們就有了兩個可能：第一就是直接的字符串表示的國家名，第二就是一個4字節(jié)的結(jié)構(gòu)，第一個字節(jié)表明了重定向的模式，后面3個字節(jié)是國家名或者地區(qū)名的實際偏移位置。對于國家名來說，情況還可能更復(fù)雜些，因為這樣的重定向最多可能有兩次。

那么什么是重定向模式？根據(jù)上面所說，一條記錄的格式是[IP地址][國家記錄][地區(qū)記錄]，如果國家記錄是重定向的話，那么地區(qū)記錄是有可能沒有的，于是就有了兩種情況，我管他叫做模式1和模式2。我們對這些格式的情況舉圖說明：

圖2. IP記錄的最簡單形式

圖2表示了最簡單的IP記錄格式，我想沒有什么可以解釋的

圖3. 重定向模式1

圖3演示了重定向模式1的情況。我們看到在模式1的情況下，地區(qū)記錄也跟著國家記錄走了，在IP地址之后只剩下了國家記錄的4字節(jié)，后面3個字節(jié)構(gòu)成了一個指針，指向了實際的國家名，然后又跟著地址名。模式1的標(biāo)識字節(jié)是0x01。

圖4. 重定向模式2

圖4演示了重定向模式2的情況。我們看到了在模式2的情況下（其標(biāo)識字節(jié)是0x02），地區(qū)記錄沒有跟著國家記錄走，因此在國家記錄之后4個字節(jié)之后還是有地區(qū)記錄。我想你已經(jīng)明白了模式1和模式2的區(qū)別，即：模式1的國家記錄后面不會再有地區(qū)記錄，模式2的國家記錄后會有地區(qū)記錄。下面我們來看一下更復(fù)雜的情況。

圖5. 混和情況1

圖5演示了當(dāng)國家記錄為模式1的時候可能出現(xiàn)的更復(fù)雜情況，在這種情況下，重定向指向的位置仍然是個重定向，不過第二次重定向為模式2。大家不用擔(dān) 心，沒有模式3了，這個重定向也最多只有兩次，并且如果發(fā)生了第二次重定向，則其一定為模式2，而且這種情況只會發(fā)生在國家記錄上，對于地區(qū)記錄，模式1 和模式2是一樣的，地區(qū)記錄也不會發(fā)生2次重定向。不過，這個圖還可以更復(fù)雜，如圖7：

圖6. 混和情況2

圖6是模式1下最復(fù)雜的混和情況，不過我想應(yīng)該也很好理解，只不過地區(qū)記錄也來重定向而已，有一點我要提醒你，如果重定向的地址是0，則表示未知的地區(qū)名。

所以我們總結(jié)如下：一條IP記錄由[IP地址][國家記錄][地區(qū)記錄]組成，對于國家記錄，可以有三種表示方式：字符串形式，重定向模式1和重定向模式2。對于地區(qū)記錄，可以有兩種表示方式：字符串形式和重定向，另外有一條規(guī)則：重定向模式1的國家記錄后不能跟地區(qū)記錄。按照這個總結(jié)，在這些方式中合理組合，就構(gòu)成了IP記錄的所有可能情況。

設(shè)計的理由

在我們繼續(xù)去了解索引區(qū)的結(jié)構(gòu)之前，我們先來了解一下為何記錄區(qū)的結(jié)構(gòu)要如此設(shè)計。我想你可能想到了答案：字符串重用。沒錯，在這種結(jié)構(gòu)下，對于一個國家名和地區(qū)名，我只需要保存其一次就可以了。我們舉例說明，為了表示方便，我們用小寫字母代表IP記錄，C表示國家名，A表示地區(qū)名：

有兩條記錄a(C1, A1), b(C2, A2)，如果C1 = C2, A1 = A2，那么我們就可以使用圖3顯示的結(jié)構(gòu)來實現(xiàn)重用
有三條記錄a(C1, A1), b(C2, A2), c(C3, A3)，如果C1 = C2, A2 = A3，現(xiàn)在我們想存儲記錄b，那么我們可以用圖6的結(jié)構(gòu)來實現(xiàn)重用
有兩條記錄a(C1, A1), b(C2, A2)，如果C1 = C2，現(xiàn)在我們想存儲記錄b，那么我們可以采用模式2表示C2，用字符串表示A2

你可以舉出更多的情況，你也會發(fā)現(xiàn)在這種結(jié)構(gòu)下，不同的字符串只需要存儲一次。

了解索引區(qū)

在"了解文件頭"部分，我們說明了文件頭實際上是兩個指針，分別指向了第一條索引和最后一條索引的絕對偏移。如圖8所示：

圖8. 文件頭指向索引區(qū)圖示

實在是很簡單，不是嗎？從文件頭你就可以定位到索引區(qū)，然后你就可以開始搜索IP了！每條索引長度為7個字節(jié)，前4個字節(jié)是起始IP地址，后三個字節(jié)就指向了IP記錄。這里有些概念需要說明一下，什么是起始IP，那么有沒有結(jié)束IP？假設(shè)有這么一條記錄：166.111.0.0 - 166.111.255.255，那么166.111.0.0就是起始IP，166.111.255.255就是結(jié)束IP，結(jié)束IP就是IP記錄中的那頭 4個字節(jié)，這下你應(yīng)該就清楚了吧。于是乎，每條索引配合一條記錄，構(gòu)成了一個IP范圍，如果你要查找166.111.138.138所在的位置，你就會發(fā) 現(xiàn)166.111.138.138落在了166.111.0.0 - 166.111.255.255 這個范圍內(nèi)，那么你就可以順著這條索引去讀取國家和地區(qū)名了。那么我們給出一個最詳細的圖解吧：

圖9. 文件詳細結(jié)構(gòu)

現(xiàn)在一切都清楚了是不是？也許還有一點你不清楚，QQWry.dat的版本信息存在哪里呢？答案是：最后一條IP記錄實際上就是版本信息，最后一條記錄顯示出來就是這樣：255.255.255.0 255.255.255.255 純真網(wǎng)絡(luò) 2004年6月25日IP數(shù)據(jù)。OK，到現(xiàn)在你應(yīng)該全部清楚了。

Demo

下一步：我給出一個讀取IP記錄的程序片斷，此片斷摘錄自LumaQQ源文件edu.tsinghua.lumaqq.IPSeeker.java，如果你有興趣，可以下載源代碼詳細看看。

 /**
  * 給定一個ip國家地區(qū)記錄的偏移，返回一個IPLocation結(jié)構(gòu)
  * @param offset 國家記錄的起始偏移
  * @return IPLocation對象
  */
 private IPLocation getIPLocation(long offset) {
  try {
   // 跳過4字節(jié)ip
   ipFile.seek(offset + 4);
   // 讀取第一個字節(jié)判斷是否標(biāo)志字節(jié)
   byte b = ipFile.readByte();
   if(b == REDIRECT_MODE_1) {
    // 讀取國家偏移
    long countryOffset = readLong3();
    // 跳轉(zhuǎn)至偏移處
    ipFile.seek(countryOffset);
    // 再檢查一次標(biāo)志字節(jié)，因為這個時候這個地方仍然可能是個重定向
    b = ipFile.readByte();
    if(b == REDIRECT_MODE_2) {
     loc.country = readString(readLong3());
     ipFile.seek(countryOffset + 4);
    } else
     loc.country = readString(countryOffset);
    // 讀取地區(qū)標(biāo)志
    loc.area = readArea(ipFile.getFilePointer());
   } else if(b == REDIRECT_MODE_2) {
    loc.country = readString(readLong3());
    loc.area = readArea(offset + 8);
   } else {
    loc.country = readString(ipFile.getFilePointer() - 1);
    loc.area = readArea(ipFile.getFilePointer());
   }
   return loc;
  } catch (IOException e) {
   return null;
  }
 } 

 /**
  * 從offset偏移開始解析后面的字節(jié)，讀出一個地區(qū)名
  * @param offset 地區(qū)記錄的起始偏移
  * @return 地區(qū)名字符串
  * @throws IOException 地區(qū)名字符串
  */
 private String readArea(long offset) throws IOException {
  ipFile.seek(offset);
  byte b = ipFile.readByte();
  if(b == REDIRECT_MODE_1 || b == REDIRECT_MODE_2) {
   long areaOffset = readLong3(offset + 1);
   if(areaOffset == 0)
    return LumaQQ.getString("unknown.area");
   else
    return readString(areaOffset);
  } else
   return readString(offset);
 }

 /**
  * 從offset位置讀取3個字節(jié)為一個long，因為java為big-endian格式，所以沒辦法
  * 用了這么一個函數(shù)來做轉(zhuǎn)換
  * @param offset 整數(shù)的起始偏移
  * @return 讀取的long值，返回-1表示讀取文件失敗
  */
 private long readLong3(long offset) {
  long ret = 0;
  try {
   ipFile.seek(offset);
   ipFile.readFully(b3);
   ret |= (b3[0] & 0xFF);
   ret |= ((b3[1] << 8) & 0xFF00);
   ret |= ((b3[2] << 16) & 0xFF0000);
   return ret;
  } catch (IOException e) {
   return -1;
  }
 } 
 
 /**
  * 從當(dāng)前位置讀取3個字節(jié)轉(zhuǎn)換成long
  * @return 讀取的long值，返回-1表示讀取文件失敗
  */
 private long readLong3() {
  long ret = 0;
  try {
   ipFile.readFully(b3);
   ret |= (b3[0] & 0xFF);
   ret |= ((b3[1] << 8) & 0xFF00);
   ret |= ((b3[2] << 16) & 0xFF0000);
   return ret;
  } catch (IOException e) {
   return -1;
  }
 }

 /**
  * 從offset偏移處讀取一個以0結(jié)束的字符串
  * @param offset 字符串起始偏移
  * @return 讀取的字符串，出錯返回空字符串
  */
 private String readString(long offset) {
  try {
   ipFile.seek(offset);
   int i;
   for(i = 0, buf[i] = ipFile.readByte(); buf[i] != 0; buf[++i] = ipFile.readByte());
   if(i != 0) 
       return Utils.getString(buf, 0, i, "GBK");
  } catch (IOException e) {   
      log.error(e.getMessage());
  }
  return "";
 }

代碼并不復(fù)雜，getIPLocation是主要方法，它檢查國家記錄格式，并針對字符串形式，模式1，模式2采用不同的代碼，readArea則相對簡單，因為只有字符串和重定向兩種情況需要處理。

總結(jié)

純真IP數(shù)據(jù)庫的結(jié)構(gòu)使得查找IP簡單迅速，不過你想要編輯它卻是比較麻煩的，我想應(yīng)該需要專門的工具來生成QQWry.dat文件，由于其文件格式的限制，你要直接添加IP記錄就不容易了。不過，能查到IP已經(jīng)很開心了，希望純真記錄越來越多～。

posted on 2008-07-20 13:46 eXile 閱讀(751) 評論(0) 編輯收藏引用所屬分類: 編程與設(shè)計

只有注冊用戶登錄后才能發(fā)表評論。
【推薦】100%開源！大型工業(yè)跨平臺軟件C++源碼提供，建模，組態(tài)！

相關(guān)文章: 說說C++智能指針(2): 標(biāo)準(zhǔn)庫中的智能指針說說C++智能指針(1): 關(guān)于shared_ptr TDD for GUI (Z)正則表達式30分鐘入門教程純真IP數(shù)據(jù)庫格式詳解(zt) 單元測試[zt] 設(shè)計Qt風(fēng)格的C++API (zt) 測試驅(qū)動開發(fā)（ＴＤＤ）的頓悟

網(wǎng)站導(dǎo)航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

eXile 的專欄