本文同步自
游戲人生
Writen by Fox(yulefox.at.gmail.com)
在具體討論之前,本文先厘清UUID(Universally Unique IDentifier)與GUID(Globally Unique IDentifier)的關系。
在分布式、網絡、單機環境下,為了能夠使用具有某種形式的ID唯一標識系統中的任一元素,這樣的ID可以不依賴中心認證自動生成,于是UUID就誕生了。
UUID標準的歷史沿革和具體實現在RFC 4122、ITU-T Rec. X.667和ISO/IEC 9834-8:2008中均有詳細描述。ITU和ISO采用的標準和RFC 4122都是在UUID的早期版本基礎上完成,各版本之間具有一致性和兼容性。
因為不能保證UUID的唯一性,ITU和ISO針對UUID的使用都有免責聲明。
GUID一般是指Microsoft對于UUID標準的實現,UUID的實現則多見于其他系統(*NIX、MAC OS等)中。在了解了這一區別后,本文將統一使用UUID來指代對應的原理、算法及實現。
文中關于UUID的討論全部基于RFC 4122和ITU-T Rec.
X.667以及OSF、IETF、ITU-T、ISO、FIPS的各種標準文檔。而UUID的細節(如結構、表示、算法、實現等)均以ITU-T
Rec. X667為唯一藍本,文中“本標準”即指代該藍本。
o 介紹
UUID是長度為16-byte(128-bit)的ID,一般以形如f81d4fae-7dec-11d0-a765-00a0c91e6bf6的字符串作為URN(Uniform Resource Name,統一資源名稱)。
o 動機
無須中心認證,自動生成,支持一臺機器每秒生成10M次(100納秒級,其隱含原因是指能夠區分的最小時間單位為100ns,將時間作為因子時,連續生成兩個UUID的時間至少要間隔100ns)。方便存取、分配、排序、查找。
o 結構
76543210765432107654321076543210
+ – - – = – - – = – - – = – - – +
15 | TimeLow | 12
11 | TimeMid | Version.. | 8
7 |Vari.. |Clock..| Node | 4
3 | Node | 0
+ – - – = – - – = – - – = – - – +
15 – 12: TimeLow 時間值的低位
11 – 10: TimeMid 時間值的中位
09 – 08: VersionAndTimeHigh 4位版本號和時間值的高位
07: VariantAndClockSeqHigh 2位變體(ITU-T)和時鐘序列高位
06: ClockSeqLow 時鐘序列低位
05 – 00: Node 結點
hexOctet = hexDigit hexDigit
hexDigit =
“0″ / “1″ / “2″ / “3″ / “4″ / “5″ / “6″ / “7″ / “8″ / “9″ /
“a” / “b” / “c” / “d” / “e” / “f” /
“A” / “B” / “C” / “D” / “E” / “F”
UUID =
TimeLow
“-” TimeMid
“-” VersionAndTimeHigh
“-” VariantAndClockSeqHigh ClockSeqLow
“-” Node
UUID由上述6個域構成,每個域編碼為若干字節,并以16進制數表示這128位的UUID,相鄰域以減號“-”分隔
(VariantAndClockSeqHigh和ClockSeqLow對應的兩個字節例外,如上所示)。該結構中包含版本(Version)、變體
(Variant)、時間(Time)、時鐘序列(Clock Sequence)、節點(Note)信息(以無符號整型值表示)。
o 合法性
除判斷variant位設置是否正確、基于時間生成的UUID時間值是否為未經分配的將來時間外,實際應用中沒有其他機制可以判定UUID是否合法。
o 變體
Variant位是UUID第7字節(VariantAndClockSeqHigh)的最高3位,
7 6 5 Description
0 – – NCS向后兼容
1 0 – 本標準
1 1 0 Microsoft向后兼容
1 1 1 ITU-T Rec. X.667保留
o 版本
UUID的生成有時間、名稱、隨機數三種策略,以第9字節(VersionAndTimeHigh)的最高4位表示。
目前UUID定義有5個版本:
7 6 5 4 Ver Description
0 0 0 1 1 基于時間的版本(本標準)
0 0 0 0 2 使用嵌入式POSIX(DCE安全版本)
0 0 1 1 3 使用MD5哈希的基于名稱的版本(本標準)
0 1 0 0 4 基于隨機數的版本(本標準)
0 1 0 1 5 使用SHA-1的基于名稱的版本(本標準)
o 時間
時間是一個60位的整型值(除4位版本號外的前8字節),對應UTC(格林尼治時間1582年10月15日午夜始)的100ns時間間隔計數。
對于ver 4和5,該值分別對應一個隨機數和一個全局唯一的名稱。
o 時鐘序列
對基于時間的UUID版本,時間序列用于避免因時間向后設置或節點值改變可能造成的UUID重復,對基于名稱或隨機數的版本同樣有用:目的都是為了防止UUID重復。
如果前一時鐘序列已知,通過自增實現時鐘序列值的改變;否則,通過密碼學(偽)隨機數設置新的時鐘序列值。
o 節點
對基于時間的UUID版本,節點由48位的單播MAC地址構成。對于沒有MAC地址的系統,節點值為一個密碼學(偽)隨機數(為防止與MAC地址發生碰撞,需設置多播位)。
o 基于時間的UUID生成算法
o 確定UTC時間(60位 Time)和時間序列值(14位 ClockSequence);
o 設置TimeLow(對應Time的31-0位);
o 設置TimeMid(對應Time的47-32位);
o 設置VersionAndTimeHigh(4位版本號及Time的59-48位);
o 設置VariantAndClockSeqHigh(變體位及對應ClockSequence的13-8位);
o 設置ClockSeqLow(對應ClockSequence的7-0位);
o 設置Node(對應48位MAC地址)。
o 基于名稱的UUID生成算法
o 針對相應的命名空間(如DNS、URL、OID等)分配一個UUID作為所有UUID的命名空間標識;
o 將名稱轉換為字節數列;
o 使用MD5或SHA-1算法對與名稱關聯的命名空間標識進行計算,產生16字節哈希結果;
o 設置TimeLow(對應哈希值的3-0字節);
o 設置TimeMid(對應哈希值的5-4字節);
o 設置VersionAndTimeHigh(對應哈希值的7-6字節),以相應版本號重寫對應位(第9字節的高4位);
o 設置VariantAndClockSeqHigh(對應哈希值的第8字節),重寫變體對應位(第7字節的高2位,本標準對應值為10);
o 設置ClockSeqLow(對應哈希值的第9字節);
o 設置Node(對應哈希值的15-10字節)。
由
于MD5碰撞問題,MD5只用于向后兼容的UUID生成,不再被推薦使用。由于SHA-1哈希結果為160位(20字節),本算法中,需要將FIPS
PUB 180-2中的SHA-1算法的哈希值字節順序反轉(字節內順序不變),UUID使用其15-0字節,19-16字節被丟棄。
o 基于隨機數的UUID生成算法
o 設置VariantAndClockSeqHigh的變體位值為10;
o 設置VersionAndTimeHigh的4位版本號;
o 設置剩余位為隨機值。
本文中討論的密碼學隨機數,主要根據系統可以提供的信息(內存、硬盤、句柄、程序運行的線程、進程、句柄、堆棧等),利用SHA-1等哈希算法得到。
其他關于密碼學隨機數的描述,我曾在這篇文章中簡單提到。
具體算法實現可以參考文檔和開源代碼。