久久久久久网,欧美一区二区三区男人的天堂,亚洲欧美卡通另类91av

TDD for GUI

eXile — Mon, 22 Jun 2009 05:15:00 GMT

摘要: 如何对GUI应用�q�行单元��试和TDD�?nbsp; 阅读全文

eXile 2009-06-22 13:15 发表评论

(Z)正则表达�?0分钟入门教程

eXile — Thu, 15 Jan 2009 06:58:00 GMT

正则表达�?0分钟入门教程

版本�Q�v2.3 (2008-4-13) 作者：deerchao 转蝲��h��?a >来源

本文目标

30分钟内让你明白正则表辑ּ�是什么，�q�对它有一些基本的了解�Q�让你可以在自己的程序或�|�页里��用它�?/p>

如何使用本教�E?/h2>

最重要的是——请�l�我30分钟�Q�如果你没有使用正则表达式的�l�验�Q�请不要试图�?0�U?/em>内入门——除非你是超�?:)

别被下面那些复杂的表辑ּ�吓倒，只要跟着我一步一步来�Q�你会发现正则表辑ּ�其实�q?span lang="zh-cn">没有你想�? 中的那么困难。当�Ӟ��如果你看完了�q�篇教程之后�Q�发现自己明白了很多�Q�却又几乎什么都��C��得，那也是很正常的——我认�ؓ�Q�没接触�q�正则表辑ּ�的�h在看完这 ��教�E�后�Q�能把提到过的语法记�?0%以上的可能性�ؓ零。这里只是让你明白基本的原理�Q�以后你�q�需要多�l�习�Q�多使用�Q�才能熟�l�掌握正则表辑ּ��?/p>
除了作�ؓ入门教程之外�Q�本文还试图成�ؓ可以在日常工作中使用的正则表辑ּ�语法参考手册。就作者本人的�l�历来说�Q�这个目标还是完成得不错的——你看，我自�׃��没能把所有的东西��C��来，不是吗？

清除格式文本格式�U�定�Q?span class="name">专业术语元字�W?语法格式正则表达�?/span> 正则表达式中的一部分(用于分析) 对其�q�行匚w��的源字符�?/span> �Ҏ��则表辑ּ�或其中一部分的说�?/span>

隐藏�Ҏ�� 本文双��有一些注释，主要是用来提供一些相关信息，或者给没有�E�序员背景的读者解释一些基本概念，通常可以忽略�?/p>
正则表达式到底是什么东西？

字符是计��机软�g处理文字时最基本的单位，可能是字母，数字�Q�标点符��P��I�格�Q�换行符�Q�汉字等�{��?span class="name">字符�?/span>�?个或更多个字�W�的序列�?span class="name">文本也就是文字，字符丌Ӏ�说某个字符�?span class="name">匚w��某个正则表达式，通常是指�q�个字符串里有一部分�Q�或几部分分别）能满��辑ּ��l�出的条件�?/p>
在编写处理字�W�串的程序或�|�页�Ӟ��l�常会有查找�W�合某些复杂规则的字�W�串的需要�?span class="name">正则表达�?/span>��是用于描述�q�些规则的工兗��换句话��_��正则表达式就是记录文本规则的代码�?/p>
很可能你使用�q�Windows/Dos下用于文件查扄��通配�W?wildcard)�Q�也��是*�?span class="code">?。如果你��x��找某个目录下的所有的Word文档的话�Q�你会搜�?span style="color: red;">*.doc。在�q�里�Q?span class="code">*会被解释成�Q意的字符丌Ӏ�和通配�W�类��|��正则表达式也是用来进行文本匹配的工具�Q�只不过比�v通配�W�，它能更精��地描述你的需求——当�Ӟ��代�h��是更复杂——比如你可以�~�写一个正则表辑ּ��Q�用来查�?span class="desc">所有以0开��_��后面跟着2-3个数字，然后是一个连字号“-”�Q�最后是7�?位数字的字符�?/span>(�?span class="string">010-12345678�?span class="string">0376-7654321)�?/p>
入门

学习正则表达式的最好方法是从例子开始，理解例子之后再自己对例子�q�行修改�Q�实验。下面给��Z��不少��单的例子�Q��ƈ对它们作了详�l�的说明�?/p>
假设你在一��英文小说里查找hi�Q�你可以使用正则表达�?span class="regex">hi�?/p>
�q�几乎是最��单的正则表达式了�Q�它可以�_��匚w��q�样的字�W�串�Q?span class="desc">�׃��个字�W�组成，前一个字�W�是h,后一个是i。通常�Q�处理正则表辑ּ�的工具会提供一个忽略大��写的选项�Q�如果选中了这个选项�Q�它可以匚w��hi,HI,Hi,hI�q�四�U�情况中的�Q意一�U��?/p>
不幸的是�Q�很多单词里包含hi�q�两个连�l�的字符�Q�比�?span class="string">him,history,high�{�等。用hi来查扄��话，�q�里边的hi也会被找出来。如果要�_��地查找hi�q�个单词的话�Q�我们应该��?span class="regex">\bhi\b�?/p>
\b是正则表辑ּ�规定的一个特�D�代码（好吧�Q�某些�h叫它元字�W�，metacharacter�Q�，代表着单词的开头或�l�尾�Q�也��是单词的分界处。虽焉��常英文的单词是��q��|��标点�W�号或者换行来分隔的，但是\b�q�不匚w��q�些单词分隔字符中的��M��一个，�?strong>只匹配一个位�|?/strong>�?/p>
如果需要更�_��的说法，\b匚w��q�样的位�|�：它的前一个字�W�和后一个字�W�不全是(一个是,一个不是或不存�?\w�?/p>
假如你要扄��?span class="desc">hi后面不远处跟着一个Lucy�Q�你应该�?span class="regex">\bhi\b.*\bLucy\b�?/p>
�q�里�Q?span class="part">.是另一个元字符�Q�匹�?span class="desc">除了换行�W�以外的��L��字符�?span class="part">*同样是元字符�Q�不�q�它代表的不是字�W�，也不是位�|�，而是数量——它指定*前边的内容可以连�l�重复出��C�Q意次以��整个表达式得到匹�?/span>。因此，.*�q�在一起就意味着��L��数量的不包含换行的字�W?/span>。现�?span class="regex">\bhi\b.*\bLucy\b的意思就很明显了�Q?span class="desc">先是一个单词hi,然后是�Q意个��L��字符(但不能是换行)�Q�最后是Lucy�q�个单词�?/p>
换行�W�就�?\n',ASCII�~�码�?0(十六�q�制0x0A)的字�W��?/p>
如果同时使用其它元字�W�，我们��p��构造出功能更强大的正则表达式。比如下面这个例子：

0\d\d-\d\d\d\d\d\d\d\d匚w��q�样的字�W�串�Q?span class="desc">�?开��_��然后是两个数字，然后是一个连字号“-”�Q�最后是8个数�?/span>(也就是中国的电话��L��。当�Ӟ��q�个例子只能匚w��区号�?位的情�Ş)�?/p>
�q�里�?span class="part">\d是个新的元字�W�，匚w��一位数�?0�Q�或1�Q�或2�Q�或……)�?span class="part">-不是元字�W�，只匹配它本��n——连字符或者减受��?/p>
��Z��避免那么多烦人的重复�Q�我们也可以�q�样写这个表辑ּ��Q?span class="regex">0\d{2}-\d{8}�?�q�里\d后面�?span class="part">{2}({8})的意思是前面\d必须�q�箋重复匚w��2��?8��?�?/p>
��试正则表达�?/h2>

其它可用的测试工�?

RegexBuddy

Javascript正则表达式在�U�测试工�?/font>

如果你不觉得正则表达式很难读写的话，要么你是一个天才，要么�Q�你不是地球人。正则表辑ּ�的语法很令�h头疼�Q�即使对�l�常使用它的人来说也是如此。由于难于读写，�Ҏ��出错�Q�所以找一�U�工具对正则表达式进行测试是很有必要的�?/p>
�׃��在不同的环境下正则表辑ּ�的一些细节是不相同的�Q�本教程介绍的是微��Y .Net Framework 2.0下正则表辑ּ�的行为，所以，我向你介�l�一�?Net下的工具Regex Tester。首先你��保已经安装�?a title="转到下蝲.Net Framework 2.0的页�?>.Net Framework 2.0�Q�然�?a title="从www.unibetter.com下蝲Regex Tester, 75KB">下蝲Regex Tester。这是个�l�色软�g�Q�下载完后打开压羃�?直接�q�行RegexTester.exe��可以了�?/p>
下面是Regex Tester�q�行时的截图�Q?/p>

元字�W?/h2>
现在你已�l�知道几个很有用的元字符了，�?span class="code">\b,.,*�Q�还�?span class="code">\d.正则表达式里�q�有更多的元字符�Q�比�?span class="code">\s匚w��L��的空白符�Q�包括空��|��制表�W?Tab)�Q�换行符�Q�中文全角空格等�?span class="code">\w匚w��字母或数字或下划�U�或汉字�{?/span>�?/p>
对中�?汉字的特�D�处理是�?Net提供的正则表辑ּ�引擎支持的，其它环境下的具体情况��h��看相��x��档�?/p>
下面来看看更多的例子�Q?/p>
\ba\w*\b匚w��以字�?span class="part">a开头的单词——先是某个单词开始处(\b)�Q�然后是字母a,然后是�Q意数量的字母或数�?\w*)�Q�最后是单词�l�束�?\b)�?/p>
好吧�Q�现在我们说说正则表辑ּ�里的单词是什么意思吧�Q�就是多于一个的�q�箋�?span class="code">\w。不错，�q�与学习英文时要背的成千上万个同名的东西的确关系不大 :)

\d+匚w��1个或更多�q�箋的数�?/span>。这里的+是和*�c�M��的元字符�Q�不同的�?span class="code">*匚w��重复��L��?可能�?��?�Q��?span class="code">+则匹�?span class="desc">重复1�ơ或更多��?/span>�?/p>
\b\w{6}\b 匚w��刚好6个字�?数字的单�?/span>�?/p>
�?.常用的元字符

代码说明

. 匚w��除换行符以外的�Q意字�W?/span>

\w 匚w��字母或数字或下划�U�或汉字

\s 匚w��L��的空白符

\d 匚w��数字

\b 匚w��单词的开始或�l�束

^ 匚w��字符串的开�?/span>

$ 匚w��字符串的�l�束

元字�W?span class="code">^�Q�和数字6在同一个键位上的符��P��?span class="code">$都匹配一个位�|�，�q�和\b有点�c�M��?span class="code">^匚w��你要用来查找的字�W�串的开��_��$匚w��l�尾。这两个代码在验证输入的内容旉��常有用，比如一个网站如果要求你填写的QQ号必��Mؓ5位到12位数字时�Q�可以��用：^\d{5,12}$�?/p>
�q�里�?span class="part">{5,12}和前面介�l�过�?span class="part">{2}是类似的�Q�只不过{2}匚w��只能不多不少重复2��?/span>�Q?span class="part">{5,12}则是重复的次��C��能少�?�ơ，不能多于12��?/span>�Q�否则都不匹配�?/p>
因�ؓ使用�?span class="part">^�?span class="part">$�Q�所以输入的整个字符串都要用来和\d{5,12}来匹配，也就是说整个输入必须�?�?2个数�?/span>�Q�因此如果输入的QQ可��匚w��q�个正则表达式的话，那就�W�合要求了�?/p>
和忽略大��写的选项�c�M��Q�有些正则表辑ּ�处理工具�q�有一个处理多行的选项。如果选中了这个选项�Q?span class="code">^�?span class="code">$的意义就变成�?span class="desc">匚w��行的开始处和结束处�?/p>
字符转义

如果你想查找元字�W�本�w�的话，比如你查�?span class="desc">.,或�?span class="desc">*,��出��C��问题�Q�你没办法指定它们，因�ؓ它们会被解释成别的意思。这时你��得使用\来取消这些字�W�的�Ҏ��意义。因此，你应该��?span class="regex">\.�?span class="regex">\*。当�Ӟ��要查�?span class="desc">\本��n�Q�你也得�?span class="regex">\\.

例如�Q?span class="regex">unibetter\.com匚w��unibetter.com�Q?span class="regex">C:\\Windows匚w��C:\Windows�?/p>
重复

你已�l�看�q�了前面�?span class="code">*,+,{2},{5,12}�q�几个匹配重复的方式了。下面是正则表达式中所有的限定�W?指定数量的代码，例如*,{5,12}�{?�Q?/p>
�?.常用的限定符

代码/语法说明

* 重复零次或更多次

+ 重复一�ơ或更多��?/span>

? 重复零次或一��?/span>

{n} 重复n��?/span>

{n,} 重复n�ơ或更多��?/span>

{n,m} 重复n到m��?/span>

下面是一些��用重复的例子�Q?/p>
Windows\d+匚w��Windows后面�?个或更多数字

^\w+匚w��一行的�W�一个单�?或整个字�W�串的第一个单词，具体匚w��哪个意思得看选项讄��)

字符�c?/h2>
要想查找数字�Q�字母或数字�Q�空白是很简单的�Q�因为已�l�有了对应这些字�W�集合的元字�W�，但是如果你想匚w��没有预定义元字符的字�W�集�?比如元音字母a,e,i,o,u),应该怎么办？

很简单，你只需要在�Ҏ��号里列出它们��p��了，�?span class="regex">[aeiou]��匹�?span class="desc">��M��一个英文元韛_��?/span>�Q?span class="regex">[.?!]匚w��标点�W�号(.�?�?)�?/p>
我们也可以轻村֜�指定一个字�W?span class="name">范围�Q�像[0-9]代表的含意与\d��是完全一致的�Q?span class="desc">一位数�?/span>�Q�同�?span class="regex">[a-z0-9A-Z_]也完全等同于\w�Q�如果只考虑英文的话�Q��?/p>
下面是一个更复杂的表辑ּ��Q?span class="regex">\(?0\d{2}[) -]?\d{8}�?/p>
“(”�?#8220;)”也是元字�W�，后面�?a >分组�?/font>里会提到�Q�所以在�q�里需要��?a >转义�?/p>
�q�个表达式可以匹�?span class="desc">几种格式的电话号�?/span>�Q�像(010)88886666�Q�或022-22334455�Q�或02912345678�{�。我们对它进行一些分析吧�Q�首先是一个�{义字�W?span class="part">$,它能出现0�ơ或1��??),然后是一�?span class="part">0�Q�后面跟着2个数�?\d{2})�Q�然后是)�?span class="part">-�?span class="part">�I�格中的一个，它出�?�ơ或不出�??)�Q�最后是8个数�?\d{8})�?/p>
分枝条�g

不幸的是�Q�刚才那个表辑ּ�也能匚w��010)12345678�?span class="string">(022-87654321�q�样�?#8220;不正��?#8221;的格式。要解决�q�个问题�Q�我们需要用�?span class="name">分枝条�g。正则表辑ּ�里的分枝条�g指的是有几种规则�Q�如果满��_��中�Q意一�U�规则都应该当成匚w��Q�具体方法是�?span class="code">|把不同的规则分隔开。听不明白？没关�p�，看例子：

0\d{2}-\d{8}|0\d{3}-\d{7}�q�个表达式能匚w��两种以连字号分隔的电话号码：一�U�是三位区号�Q?位本地号(�?10-12345678)�Q�一�U�是4位区��P��7位本地号(0376-2233445)�?/p>
\(0\d{2}$[- ]?\d{8}|0\d{2}[- ]?\d{8}�q�个表达�?span class="desc">匚w��3位区��L��电话��L��Q�其中区号可以用��括��h��h��Q�也可以不用�Q�区号与本地号间可以用连字号或空格间隔，也可以没有间�?/span>。你可以试试用分枝条件把�q�个表达式扩展成也支�?位区��L��?/p>
\d{5}-\d{4}|\d{5}�q�个表达式用于匹配美国的邮政�~�码。美国邮�~�的规则�?位数字，或者用�q�字号间隔的9位数字。之所以要�l�出�q�个例子是因为它能说明一个问题：使用分枝条�g�Ӟ��要注意各个条件的��序。如果你把它�Ҏ��\d{5}|\d{5}-\d{4}的话�Q�那么就只会匚w��5位的邮编(以及9位邮�~�的�?�?。原因是匚w��分枝条�g�Ӟ��会从左到右地测试每个条�Ӟ��如果满��了某个分枝的话，��׃��会去再管其它的条件了�?/p>
分组

我们已经提到了怎么重复单个字符�Q�直接在字符后面加上限定�W�就行了�Q�；但如果想要重复多个字�W�又该怎么办？你可以用��括��h��指定子表辑ּ�(也叫�?span class="name">分组)�Q�然后你��可以指定这个子表达式的重复�ơ数了，你也可以对子表达式进行其它一些操�?后面会有介绍)�?/p>
(\d{1,3}\.){3}\d{1,3}是一�?span class="desc">��单的IP地址匚w��表达式。要理解�q�个表达式，��h��下列��序分析它：\d{1,3}匚w��1�?位的数字�Q?span class="part">(\d{1,3}\.){3}匚w��三位数字加上一个英文句�?�q�个整体也就是这�?span class="name">分组)重复3��?/span>�Q�最后再加上一个一��C��位的数字(\d{1,3})�?/p>
IP地址中每个数字都不能大于255�Q�大家千万不要被�?4》第三季的编剧给忽悠�?..

不幸的是�Q�它也将匚w��256.300.888.999�q�种不可能存在的IP地址。如果能使用��术比较的话�Q�或许能��单地解决�q�个问题�Q�但是正则表辑ּ�中�ƈ不提供关于数学的��M��功能�Q�所以只能��用冗长的分组�Q�选择�Q�字�W�类来描�q�C��个正��的IP地址�Q?span class="regex">((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)�?/p>
理解�q�个表达式的关键是理�?span class="part">2[0-4]\d|25[0-5]|[01]?\d\d?�Q�这里我��׃��l�说了，你自己应该能分析得出来它的意义�?/p>
反义

有时需要查找不属于某个能简单定义的字符�cȝ��字符。比如想查找除了数字以外�Q�其它�Q意字�W�都行的情况�Q�这旉��要用�?span class="name">反义�Q?/p>
�?.常用的反义代�?/caption>

代码/语法说明

\W 匚w��L��不是字母�Q�数字，下划�U�，汉字的字�W?/span>

\S 匚w��L��不是�I�白�W�的字符

\D 匚w��L��非数字的字符

\B 匚w��不是单词开头或�l�束的位�|?/span>

[^x] 匚w��除了x以外的�Q意字�W?/span>

[^aeiou] 匚w��除了aeiou�q�几个字母以外的��L��字符

例子�Q?span class="regex">\S+匚w��不包含空白符的字�W�串�?/p>
]+>匚w��用尖括号括�v来的以a开头的字符�?/span>�?/p>
后向引用

使用��括��h��定一个子表达式后�Q?strong>匚w��q�个子表辑ּ�的文�?/strong>(也就是此分组捕获的内�?可以在表辑ּ�或其它程序中作进一步的处理。默认情况下�Q�每个分�l�会自动拥有一�?span class="name">�l�号�Q�规则是�Q�从左向叻I��以分�l�的左括号�ؓ标志�Q�第一个出现的分组的组号�ؓ1�Q�第二个�?�Q�以此类推�?/p>
后向引用用于重复搜烦前面某个分组匚w��的文本。例如，\1代表分组1匚w��的文�?/span>。难以理解？��L��C�Z��Q?/p>
\b(\w+)\b\s+\1\b可以用来匚w��重复的单�?/span>�Q�像go go, 或�?span class="string">kitty kitty。这个表辑ּ�首先�?span class="desc">一个单�?/span>�Q�也��是单词开始处和结束处之间的多于一个的字母或数�?/span>(\b(\w+)\b)�Q�这个单词会被捕获到�~�号�?的分�l�中�Q�然后是1个或几个�I�白�W?/span>(\s+)�Q�最后是分组1中捕��L��内容�Q�也��是前面匚w��的那个单词）(\1)�?/p>
你也可以自己指定子表辑ּ��?span class="name">�l�名。要指定一个子表达式的�l�名�Q�请使用�q�样的语法：(?\w+)(或者把��括��h��?span class="code">'也行�Q?span class="code">(?'Word'\w+)),�q�样��把\w+的组名指定�ؓWord了。要反向引用�q�个分组捕获的内容，你可以��?span class="code">\k,所以上一个例子也可以写成�q�样�Q?span class="regex">\b(?\w+)\b\s+\k\b�?/p>
使用��括��L��时候，�q�有很多特定用途的语法。下面列��Z��最常用的一些：

�?.常用分组语法

分类代码/语法说明

捕获 (exp) 匚w��exp,�q�捕��h��本到自动命名的组�?/span>

(?exp) 匚w��exp,�q�捕��h��本到名称为name的组里，也可以写�??'name'exp)

(?:exp) 匚w��exp,不捕获匹配的文本�Q�也不给此分�l�分配组�?/span>

零宽断言 (?=exp) 匚w��exp前面的位�|?/span>

(?<=exp) 匚w��exp后面的位�|?/span>

(?!exp) 匚w��后面跟的不是exp的位�|?/span>

(? 匚w��前面不是exp的位�|?/span>

注释 (?#comment) �q�种�c�d��的分�l�不�Ҏ��则表辑ּ�的处理��生�Q何媄响，用于提供注释让�h阅读

我们已经讨论了前两种语法。第三个(?:exp)不会改变正则表达式的处理方式�Q�只是这��L��l�匹配的内容不会像前两种那样被捕获到某个�l�里面，也不会拥有组�?/span>�?/p>
零宽断言

地球人，是不是觉得这些术语名�U�太复杂�Q�太难记了？我也和你一栗��知道有�q�么一�U�东西就行了�Q�它叫什么，随它��d��Q?#8220;无名�Q�万物之�?..”

接下来的四个用于查找在某些内�?但�ƈ不包括这些内�?之前或之后的东西�Q�也��是说它们像\b,^,$那样用于指定一个位�|�，�q�个位置应该满��一定的条�g(��x��a�)�Q�因此它们也被称�?span class="name">零宽断言。最好还是拿例子来说明吧�Q?/p>
断言用来声明一个应该�ؓ真的事实。正则表辑ּ�中只有当断言为真时才会��l�进行匹配�?/p>
(?=exp)也叫零宽度正预测先行断言�Q�它断言自��n出现的位�|�的后面能匹配表辑ּ�exp。比�?span class="regex">\b\w+(?=ing\b)�Q�匹�?span class="desc">以ing�l�尾的单词的前面部分(除了ing以外的部�?�Q�如查找I'm singing while you're dancing.�Ӟ��它会匚w��sing�?span class="desc">danc�?/p>
(?<=exp)也叫零宽度正回顾后发断言�Q�它断言自��n出现的位�|�的前面能匹配表辑ּ�exp。比�?span class="regex">(?<=\bre)\w+\b会匹�?span class="desc">以re开头的单词的后半部�?除了re以外的部�?�Q�例如在查找reading a book�Ӟ��它匹�?span class="desc">ading�?/p>
假如你想要给一个很长的数字中每三位间加一个逗号(当然是从双��加�v�?�Q�你可以�q�样查找需要在前面和里面添加逗号的部分：((?<=\d)\d{3})*\b�Q�用它对1234567890�q�行查找时结果是234567890�?/p>
下面�q�个例子同时使用了这两种断言�Q?span class="regex">(?<=\s)\d+(?=\s)匚w��以空白符间隔的数�?再次��Q�不包括�q�些�I�白�W?�?/p>
负向零宽断言

前面我们提到�q�怎么查找不是某个字符或不在某个字�W�类�?/strong>的字�W�的�Ҏ��(反义)。但是如果我们只是想�?strong>��保某个字符没有出现�Q�但�q�不惛_��匚w��?/strong>时怎么办？例如�Q�如果我们想查找�q�样的单�?-它里面出��C��字母q,但是q后面跟的不是字母u,我们可以��试�q�样�Q?/p>
\b\w*q[^u]\w*\b匚w��包含后面不是字母u的字母q的单�?/span>。但是如果多做测�?或者你思维��_��敏锐�Q�直接就观察出来�?�Q�你会发玎ͼ�如果q出现在单词的�l�尾的话�Q�像Iraq,Benq�Q�这个表辑ּ��׃��出错。这是因�?span class="part">[^u]总要匚w��一个字�W�，所以如果q是单词的最后一个字�W�的话，后面�?span class="part">[^u]��会匚w��q后面的单词分隔符(可能是空��|��或者是句号或其它的什�?�Q�后面的\w*\b��会匚w��下一个单词，于是\b\w*q[^u]\w*\b��p��匚w��整个Iraq fighting�?span class="name">负向零宽断言能解册��L��问题�Q�因为它只匹配一个位�|�，�q�不消费��M��字符。现在，我们可以�q�样来解册��个问题：\b\w*q(?!u)\w*\b�?/p>
零宽度负预测先行断言(?!exp)�Q?span class="desc">断言此位�|�的后面不能匚w��表达式exp。例如：\d{3}(?!\d)匚w��三位数字�Q�而且�q�三位数字的后面不能是数�?/span>�Q?span class="regex">\b((?!abc)\w)+\b匚w��不包含连�l�字�W�串abc的单�?/span>�?/p>
同理�Q�我们可以用(?,零宽度正回顾后发断言�?span class="desc">断言此位�|�的前面不能匚w��表达式exp�Q?span class="regex">(?匚w��前面不是��写字母的七位数�?/span>�?/p>
误��l�分析表辑ּ�(?<=<(\w+)>).*(?=<\/\1>)�Q�这个表辑ּ�最能表现零宽断�a�的真正用途�?/p>
一个更复杂的例子：(?<=<(\w+)>).*(?=<\/\1>)匚w��不包含属性的��单HTML标签内里的内�?/span>�?span class="code">()指定了这��L��前缀�Q?span class="desc">被尖括号括�v来的单词(比如可能�?lt;b>)�Q�然后是.*(��L��的字�W�串),最后是一�?span class="name">后缀(?=<\/\1>)。注意后�~�里的\/�Q�它用到了前面提�q�的字符转义�Q?span class="part">\1则是一个反向引用，引用的正�?span class="desc">捕获的第一�l?/span>�Q�前面的(\w+)匚w��的内容，�q�样如果前缀实际上是的话�Q�后�~��是了。整个表辑ּ�匚w��的是�?lt;/b>之间的内�?再次提醒�Q�不包括前缀和后�~�本��n)�?/p>
注释

��括��L��另一�U�用途是通过语法(?#comment)来包含注释。例如：2[0-4]\d(?#200-249)|25[0-5](?#250-255)|[01]?\d\d?(?#0-199)�?/p>
要包含注释的话，最好是启用“忽略模式里的�I�白�W?#8221;选项�Q�这样在�~�写表达式时能�Q意的��d��I�格�Q�Tab�Q�换行，而实际��用时�q�些都将被忽略。启用这个选项后，�?后面到这一行结束的所有文本都��被当成注释忽略掉。例如，我们可以前面的一个表辑ּ�写成�q�样�Q?/p>
(?<= # 断言要匹配的文本的前�~�
<(\w+)> # 查找��括��h��h��的字母或数字(即HTML/XML标签)
) # 前缀�l�束
.* # 匚w��L��文本
(?= # 断言要匹配的文本的后�~�
<\/\1> # 查找��括��h��h��的内容：前面是一�?/"�Q�后面是先前捕获的标�{?br> ) # 后缀�l�束

贪婪与懒�?/h2>
当正则表辑ּ�中包含能接受重复的限定符�Ӟ��通常的行为是�Q�在使整个表辑ּ�能得到匹配的前提下）匚w����可能多的字�W�。考虑�q�个表达式：a.*b�Q�它��会匚w��最长的以a开始，以b�l�束的字�W�串。如果用它来搜烦aabab的话�Q�它会匹配整个字�W�串aabab。这被称�?span class="name">贪婪匚w��?/p>
有时�Q�我们更需�?span class="name">懒惰匚w��Q�也��是匚w����可能少的字�W�。前面给出的限定�W�都可以被�{化�ؓ懒惰匚w��模式�Q�只要在它后面加上一个问�?span class="code">?。这�?span class="regex">.*?��意味着匚w��L��数量的重复，但是在能使整个匹配成功的前提下��用最��的重复。现在看看懒惰版的例子吧�Q?/p>
a.*?b匚w��最短的�Q�以a开始，以b�l�束的字�W�串。如果把它应用于aabab的话�Q�它会匹�?span class="desc">aab�Q�第一到第三个字符�Q?/span>�?span class="desc">ab�Q�第四到�W�五个字�W�）�?/p>
��Z��么第一个匹配是aab�Q�第一到第三个字符�Q�而不是ab�Q�第二到�W�三个字�W�）�Q�简单地��_��因�ؓ正则表达式有另一条规则，比懒惎ͼ�贪婪规则的优先��更高�Q�最先开始的匚w��拥有最高的优先权——The match that begins earliest wins�?/p>
�?.懒惰限定�W?/caption>

代码/语法说明

*? 重复��L��ơ，但尽可能��重�?/span>

+? 重复1�ơ或更多�ơ，但尽可能��重�?/span>

?? 重复0�ơ或1�ơ，但尽可能��重�?/span>

{n,m}? 重复n到m�ơ，但尽可能��重�?/span>

{n,}? 重复n�ơ以上，但尽可能��重�?/span>

处理选项

在C#中，你可以��?a title="MSDN 相关文档">Regex(String, RegexOptions)构造函�?/font>来设�|�正则表辑ּ�的处理选项。如�Q�Regex regex = new Regex("\ba\w{6}\b", RegexOptions.IgnoreCase);

上面介绍了几个选项如忽略大��写�Q�处理多行等�Q�这些选项能用来改变处理正则表辑ּ�的方式。下面是.Net中常用的正则表达式选项�Q?/p>
�?.常用的处理选项

名称说明

IgnoreCase(忽略大小�? 匚w��时不区分大小写�?/td>

Multiline(多行模式) 更改^�?span class="code">$的含义，使它们分别在��L��一行的行首和行��֌�配，而不仅仅在整个字�W�串的开头和�l�尾匚w��?在此模式�?$的精��含意是:匚w��\n之前的位�|�以及字�W�串�l�束前的位置.)

Singleline(单行模式) 更改.的含义，使它与每一个字�W�匹配（包括换行�W�\n�Q��?

IgnorePatternWhitespace(忽略�I�白) 忽略表达式中的非转义�I�白�q�启用由#标记的注释�?/td>

RightToLeft(从右向左查找) 匚w��从右向左而不是从左向双��行�?/td>

ExplicitCapture(昑ּ�捕获) 仅捕获已被显式命名的�l��?/td>

ECMAScript(JavaScript兼容模式) 使表辑ּ�的行��Z��它在JavaScript里的行�ؓ一致�?/td>

一个经常被问到的问题是�Q�是不是只能同时使用多行模式和单行模式中的一�U�？�{�案是：不是。这两个选项之间没有��M��关系�Q�除了它们的名字比较�怼��Q�以至于让�h感到疑惑�Q�以外�?/p>
�q��l?递归匚w��

�q�里介绍的��^衡组语法是由.Net Framework支持的；其它语言�Q�库不一定支持这�U�功能，或者支持此功能但需要��用不同的语法�?/p>
有时我们需要匹配像( 100 * ( 50 + 15 ) )�q�样的可嵌套的层�ơ性结�?/span>�Q�这时简单地使用$.+$则只会匹配到最左边的左括号和最双��的右括号之间的内�?�q�里我们讨论的是贪婪模式�Q�懒惰模式也有下面的问题)。假如原来的字符串里的左括号和右括号出现的次��C��相等�Q�比�?span class="string">( 5 / ( 3 + 2 ) ) )�Q�那我们的匹配结果里两者的个数也不会相�{�。有没有办法在这��L��字符串里匚w��到最长的�Q�配对的括号之间的内容呢�Q?/p>
��Z��避免(�?span class="code">\(把你的大脑彻底搞�p�涂�Q�我们还是用��括号代替圆括号吧。现在我们的问题变成了如何把xx aa> yy�q�样的字�W�串里，最长的配对的尖括号内的内容捕获出来�Q?/p>
�q�里需要用��C��下的语法构造：

(?'group') 把捕��L��内容命名为group,�q�压�?span class="name">堆栈(Stack)

(?'-group') 从堆栈上弹出最后压入堆栈的名�ؓgroup的捕获内容，如果堆栈本来为空�Q�则本分�l�的匚w��p�|

(?(group)yes|no) 如果堆栈上存在以名�ؓgroup的捕获内容的话，�l�箋匚w��yes部分的表辑ּ��Q�否则��l�匹配no部分

(?!) 零宽负向先行断言�Q�由于没有后�~�表达式，试图匚w��L��p�|

如果你不是一个程序员�Q�或者你自称�E�序员但是不知道堆栈是什么东西）�Q�你��p��L��解上面的三种语法吧：�W�一个就是在黑板上写一�?group"�Q�第二个��是从黑板上擦掉一�?group"�Q�第三个��是看黑板上写的�q�有没有"group"�Q�如果有��q��l�匹配yes部分�Q�否�? ��匹配no部分�?/p>
我们需要做的是每碰��C��左括��P��在压入一�?Open",每碰��C��个右括号�Q�就弹出一个，��C��最后就看看堆栈是否为空�Q�－如果不�ؓ�I�那��p��明左括号比右括号多，那匹配就应该��p�|。正则表辑ּ�引擎会进行回�?攑ּ�最前面或最后面的一些字�W?�Q�尽量��整个表达式得到匹配�?/p>
< #最外层的左括号
[^<>]* #最外层的左括号后面的不是括��L��内容
(
(
(?'Open'<) #��到了左括号�Q�在黑板上写一�?Open"
[^<>]* #匚w��左括号后面的不是括号的内�?br> )+
(
(?'-Open'>) #��到了右括号�Q�擦掉一�?Open"
[^<>]* #匚w��x��号后面不是括��L��内容
)+
)*
(?(Open)(?!)) #在遇到最外层的右括号前面�Q�判断黑板上�q�有没有没擦掉的"Open"�Q�如果还有，则匹配失�?br>> #最外层的右括号

�q��l�的一个最常见的应用就是匹配HTML,下面�q�个例子可以匚w��嵌套�?lt;div>标签�Q?span class="regex">]*>[^<>]*(((?'Open']*>)[^<>]*)+((?'-Open'

�?.常用的元字符
代码	说明
.	匚w��除换行符以外的�Q意字�W?/span>
\w	匚w��字母或数字或下划�U�或汉字
\s	匚w��L��的空白符
\d	匚w��数字
\b	匚w��单词的开始或�l�束
^	匚w��字符串的开�?/span>
$	匚w��字符串的�l�束

�?.常用的限定符
代码/语法	说明
*	重复零次或更多次
+	重复一�ơ或更多��?/span>
?	重复零次或一��?/span>
{n}	重复n��?/span>
{n,}	重复n�ơ或更多��?/span>
{n,m}	重复n到m��?/span>

�?.常用的反义代�?/caption>
代码/语法	说明
\W	匚w��L��不是字母�Q�数字，下划�U�，汉字的字�W?/span>
\S	匚w��L��不是�I�白�W�的字符
\D	匚w��L��非数字的字符
\B	匚w��不是单词开头或�l�束的位�\|?/span>
[^x]	匚w��除了x以外的�Q意字�W?/span>
[^aeiou]	匚w��除了aeiou�q�几个字母以外的��L��字符

�?.常用分组语法
分类	代码/语法	说明
捕获	(exp)	匚w��exp,�q�捕��h��本到自动命名的组�?/span>
(?exp)	匚w��exp,�q�捕��h��本到名称为name的组里，也可以写�??'name'exp)
(?:exp)	匚w��exp,不捕获匹配的文本�Q�也不给此分�l�分配组�?/span>
零宽断言	(?=exp)	匚w��exp前面的位�\|?/span>
(?<=exp)	匚w��exp后面的位�\|?/span>
(?!exp)	匚w��后面跟的不是exp的位�\|?/span>
(?	匚w��前面不是exp的位�\|?/span>
注释	(?#comment)	�q�种�c�d��的分�l�不�Ҏ��则表辑ּ�的处理��生�Q何媄响，用于提供注释让�h阅读

�?.懒惰限定�W?/caption>
代码/语法	说明
*?	重复��L��ơ，但尽可能��重�?/span>
+?	重复1�ơ或更多�ơ，但尽可能��重�?/span>
??	重复0�ơ或1�ơ，但尽可能��重�?/span>
{n,m}?	重复n到m�ơ，但尽可能��重�?/span>
{n,}?	重复n�ơ以上，但尽可能��重�?/span>

�?.常用的处理选项
名称	说明
IgnoreCase(忽略大小�?	匚w��时不区分大小写�?/td>
Multiline(多行模式)	更改^�?span class="code">$的含义，使它们分别在��L��一行的行首和行��֌�配，而不仅仅在整个字�W�串的开头和�l�尾匚w��?在此模式�?$的精��含意是:匚w��\n之前的位�\|�以及字�W�串�l�束前的位置.)
Singleline(单行模式)	更改.的含义，使它与每一个字�W�匹配（包括换行�W�\n�Q��?
IgnorePatternWhitespace(忽略�I�白)	忽略表达式中的非转义�I�白�q�启用由#标记的注释�?/td>
RightToLeft(从右向左查找)	匚w��从右向左而不是从左向双��行�?/td>
ExplicitCapture(昑ּ�捕获)	仅捕获已被显式命名的�l��?/td>
ECMAScript(JavaScript兼容模式)	使表辑ּ�的行��Z��它在JavaScript里的行�ؓ一致�?/td>

)[^<>]*)+)*(?(Open)(?!)).

�q�有些什么东西没提到

我已�l�描�q�C��构造正则表辑ּ�的大量元素，�q�有一些我没有提到的东�ѝ��下面是未提到的元素的列表，包含语法和简单的说明。你可以在网上找到更详细的参考资料来学习它们--当你需要用到它们的时候。如果你安装了MSDN Library,你也可以在里面找到关�?net下正则表辑ּ�详细的文档�?/p>
�?.��未详细讨论的语�?/caption>

代码/语法说明

\a 报警字符(打印它的效果是电脑嘀一�?

\b 通常是单词分界位�|�，但如果在字符�c�里使用代表退�?/span>

\t 制表�W�，Tab

\r 回�R

\v 竖向制表�W?/span>

\f 换页�W?/span>

\n 换行�W?/span>

\e Escape

\0nn ASCII代码中八�q�制代码为nn的字�W?/span>

\xnn ASCII代码中十六进制代码�ؓnn的字�W?/span>

\unnnn Unicode代码中十六进制代码�ؓnnnn的字�W?/span>

\cN ASCII控制字符。比如\cC代表Ctrl+C

\A 字符串开�?�c�M��^�Q�但不受处理多行选项的媄�?

\Z 字符串结��或行尾(不受处理多行选项的媄�?

\z 字符串结��?�c�M��$�Q�但不受处理多行选项的媄�?

\G 当前搜烦的开�?/span>

\p{name} Unicode中命名�ؓname的字�W�类�Q�例如\p{IsGreek}

(?>exp) 贪婪子表辑ּ�

(?-exp) �q��l?/span>

(?im-nsx:exp) 在子表达式exp中改变处理选项

(?im-nsx) ��辑ּ�后面的部分改变处理选项

(?(exp)yes|no) 把exp当作零宽正向先行断言�Q�如果在�q�个位置能匹配，使用yes作�ؓ此组的表辑ּ��Q�否则��用no

(?(exp)yes) 同上�Q�只是��用空表达式作为no

(?(name)yes|no) 如果命名为name的组捕获��C��内容�Q��用yes作�ؓ表达式；否则使用no

(?(name)yes) 同上�Q�只是��用空表达式作为no

联系作�?/h2>
好吧,我承�?我骗了你,��d��q�里你肯定花了不�?0分钟.�怿��?�q�是我的�?而不是因��Z��太笨.我之所以说"30分钟",是�ؓ了让你有信心,有耐心�l�箋下去.既然你看��C��q�里,那证明我的阴谋成功了.被忽悠的感觉很爽吧？

要投诉我,或者觉得我其实可以做得更好,或者有��M��其它问题,�Ƣ迎�?a >我的博客让我知道.

eXile 2009-01-15 14:58 发表评论

�?.��未详细讨论的语�?/caption>
代码/语法	说明
\a	报警字符(打印它的效果是电脑嘀一�?
\b	通常是单词分界位�\|�，但如果在字符�c�里使用代表退�?/span>
\t	制表�W�，Tab
\r	回�R
\v	竖向制表�W?/span>
\f	换页�W?/span>
\n	换行�W?/span>
\e	Escape
\0nn	ASCII代码中八�q�制代码为nn的字�W?/span>
\xnn	ASCII代码中十六进制代码�ؓnn的字�W?/span>
\unnnn	Unicode代码中十六进制代码�ؓnnnn的字�W?/span>
\cN	ASCII控制字符。比如\cC代表Ctrl+C
\A	字符串开�?�c�M��^�Q�但不受处理多行选项的媄�?
\Z	字符串结��或行尾(不受处理多行选项的媄�?
\z	字符串结��?�c�M��$�Q�但不受处理多行选项的媄�?
\G	当前搜烦的开�?/span>
\p{name}	Unicode中命名�ؓname的字�W�类�Q�例如\p{IsGreek}
(?>exp)	贪婪子表辑ּ�
(?-exp)	�q��l?/span>
(?im-nsx:exp)	在子表达式exp中改变处理选项
(?im-nsx)	��辑ּ�后面的部分改变处理选项
(?(exp)yes\|no)	把exp当作零宽正向先行断言�Q�如果在�q�个位置能匹配，使用yes作�ؓ此组的表辑ּ��Q�否则��用no
(?(exp)yes)	同上�Q�只是��用空表达式作为no
(?(name)yes\|no)	如果命名为name的组捕获��C��内容�Q��用yes作�ؓ表达式；否则使用no
(?(name)yes)	同上�Q�只是��用空表达式作为no

�U�真IP数据库格式详�?zt)

eXile — Sun, 20 Jul 2008 05:46:00 GMT
转自http://lumaqq.linuxsir.org/article/qqwry_format_detail.html

�U�真IP数据库格式详�?/h1>

摘要
�|�络上的IP数据库以�U�真版的最为流行，LumaQQ也采用了�U�真版IP数据库做为IP查询功能�? 基础。不�q�关于其格式的文档却非常之少�Q�后来终于在�|�上扑ֈ�了一份文档，得以了解其内�q�，不过那䆾文档寥寥数语�Q�也是颇��心才读明白。在�q�里我重写一份，以此做�ؓLumaQQ开发者文档的一部分�Q�我惌��是必要的。本文详�l�介�l�了�U�真IP数据库的格式�Q��ƈ且给��Z��一些Demo以供参考�?
Luma, 清华大学
修改日期�Q?2005/01/14

Note: 在此感谢�U�真IP数据库作者金狐和那唯一一份文档的作者�?/p> 修改历史:
2005-01-14 修改了原来一些表达不清和错误的地�?

自从有了IP数据库这�U�东西，QQ外挂的显�C�IP功能也随之而生�Q�本��识颇�H�，是否�q�有其他应用不得而知�Q�不�q�，IP数据库确实是个不错的东西�? 如今�|�络上最��行的IP数据库我惛_��该是�U�真版的�Q�说错了也不要扁我）�Q�迄今�ؓ止其IP记录条数已经接近30000�Q�对于有些IP甚至能精��到楼层�Q�不�? 快哉�?004�q?�?月间�Q�正逢LumaQQ破土动工�Q��ؓ了加上这个�h人都喜欢�Q�但是好像�h人都不知道�ؓ什么喜�Ƣ的显IP功能�Q�我也采用了�U�真版IP�? 据库�Q�它的优�Ҏ��记录多，查询速度快，它只用一个文件QQWry.dat��包含了所有记录，方便嵌入到其他程序中�Q�也方便升��?/p>
基本�l�构

QQWry.dat文�g在结构上分�ؓ3块：文�g��_��记录区，索引区。一般我们要查找IP�Ӟ��先在索引区查找记录偏�U�，然后再到记录��Z��息。由�? 记录区的记录是不定长的，所以直接在记录��Z��搜烦是不可能的。由于记录数比较多，如果我们遍历索引��Z��会是有点慢的�Q�一般来��_��我们可以用二分查找法搜烦索引区，光��度比遍历烦引区快若�q�数量��。图1是QQWry.dat的文件结构图�?/p>

�?. QQWry.dat文�g�l�构
要注意的是，QQWry.dat里面全部采用了little-endian字节�?/p>
一. 了解文�g�?/h3>
QQWry.dat的文件头只有8个字节，其结构非常简单，首四个字节是�W�一条烦引的�l�对偏移�Q�后四个字节是最后一条烦引的�l�对偏移�?/p>
�? 了解记录�?/h3>
每条IP记录都由国家和地区名�l�成�Q�国家地区在�q�里�q�不是太��切�Q�因为可能会查出�?#8220;清华大学计算机系”之类的，�q�里清华大学��成了国家名了，所�? �q�个国家地区名和IP数据库制作的时候有关系。所以记录的格式有点像QName�Q�有一个全局部分和局部部分组成，我们�q�里�q�是沿用国家名和地区名的说法�?/p>
于是我们惌��着一条记录的格式应该�? [IP地址][国家名][地区名]�Q�当�Ӟ��q�个没有什么问题，但是�q�只是最��单的情况。很昄��Q�国家名和地区名可能会有很多的重复，如果每条记录都保存一个完整的名称拯��是非�怸�理想的，所以我们就需要重定向以节省空间。所以�ؓ了得��C��个国家名或者地区名�Q�我们就有了两个可能�Q�第一��是直接的字�W�串表示�? 国家名，�W�二��是一�?字节的结构，�W�一个字节表明了重定向的模式�Q�后�?个字节是国家名或者地区名的实际偏�U�M��|�。对于国家名来说�Q�情况还可能更复�? 些，因�ؓ�q�样的重定向最多可能有两次�?/p>
那么什么是重定向模式？�Ҏ��上面所��_��一条记录的格式是[IP地址][国家记录][地区记录]�Q�如果国家记录是重定向的话，那么地区记录是有可能没有的，于是��有了两�U�情况，我管他叫做模�?和模�?。我们对�q�些格式的情况�D图说明：

�?. IP记录的最��单�Ş�?/center>
�?表示了最��单的IP记录格式�Q�我��x��有什么可以解释的

�?. 重定向模�?
�?演示了重定向模式1的情��c��我们看到在模式1的情况下�Q�地��录也跟着国家记录��C��Q�在IP地址之后只剩下了国家记录�?字节�Q�后�?个字节构成了一个指针，指向了实际的国家名，然后又跟着地址名。模�?的标识字节是0x01�?/p>

�?. 重定向模�?
�?演示了重定向模式2的情��c��我们看��C��在模�?的情况下�Q�其标识字节�?x02�Q�，地区记录没有跟着国家记录赎ͼ�因此在国家记录之�?个字节之后还是有地区记录。我想你已经明白了模�?和模�?的区别，卻I��模式1的国家记录后面不会再有地��录，模式2的国家记录后会有地区记录。下面我们来看一下更复杂的情��c�?/p>

�?. 混和情况1
�?演示了当国家记录为模�?的时候可能出现的更复杂情况，在这�U�情况下�Q�重定向指向的位�|�仍然是个重定向�Q�不�q�第二次重定向�ؓ模式2。大家不用担心，没有模式3了，�q�个重定向也最多只有两�ơ，�q�且如果发生了第二次重定向，则其一定�ؓ模式2�Q�而且�q�种情况只会发生在国家记录上�Q�对于地��录，模式1 和模�?是一��L��Q�地��录也不会发生2�ơ重定向。不�q�，�q�个图还可以更复杂，如图7�Q?/p>

�?. 混和情况2
�?是模�?下最复杂的�؜和情况，不过我想应该也很好理解，只不�q�地��录也来重定向而已�Q�有一�Ҏ��要提醒你�Q�如果重定向的地址�?�Q�则表示未知的地区名�?/p>
所以我们�ȝ��如下�Q�一条IP记录由[IP地址][国家记录][地区记录]�l�成�Q�对于国家记录，可以有三�U�表�C�方式：字符串�Ş式，重定向模�?和重�? 向模�?。对于地��录，可以有两�U�表�C�方式：字符串�Ş式和重定向，另外有一条规则：重定向模�?的国家记录后不能跟地��录。按照这个�ȝ��Q�在�q�些方式中合理组合，��构成了IP记录的所有可能情��c�?/p>
设计的理�?/h3>
在我们��l�去了解索引区的�l�构之前�Q�我们先来了解一下�ؓ何记录区的结构要如此设计。我想你可能惛_��了答案：字符串重用。没错，在这�U�结构下�Q�对于一个国家名和地区名�Q�我只需要保存其一�ơ就可以了。我们�D例说明，��Z��表示方便�Q�我们用��写字母代表IP记录�Q�C表示国家名，A表示地区名：

有两条记录a(C1, A1), b(C2, A2)�Q�如果C1 = C2, A1 = A2�Q�那么我们就可以使用�?昄��的结构来实现重用

有三条记录a(C1, A1), b(C2, A2), c(C3, A3)�Q�如果C1 = C2, A2 = A3�Q�现在我们想存储记录b�Q�那么我们可以用�?的结构来实现重用

有两条记录a(C1, A1), b(C2, A2)�Q�如果C1 = C2�Q�现在我们想存储记录b�Q�那么我们可以采用模�?表示C2�Q�用字符串表�C�A2

你可以�D出更多的情况�Q�你也会发现在这�U�结构下�Q�不同的字符串只需要存储一�ơ�?/p>
了解索引�?/h3>
�?了解文�g�?部分�Q�我们说明了文�g头实际上是两个指针，分别指向了第一条烦引和最后一条烦引的�l�对偏移。如�?所�C�：

�?. 文�g头指向烦引区囄��
实在是很��单，不是吗？从文件头你就可以定位到烦引区�Q�然后你��可以开始搜索IP了！每条索引长度�?个字节，�?个字节是起始IP地址�Q�后三个�? 节就指向了IP记录。这里有些概念需要说明一下，什么是起始IP�Q�那么有没有�l�束IP�Q?假设有这么一条记录：166.111.0.0 - 166.111.255.255�Q�那�?66.111.0.0��是起始IP�Q?66.111.255.255��是�l�束IP�Q�结束IP��是IP记录中的那头 4个字节，�q�下你应该就清楚了吧。于是乎�Q�每条烦引配合一条记录，构成了一个IP范围�Q�如果你要查�?66.111.138.138所在的位置�Q�你��׃��? �?66.111.138.138落在�?66.111.0.0 - 166.111.255.255 �q�个范围内，那么你就可以��着�q�条索引去读取国家和地区名了。那么我们给��Z��个最详细的图解吧�Q?/p>

�?. 文�g详细�l�构
现在一切都清楚了是不是�Q�也许还有一点你不清楚，QQWry.dat的版本信息存在哪里呢�Q? �{�案是：最后一条IP记录实际上就是版本信息，最后一条记录显�C�出来就是这��P��255.255.255.0 255.255.255.255 �U�真�|�络 2004�q?�?5日IP数据。OK�Q�到现在你应该全部清楚了�?/p>
Demo

下一步：我给��Z��个读取IP记录的程序片断，此片断摘录自LumaQQ源文件edu.tsinghua.lumaqq.IPSeeker.java�Q�如果你有兴��，可以下蝲源代码详�l�看看�?/p>
/**
* �l�定一个ip国家地区记录的偏�U�，�q�回一个IPLocation�l�构
* @param offset 国家记录的�v始偏�U?br> * @return IPLocation对象
*/
private IPLocation getIPLocation(long offset) {
try {
// 跌��4字节ip
ipFile.seek(offset + 4);
// ��d��W�一个字节判断是否标志字�?br> byte b = ipFile.readByte();
if(b == REDIRECT_MODE_1) {
// ��d��国家偏移
long countryOffset = readLong3();
// 跌��{臛_��U�d��
ipFile.seek(countryOffset);
// 再检查一�ơ标志字节，因�ؓ�q�个时候这个地方仍然可能是个重定向
b = ipFile.readByte();
if(b == REDIRECT_MODE_2) {
loc.country = readString(readLong3());
ipFile.seek(countryOffset + 4);
} else
loc.country = readString(countryOffset);
// ��d��地区标志
loc.area = readArea(ipFile.getFilePointer());
} else if(b == REDIRECT_MODE_2) {
loc.country = readString(readLong3());
loc.area = readArea(offset + 8);
} else {
loc.country = readString(ipFile.getFilePointer() - 1);
loc.area = readArea(ipFile.getFilePointer());
}
return loc;
} catch (IOException e) {
return null;
}
}

/**
* 从offset偏移开始解析后面的字节�Q�读��Z��个地区名
* @param offset 地区记录的�v始偏�U?br> * @return 地区名字�W�串
* @throws IOException 地区名字�W�串
*/
private String readArea(long offset) throws IOException {
ipFile.seek(offset);
byte b = ipFile.readByte();
if(b == REDIRECT_MODE_1 || b == REDIRECT_MODE_2) {
long areaOffset = readLong3(offset + 1);
if(areaOffset == 0)
return LumaQQ.getString("unknown.area");
else
return readString(areaOffset);
} else
return readString(offset);
}

/**
* 从offset位置��d��3个字节�ؓ一个long�Q�因为java为big-endian格式�Q�所以没办法
* 用了�q�么一个函数来做�{�?br> * @param offset 整数的�v始偏�U?br> * @return ��d��的long��|��q�回-1表示��d��文�g��p�|
*/
private long readLong3(long offset) {
long ret = 0;
try {
ipFile.seek(offset);
ipFile.readFully(b3);
ret |= (b3[0] & 0xFF);
ret |= ((b3[1] << 8) & 0xFF00);
ret |= ((b3[2] << 16) & 0xFF0000);
return ret;
} catch (IOException e) {
return -1;
}
}

/**
* 从当前位�|�读�?个字节�{换成long
* @return ��d��的long��|��q�回-1表示��d��文�g��p�|
*/
private long readLong3() {
long ret = 0;
try {
ipFile.readFully(b3);
ret |= (b3[0] & 0xFF);
ret |= ((b3[1] << 8) & 0xFF00);
ret |= ((b3[2] << 16) & 0xFF0000);
return ret;
} catch (IOException e) {
return -1;
}
}

/**
* 从offset偏移处读取一个以0�l�束的字�W�串
* @param offset 字符串�v始偏�U?br> * @return ��d��的字�W�串�Q�出错返回空字符�?br> */
private String readString(long offset) {
try {
ipFile.seek(offset);
int i;
for(i = 0, buf[i] = ipFile.readByte(); buf[i] != 0; buf[++i] = ipFile.readByte());
if(i != 0)
return Utils.getString(buf, 0, i, "GBK");
} catch (IOException e) {
log.error(e.getMessage());
}
return "";
}

代码�q�不复杂�Q�getIPLocation是主要方法，它检查国家记录格式，�q��对字�W�串形式�Q�模�?�Q�模�?采用不同的代码，readArea则相对简单，因�ؓ只有字符串和重定向两�U�情况需要处理�?/p>
�ȝ��

�U�真IP数据库的�l�构使得查找IP��单迅速，不过你想要编辑它却是比较�ȝ��的，我想应该需要专门的工具来生成QQWry.dat文�g�Q�由于其文�g格式的限�Ӟ��你要直接��d��IP记录��׃��Ҏ��了。不�q�，能查到IP已经很开心了�Q�希望纯真记录越来越多～�?/p>

eXile 2008-07-20 13:46 发表评论

单元��试[zt]

eXile — Tue, 29 Apr 2008 05:39:00 GMT

来源: WingFire On Toplanguange

1.单元��试库要��量��地增加开发�h员的负担。额外负担必��d��可能直白�Q�傻瓜化�?br>市面上的许多讲到单元��试的书都是以XUnit��本的�Q�这��D��CppUnit的接受程度颇高。CppUnit中规中矩�Q�四�q�_��E�I��但不够犀利。个��为boost.test最��单，只要一个BOOST_AUTO_TEST_CASE��可以开始了。CppUnit则要复杂一点，而这�U�复杂性是多余的，甚至是有害的。用CppUnit的时候，我看到有��Zؓ了共享测试代码，随便在test case里面加函敎ͼ�然后复用�Q�结果导致case不独立。boost.test們֐�于不要徏�?h文�g�Q�所以要复用不方便（或者，不习惯在Cpp中复用）�Q�反而不�Ҏ��犯错误�?br>2.实施单元��试�Q�必��能够让�E�序员看得到好处�q�尽快受益。新��目必须��早引入单元��试�Q�要早在正式�~�码之前�?br>想立刻让UT变得完美是不可能的，行政命��o也不会有好结果。在推行单元��试的时候，教育很重要。必��让同事能理解单元测试�ؓ什么有效，如何工作�Q�UT�~�写准则之类的问题。另外，在工作多�q�的�E�序员（对UT�~�Z��认识的）中推行单元测试，��d��更大。更要注意教育和反馈。最好的反馈��是帮助他们从单元测试中��L��。例如，修改更轻松，思维更面向接口，bug更少�Q�代码更�Ҏ��理解�{�等。作为推动者，有义务去��d��发现�q�些改善之处�q�积极地反馈�l�程序员。从而增强应用UT的信心和意愿�?br>3.必须充分自动化�?br>UT的�Q务之一是给代码�~�织一层细密的保护�|�。程序员应该认识刎ͼ�单元��试是�ؓ自己服务的，所以，我们要的是完成�Q务而不是展�C�。能够自动地完成��d��则是最好的。如果单元测试过多地�q�扰�E�序员的正常思考，��׃��招致更多的抵触（抵触��L��存在的）或敷衍。敷衍是可怕的。我向来是把单元��试的运行作为build的一个步骤的。成功的单元��试不需要输��Z�Q何信息，最多在全部passs的时候给个OK��p��够了。图形界面的��试工具在我看来也是鸡肋�Q�新手的玩具而已。图形界面既不利于参数化�q�行�Q�也不方便自动化�Q�实在是降低开发效率的杀手�?br>4.不要�q�求完美的UT�?br>不是所有东襉K��很容易测试。UT要求被测试的东西可重玎ͼ�可观��?基本上，大部分的物理操作因�ؓ�~�Z��可重复性或可观察性，很难��试�Q�例如database�Q�GUI �Q�注意，�q�不意味着在实��C��个GUI库或db driver时就不能做UT了）。勉强UT全覆盖，既不现实�Q�也不实惠。�ƈ且，�q�很可能让UT变得复杂�Q�高成本�Q�这是非常危险的和不值得的。我的主张是�Q�很难测�Q�那��׃��，但要正确应对。我的做法是��难��的部分隔离��C��些抽象层当中厅R��然后�ؓ�q�些抽象层写MockObject卛_��试了。我曄��应用在数据库应用中，�q�很自然的得��C��个良好的数据讉K��的抽象层�Q�单元测试就只测了这个抽象层。而实际的数据库访问中的物理操作部分，则从单元��试中剥��d��厅R��如果坚持分��ȝ��理操作和逻辑操作的话�Q�这个剥��d��ȝ��部分一般很��很有限�Q�也很容易测试。相反，如果不剥��，��导致单元测试的�l�果要依赖数据库的状态。这�U�额外的依赖性没什么好处。这里的关键是，必须让不可测的部分尽可能隔离�Q�尽可能��，��可能地��逻辑操作从物理操作中分离出来。被隔离部分所包含的逻辑操作仍然需要写UT�?

eXile 2008-04-29 13:39 发表评论

设计Qt风格的C++API (zt)

eXile — Sun, 17 Feb 2008 16:50:00 GMT

设计Qt风格的C++API

作者Matthias Ettrich�Q�译者Googol Lee�Q�原文地址�?a >�q�里�?

在奇��（Trolltech�Q�，��Z��改进Qt的开发体验，我们做了大量的研�I�。这��文章里�Q�我打算分��n一些我们的发现�Q�以及一些我们在设计Qt4时用到的原则�Q��ƈ且展�C�如何把�q�些原则应用��C��的代码里�?

好的API的六个特�?/font>
便利陷阱
布尔参数陷阱
静态多�?/font>
命名的艺�?/font>
指针�q�是引用�Q?/font>
例子�Q�QProgressBar
如何把API设计�?/font>

设计应用�E�序接口�Q�API�Q�是很难的。这是一门和设计语言同样隄��艺术。这里可以选择太多的原则，甚至有很多原则和其他原则有矛盾�?

现在�Q�计��机�U�学教育把很大的力气攑֜��法和数据结构上�Q�而很��关注设计语�a�和框架背后的原则。这让应用程序员完全没有准备去面对越来越重要的�Q务：创造可重用的组件�?

在面向对象语�a�普及之前�Q�可重用的通用代码大部分是由库提供者写的，而不是应用程序员。在Qt的世界里�Q�这�U�状冉|��了明昄��改善。在��M��时候，用Qt�~�程��是写新的组件。一个典型的Qt应用�E�序臛_��都会有几个在�E�序中反复��用的自定义组件。一般来��_��同样的组件会成�ؓ其他应用�E�序的一部分。KDE�Q�K桌面环境�Q�走得更�q�，用许多追加的库来扩展Qt�Q�实��C��数百个附加类。（一般来��_��一个类��是一个可重用�l��g�Q�原文这里没有写清楚。）

但是�Q�一个好的，高效的C++ API是由什么组成的呢？是好�q�是坏，取决于很多因素——比如，手头的工作和特定的目标群体。好的API有很多特性，一些特性是大家都想要的�Q�而另一些则是针对特定问题域的�?

好的API的六个特�?/h2>
API是面向程序员的，用来描述提供�l�最�l�用��L��GUI是什么样子。API中的P带表�E�序员（Programmer�Q�，而不是程序（Program�Q�，用来��API是给�E�序员用的，�l��h�cȝ��E�序员用的�?

我们坚信API应该是最��化且完整的�Q�拥有清��C��单的语义�Q�直觉化�Q�容易记忆，�q�且引导人写出易�ȝ��代码�?

最��化�Q?/strong>最��化的API是指一个类��可能只拥有最��的公开成员且尽可能只拥有最��的�c�R��这个原则可以让API更简单易懂，更好讎ͼ�更容易除错，且更�Ҏ��改变�?
完整的：完整的API是指要提供所有期望的功能。这个可能与最��化原则相冲�H�。另外，如果一个成员函数属于一个不应该属于的类�Q�很多潜在的使用者都会找不到�q�个函数�?
拥有清晰且简单的语义�Q?/strong>��像其他设计工作一��P��你必��遵守最��惊奇原则（the principle of least surprise�Q�。让常见的�Q务简单易行。不常见的工作可行，但不会让用户�q�分��x��。解决特�D�问题时�Q�不要让解决�Ҏ��没有必要的过度通用。（比如�Q�Qt3中的QMimeSourceFactory可以通过调用QImageLoader来实��C��同的API。）
直觉化：��像电脑上的其他东西一��P��API必须是直觉化的。不同的�l�验和背景会��D��在判断什么是直觉而什么不是时不同的感觉。如果一个中�U�用户不��L��档就可以使用�Q�a semi-experienced user gets away without reading the documentation�Q�没懂这里的get away该怎么��译�Q�，�q�且一个程序员不懂API��可以理解羃写的代码�Q�这�U�API��是直觉化的�?
易于记忆�Q?/strong>让API易于记忆�Q��用统一且精��的命名�Ҏ��。��用可识别的模式和概念�Q��ƈ且避免羃写�?
引导易读的代码（Lead to readable code�Q�：代码一�l�写��，会读�Q��ƈ且除错和修改�Q�多�ơ。易�ȝ��代码可能会花�Ҏ��间来写，但是可以节省产品周期中的其他旉��?

最后，��C��Q�不同类型的用户会用到API的不同部分。虽然简单的实例化一个Qt�c�L��非常直觉化的�Q�让资深专家在试囑֭��c�d��之前��M��遍文档，是很合理的�?

便利陷阱

�q�是个常见的误解�Q�更好的API�Q�用更少的代码完成一件事。永�q�记住代码一�ơ写��，之后需要不断的阅读�q�理解。比如：

QSlider *slider = new QSlider(12, 18, 3, 13, Qt::Vertical, 0, "volume");

�q�比下面那样难读�Q�甚至难写）�Q?

QSlider *slider = new QSlider(Qt::Vertical); slider->setRange(12, 18); slider->setPageStep(3); slider->setValue(13); slider->setObjectName("volume");

布尔参数陷阱

布尔参数通常会导致不易读的代码。更�q�一步，�l�一个已�l�存在的函数加入一个布��参敎ͼ��q�常常是个错误。在Qt里，一个传�l�的例子是repaint()�Q�这个函数带有一个布��参敎ͼ�来标识是否擦除背景（默认擦除�Q�。这让代码通常写成�Q?

widget->repaint(false);

初学者很�Ҏ��把这句话理解�?#8220;别重�?#8221;�Q?

�q�样做是考虑到布��参数可以减��一个函敎ͼ�避免代码膨胀。事实上�Q�这反而增加了代码量。有多少Qt用户真的��C��了下面三行程序都是做什么的�Q?

widget->repaint(); widget->repaint(true); widget->repaint(false);

一个好一些的API可能看�v来是�q�样�Q?

widget->repaint(); widget->repaintWithoutErasing();

在Qt4里，我们重新设计了widget�Q��得用户不再需要不重画背景的重画widget�Q�来解决�q�个问题。Qt4原生支持双缓存，废掉了这个特性�?

�q�里�q�有一些例子：

widget->setSizePolicy(QSizePolicy::Fixed, QSizePolicy::Expanding, true); textEdit->insert("Where's Waldo?", true, true, false); QRegExp rx("moc_*.c??", false, true);

一个显而易见的解决�Ҏ��是，使用枚�D�c�d��代替布尔参数。这正是我们在Qt4�?a >QString大小写敏感时的处理方法。比较：

str.replace("%USER%", user, false); // Qt 3 str.replace("%USER%", user, Qt::CaseInsensitive); // Qt 4

静态多�?/h2>
�怼�的类应该含有�怼�的API。在必要的时候——就是说�Q�需要��用运行时多态的时候——这可以通过�l�承实现。但是多态依旧会发生在设计时期。比如，如果你用QListBox代替QComboBox�Q�或者用QSlider代替QSpinBox�Q�你会发现相似的API使这�U�替换非常容易。这��是我们所说的“静态多�?#8221;�?

静态多态也使API和程序模式更�Ҏ��记忆。作为结论，一�l�相关类使用�怼�的API�Q�有时要比给每个�c�L��供完��的单独API�Q�要好�?

�Q�译注：C++ 0x��要引入的concept�Q�就是静态多态的语法层实现。这个要比单独的函数名相似更强大且易用。）

命名的艺�?/h2>
命名�Q�大概是设计API时唯一最重要的问题了。该怎么�U�呼�q�个�c�？成员函数该叫什么？

通用的命名规�?/h3>
一些规则通常�Ҏ��有名字都是有用的。首先，��像我之前提到的�Q�别用羃写。甚臛_��明显的羃写，比如“prev”表示“previous”从长�q�看也是不划��的�Q�因为用户必��记住哪些词是羃写�?

如果API本��n不一��_��事情自然会变得很�p�糕�Q�比如， Qt3有activatePreviousWindow()和fetchPrev()。坚�?#8220;没有�~�写”的规则更�Ҏ��创徏一致的API�?

另一个重要但更加微妙的规则是�Q�在设计�cȝ��时候，必须��力保证子类命名�I�间的干净。在Qt3里，没有很好的遵守这个规则。比如，�?a >QToolButton来�D例。如果你在Qt3里，对一�?a >QToolButton调用name()、caption()、text()或者textLabel()�Q�你希望做什么呢�Q�你可以在Qt Designer里拿QToolButton试试�Q?

name属性��承自QObject�Q�表�C�Z��个对象用于除错和��试的内部名字�?
caption属性��承自QWidget�Q�表�C�窗口的标题�Q�这个标题在视觉上对QToolButton没有��M��意义�Q�因��Z��们��L��跟随父窗口而创建�?
text属性��承自QButton�Q�一般情况下是按钮上现实的文字，除非useTextLabel为真�?
textLabel�?a >QToolButton里声明，�q�且在useTextLabel为真时显�C�在按钮上�?

�׃��对可��L��的��x��Q�name在Qt4里被�U�C��objectName�Q�caption变成了windowsTitle�Q�而在QToolButton里不再有单独的textLabel属性�?

�l�类命名

标识一�l�类而不是单独给每个�c�L��个恰当的名字。比如，Qt4里所有模式感知项目的视图�c�（model-aware item view classes�Q�都拥有-View的后�~��Q?a >QListView�?a >QTableView�?a >QTreeView�Q�，�q�且对应��Z��目的类都用后缀-Widget代替�Q?a >QListWidget�?a >QTableWidget�?a >QTreeWidget�Q��?

�l�枚丄��型及其值命�?/h3>
当声明枚举时�Q�时刻记住，在C++�Q�不像Java和C#�Q�中�Q��用枚丑ր�g��需要类型信息。下面的例子演示了给枚�D��D�v个太�q�常用的名字所引�v的危宻I��

namespace Qt { enum Corner { TopLeft, BottomRight, ... }; enum CaseSensitivity { Insensitive, Sensitive }; ... }; tabWidget->setCornerWidget(widget, Qt::TopLeft); str.indexOf("$(QTDIR)", Qt::Insensitive);

在最后一行，Insensitive是什么意思？一个用于命名枚丑ր�的指导思想是，在每个枚丑ր�里�Q�至��重复一个枚丄��型名中的元素�Q?

namespace Qt { enum Corner { TopLeftCorner, BottomRightCorner, ... }; enum CaseSensitivity { CaseInsensitive, CaseSensitive }; ... }; tabWidget->setCornerWidget(widget, Qt::TopLeftCorner); str.indexOf("$(QTDIR)", Qt::CaseInsensitive);

当枚丑ր�可以用“�?#8221;�q�接��h��当作一个标志时�Q�传�l�的做法是将“�?#8221;的结果作��Z��个int保存�Q�这不是�c�d��安全的。Qt4提供了一个模板类 QFlags来实现类型安全，其中T是个枚�D�c�d��。�ؓ了方便��用，Qt为很多标志类名提供了typedef�Q�所以你可以使用�c�d�� Qt::Alignment代替QFlags�?

��Z��方便�Q�我们给枚�D�c�d��单数的名字（�q�样表示枚�D��g��ơ只能有一个标志）�Q��?#8220;标志”则��用复数名字。比如：

enum RectangleEdge { LeftEdge, RightEdge, ... }; typedef QFlags RectangleEdges;

有些情况下，“标志“�c�M��用了单数的名字。这�Ӟ��枚�D�c�M��?Flag做后�~��Q?

enum AlignmentFlag { AlignLeft, AlignTop, ... }; typedef QFlags Alignment;

�Q�这里�ؓ啥不是把”标志“�cȝ��-Flag做后�~��Q�而是把枚丑ր�做后缀呢？感觉有点��h��……�Q?

�l�函数和参数命名

�l�函数命名的一个规则是�Q�名字要明确体现��个函数是否有副作用。在Qt3�Q�常数函�?a >QString::simplifyWhiteSpace()�q�反了这个原则，因�ؓ它返回类一�?a >QString实例�Q�而不是像名字所提示的那��P��更改了调用这个函数的实例本��n。在Qt4�Q�这个函数被重命名�ؓQString::simplified()�?

参数名是�E�序员的重要信息来源�Q�虽然在使用API�Ӟ��q�不直接展示在代码里。由于现代IDE在程序员写代码时可以自动昄��参数名（��是自动感知或者自动补全之�cȝ��功能�Q�，值得花时间给头文仉��声明的参��C��个合适的名字�Q��ƈ且在文档中也使用相同的名字�?

�l�布��D��|�函敎ͼ�Setter�Q�、提取函敎ͼ�Getter�Q�和属性命�?/h3>
�l�布��属性的讄��函数和提取函��C��个合适的名字�Q��L��非常痛苦的。提取函数应该叫做checked()�q�是isChecked()�Q�scrollBarsEnabled()�q�是areScrollBarEnabled()?

在Qt4里，我们使用下列规则命名提取函数�Q?

形容�cȝ��属性��用is-前缀。比如：

isChecked()
isDown()
isEmpty()
isMovingEnable()

另外�Q�应用到复数名词的�Ş容类属性没有前�~��Q?

scrollBarsEnabled()�Q�而不�?tt>areScrollBarsEnabled()

动词�cȝ��属性不使用前缀�Q�且不��用第三�h�U�ͼ�-s�Q�：

acceptDrops()�Q�而不�?tt>acceptsDrops()
allColumnsShowFocus()

名词�cȝ��属性，通常没有前缀�Q?

autoCompletion()�Q�而不�?tt>isAutoCompletion()
boundaryChecking()

有时�Q�没有前�~��׃��引�v误解�Q�这�U�情况��用前�~�is-�Q?

isOpenGLAvailable()�Q�而不�?tt>openGL()
isDialog()�Q�而不�?tt>dialog()

�Q�通过调用dialogue()�Ҏ��Q�正常情况下会期望返回一�?a >QDialog*的实例。）

讄��函数名字�l�承自提取函数名�Q�只是移掉了所有前�~��Q��ƈ使用set-做前�~��Q�比如：setDown()�q�有setScrollBarsEnabled()。属性的名字与提取函数相同，只是��L��了前�~��?

指针�q�是引用�Q?/h2>
传出参数的最佳选择是什么，指针�q�是引用�Q?

void getHsv(int *h, int *s, int *v) const void getHsv(int &h, int &s, int &v) const

大部分C++书推荐在能用引用的地方就用引用，�q�是因�ؓ一般认为引用比指针�?#8220;安全且好�?#8221;。然而，在奇��（Trolltech�Q�，我们們֐�使用指针�Q�因��让代码更易读。比较：

color.getHsv(&h, &s, &v); color.getHsv(h, s, v);

只有�W�一行能清楚的说明，在函数调用后�Q�h、s和v��有很大几率被改动�?

例子�Q�QProgressBar

��Z��展示如何实际应用�q�些概念�Q�我们将学习Qt3中的API QProgressBar�q�和Qt4里相通的API做比较。在Qt3里：

class QProgressBar : public QWidget { ... public: int totalSteps() const; int progress() const; const QString &progressString() const; bool percentageVisible() const; void setPercentageVisible(bool); void setCenterIndicator(bool on); bool centerIndicator() const; void setIndicatorFollowsStyle(bool); bool indicatorFollowsStyle() const; public slots: void reset(); virtual void setTotalSteps(int totalSteps); virtual void setProgress(int progress); void setProgress(int progress, int totalSteps); protected: virtual bool setIndicator(QString &progressStr, int progress, int totalSteps); ... };

API相当复杂�Q�且不统一。比如，仅从名字reset()�q�不能理解其作用�Q�setTotalSteps()和setProgress()是紧耦合的�?

改进API的关键，是注意到QProgressBar和Qt4�?a >QAbstractSpinBox�c�d��其子�c?a >QSpinBox�Q?a >QSlider�?a >QDial很相伹{��解��x��法？用minimum、maximum和value代替progress和totalSteps。加入alueChanged()信号。加入setRange()函数�?

之后观察progressString、percentage和indicator实际都指一个东西：在进度条上显�C�的文字。一般来说文字是癑ֈ�比信息，但是也可以��用setIndicator()设�ؓ��L��字符。下面是新的API�Q?

virtual QString text() const; void setTextVisible(bool visible); bool isTextVisible() const;

默认的文字信息是癑ֈ�比信息。文字信息可以藉由重新实现text()而改变�?

在Qt3 API中，setCenterIndicator()和setIndicatorFollowStyle()是两个媄响对齐的函数。他们可以方便的�׃��个函数实玎ͼ�setAlignment()�Q?

void setAlignment(Qt::Alignment alignment);

如果�E�序员不调用setAlignment()�Q�对齐方式基于当前的风格。对于基于Motif的风��|��文字��居中显�C�；对其他风��|��文字��靠在右辏V�?

�q�是改进后的QProgressBar API�Q?

class QProgressBar : public QWidget { ... public: void setMinimum(int minimum); int minimum() const; void setMaximum(int maximum); int maximum() const; void setRange(int minimum, int maximum); int value() const; virtual QString text() const; void setTextVisible(bool visible); bool isTextVisible() const; Qt::Alignment alignment() const; void setAlignment(Qt::Alignment alignment); public slots: void reset(); void setValue(int value); signals: void valueChanged(int value); ... };

如何把API设计好（原文是How to Get APIs Right�Q�我��L��成We do APIs right……�Q?/h2>
API需要质量保证。第一个修订版不可能是正确的；你必��d��试。写些用例：看看那些使用了这些API的代码，�q��证代码是否易诅R�?

其他的技巧包括让别的人分别在有文档和没有文档的情况下�Q��用这些API�Q�或者�ؓAPI�c�d��文档�Q�包括类的概�q�和独立的函敎ͼ��?

当你卡住�Ӟ��写文档也是一�U�获得好名字的方法：仅仅是尝试把条目�Q�类�Q�函敎ͼ�枚�D��|��{�等呢个�Q�写下来�q�且使用你写的第一句话作�ؓ灉|��。如果你不能扑ֈ�一个精��的名字�Q�这常常说明�q�个条目不应该存在。如果所有前面的事情都失败了�q�且你确认这个概�늚�存在�Q�发明一个新名字。毕竟，“widget”�?“event”�?#8220;focus”�?#8220;buddy”�q�些名字��是�q�么来的�?

eXile 2008-02-18 00:50 发表评论

eXile — Wed, 23 Jan 2008 09:23:00 GMT
　　对于��试驱动开发（�Q�_��Q�）�Q�始�l�有一些迷惑，比如��_��它的��试需要考虑完备性吗�Q�需要考虑覆盖率吗�Q�等�{�此�c�R��今天从Javaeye中看��C��句话�Q�终于明白了�?br>　　“什么是TDD�Q�TDD��是把你的需求用��试�l�描�q�出�?/span>�?#8221;
　　也就是说�Q�Ｔ�Q�Ｄ中的��试和一般意义上的单元测试�ƈ不一��P��管�Q�_��Q�中的测试有时也作�ؓ单元��试来��用，但它们是两回事。（�q�里�?font style="COLOR: #000000" color=#ff0000>需求，指的不是客户需求，而是�E�序员的开发需求）�?/font>
　　使用�Q�_��Q�时�Q�首先写的是��试�Q�这时相应代码还没有实现�Q�那么测试什么东西呢�Q�所以说�Q�写��试的过�E�，同时也是�?/span>计接�?/span>的过�E�。这和写单元��试的目的完全是不一��L��?br>　　�Q�_��Q�还有一个额外的好处。大多数人都是懒的，不要指望所有的�E�序员在写完功能代码后，再去�~�写相应的单元测试。我觉得�q�个接口的实现没有问题，所以就不用��试。这�U�想法也很常见。所以一开始就写下��试�Q�可以杜�l�后患�?

eXile 2008-01-23 17:23 发表评论

久久久久久网,欧美一区二区三区男人的天堂,亚洲欧美卡通另类91av

TDD for GUI

(Z)正则表达�?0分钟入门教程

正则表达�?0分钟入门教程

目录

本文目标

正则表达式到底是什么东西？

入门

字符转义

重复

分枝条�g

分组

反义

后向引用

零宽断言

负向零宽断言

注释

处理选项

�q�����l?递归匚w��

�q�有些什么东西没提到

�U�真IP数据库格式详�?zt)

�U�真IP数据库格式详�?/h1>

基本�l�构

一. 了解文�g�?/h3> QQWry.dat的文件头只有8个字节，其结构非常简单，首四个字节是�W�一条烦引的�l�对偏移�Q�后四个字节是最后一条烦引的�l�对偏移�?/p>

Demo

�ȝ��

单元���试[zt]

设计Qt风格的C++API (zt)

设计Qt风格的C++API

便利陷阱

布尔参数陷阱

命名的艺�?/h2> 命名�Q�大概是设计API时唯一最重要的问题了。该怎么�U�呼�q�个�c�？成员函数该叫什么？

�l�类命名

�l�函数和参数命名

例子�Q�QProgressBar

�q��l?递归匚w��

一. 了解文�g�?/h3>
QQWry.dat的文件头只有8个字节，其结构非常简单，首四个字节是�W�一条烦引的�l�对偏移�Q�后四个字节是最后一条烦引的�l�对偏移�?/p>

单元��试[zt]

命名的艺�?/h2>
命名�Q�大概是设计API时唯一最重要的问题了。该怎么�U�呼�q�个�c�？成员函数该叫什么？