国产精品一级,国产精品美女久久久久久免费,欧美xx69

Thu, 28 Nov 2013 03:55:00 GMT

软�g开发是一个跨度很大的技术工作，在语�a�斚w��Q�有C�Q�C++�Q�Java�Q�Ruby�{�等�{�等�Q�在环境斚w��Q�又分嵌入式�Q�桌面系�l�，企业�U�，WEB�Q�基��pȝ��Q�或是科学研�I�。但是，不管是什么的情况�Q��L��有一些通用的基本职业技能�?/p>

�q�些最基本的职业技能通常军_��了一个程序员的��别，能否用好�q�些技能，直接关系��C��E�序员的职业生��。很多程序新手也是因为缺��、达不到或是不熟悉在�q�些基本技能，所以，他们需要有老手带，需要努力补齐这些技能。而高�U�程序员应该非常熟悉�q�些基本技能，而且有能力胜��dƈ带领其他�l�验不��的程序员�?/p>

下面�q�些基本职业技术可以用来做为对一个程序员的评伎ͼ�很明显，下面的这些技能都可以用来做面试。虽�Ӟ��q�有很多非技术的因素�Q�但对于评估一个程序员的技术能力来��_��其应该是��_��的了�?/p>

下面是程序员所应该具备的基本职业技能：

基本技�?/th>	技能描�q?/th>
阅读代码	�q�个技能需要程序员能够具备��L��已经存在的代码的能力�Q�这��L��能力可以让程序员分析�E�序的行为，了解�E�序�Q�这��h��能和开发团队一起工作，�l�承�l�护或是改进现有的程序�?/td>
�~�写�E�序	�~�写�E�序�q�不包括�E�序设计。不要以为编�E�是一件很��单的事情�Q�很多程序员都认为编�E�只需要懂得程序语�a�的语法，�q�把设计实现��可以了。但是这��ȝ��写程序还�q�远不够�Q��用什么样的编码风格成为编写程序员最需要具备的基本技能。能否��用非常良好的�~�程风格直接军_��了程序员的��别�?/td>
软�g设计	�q�一能力直接军_��了需要吏用什么样的代码技术达到怎么��L��功能�Q�而系�l�架构设计直接决定了软�g的质量、性能和可�l�护性。�ƈ不是所有的�E�序在这一斚w��都非�怼��U��Q�但每个�E�序员都需要或多或��的明白和掌握这一基本技能�?/td>
熟悉软�g工程	每个�E�序员都应该明白软�g工程是什么东西，都应该知道，需求分析，设计�Q�编码，��试�Q�Release和维护这几个阶段。当�Ӟ��几乎所有的人都知道�q�些东西�Q�但�q�不是每个�h都很清楚�q�些东西。现在很多高�U�程序员都会��h��“需求规��D��明书FS”�?#8220;概要设计HLD”。另外，�E�序员还需要知道一些��Y件开发的�Ҏ��论，比如�Q�敏捷开发或瀑布模型�?/td>
使用�E�序库或框架	一个程序员需要学会��用已有的代码�Q�无论是标论的程序库�Q�或是第三方的，�q�是自己公司内部的，都需要学会做。比如：C++中，需要学会��用STL�Q�MFC�Q�ATL�Q�BOOST�Q�ACE�Q�CPPUNIT�{�等。��用这些东西，可以让你的工作事半功倍�?/td>
�E�序调试	�E�序调试是分析BUG和解决问题最直接的能力。没有�h能够保证�E�序写出来不用调试就可以�q�行正常�Q�也没有人可以保证程序永�q�不会出BUG。所以，熟练使用调试器是一个程序员需要具备的基本技能�?/td>
使用IDE	学会使用IDE工具也会让你的工作事半功倍。比如，VC++�Q�Emacs�Q�Eclipse�{�等�Q��ƈ要知道这些IDE的长处和短处�?/td>
使用版本控制	一定要学会使用版本控制工具�Q�什么叫mainline/trunk�Q�什么叫tag�Q�什么叫branch�Q�怎么做patch�Q�怎么merge代码�Q�怎么reverse�Q�怎么利用版本控制工具�l�护不同版本的��Y件。这是程序员需要明的的软�g配置��理中最重要的一块�?/td>
单元��试	单元��试是每个程序都需要做的。很多单元测试也是需要编码的。一定要学会在xUnit框架下进行单元测试。比如JUnit, NUnit, CppUnit�{�等�?/td>
重构代码	每个�E�序员都需要有最基本的能力去重构目前已有的代码，使代码达到最优但却不能媄响�Q何的已有的功能。有一本书叫《��Y件的重构》，每个�E�序员都应该��M��下�?/td>
自动化编�?/td>	�E�序员需要��用一个脚本，其能自动化编�E�所有的工程和代码，�q�样�Q�整个开发团队可以不停地集成代码�Q�自动化��试�Q�自动化部��v�Q�以及��用一些工兯��行静态代码分析或是自动化��试�?/td>

当然�Q�还有很多的基本技术也是非帔R��要的�Q�比如，与�h的沟通能力，语言的表达能力，写作能力�Q�团队协作能力，适应变化的能力，旉��理能力�Q�多��d��处理能力�Q�自我学习能力，故障处理能力�Q�等�{�，�{�等�Q�这里只是列举了和技术相关的能力�Q�这些是�E�序最最最基本的能力，只要是程序员��必需要有的能力�?br />
本文转自�Q?a style="font-family: verdana, 'courier new'; line-height: 21px;">http://coolshell.cn/articles/428.html

王�v�?/a> 2013-11-28 11:55 发表评论

VS2010调试�W�记

Wed, 22 May 2013 09:57:00 GMT

1�?/strong>今天调试一个demo�Q�发现如下错误�?/span>

1> �pȝ��找不到指定的文�g�?/span>
1>C:\Program Files\MSBuild\Microsoft.Cpp\v4.0\Microsoft.CppCommon.targets(113,5): error MSB3073: The command "copy D:\WL_SDK_LAN_C++_20130521\demo\c++\Debug\Sample.exe D:\YuanTuo_1\wulianSDK\wulian_sdk_sample\SDK\Sample.exe
1>C:\Program Files\MSBuild\Microsoft.Cpp\v4.0\Microsoft.CppCommon.targets(113,5): error MSB3073: :VCEnd" exited with code 1.

可以修改下面属性：

2�?/span>VS2010�~�译错误�Q?/span>

fatal error C1189: #error : This file requires _WIN32_WINNT to be #defined at least to 0x
fatal error C1189: #error : This file requires _WIN32_WINNT to be #defined at least to 0x0403. Value 0x0501 or higher is recommended.

下面是彻底解��x��法：
在工�E�的stdafx.h中添加（如有�c�M��语句�Q�需注释掉）
#ifndef WINVER // Allow use of features specific to Windows 95 and Windows NT 4 or later.
#define WINVER 0x0501 // Change this to the appropriate value to target Windows 98 and Windows 2000 or later.
#endif

#ifndef _WIN32_WINNT // Allow use of features specific to Windows NT 4 or later.
#define _WIN32_WINNT 0x0501 // Change this to the appropriate value to target Windows 98 and Windows 2000 or later.
#endif

#ifndef _WIN32_WINDOWS // Allow use of features specific to Windows 98 or later.
#define _WIN32_WINDOWS 0x0501 // Change this to the appropriate value to target Windows Me or later.
#endif

#ifndef _WIN32_IE // Allow use of features specific to IE 4.0 or later.
#define _WIN32_IE 0x0601 // Change this to the appropriate value to target IE 5.0 or later.
#endif

王�v�?/a> 2013-05-22 17:57 发表评论

从一道面试题来阐释一个普遍的认知误区�Q��{载）

Thu, 18 Apr 2013 03:03:00 GMT

解释以下语句的含义：
1�?/span>new A;
2�?/span>new A();
也许很多人包括我自己�Q�都可以马上�l�出�W�一�U�情�늚��{�案�Q�在堆上�?/span>A�c�d��配内存，然后调用A的构造函数。这�U�说法被大家所熟知�Q�因为包括�?/span>STL源码剖析》等大作在内也都是这么写的（但是你认��U�说法完全正��吗�Q?/span>其实不尽�Ӟ��{�案后面揭晓)
�W�二�U�情况，对象构造的时候初始化列表为空会和�W�一�U�有什么不同呢�Q�对于这�U�在实际工程中很��用的情况�Q�我一时还真给不出��切的答案�?/span>
�|�上搜了一下，看到CSDN里面�q�有专门针对�q�个问题的一个帖子（原帖链接 http://bbs.csdn.net/topics/320161716�Q��?/span>
好像最�l�也没有可以信服的答案，认同度比较高的是�q�样的说法：“加括可��用没有参数的构造函敎ͼ�不加括号调用默认构造函数或唯一的构造函敎ͼ�看需�?/span>” �Q?/span>peakflys注：�q�种说法是错误的�Q�答案后面揭晓）
既然没有特别靠谱的答案，不如自己动手扑և��{�案�?/span>
构造以下示例：
/**
*\brief example1 difference between new and new()
*\author peakflys
*\data 12:10:24 Monday, April 08, 2013
*/

class A
{
public:
    int a;
};

int main()
{
    A *pa = new A;
    A *paa = new A();
    return 0;
}
查看main函数的汇�~�代�?/span>(�~�译器：gcc (GCC) 4.4.6 20120305 (Red Hat 4.4.6-4) )
int main()
{
  4005c4:   55                      push   %rbp
  4005c5:   48 89 e5                mov    %rsp,%rbp
  4005c8:   48 83 ec 10             sub    $0x10,%rsp
    A *pa = new A;
  4005cc:   bf 04 00 00 00          mov    $0x4,%edi
  4005d1:   e8 f2 fe ff ff          callq  4004c8 <_Znwm@plt> //调用new
  4005d6:   48 89 45 f0             mov    %rax,-0x10(%rbp) //rax寄存器内容赋�l�指针pa(rax寄存器里是new调用产生的A对象堆内存地址)
    A *paa = new A();
  4005da:   bf 04 00 00 00          mov    $0x4,%edi
  4005df:   e8 e4 fe ff ff          callq  4004c8 <_Znwm@plt> //调用new
  4005e4:   48 89 c2                mov    %rax,%rdx //rax的内�Ҏ��入rdx�Q�执行之后，rdx里存攄��x��通过new A()产生的内存地址
  4005e7:   c7 02 00 00 00 00       movl   $0x0,(%rdx) //把rdx内存指向的内容赋�?��|��x��A::a赋��gؓ0
  4005ed:   48 89 45 f8             mov    %rax,-0x8(%rbp) //rax寄存器内容赋�l�指针paa(rax寄存器里是new()调用产生的A对象堆内存地址)
return 0;
  4005f1:   b8 00 00 00 00          mov    $0x0,%eax
}
  4005f6:   c9                      leaveq
  4005f7:   c3                      retq
  通过上面产生的汇�~�代�?/span>(�?/span>AT&T汇编不熟悉的可以看注�?/span>)可以很容易看出，new A()的执行，在调用完operator new分配内存后，马上�Ҏ��分配内存中的对象使用0值初始化�Q��?/span>new A 仅仅是调用了operator new分配内存�Q?/span>
是不是这样就可以下结�?/span> new A()�?/span>new A多了一步，卛_��始化对象的步骤呢�Q?/span>
我们再看看下面这�U�情况：
/**
*\brief example2 difference between new and new()
*\author peakflys
*\data 12:23:20 Monday, April 08, 2013
*/

class A
{
public:
    A(){a = 10;}
    int a;
};

int main()
{
    A *pa = new A;
    A *paa = new A();
    return 0;
}
�q�种情况是类昄��提供含默认值的构造函数�?/span>
查看汇编实现如下�Q?/span>
int main()
{
  4005c4:   55                      push   %rbp
  4005c5:   48 89 e5                mov    %rsp,%rbp
  4005c8:   53                      push   %rbx
  4005c9:   48 83 ec 18             sub    $0x18,%rsp
    A *pa = new A;
  4005cd:   bf 04 00 00 00          mov    $0x4,%edi
  4005d2:   e8 f1 fe ff ff          callq  4004c8 <_Znwm@plt>
  4005d7:   48 89 c3                mov    %rax,%rbx
  4005da:   48 89 d8                mov    %rbx,%rax
  4005dd:   48 89 c7                mov    %rax,%rdi
  4005e0:   e8 2d 00 00 00          callq  400612 <_ZN1AC1Ev>
  4005e5:   48 89 5d e0             mov    %rbx,-0x20(%rbp)
    A *paa = new A();
  4005e9:   bf 04 00 00 00          mov    $0x4,%edi
  4005ee:   e8 d5 fe ff ff          callq  4004c8 <_Znwm@plt>
  4005f3:   48 89 c3                mov    %rax,%rbx
  4005f6:   48 89 d8                mov    %rbx,%rax
  4005f9:   48 89 c7                mov    %rax,%rdi
  4005fc:   e8 11 00 00 00          callq  400612 <_ZN1AC1Ev>
  400601:   48 89 5d e8             mov    %rbx,-0x18(%rbp)
    return 0;
  400605:   b8 00 00 00 00          mov    $0x0,%eax
}
  40060a:   48 83 c4 18             add    $0x18,%rsp
  40060e:   5b                      pop    %rbx
  40060f:   c9                      leaveq
  400610:   c3                      retq
上面的汇�~�代码就不在��d��注释了，因�ؓ两种操作产生的汇�~�代码是一��L��Q�都是先调用operator new分配内存�Q�然后调用构造函数�?/span>
上面的情况在VS2010下验证是一��L��情况�Q�有兴趣的朋友可以自己去看，�q�里��׃��再脓�?/span>VS2010下的汇编代码了�?/span>
通过上面的分析，对于new A�?/span> new A() 的区�?/span>�Q�我们可以得��Z��面的�l�论�Q?/span>
  1、类体含有显�C�适合地默认构造函数时�Q?/span>new A�?/span>new A()的作用一��_��都是首先调用operator new分配内存�Q�然后调用默认构造函数初始化对象�?/span>
2、类体无昄��构造函数时�Q?/span>new A()首先调用operator new来�ؓ对象分配内存�Q�然后��用空值初始化对象成员变量�Q��?/span>new A仅仅是调�?/span>operator new分配内存�Q�对象的成员变量是无意义的随机��|�� Q?/span>peakflys注：对于基本数据�c�d��Q�如int�{?/span> 适用此条�Q?/span>
注意刎ͼ�现在很多书籍�?/span>new操作�W�的说明都存在纰漏，例如�?/span>STL源码剖析》中2.2.2节中有以下的描述�Q?/span>

事实证明�Q?/span>new Foo的操作是否有构造函数的调用是不��定的，具体要看Foo�c�M��里是否有昄��构造函数的出现�?/span>

/*****************************************华丽分割�U?/span>**************************************
补充�Q�刚才发玎ͼ��?/span>C++Primer�W�四�?/span>5.11节中�Q�已�l�有了对�?/span>new A()的说明：

We indicate that we want to value-initialize the newly allocated object by following the type nameby a pair of empty parentheses. The empty parentheses signal that we want initialization but arenot supplying a specific initial value. In the case of class types (such as string) that define their own constructors, requesting value-initialization is of no consequence: The object is initialized by running the default constructor whether we leave it apparently uninitialized orask for value-initialization. In the case of built-in types or types that do not define any constructors, the difference is significant�Q?/span>

int *pi = new int; // pi points to an uninitialized int

int *pi = new int(); // pi points to an int value-initialized to 0

In the first case, the int is uninitialized; in the second case, the int is initialized to zero.
�q�里�l�出的解释和上面自己分析�?/span>new A()的行为是一致的�?br />
/***************************************再次华丽分割�U?/span>************************************
鉴于上面的结论是通过GCC�?/span>VS2010得出的，而且有朋友也提出同样的质疑，��Z��定�q�种�l�果是否是编译器相关的，刚才�Ҏ��查看了一�?/span>C++的标准化文档�?/span>
摘自�Q?/span>ISO/IEC 14882:2003(E) 5.3.4 - 15
— If the new-initializer is omitted:
      — If T is a (possibly cv-qualified) non-POD class type (or array thereof), the object is default-initialized(8.5). If T is a const-qualified type, the underlying class type shall have a user-declared default constructor.
      — Otherwise, the object created has indeterminate value. If T is a const-qualified type, or a (possibly cv-qualified) POD class type (or array thereof) containing (directly or indirectly) a member of const-qualified type, the program is ill-formed;
— If the new-initializer is of the form (), the item is value-initialized (8.5);

所以可以确定，�q�种情况完全是编译器无关�?/span>(当然那些不完全按照标准实现的�~�译器除�?/span>)�?/span>
但是通过上面标准化文档的描述�Q�我们可以看出文中对new A在无昄��构造函数时的�ȝ��q�不是特别准��，鉴于很多公司都有�q�道面试�?/span>(撇去�q�些题目的实际考察意义不说)�Q�我们有必要再补充一下：对于new A: �q�样的语句，再调用完operator new分配内存之后�Q�如�?/span>A�c�M��内含�?/span>POD�c�d��Q�则POD�c�d��的成员变量处于未定义状态，如果含有�?/span>POD�c�d��则调用该�c�d��的默认构造函数。�?/span> new A()在这些情况下都会初始化�?/span>
PS�Q�估计很多公司的“正确�{�案“ 也不一定正��吧�?/span>

本文转自�Q?/span>http://www.shnenglu.com/peakflys/archive/2013/04/08/199208.html

王�v�?/a> 2013-04-18 11:03 发表评论

Wed, 17 Apr 2013 09:13:00 GMT
来源于《敏捯��Y件开�?#8212;—原则、模式与实践�?/span>

常见的设计的臭味——腐化软�g的气�?/span>�?/span>
l         僵化性（Rigidity�Q�：很难对系�l�进行改动，因�ؓ每个改动都会�q��许多对系�l�其他部分的其他改动�?/span>
l         脆弱性（Fragility�Q�：对系�l�的改动会导致系�l�中和改动的地方在概念上无关的许多地方出现问题�?/span>
l         牢固性（Immobility�Q�：很难解开�pȝ��的纠�l�，使之成�ؓ一些可在其他系�l�中重用的组件�?/span>
l         �_�滞性（Viscosity�Q�：做正��的事情比做错误的事情要困难�?/span>
l         不必要的复杂性（Needless Complexity�Q�：设计中包含有不具��M��直接好处的基��l�构�?/span>
l         不必要的重复�Q?/span>Needless Repetition�Q�：设计中包含有重复的结构，而该重复的结构本可以使用单一的抽象进行统一�?/span>
l         晦�ӆ性（Opacity�Q�：很难阅读、理解。没有很好的表现出意图�?br />
敏捷设计是一个过�E�，不是一个事件。它是一个持�l�的应用原则、模式以及实跉|��改进软�g的结构和可读性的�q�程。它致力于保持系�l�设计在��M��旉��都尽可能得简单、干净以及富有表现�?/span>�?/span>

敏捷软�g开发宣�a��Q?/strong>

我们正在通过亲��n实践以及帮助他�h实践�Q�揭�C�更好的软�g开发方法。通过�q�项工作�Q�我们认为：
个体和交�?胜过 �q�程和工�?/strong>
可以工作的��Y�?胜过面面俱到的文�?/strong>
客户合作胜过合同谈判
响应变化胜过遵��@计划
虽然右项也具有�h��|��但我们认为左��具有更大的价倹{�?/span>
敏捷开发强调以��Zؓ中心�Q�而不是以�q�程��Z��心，��可能的沟通（与客��P��与团队成员）�Q�尽可能��C��最��单的设计解决问题�Q�从而能够拥抱变化）�?/span>

敏捷宣言遵��@的原�?/strong>
我们遵��@以下原则�Q?/span>

1。我们最优先要做的是通过��早的、持�l�的交付有�h值的软�g来��客户满意�?/strong>
　　规划�q�代故事时必��L��照优先��安排�Q��ؓ客户先提供最有�h值的功能。通过频繁�q�代能与客户形成早期的良好合作，及时反馈提高产品质量。敏捷小�l�关注完成和�?付具有用户�h值的功能�Q�而不是孤立的��d��。以前我们都用需求规��D��明书或者用例来�~�写详细的需求，敏捷使用用户故事来罗列需求。用��h��事是一�U�表�C�需求的轻量�U�技术，它没�?/span>
固定的�Ş式和强制性的语法。但是有一些固定的形式可以用来参考还是比较有益的。敏捷估��中使用了这个模板：“作�ؓ【用��L��c�d��】，我希望可以【能力】以�ѝ��业务�h倹{�?#8220;。��用基于用��h��事的需求分析方法时�Q�仍可能需要原型和�~�写文档�Q�只是工作重�Ҏ��多的转移��C��口头交流�?/span>

2。即使到了开发的后期�Q�也�Ƣ迎改变需求。敏捯��E�利用变化来为客户创造竞争优�ѝ�?/strong>
　　敏捷�q�程参与者不怕变化，他们认�ؓ改变需求是好事情，因�ؓ�q�些改变意味着我们更了解市场需求�?/span>

3。经常性的交付可以工作的��Y�Ӟ��交付的间隔可以从几周到几个月�Q�交付的旉��间隔��短��好�?/strong>
　　�q�代是受实践框限制的�Q�意味着即��攑ּ�一些功能也必须按时�l�束�q�代。只要我们可以保证交付的软�g可以很好的工作，那么交付旉��短�Q�我们和客户协作��p�� 紧密�Q�对产品质量��更有益。虽然我们多�ơ�P代，但�ƈ不是每次�q�代的结果都需要交付给用户�Q�敏捷开发的目标是让他们可以交付。这意味着开发小�l�在每次�q�代�?都会增加一些功能，增加的每个功能都是经�q�编码、测试，辑ֈ�了可发布的质量标准的�?/span>
　　另外敏捷开发项目中对开发阶�D�|��有什么重要的分割�Q�没有先期的需求阶�D�，然后是分析阶�D�，架构设计阶段�Q�编码测试阶�D늭��Q�在��目真正开始后�Q�每�ơ�P代中都会同时�q?/span>
行所有的上述阶段工作�?/span>

4。在整个��目开发期��_��业务人员和开发�h员必��d��天都在一起工作�?/strong>
　　软�g��目不会依照之前讑֮�的计划原路执行，中间对业务的理解、��Y件的解决�Ҏ��肯定会存在偏差，所以客戗��需求�h员、开发�h员以及涉众之间必��进行有意义的、频�J?nbsp;
的交互，�q�样��可以在早期及时的发现�ƈ解决问题�?/span>

5。围�l�被�Ȁ��p�v来的��Z��来构建项目。给他们提供所需要的环境和支持，�q�且信�Q他们能够完成工作�?/strong>
　　业务和技术是引�v不确定的二个主要斚w��Q��h是第三个斚w��。而业务和技术又必须�׃�h来执行，所以能够激�׃�h来解册��些问题是解决不确定性的关键。只要个人的目标和团
队的目标一��_��我们��需要鼓舞�v每个人的�U�极性，以个��Zؓ中心构徏��目�Q�提供所需的环境、支持与信�Q�?/span>

6。在团队内部�Q�最��h��效果�q�且富有效率的传递信息的�Ҏ��Q�就是面寚w��的交谈�?/strong>
　　在十几或者二十几个�h�l�成的大团队中，文档是一�U�比较合适的传递知识和交流的途径。而敏捷团队一般不会很多�h�Q�大团队实施敏捷时也会分成多个小的敏捷团队）�Q�所�?/span>
大量的文档交��其实�ƈ不是很经��的做法。此旉��寚w��的交谈反而更快速有效�?/span>

7、可工作的��Y件是首要�q�度度量标准�?/strong>
　　一般的工作都比较容易衡量�Q务进展，比如让你��L��q?吨的矛_��Q�我只要�ȝ��一下你已经搬运的石头重量就知道你完成多��了。而对于��Y件来��_��在��Y件没有编码、测试完
成之前，我们都不能因��Z��码编写了多少行，��试用例跑了多少个就��d��量这个功能是否完成了。衡量这个功能是否完成的首要标准��是�q�个功能可以�?作了�Q�对用户来说已经�?/span>
以应用了�?/span>

8。敏捯��E�提可持�l�的开发速度。责��M�h、开发者和用户应该能够保持一个长期的、恒定的开发速度�?/strong>
　　很多人都认�ؓ软�g开发中加班是很正常的，不加班反而不正常�Q�我�Ҏ��有点不理解，�q�个可能是国情所致吧。敏捯��E�希望能够可持箋的进行开发，开发速度不会随着�q�代的�Q务不同而不同，不欣赏所谓的��g��g��能完成的态度�Q�开发工作不应该是突击行为。我们不能指望说�H�击�q�个��目后就可以��L��了，因�ؓ完成一个项�?后会接踵而来下一个项目，而只要还是拼拼的态度�Q�下一个项目依旧会让你的组员再�ơ突凅R��这时不知道有�h会不会说�Q�那我们��׃��直加班，也是“持箋的开发�?�?#8221;啊，�q�时可要注意了，持箋加班�?/span>
慧导致�h疲劳、厌倦，保持长期恒定的速度也只是一�U�理惌��已�?/span>

9。不断地��x��优秀的技能和好的设计会增强敏捯��力�?/strong>
　　敏捷�q�程有很多好的技术实践可以加��Z�品敏捯��力，很多原则、模式和实践也可以增强敏捷开发能力�?《敏捯��Y件开发－原则、模式与实践》一书中介绍了很多设计，感兴��的可以��M��l�看看�?/span>

10。简�?---使未完成的工作最大化的艺�?---是根本的�?/strong>
　　我们不可能预期后面需求会如何变化�Q�所以不可能一开始就构徏一个完��的架构来适应以后的所有变化。敏捷团队不会去构徏明天的��Y�Ӟ��而把注意力放在如何�?�q�最��单的�Ҏ��完成现在需要解决的问题。这时有��Z��_��我已�l�预计到了肯定存在哪些需求扩展点�Q�我们在一开始是否需要考虑呢？�q�时团队需要根据自��q��理解 ��d��定是否考虑�Q�如果深信在明天发生了这个问题也可以��L��处理的话�Q�那么就最好先不考虑�?/span>

11。最好的构架、需求和设计��与自�l�织的团队�?/strong>
        敏捷中有很多�U�实践，大家都知道，�q�代式开发是主要的实跉|��法，而自�l�织团队也是主要的实践之一。在自组�l�团队中�Q�管理者不再发��h��令，而是让团队自�w�寻找最佳的工作方式来完成工作。要形成一个自�l�织团队其实比较难。CSDN采访Mishkin Berteig中说�?自组�l�团队的�W�一个要素就是必��L��一个团队，而不仅仅是一��h。一��h是一帮在一起工作的人，他们彼此之间�q�没有太多的沟通，他们也�ƈ不视彼此��Z��体。项目一开始，我们��׃��l�徏“团队”�Q�但很多时候由构架师、需求�h员、开发�h员和��试人员�l�成的是一��h而已。他�q�认为，团队的�Ş成必��ȝ��历几个时期。在 �l�历了初期的��合后，成员才会开始对团队共同的工作理念与文化形成一个基本的认识和理解。团队内会逐渐形成规矩�Q�而且�q�些规矩是不�a�而喻的。比如，每个�?都知道上午九�Ҏ��上班�Q�都会主动询问别人是否需要帮助，也都会去��d��和别人探讨问题。如果团队成员之间能够达成这��L��默契�Q�那么这个团队将成�ؓ一个真正高效的工作团队。在�q�样团队中，成员之间�怺�理解�Q�工作效率非帔R��。在自组�l�团队中�Q�团队成员不需要遵从别人的详细指��o。他们需要更高层�ơ的指导�Q�这�U�指导更像是一个目标，一个致力于开发出更好的��Y件的目标。��M��Q�自�l�织团队是一个自动自发、有着共同目标和工作文化的团队�Q�这��L��团队��L��在向它的�l�织做出承诺。但是，实现�q�些承诺对于自组�l�团队来说非帔R��要。否则，一旦出现问题，团队成员之间��׃��出现信�Q危机�?/span>

　　虽然敏捷开发小�l�是以小�l��ؓ整体来工作的�Q�但是还是有必要指明一些承担一定�Q务的角色。第一个角色是产品所有者（Product Owner�Q�。��品所有者的主要职责包括�Q�确认小�l�所有成员都在追求一个共同的��目前景�Q�确定功能的优先�U�以便��L��在处理最��h��价值的功能�Q�以及作出决�?使得寚w��目的投入可以产生良好的回报。可以对应�ؓ以前开发中�?#8220;产品�l�理”。另一角色是开发团队（developer�Q�，�q�里的开发�h员包括了架构师、设计师、程序员、需求�h员、测试�h员、文档编写者等�Q�有时��品所有者也可以被看作是
开发�h员。还有一个重要角色就是项目经理（project manager�Q�。敏捷开发的��目�l�理会更多的��x��领导而不是管理。在某些��目中，��目�l�理可能同时也是开发�h员，��数时候也会担��M�品所有者�?/span>
　　
12。每隔一定时��_��团队会在如何才能更有效地工作斚w��q�行反省�Q�然后相应地对自��q��行�ؓ�q�行调整�?/strong>
　　�׃��很多不确定性因素会��D��计划失效�Q�比如项目成员增减、技术应用效果、用户需求的改变、竞争者对我们的媄响等都会让我们作��Z��同的反应。　敏捷不是��Z��预定义的工作方式�Q�而是��Z��l�验性的方式�Q�对以上�q�些变化�Q�小�l�通过不断的反省调整来保持团队的敏��h��?/span>

面向对象设计的原则：

SRP 单一职责原则
��׃��个类而言�Q�应该仅有一个引起它变化的原因�?/span>
l         单一职责原则�Q?/span>The Single Responsibility Principle�Q�简�U?/span>SRP�Q�：��׃��个类而言�Q�应该仅有一个引起它变化的原�?/span>。在SRP中，我们把职责定义�ؓ“变化的原因（�Q?#8221;。如果你能够惛_��多于一个的动机��L��变一个类�Q�那么这个类��具有多于一个的职责。��Y件设计真正要做的许多内容�Q�就是发现职责�ƈ把那些职责相互分��R�?/span>事实上，我们��要��的其余原则都会以�q�样或那��L��方式回到�q�个问题上�?/span>
l         开攑ְ�闭原�?/span>�Q?/span>The Open-Close Principle�Q�简�U?/span>OCP�Q�：软�g实体�Q�类、模块、函数等�{�）应该是可以扩展的�Q�但是不可以修改�?/span>。遵循开攑ְ�闭原则设计出的模块具有两个主要的特征。它们是�Q�（1�Q�、对于扩展是开攄��。这意味着模块的行为是可以扩展的。当应用的需求改变时�Q�我们可以对模块�q�行扩展�Q��其具有满��那些改变的新行为。换句话��_��我们可以改变模块的功能。（2�Q�、对模块行�ؓ�q�行扩展�Ӟ��不必改动模块的源代码或者二�q�制代码。模块的二进制可执行版本�Q�无论是可链接的库�?/span>DLL或�?/span>Java�?/span>.jar文�g�Q�都无需改动�?/span>
l         Liskov替换原则�Q?/span>The Liskov Substitution Principle�Q�简�U?/span>LSP�Q�：子类型必��能够替换掉它们的基�c�d��?/span>OCP原则�?/span>OOD中很多说法的核心�?/span>LSP是��OCP成�ؓ可能的主要原则之一。正式子�c�d��的可替换性才使得使用基类�c�d��的模块在无需修改的情况下��可以扩展。这�U�可替换性必��L��开发�h员可以隐式依赖的东西�?/span>
l         依赖倒置原则�Q?/span>The Dependency Inversion Principle�Q�简�U?/span>DIP�Q�：�Q?/span>1�Q�、高层模块不应该依赖于底层模块。二者都应该依赖于抽�?/span>。（2�Q�、抽象不应该依赖于细节。细节应该依赖于抽象。��用传�l�的�q�程化设计所创徏出来的依赖关�pȝ��构，�{�略是依赖于�l�节的。面向对象的�E�序设计倒置了依赖关�pȝ��构，使得�l�节和策略都依赖于抽象，�q�且常常是客��h��有服务接口。事实上�Q�这�U�依赖关�p�L��式好的面向对象设计的标志所在�?/span>
l         接口隔离原则�Q?/span>The Interface Segregation Interface�Q�简�U?/span>ISP�Q�：不应该强�q�客户依赖它们不用的�Ҏ��。如果强�q�客��L��序依赖于那些它们不适用的方法，那么�q�些客户�E�序��面临着�׃��q�些未��用方法的改变所带来的变更。这��无意中��D��了所有客��L��序之间的耦合。我们希望尽可能地避免这�U�耦合�Q�因此我们希望分��L��口�?/span>
    REP 重用发布�{��h原则
       重用的粒度就是发布的�_�度
    CCP ��q��闭原则
  包中的所有类对于同一�c�L��质的变化应该是共同��闭的。一个变化若对一个包产生影响�Q�则��对该包中的所有类产生影响�Q�而对于其他的包不造成��M��影响�?/span>
    CRP 共同重用原则
      一个包中的所有类应该是共同重用的。如果重用了包中的一个类�Q�那么就要重用包中所有类�?/span>
    ADP 无环依赖原则
      在包的依赖关�p�d��中不允许存在环�?/span>
    SDP �E�_��依赖原则
    朝着�E�_��的方向进行依赖�?/span>
    SAP �E�_��抽象原则
      包的抽象�E�度应该和其�E�_��E�度一致�?/span>

极限�~�程实践
完整团队
XP��目的所有参与者（开发�h员、业务分析师、测试�h员等�{�）一起工作在一个开攄��场所中，他们是同一个团队的成员�?/span>
计划游戏
计划是持�l�的�Q��@序渐�q�的。每2周，开发�h员就��Z��2周估��候选特性的成本�Q�而客户则�Ҏ��成本和商务�h值来选择要实现的�Ҏ��?/span>
客户��试
作�ؓ选择每个所期望的特性的一部分�Q�客户定义出自动验收��试来表明该�Ҏ��可以工作�?/span>
��单设�?/span>
团队保持设计恰好和当前的�pȝ��功能相匹配，它通过了所有的��试�Q�不包含��M��重复�Q�表辑և�了编写者想表达的所有东西，�q�且包含��可能少的代码�?/span>
�l�对�~�程
所有的产品软�g都是�׃��个程序员�Q��ƈ排坐在一起在同一台电脑上构徏的�?/span>
��试驱动开�?/span>
�E�序员以非常短的循环周期工作�Q�他们先增加一个失败的��试�Q�然后��之通过�?/span>
改进设计
随时改进�p�糕的代码。保持代码尽可能的干净�Q�具有表辑֊��?/span>
持箋集成
团队��L��使系�l�完整地被集成�?/span>
集体代码所有权
��M��l�对的程序员都可以在��M��时候改�q��Q何代码�?/span>
�~�码标准
�pȝ��中所有的代码看�v来就好像是被单独一�?-非常值得胜�Q�?-人编写的�?/span>
隐喻
团队提出一个程序工作原理的公共景像�?/span>
可持�l�的速度
团队只有持久才有莯��的希望，他们以能够长期维持的速度努力工作�Q�他们保存精力，他们把项目看作是马拉��N��袍，而不是全速短跑�?/span>

��试驱动开�?/span>
极限�~�程�Q?/span>eXtreme Programming�Q�简�U?/span>XP�Q�是敏捷�Ҏ��中最著名的一个。它�׃��p�d��单却�怺�依赖的时间组成。这些实�늻�合在一起�Ş成了一个胜于部分结合的整体。其中一个非帔R��要的�Q�当前也受到格外重视的实践就�?/span>TDD�Q�测试驱动的开发方法）�?/span>
在测试驱动的开发方法中�Q�编写所有的代码的目的都是�ؓ了��p�|的单元测试能够通过。首先编写一个单元测试，�׃��它要��试的功能还不在�Q�所以它会运行失败。然后编写代码�ɋ��试通过�?/span>
�~�写��试用例和代码之间的更�P速度是很快的�Q�基本上几分钟左叟뀂测试用例和代码共同演化�Q�其中测试用例��@序渐�q�地对代码的�~�写�q�行指导。作为结果，一个非常完整的��试用例集和代码一起发展�v来�?/span>
��试�_�略的可以分为单元测试和验收��试。单元测试是用来验证�pȝ��中个别机制的白盒��试�?/span>
单元��试用来验证�pȝ��的小的组成单元应该按照所期望的方式工作，但是它们没有验证�pȝ��作�ؓ一个整体时工作的正��性。所以，单元��试是必要的�Q�但是不够充分�?/span>
验收��试是用来验证系�l�满��_��户需求的黑盒��试。验收测试由不了解系�l�内部机制的人编写。验收测试是�E�序�Q�因此是可运行的。通常通过使用专门为应用程序的客户创徏的脚本语�a�来编写验收测试。正如单元测试作为可�~�译、运行的有关�pȝ��内部�l�构的文档那��P��验收��试是有关系�l�特性的可编译、执行的文档�?/span>
�~�写代码前就�~�写单元��试会带来四个很明显的好处：
1、首先编写测试��得程序中的每一��功能都有测试来验证它的操作的正��性。这��可以给以后的开发提供支��_��使我们可以更自由地对�E�序�q�行更改�Q�因为测试可以告诉我们程序仍然具有正��的行�ؓ�?/span>
2、首先编写测试迫使我们必��M��E�序调用者的有利视角去观察我们将要编写的�E�序。这��P��我们��׃��在关注程序的功能的同�Ӟ��直接��x��它的接口�Q�我们也��可以设计出便于调用的��Y件�?/span>
3、首先编写测试迫使我们把�E�序设计为可��试的。�ؓ了把�E�序设计为易于调用和可测试的�Q�程序必��d��它周边环境解耦。这样首先编写测试迫使我们解除��Y件中的耦合。面向对象设计的原则在进行这�U�解除耦合斚w��h��巨大的帮助作用�?/span>
4、首先编写测试的另一个重要效果是�Q�测试可以作��Z��U�无��L��文档形式。测试就像一套范例，它帮助其他程序员了解如何使用代码。这份文档是可编译、可�q�行的。它保持最新。它不会撒谎�?/span>
首先�~�写验收��试的行为对于系�l�的架构斚w��h��p��的媄响。�ؓ了�ɾpȝ��h��可测试性，��必��要在很高的�pȝ��架构层面对系�l�进行解耦合。正如单元测试可以促使你在小的方面可以做��Z��良的设计决策一��P��验收��试可以促��你在大的斚w��做出优良的系�l�架构决�{��?br />
软�g大师�?/span>C++之父Bjarne Stroustrup曄��说过�Q�设计和�~�程都是人的�z�d��。忘��C��q�一点，��会失去一�?/span>。敏捯��Y件开发方法正是认识到软�g开发的�q�一本质特征而提出的革新性开发方法。��用敏捷开发方法会�l�我们带来巨大的好处。当然要完全做到也是很困隄��。这不仅需要对敏捷的深�ȝ��解，更需要敏捷团队成员的共同努力�?/span>

本文参考：http://blog.csdn.net/open2job/article/details/6335000

王�v�?/a> 2013-04-17 17:13 发表评论

Mon, 07 Jan 2013 08:49:00 GMT

转自�Q?a style="box-sizing: border-box; color: #3468a4;">http://www.itivy.com/ivy/archive/2011/11/24/something-that-architecture-must-be-aware-of.html

对于大多数架构师而言�Q?#8220;可扩展�?#8221;在��Y件架构方面是最虚无�~�缈的说法。这毫不奇怪，因�ؓ可扩展性正是如今��Y件设计领域最值得优先考虑的要素。然而，计算机科学家们还无法了解一套单独的架构如何才能扩展臛_��c�d��用环境当中。相反，我们在数量繁多的�Ҏ��中所设计出的可扩展性架构，往往以业界较为通用的已知可扩展模式及个人偏好�ؓ标准。简单来�Ԍ��打造一套具备可扩展性的�pȝ��已经变得更像是一门艺术而不单单是技术�?/p>
我们常常会通过观摩��C��体会�q�学习艺术的�_�N��Q�而可扩展性也应该遵��@同样的�\�U�！
在这��文章中�Q�我��列出数�ƾ�ؓ大家所耳熟能详的可扩展性架构。通常情况下，架构师们完全可以借鉴已知的可扩展架构模式�Q�进而创造出新的可扩展架构�?/p>
LB (负蝲�q��? + 无共享单�?nbsp;- 该模型中包含一�p�d��单元�Q�各单元彼此间不�׃�n��M��内容�Q�且一致指向一个将输入文讯按一定条件发往单元处的负蝲�q��器（�q�构成一个��@ 环，以负载等情况为基��Q�。每个单元可以是一个单独的节点或是紧密耦合的节�Ҏ��构成的集��。用户可以��用DNS循环、硬件负载��^衡器或者��Y件负载��^衡器�?成负载��^衡效果。创��Z��套负载均衡的层次�l�构�Q��ƈ在其中结合前面提到的各种负蝲�q��器也是可行的。在由Michael Stonebraker撰写的�?nbsp;无共享体�p�L��构实�?nbsp;》一文中�Q�专门讨��Z��此类架构�?br style="box-sizing: border-box;" />
LB + 无状态节�?nbsp;+ 可扩展存�?nbsp;- 传统�?nbsp;三层式Web架构使用的就是这�U�模型。该模型包括��C��与可扩展存储交互的无状态节点以及一个分布于节点间负载中的负载��^衡器。在�q�一模型中，存储通常作�ؓ限制因素存在�Q�但NoSQL存储则可以利用这套模型创建出具备相当可扩展性的�pȝ��?br style="box-sizing: border-box;" />
点对�Ҏ��?nbsp;(分布式Hash列表 (��U�DHT)以及内容��d��|�络(��U�CAN)) -�q�套模型提供了一些传�l�的可扩展算法，�q�些��法的各个方面几乎全部按�Ҏ��q�行了等比例增加。�D例来��_��像Chord、Pastry�Q�特指免费版�Q�以及CAN都属于此�c�R��而以 Cassandra��Z��表的、基于P2P架构的几�ƾNoSQL�pȝ��也是其中的成员。�?nbsp;展望P2P�pȝ��中的数据》一文就深入探讨了这�c�L��型的各种�l�节�?br style="box-sizing: border-box;" />
分布式队�?nbsp;– �q�种模型以将队列实施�Q�即先进先出交付机制�Q�作为网�l�服务处理�ؓ基础。该模型通过JMS队列而广泛得到采用。一般会遵��@�q�种做法的有��d��队列以及通过保持队列分��体系实现扩展性的��d��队列版本�Q�后者在负蝲无法及时处理�Ӟ��d��会由低��层面向高�U�层面传递�?br style="box-sizing: border-box;" />
发布/订阅模式 - 一般用于通过�|�络向彼此发布订阅讯息。�?nbsp;发布与订阅的多面�?nbsp;》这一�l�典论文中详�l�的介绍�q�一模型�Q�该模型斚w��最典型的例子即 NaradaBroker�?nbsp;EventJava �?br style="box-sizing: border-box;" />
��道消息与自然灵感式模型 - �q�种模型源自日常生活中小道消息的传播途径�Q�也��是每个节点��随机选择后箋节点以交换信息。正如现实生�z�M��的实际反馈，�q�种八卦型算法在信息传播斚w��出奇地迅速。该模型的另一大分支则是受到生物学影响的启发式��法。自然世界中存在着大量协调及扩展方面极为卓��的固有��法。�D例来��_��蚂蚁、�h�c�M��及蜜蜂等�{�，都能够以最��z�的交流方式协调好扩展性方面的需要。模型中的算法正是借鉴了这些实际存在的现象。在论文�?nbsp;从流行病的蔓延到分布式计��?nbsp;》中对这�U�模型有着详尽的叙�q��?br style="box-sizing: border-box;" />
地图�~�小/数据��?nbsp;- �q�一概念首先��p��歌公司提出，地图�~�小为工作的描述及执行提供了一套可扩展的模式。虽然内�?��单，但它仍然成�ؓ联机分析处理斚w��的首要处理模式。数据流则是一�U�更先进的方式，用来表达执行信息�Q�而像Dryad及Pig�q�样的项目�ؓ数据��的执行�?供了可扩展的框架。论文�?nbsp;地图�~�小�Q�大型集��上的简化数据处�?nbsp;》中讄��了专门的主题�Q�详�l�讨��一内容。Apache的Hadoop��是�q�种模型的代表性��品�?br style="box-sizing: border-box;" />
责�Q树�Ş�?nbsp;- �q�种模型打破了递归问题的束�~�，��整个流�E�以树状形式加以处理�Q�每个父节点��工作下放至子节炏V��这�U�模型扩展性强�Q��ƈ已经被应用于数款可扩展性架构当中�?br style="box-sizing: border-box;" />
��处�?nbsp;- �q�种模型被用于处理源源不断的数据��及数据。这�U�处理方式通过�|�络中的处理节点获得支持�Q�例如Aurora、Twitter Strom以及Apache S4�{�）�?br style="box-sizing: border-box;" />
可扩展存�?nbsp;– 该模型的应用范围从数据库、NoSQL存储、服务注册到文�g�pȝ��都有体现�?nbsp;链接中的�q�篇文章以可扩展性�ؓ切入点对其进行了深入讨论�?/li>
�l�g��所�q�ͼ�可扩展性的实现只有三种方式�Q�即�Q�分布、缓存及异步处理。前文所提到的各�U�架构事实上都是把这三种方式�q�行不同�l�合�q�加以实施。而另一�?面，不利于可扩展性的因素�Q�除了糟�p�的�~�码本��n�Q�全局性协调也起到了重要的影响。简单来��_��M��一�U�全局性协调都会限制系�l�的可扩展性。本文中所提到的各 �U�架构也只是在做好了本地性协调，而非全局性协调�?/p>
然而，��它们有机地�l�合��h��以创��Z��套极具可扩展性的架构可不像说��h��那么�Ҏ��Q�除非我们能扑ֈ�一�U�全新的扩展模式。不�q�经验告诉我们，比�v搞一套全新的架构�Q�采用�ؓ我们所熟知且更易驾驭的可扩展性解��x��案永�q�是更好的选择�?/p>

王�v�?/a> 2013-01-07 16:49 发表评论

Mon, 07 Jan 2013 08:46:00 GMT

转自�Q?a style="box-sizing: border-box; color: #3468a4;">http://www.infoq.com/cn/articles/cyw-evaluate-seachengine-result-quality

前言
搜烦质量评估是搜索技术研�I�的基础性工作，也是核心工作之一。评��P��Metrics�Q�在搜烦技术研发中扮演着重要角色�Q�以至于��M��一�U�新�Ҏ��与他们的评�h方式是融��Z��体的�?/p>

搜烦引擎�l�果的好坏与否，体现在业界所�U�的在相��x��（Relevance�Q�上。相��x��的定义包括狭义和广义两斚w��Q�狭义的解释是：��索结果和用户查询的相关程度。而从�q�义的层面，相关性可以理解�ؓ为用��h��询的�l�合满意度。直观的来看�Q�从用户�q�入搜烦框的那一刻�v�Q�到需求获得满��ؓ止，�q�之间经历的�q�程��顺畅，��便��P��搜烦相关性就��好。本文�ȝ��业界常用的相��x��评��h��标和量化评�h�Ҏ��。供�Ҏ��感兴��的朋友参考�?/div>
Cranfield评�h体系
A Cranfield-like approach�q�个名称来源于英国Cranfield University�Q�因为在二十世纪五十�q�代该大学首先提��Z��q�样一套评��L��l�：由查询样例集、正��答案集、评��指标构成的完整评测�Ҏ��Q��ƈ从此��立�?#8220;评�h”在信息检索研�I�中的核心地位�?/p>
Cranfield评�h体系�׃��个环节组成：
抽取代表性的查询词，�l�成一个规模适当的集�?/li>
针对查询样例集合�Q�从��索系�l�的语料库中��L��对应的结果，�q�行标注�Q�通常人工�q�行�Q?/li>
��查询词和带有标注信息的语料库输入检索系�l�，对系�l�反馈的��索结果，使用预定义好的评仯��公式，用数值化的方法来评�h��索系�l�结果和标注的理想结果的接近�E�度
查询词集合的选取
Cranfield评�h�pȝ��在各大搜索引擎公司内有广泛的应用。具体应用时�Q�首先需要解决的问题是构造一个测试用查询词集合�?/p>
按照Andrei Broder�Q�曾在AltaVista/IBM/Yahoo任职�Q�的研究�Q�查询词可分�?�c�：��d��c�L��询（Navigational�Q�、信息类查询(Informational)、事务类查询(Transactional)。对应的比例分别�?/p>
Navigational �Q?12.3% Informational �Q?62.0% Transactional �Q?25.7%
��Z��使得评估�W�合�U�上实际情况�Q�通常查询词集合也会按比例�q�行选取。通常从线上用��L��Query Log文�g中自动抽取�?/p>
另外查询集合的构造时�Q�除了上�q�查询类型外�Q�还可以考虑Query的频�ơ，对热门query�Q�高频查询）、长��query�Q�中低频�Q�分别占特定的比例�?/p>
另外�Q�在抽取Query�Ӟ��往往Query的长短也是一个待考虑的因素。因为短query�Q�单term的查询）和长Query�Q�多Term的查询）排序��法往往会有一些不同�?/p>
构成查询集合后，使用�q�些查询词，在不同系�l�（例如�Ҏ��癑ֺ�和Google�Q�或不同技术间�Q�新旧两套Ranking��法的环境）�q�行搜烦�Q��ƈ对结果进行评分，以决定优劣�?/p>
附图�Q�对同一Query�Q?#8220;�C�会保险�?#8221;�Q�各大搜索引擎的�l�果�C�意图。下面具体谈谈评分的�Ҏ��?/p>
Precision-recall�Q�准��率-召回率方法）
计算�Ҏ��
信息��索领域最�q��ؓ人知的评��h��标�ؓPrecision-Recall�Q�准��率-召回率）�Ҏ��。该�Ҏ��从提��今已�l�历半个世纪�Q�至今在很多搜烦引擎公司的效果评��C��使用�?/p>
��֐�思义�Q�这个方法由准确率和召回率这两个�怺�兌��的统计量构成�Q�召回率�Q�Recall�Q�衡量一个查询搜索到所有相��x��档的能力�Q�而准��率�Q�Precision�Q�衡量搜索系�l�排除不相关文档的能力。（通俗的解释一下：准确率就是算一��你查询得到的结果中有多��是靠谱的；而召回率表示所有靠��q��l�果中，有多��被你给扑֛�来了�Q�。这两项是评��h��索效果的最基础指标�Q�其具体的计��方法如下�?/p>
Precision-recall�Ҏ��假定对一个给定的查询�Q�对应一个被��索的文档集合和一个不相关的文档集合。这里相��x��被假设��Z��元的�Q�用数学形式化方法来描述�Q�则是：
A表示相关文档集合
A表示不相关集�?/p>
B表示被检索到的文档集�?/p>
B表示未被��索到的文档集�?/p>
则单�ơ查询的准确率和召回率可以用下述公式来表达：
�Q�运��符∩ 表示两个集合的交集。|x|�W�号表示集合x中的元素数量�Q?/p>
从上面的定义不难看出�Q�召回率和准��率的取��D��围均在[0,1]之间。那么不难想象，如果�q�个�pȝ��扑֛�的相兌��多，那么召回率越高，如果相关�l�果全部都给召回了，那么recall此时��q��?.0�?/p>

相关�?/p>
不相�?/p>
被检索到
A∩ B
A∩ B
未被��索到
A∩B
A∩B
Precision-Recall曲线
召回率和准确率分别反映了��索系�l�的两个最重要的侧面，而这两个侧面又相互制�U�。因为大规模数据集合中，如果期望��索到更多相关的文档，必然需�?#8220;攑֮�”��索标准，因此会导致一些不相关�l�果淯��来，从而��准确率受到媄响。类似的�Q�期望提高准��率�Q�将不相��x��档尽量去除时�Q�务必要执行�?#8220;严格”的检索策略，�q�样也会使一些相关的文档被排除在外，使召回率下降�?/p>
所以�ؓ了更清晰的描�q�C��者间的关�p�，通常我们��Precison-Recall用曲�U�的方式�l�制出来�Q�可以简�U�CؓP-R diagram。常见的形式如下图所�C�。（通常曲线是一个逐步向下的走势，即随着Recall的提高，Precision逐步降低�Q?/p>
P-R的其它�Ş�?/h3>
一些特定搜索应用，会更��x��搜烦�l�果中错误的�l�果。例如，搜烦引擎的反作弊�pȝ��Q�Anti-Spam System�Q�会更关注检索结果中混入了多��条作弊�l�果。学术界把这些错误结果称作假��x��（False Positive�Q�结果，对这些应用，通常选择用虚报率�Q�Fallout�Q�来�l�计�Q?/p>
Fallout和Presion本质是完全相同的。只是分别从正反两方面来计算。实际上是P-R的一个变�U��?/p>
再回��C��图，Presion-Recall是一个曲�U�，用来比较两个�Ҏ��的效果往往不够直观�Q�能不能对两者进行综合，直接反映��C��个数��g��呢？为此IR学术界提��Z��F值度量（F -Measure�Q�的�Ҏ��。F-Measure通过Presion和Recall的调和��^均数来计��，公式为：
其中参数λε(0,1)调节�pȝ��对Precision和Recall的��^衡程度。（通常�?#955;=0.5�Q�此�?nbsp;�Q?/p>
�q�里使用调和�q�_��数而不是通常的几何��^均或��术�q�_��Q�原因是调和�q�_��数强调较��数值的重要性，能敏感的反映��数字的变化�Q�因此更适合用来反映��索效果�?/p>
使用F Measure的好处是只需要一个单一的数字就可以�ȝ��pȝ��的检索效果，便于比较不同搜烦�pȝ��的整体效果�?/p>
P@N�Ҏ��
点击因素
传统的Precision-Recall�q�不完全适用�Ҏ��索引擎的评估�Q�原因是搜烦引擎用户的点��L��式有其特�D�性，包括�Q?/p>
A 60-65%的查询点��M��名列搜烦�l�果�?0条的�|�页�Q? B 20-25%的�h会考虑点击名列11�?0的网��； C 仅有3-4%的会点击名列搜烦�l�果中列�W?1到第30名的�|�页
也就是说�Q�绝大部分用��h��不愿意翻��去看搜索引擎给出的后面的结果�?/p>
而即使在搜烦�l�果的首��（通常列出的是�?0条结果）�Q�用��L��点击行�ؓ也很有意思，我们通过下面的Google点击热图�Q�Heat Map�Q�来观察�Q�这个热囑֜�二维搜烦�l�果��上通过光谱来�Ş象的表达不同位置用户的点�ȝ��度。颜色约靠近�U�色表示点击强度��高�Q�：
从图中可以看出，搜烦�l�果的前3条吸引了大量的点击，属于热度最高的部分。也��是��_��Ҏ��苏引擎来��_��最前的几条�l�果是最关键的，军_��了用��L��满意�E�度�?/p>
康乃��大学的研究人员通过eye tracking实验获得了更为精��的Google搜烦�l�果的用戯��为分析图。从�q�张图中可以看出�Q�第一条结果获得了56.38%的搜索流量，�W�二条和�W�三条结果的排名依次降低�Q�但�q�低于排名第一的结果。前三条�l�果的点��L��例大�U��ؓ11:3:2 。而前三条�l�果的�ȝ��d��乎分��了搜烦��量�?0%�?/p>
另外的一些有��的�l�论是，点击量�ƈ不是按照��序依次递减的。排名第七位获得的点��L��最��的�Q�原因可能在于用户在��览�q�程中下拉页面到底部�Q�这时候就只显�C�最后三位排名网站，�W�七名便�Ҏ��被忽略。而首屏最后一个结果获得的注意力（2.55�Q�是大于倒数�W�二位的(1.45)�Q�原因是用户在翻��前�Q�对最后一条结果印象相对较深。搜索结果页面第二页排名�W�一的网��（��x��L��?1位的�l�果�Q�所获得的点��d��有首��|��名第十网站的40%�Q�与首页的第一条结果相比，更是只有�?/60�?/100的点击量�?/p>
因此在量化评估搜索引擎的效果�Ӟ��往往需要根据以上搜索用��L��行�ؓ特点�Q�进行针�Ҏ��的设计�?/p>
P@N的计��方�?/h3>
P@N本��n是Precision@N的简�U�ͼ�指的是对特定的查询，考虑位置因素�Q�检��前N条结果的准确率。例如对单次搜烦的结果中�?��，如果�?��ؓ相关文档�Q�则P@5 = 4/5 = 0.8 �?/p>
��试通常会��用一个查询集合（按照前文所�q�方法构造）�Q�包含若�q�条不同的查询词�Q�在实际使用P@N�q�行评估�Ӟ��通常使用所有查询的P@N数据�Q�计��算术��^均��|��用来评判该系�l�的整体搜烦�l�果质量�?/p>
N的选取
对用��h��_��通常只关注搜索结果最前若�q�条�l�果�Q�因此通常搜烦引擎的效果评估只��x��?、或者前3�l�果�Q�所以我们常用的N取��gؓP@3或P@5�{��?/p>
对一些特定类型的查询应用�Q�如��d��cȝ��查询�Q�Navigational Search�Q�，�׃��目标�l�果极�ؓ明确�Q�因此在评估�Ӟ��会选择N=1�Q�即使用P@1�Q�。�D个例子来��_��搜烦“新浪�|?#8221;、或“新浪首页”�Q�如果首条结果不�?新浪�|�（url�Q?a style="box-sizing: border-box; color: #0b59b2;">www.sina.com.cn�Q�，则直接判该次查询�_�ֺ�不满��需求，即P@1=0
MRR
上述的P@N�Ҏ��Q�易于计��和理解。但�l�心的读者一定会发现问题�Q�就是在前N�l�果中，排序�W?位和�W�N位的�l�果�Q�对准确率的影响是一��L��。但实际情况是，搜烦引擎的评��h��和排序位�|�极为相关的。即排第一的结果错误，和第10位的�l�果错误�Q�其严重�E�度有天壤之别。因此在评�h�pȝ��中，需要引入位�|�这个因素�?/p>
MRR是��^均排序倒数�Q�Mean Reciprocal Rank�Q�的��U�ͼ�MRR�Ҏ��主要用于��d��c�L��索（Navigational Search�Q�或问答�c�L��索（Question Answering�Q�，�q�些��索方法只需要一个相��x��档，对召回率不敏感，而是更关注搜索引擎检索到的相��x��档是否排在结果列表的前面。MRR�Ҏ��首先计算每一个查询的�W�一个相��x��档位�|�的倒数�Q�然后将所有倒数值求�q�_��。例如一个包含三个查询词的测试集�Q�前5�l�果分别为：
查询一�l�果�Q?.AN 2.AR 3.AN 4.AN 5.AR 查询二结果：1.AN 2.AR 3.AR 4.AR 5.AN 查询三结果：1.AR 2.AN 3.AN 4.AN 5.AR
其中AN表示不相关结果，AR表示相关�l�果。那么第一个查询的排序倒数�Q�Reciprocal Rank�Q�RR₁ = 1/2=0.5 �Q�第二个�l�果RR₂ = 1/2 = 0.5 �Q?注意倒数的��g��变，即��查询二获得的相关�l�果更多。同理，RR₃= 1/1 = 1�?对于�q�个��试集合�Q�最�l�MRR=�Q�RR₁+RR₂+RR₃�Q? 3 = 0.67
然而对大部分检索应用来��_��只有一条结果无法满��需求，对这�U�情况，需要更合适的�Ҏ��来计��效果，其中最常用的是下述MAP�Ҏ��?/p>
MAP
MAP�Ҏ��是Mean Average Precison�Q�即�q�_��准确率法的简�U�。其定义是求每个相关文档��索出后的准确率的�q�_��|��即Average Precision�Q�的��术�q�_��|��Mean�Q�。这里对准确率求了两�ơ��^均，因此�U�CؓMean Average Precision。（注：没叫Average Average Precision一是因为难听，二是因�ؓ无法区分两次�q�_��的意义）
MAP 是反映系�l�在全部相关文档上性能的单值指标。系�l�检索出来的相关文档��靠�?rank ��高)�Q�MAP��应该越高。如果系�l�没有返回相��x��档，则准��率默认�?�?/p>
例如�Q�假设有两个主题�Q?/p>
主题1�?个相关网��，主题2�?个相关网��c�?/p>
某系�l�对于主�?��索出4个相关网��，其rank分别�?, 2, 4, 7�Q?/p>
对于主题2��索出3个相关网��，其rank分别�?,3,5�?/p>
对于主题1�Q��^均准��率MAP计算公式为：
(1/1+2/2+3/4+4/7)/4=0.83�?
对于主题2�Q��^均准��率MAP计算公式为：
(1/1+2/3+3/5+0+0)/5=0.45�?
则MAP= (0.83+0.45)/2=0.64�?#8221;
DCG�Ҏ��
DCG是英文Discounted cumulative gain的简�U�ͼ�中文可翻译�ؓ“折扣增益�?#8221;。DCG�Ҏ��的基本思想是：
每条�l�果的相��x��分�{��来衡�?/li>
考虑�l�果所在的位置�Q�位�|�越靠前的则重要�E�度��高
�{��高（卛_��l�果�Q�的�l�果位置��靠前则值应该越高，否则�l�予惩罚
我们首先来看�W�一条：相关性分�U�。这里比计算Precision时简单统�?#8220;准确”�?#8220;不准��?#8221;要更为精�l�。我们可以将�l�果�l�分为多个等�U�。比如常用的3�U�：Good�Q�好�Q�、Fair�Q�一般）、Bad�Q�差�Q�。对应的分值rel为：Good:3 / Fair:2 / Bad:1 。一些更为细致的评估使用5�U�分�c�L��Q�Very Good�Q�明昑֥��Q�、Good�Q�好�Q�、Fair�Q�一般）、Bad�Q�差�Q�、Very Bad�Q�明昑ַ��Q�，可以��对应分值rel讄��为：Very Good:2 / Good:1 / Fair:0 / Bad:-1 / Very Bad: -2
评判�l�果的标准可以根据具体的应用来确定，Very Good通常是指�l�果的主题完全相养I��q�且�|�页内容丰富、质量很高。而具体到每条
DCG的计��公式�ƈ不唯一�Q�理��Z��只要求对数折扣因子的�q�x��性。我个�h认�ؓ下面的DCG公式更合理，��了相��x��，�W?�?条结果的折扣�p�L��也更合理�Q?/p>
此时DCG�?个位�|�上�l�果的折扣因子（Discount factor�Q�数��gؓ�Q?/p>
i
log₂ (i+1)
1/log₂ (i+1)
1
1
1
2
1.59
0.63
3
2
0.5
4
2.32
0.43
取以2为底的log��g��来自于经验公式，�q�不存在理论上的依据。实际上�Q�Log的基数可以根据��^滑的需求进行修改，当加大数值时�Q�例如��用log₅ 代替log₂�Q�，折扣因子降低更�ؓ�q�速，此时��了前面结果的权重�?/p>
��Z��便于不同�c�d��的query�l�果之间横向比较�Q�以DCG为基��Q�一些评��L��l�还对DCG�q�行了归一�Q�这些方法统�U�CؓnDCG�Q�即 normalize DCG�Q�。最常用的计��方法是通过除以每一个查询的理想值iDCG�Q�ideal DCG�Q�来�q�行归一�Q�公式�ؓ�Q?/p>
求nDCG需要标定出理想情况的iDCG�Q�实际操作的时候是异常困难的，因�ؓ每个人对“最好的�l�果”理解往往各不相同�Q�从��量数据里选出最优结果是很困隄��d��Q�但是比较两�l�结果哪个更好通常更容易，所以实践应用中�Q�通常选择�l�果�Ҏ��的方法进行评估�?/p>
怎样实现自动化的评估�Q?/h2>
以上所介绍的搜索引擎量化评估指标，在Cranfield评估框架�Q�Cranfield Evaluation Framework�Q�中被广泛��用。业界知名的TREC�Q�文本信息检索会议）��׃��直基于此�c�L��法组�l�信息检索评��和技术交��。除了TREC外，一些针对不同应用设计的Cranfield评测论坛也在�q�行�q�行�Q�如 NTCIR、IREX�{�）�?/p>
但Cranfield评估框架存在的问题是查询样例集合的标注上。利用手工标注答案的方式�q�行�|�络信息��索的评�h是一个既耗费人力、又耗费旉��的过�E�，只有��数大公司能够��用。�ƈ且由于搜索引擎算法改�q�、运营维护的需要，��索效果评价反馈的旉��需要尽量羃短，因此自动化的评测�Ҏ��Ҏ��高评估效率十分重要。最常用的自动评估方法是A/B testing�pȝ��?/p>
A/B Testing
A/B Testing�pȝ��
A/B testing�pȝ��在用��h��索时�Q�由�pȝ��来自动决定用��L��分组��P��Bucket id�Q�，通过自动抽取��量导入不同分支�Q��得相应分�l�的用户看到的是不同产品版本�Q�或不同搜烦引擎�Q�提供的�l�果。用户在不同版本产品下的行�ؓ��被记录下来�Q�这些行为数据通过数据分析形成一�p�d��指标�Q�而通过�q�些指标的比较，最后就形成了各版本之间��C��孰劣的结论�?/p>
在指标计��时�Q�又可细分�ؓ两种�Ҏ��Q�一�U�是��Z��专家评分的方法；一�U�是��Z��点击�l�计的方法�?/p>
专家评分的方法通常由搜索核心技术研发和产品人员来进行，�Ҏ��预先讑֮�的标准对A、B两套环境的结果给予评分，获取每个Query的结果对比，�q�根据nDCG�{�方法计��整体质量�?/p>
点击评分有更高的自动化程度，�q�里使用了一个假设：同样的排序位�|�，点击数量多的�l�果质量优于点击数量��的�l�果。（即A2表示A��试环境�W?条结果，如果A2 > B2�Q�则表示A2质量更好�Q�。通俗的说�Q�相信群众（因�ؓ��众的眼睛是雪亮的）。在�q�个假设前提下，我们可以��A/B环境前N条结果的点击率自动映��ؓ评分�Q�通过�l�计大量的Query点击�l�果�Q�可以获得可靠的评分�Ҏ��?/p>
Interleaving Testing
另外2003�q�由Thorsten Joachims �{��h提出的Interleaving testing�Ҏ��也被�q�泛使用。该�Ҏ��设计了一个元搜烦引擎�Q�用戯��入查询词后，��查询词在几个著名搜索引擎中的查询结果随机�؜合反馈给用户�Q��ƈ攉��随后用户的结果点击行��Z��息．�Ҏ��用户不同的点��d��֐�性，��可以判断搜索引擎返回结果的优劣�Q?/p>
如下图所�C�，��算法A和B的结果交叉放�|�，�q�分��量�q�行��试�Q�记录用��L��M��息。根据点��d��布来判断A和B环境的优劣�?/p>
Interleaving Testing评估�Ҏ��
Joachims同时证明了Interleaving Testing评�h�Ҏ��与传�l�Cranfield评�h�Ҏ��的结果具有较高的相关性。由于记录用户选择��索结果的行�ؓ是一个不耗费人力的过�E�，因此可以便捷的实现自动化的搜索效果评估�?/p>
�ȝ��
没有评估��没有进�?#8212;—�Ҏ��索效果的量化评测�Q�目的是准确的找出现有搜索系�l�的不��Q�没有哪个搜索系�l�是完美的）�Q�进而一步一个脚印对��法、系�l�进行改�q�。本文�ؓ大家�ȝ��了常用的评�h框架和评��h��标。这些技术像一把把��子�Q�度量着搜烦技术每一�ơ前�q�的距离�?/p>
感谢张凯�?/a>�?本文的审校�?/p>
�l�InfoQ中文站投�E�或者参与内容翻译工作，请邮件至 editors@cn.infoq.com。也�Ƣ迎大家加入�?a target="_blank" style="box-sizing: border-box; color: #0b59b2;">InfoQ中文站用戯��论组中与我们的编辑和其他读�?朋友交流�?/p>

王�v�?/a> 2013-01-07 16:46 发表评论

HOOK介绍

Mon, 05 Nov 2012 03:27:00 GMT
一、基本概念：

钩子(Hook)�Q�是Windows消息处理机制的一个��^�?应用�E�序可以在上面设�|�子�E�以监视指定�H�口的某�U�消息，而且所监视的窗口可以是其他�q�程所创徏的。当消息到达后，在目标窗口处理函��C��前处理它。钩子机制允许应用程序截获处理window消息或特定事件�?/span>

钩子实际上是一个处理消息的�E�序�D�，通过�pȝ��调用�Q�把它挂入系�l�。每当特定的消息发出�Q�在没有到达目的�H�口前，钩子�E�序��先捕获该消息，亦即钩子函数先得到控制权。这旉��子函数即可以加工处理�Q�改变）该消息，也可以不作处理而��l�传递该消息�Q�还可以强制�l�束消息的传递�?/span>

二、运行机�Ӟ��

1、钩子链表和钩子子程�Q?/span>

每一个Hook都有一个与之相兌��的指针列表，�U�C��为钩子链表，��q��l�来�l�护。这个列表的指针指向指定的，应用�E�序定义的，被Hook子程调用的回调函敎ͼ�也就是该钩子的各个处理子�E�。当与指定的Hook�c�d��兌��的消息发生时�Q�系�l�就把这个消息传递到Hook子程。一些Hook子程可以只监视消息，或者修�Ҏ��息，或者停止消息的前进�Q�避免这些消息传递到下一个Hook子程或者目的窗口。最�q�安装的钩子攑֜�铄��开始，而最早安装的钩子攑֜�最后，也就是后加入的先获得控制权�?/span>

Windows �q�不要求钩子子程的卸载顺序一定得和安装顺序相反。每当有一个钩子被卸蝲�Q�Windows 侉K��攑օ�占用的内存，�q�更新整个Hook链表。如果程序安装了钩子�Q�但是在��未卸蝲钩子之前��q��束了�Q�那么系�l�会自动为它做卸载钩子的操作�?/span>

钩子子程是一个应用程序定义的回调函数(CALLBACK Function),不能定义成某个类的成员函敎ͼ�只能定义为普通的C函数。用以监视系�l�或某一特定�c�d��的事�Ӟ��q�些事�g可以是与某一特定�U�程兌��的，也可以是�pȝ��中所有线�E�的事�g�?/span>

钩子子程必须按照以下的语法：

1 LRESULT CALLBACK HookProc
2 (
3      int nCode,
4          WPARAM wParam,
5          LPARAM lParam
6 );
HookProc是应用程序定义的名字�?/span>
nCode参数是Hook代码�Q�Hook子程使用�q�个参数来确定�Q务。这个参数的��g��赖于Hook�c�d��Q�每一�U�Hook都有自己的Hook代码特征字符集�?/span>
wParam和lParam参数的��g��赖于Hook代码�Q�但是它们的典型值是包含了关于发送或者接收消息的信息�?/span>

2、钩子的安装与释放：

使用API函数SetWindowsHookEx()把一个应用程序定义的钩子子程安装到钩子链表中。SetWindowsHookEx函数��L��在Hook铄��开头安装Hook子程。当指定�c�d��的Hook监视的事件发生时�Q�系�l�就调用与这个Hook兌��的Hook铄��开头的Hook子程。每一个Hook链中的Hook子程都决定是否把�q�个事�g传递到下一个Hook子程。Hook子程传递事件到下一个Hook子程需要调用CallNextHookEx函数�?/span>
1 HHOOK SetWindowsHookEx(
2 　　　　　int idHook,      // 钩子的类型，卛_��处理的消息类�?/span>
3 　　　　　HOOKPROC lpfn,   // 钩子子程的地址指针。如果dwThreadId参数�?
4                                              // 或是一个由别的�q�程创徏的线�E�的标识�Q?br /> 5                                              // lpfn必须指向DLL中的钩子子程�?br /> 6                                              // 除此以外�Q�lpfn可以指向当前�q�程的一�D�钩子子�E�代码�?br /> 7                                              // 钩子函数的入口地址�Q�当钩子钩到��M��消息后便调用�q�个函数�?/span>
8 　　　　　HINSTANCE hMod,  // 应用�E�序实例的句柄。标识包含lpfn所指的子程�?/span>DLL�?/span>
10                                              // 如果dwThreadId 标识当前�q�程创徏的一个线�E�，
11                                              // 而且子程代码位于当前�q�程�Q�hMod必须为NULL�?br />12                                              // 可以很简单的讑֮�其�ؓ本应用程序的实例句柄�?/span>
13 　　　　　DWORD dwThreadId // 与安装的钩子子程相关联的�U�程的标识符�?br />14                                              // 如果�?�Q�钩子子�E�与所有的�U�程兌��Q�即为全局钩子�?/span>
15 　　　　　            );

函数成功则返回钩子子�E�的句柄�Q�失败返回NULL�?/span>

以上所说的钩子子程与线�E�相兌��是指在一钩子链表中发�l�该�U�程的消息同时发送给钩子子程�Q�且被钩子子�E�先处理�?/span>

在钩子子�E�中调用得到控制权的钩子函数在完成对消息的处理后�Q�如果想要该消息�l�箋传递，那么它必��调用另外一个SDK中的API函数CallNextHookEx来传递它�Q�以执行钩子链表所指的下一个钩子子�E�。这个函数成功时�q�回钩子链中下一个钩子过�E�的�q�回��|��q�回值的�c�d��依赖于钩子的�c�d��。这个函数的原型如下�Q?br />
1 LRESULT CallNextHookEx
2             (
3                 HHOOK hhk;
4                 int nCode;
5                 WPARAM wParam;
6                 LPARAM lParam;
7              );
hhk为当前钩子的句柄�Q�由SetWindowsHookEx()函数�q�回�?/span>
NCode��Z��l�钩子过�E�的事�g代码�?/span>
wParam和lParam 分别是传�l�钩子子�E�的wParam��|��其具体含义与钩子�c�d��有关�?/span>

钩子函数也可以通过直接�q�回TRUE来丢弃该消息�Q��ƈ��L��该消息的传递。否则的话，其他安装了钩子的应用�E�序��不会接收到钩子的通知而且�q�有可能产生不正��的�l�果�?/span>

钩子在��用完之后需要用UnHookWindowsHookEx()卸蝲�Q�否则会造成�ȝ��。释��N��子比较简单，UnHookWindowsHookEx()只有一个参数。函数原型如下：

1 UnHookWindowsHookEx
2 (
3     HHOOK hhk;
4 );
函数成功�q�回TRUE�Q�否则返回FALSE�?/span>

3、一些运行机�Ӟ��

在Win16环境中，DLL的全局数据�Ҏ��个蝲入它的进�E�来说都是相同的�Q�而在Win32环境中，情况却发生了变化�Q�DLL函数中的代码所创徏的�Q何对象（包括变量�Q�都归调用它的线�E�或�q�程所有。当�q�程在蝲入DLL�Ӟ��操作�pȝ��自动把DLL地址映射到该�q�程的私有空��_��也就是进�E�的虚拟地址�I�间�Q�而且也复制该DLL的全局数据的一份拷贝到该进�E�空间。也��是说每个进�E�所拥有的相同的DLL的全局数据�Q�它们的名称相同�Q�但其值却�q�不一定是相同的，而且是互不干涉的�?/span>

因此�Q�在Win32环境下要惛_��多个�q�程中共享数据，��必��进行必要的讄��。在讉K��同一个Dll的各�q�程之间�׃�n存储器是通过存储器映��文件技术实现的。也可以把这些需要共享的数据分离出来�Q�放�|�在一个独立的数据�D�里�Q��ƈ把该�D늚�属性设�|��ؓ�׃�n。必��ȝ��q�些变量赋初��|��否则�~�译器会把没有赋初始值的变量攑֜�一个叫未被初始化的数据�D�中�?/span>

#pragma data_seg预处理指令用于设�|�共享数据段。例如：

1 #pragma data_seg("SharedDataName")
2 HHOOK hHook=NULL;
3 #pragma data_seg()
�?pragma data_seg("SharedDataName")�?pragma data_seg()之间的所有变�?��被讉K��该Dll的所有进�E�看到和�׃�n�?/span>

当进�E�隐式或昑ּ�调用一个动态库里的函数�Ӟ��pȝ��都要把这个动态库映射到这个进�E�的虚拟地址�I�间�?以下��U?地址�I�间")。这使得DLL成�ؓ�q�程的一部分�Q�以�q�个�q�程的��n份执行，使用�q�个�q�程的堆栈�?/span>

4、系�l�钩子与�U�程钩子�Q?/span>

SetWindowsHookEx()函数的最后一个参数决定了此钩子是�pȝ��钩子�q�是�U�程钩子�?/span>

�U�程勑֭�用于监视指定�U�程的事件消息。线�E�勾子一般在当前�U�程或者当前线�E�派生的�U�程内�?/span>

�pȝ��勑֭�监视�pȝ��中的所有线�E�的事�g消息。因为系�l�勾子会影响�pȝ��中所有的应用�E�序�Q�所以勾子函数必��L��在独立的动态链接库(DLL) 中。系�l�自动将包含"钩子回调函数"的DLL映射到受钩子函数影响的所有进�E�的地址�I�间中，卛_��q�个DLL注入了那些进�E��?/span>

几点说明�Q?/span>
�Q?�Q�如果对于同一事�g�Q�如鼠标消息�Q�既安装了线�E�勾子又安装了系�l�勾子，那么�pȝ��会自动先调用�U�程勑֭��Q�然后调用系�l�勾子�?

�Q?�Q�对同一事�g消息可安装多个勾子处理过�E�，�q�些勑֭�处理�q�程形成了勾子链。当前勾子处理结束后应把勑֭�信息传递给下一个勾子函数�?

�Q?�Q�勾子特别是�pȝ��勑֭�会消耗消息处理时��_��降低�pȝ��性能。只有在必要的时候才安装勑֭��Q�在使用完毕后要及时卸蝲�?/span>

三、钩子类�?/span>

每一�U�类型的Hook可以使应用程序能够监视不同类型的�pȝ��消息处理机制。下面描�q�所有可以利用的Hook�c�d��?/span>

1、WH_CALLWNDPROC和WH_CALLWNDPROCRET Hooks

WH_CALLWNDPROC和WH_CALLWNDPROCRET Hooks使你可以监视发送到�H�口�q�程的消息。系�l�在消息发送到接收�H�口�q�程之前WH_CALLWNDPROCHook子程�Q��ƈ且在�H�口�q�程处理完消息之后调用WH_CALLWNDPROCRET Hook子程�?/span>

WH_CALLWNDPROCRET Hook传递指针到CWPRETSTRUCT�l�构�Q�再传递到Hook子程。CWPRETSTRUCT�l�构包含了来自处理消息的�H�口�q�程的返回��|��同样也包括了与这个消息关联的消息参数�?/span>

2、WH_CBT Hook

在以下事件之前，�pȝ��都会调用WH_CBT Hook子程�Q�这些事件包括：
1. �Ȁ�z�，建立�Q�销毁，最��化�Q�最大化�Q�移动，改变��寸�{�窗口事�Ӟ��
2. 完成�pȝ��指��o�Q?/span>
3. 来自�pȝ��消息队列中的�U�d��鼠标�Q�键盘事�Ӟ��
4. 讄��输入焦点事�g�Q?/span>
5. 同步�pȝ��消息队列事�g�?/span>

Hook子程的返回值确定系�l�是否允许或者防止这些操作中的一个�?/span>

3、WH_DEBUG Hook

在系�l�调用系�l�中与其他Hook兌��的Hook子程之前�Q�系�l�会调用WH_DEBUG Hook子程。你可以使用�q�个Hook来决定是否允许系�l�调用与其他Hook兌��的Hook子程�?/span>

4、WH_FOREGROUNDIDLE Hook

当应用程序的前台�U�程处于�I�闲状态时�Q�可以��用WH_FOREGROUNDIDLE Hook执行低优先��的�Q务。当应用�E�序的前台线�E�大概要变成�I�闲状态时�Q�系�l�就会调用WH_FOREGROUNDIDLE Hook子程�?/span>

5、WH_GETMESSAGE Hook

应用�E�序使用WH_GETMESSAGE Hook来监视从GetMessage or PeekMessage函数�q�回的消息。你可以使用WH_GETMESSAGE Hook�ȝ��视鼠标和键盘输入�Q�以及其他发送到消息队列中的消息�?/span>

6、WH_JOURNALPLAYBACK Hook

WH_JOURNALPLAYBACK Hook使应用程序可以插入消息到�pȝ��消息队列。可以��用这个Hook回放通过使用WH_JOURNALRECORD Hook记录下来的连�l�的鼠标和键盘事件。只要WH_JOURNALPLAYBACK Hook已经安装�Q�正常的鼠标和键盘事件就是无效的。WH_JOURNALPLAYBACK Hook是全局Hook�Q�它不能象线�E�特定Hook一样��用。WH_JOURNALPLAYBACK Hook�q�回��时��|��q�个值告诉系�l�在处理来自回放Hook当前消息之前需要等待多长时��_��毫秒�Q�。这��׃��Hook可以控制实时事�g的回放。WH_JOURNALPLAYBACK是system-wide local hooks�Q�它們不會被注射��C�Q何行�E�位址�I�間�?/span>

7、WH_JOURNALRECORD Hook

WH_JOURNALRECORD Hook用来监视和记录输入事件。典型的�Q�可以��用这个Hook记录�q�箋的鼠标和键盘事�g�Q�然后通过使用WH_JOURNALPLAYBACK Hook来回放。WH_JOURNALRECORD Hook是全局Hook�Q�它不能象线�E�特定Hook一样��用。WH_JOURNALRECORD是system-wide local hooks�Q�它們不會被注射��C�Q何行�E�位址�I�間�?/span>

8、WH_KEYBOARD Hook

在应用程序中�Q�WH_KEYBOARD Hook用来监视WM_KEYDOWN and WM_KEYUP消息�Q�这些消息通过GetMessage or PeekMessage function�q�回。可以��用这个Hook来监视输入到消息队列中的键盘消息�?/span>

9、WH_KEYBOARD_LL Hook

WH_KEYBOARD_LL Hook监视输入到线�E�消息队列中的键盘消息�?/span>

10、WH_MOUSE Hook

WH_MOUSE Hook监视从GetMessage 或�?PeekMessage 函数�q�回的鼠标消息。��用这个Hook监视输入到消息队列中的鼠标消息�?/span>

11、WH_MOUSE_LL Hook

WH_MOUSE_LL Hook监视输入到线�E�消息队列中的鼠标消息�?/span>

12、WH_MSGFILTER �?WH_SYSMSGFILTER Hooks

WH_MSGFILTER �?WH_SYSMSGFILTER Hooks使我们可以监视菜单，滚动条，消息框，对话框消息�ƈ且发现用户��用ALT+TAB or ALT+ESC �l�合键切换窗口。WH_MSGFILTER Hook只能监视传递到菜单�Q�滚动条�Q�消息框的消息，以及传递到通过安装了Hook子程的应用程序徏立的对话框的消息。WH_SYSMSGFILTER Hook监视所有应用程序消息�?/span>

WH_MSGFILTER �?WH_SYSMSGFILTER Hooks使我们可以在模式循环期间�q��o消息�Q�这�{��h于在��L��息��@环中�q��o消息�?/span>

通过调用CallMsgFilter function可以直接的调用WH_MSGFILTER Hook。通过使用�q�个函数�Q�应用程序能够在模式循环期间使用相同的代码去�q��o消息�Q�如同在��L��息��@环里一栗��?/span>

13、WH_SHELL Hook

外壳应用�E�序可以使用WH_SHELL Hook��L��攉��要的通知。当外壳应用�E�序是激�zȝ��q�且当顶层窗口徏立或者销毁时�Q�系�l�调用WH_SHELL Hook子程�?/span>
WH_SHELL 共有�Q�钟情況�Q?/span>
1. 只要有个top-level、unowned �H�口被��生、�v作用、或是被摧毁�Q?/span>
2. 当Taskbar需要重��L��个按钮；
3. 当系�l�需要显�C�关于Taskbar的一个程序的最��化形式�Q?/span>
4. 当目前的键盘布局状态改变；
5. 当��用者按Ctrl+Esc��L��行Task Manager�Q�或相同�U�别的程序）�?/span>

    按照惯例�Q�外壛_��用程序都不接收WH_SHELL消息。所以，在应用程序能够接收WH_SHELL消息之前�Q�应用程序必��调用SystemParametersInfo function注册它自己�?/span>

以上转自�Q?a >http://www.microsoft.com/china/community/program/originalarticles/techdoc/hook.mspx
以下转自�Q?/span>http://topic.csdn.net/t/20030513/03/1774836.html

CallNextHookEx 作用

Hook 串鏈�Q�Hook Chains�Q?
當許多程式都安裝了某�E�型態的hook 時，��會形成一個filter-function chain。一旦特�?的event 發生�Q�Windows 會呼叫該型態中最新掛上的hook filter function。舉個例�Q�如�?�E�式A 掛上了一個system-wide WH_KEYBOARD hook�Q�每當有��M��埯��R�取得鍵盤訊息，Windows ��會呼叫這個filter function。如果程式B 也掛上了一個system-wide WH_KEYBOARD hook�Q�那麼當event 發生�Q�Windows 不再呼叫�E�式A 的filter function�Q?改呼叫程式B的filter function。這也意味每一個filter function 有��K�ȝ��保先前掛上的filter Windows 95 �E�式�a�計指南�Q�Windows 95 : A Developer’s Guide�Q?394 function 被呼叫（也就是維護串鏈的完整性）�?SetWindowsHookEx 函式會將新掛上的hook filter function 的代��傳回。�Q何程式只要掛上一個新的filter function ��必須儲存這個代��|��通常存放在全域變�怸��Q�：
static HHOOK g_hhook = NULL;
. . .
g_hhook = SetWindowsHookEx(WH_KEYBOARD, Example_kybdHook, hinst, NULL);
. . .
如果有錯誤發生，SetWindowsHookEx 函式會傳回NULL�?
如果你希望hook chain 中的其它filter functions 也能夠執行，你可以在你的filter function 中呼叫CallNextHookEx 函式�Q�或�a׃��已經在先前的Example_KybdHook 函式片段中注�?��C��Q?nbsp;

LRESULT CallNextHookEx(HHOOK hhook, int nCode, WPARAM wParam, LPARAM lParam);
這個函式會呼叫filter-function chain 的下一個filter function�Q�並傛_��相同的nCode�?wParam 和lParam。下一個filter function �i�束之前�Q�應該也遵��@這個規則去呼叫 CallNextHookEx 函式�Q�並再次��hook 代碼�Q�通常那是被放在全域變�怸��Q�傳入�?CallNextHookEx 函式利用這個hook 代碼�Q�走�a�整個串鏈，決定哪一個filter function �?
下一個呼叫目標。如果CallNextHookEx 函式發現已經沒有下一個filter function 可以呼叫 �Q�走��C��鏈盡頭了�Q�，它會傛_��0�Q�否則它��傳回「下一個filter function 埯��後的傛_��倹{��?nbsp;

你可能會在許多文�Ӟ��包括SDK 文�g�Q�中發現一個有關CallNextHookEx 函式的過氣警告：「如果nCode ��於0�Q�則hook 函式應該不做��M��處理�Q�直接將它交�i�CallNextHookEx 函式�Q�並傛_�� CallNextHookEx 函式的回�q�倹{��。這並不是真的�Q�而且自Windows 3.0 以來�Q�那時還在��用舊版的 SetWindowsHook 函式�Q�就已經不是真的了！撰寫�E�式時，你可以完全不理會這項警告�?
�W�６章訊息攔截（Hooks�Q?395

有些時候你可能不希望呼叫其他的filter functions�Q�這種情況下你只要不在你的filter function 中呼叫CallNextHookEx 函式卛_��。只要不��CallNextHookEx 函式攑ֈ�你的filter
function 中，你就不會呼叫其他的filter functions�Q�而你也因此可以指定你自己的傳回倹{�?不幸的是�Q�這裡埋伏著一個陷阱：另一個執行緒可能也為你安裝了一個hook�Q�新的filter
function 於是比你的filter function 更早被喚��P��而它可能不呼叫你的filter function�Q�完�?了！這個問��沒有一般性的解決�Ҏ��Q�如果你先將自己的hook 協R��Q�然後再重新掛上�Q?那麼你的filter function ��成為最新的一個，會最先被呼叫。沒錯，但你不能夠保證其�?��Z��會依樣畫葫蘆。簡�a�之，hooks 是一個合作機�Ӟ��沒有��M��保障�?

王�v�?/a> 2012-11-05 11:27 发表评论

Fri, 02 Nov 2012 06:32:00 GMT

我们截获函数执行最直接的目的就是�ؓ函数增添功能�Q�修改返回��|��或者�ؓ调试以及性能��试加入附加的代码，或者截获函数的输入输出作研�IӞ��破解使用。通过�?问源代码�Q�我们可以轻而易丄��使用重徏�Q�Rebuilding�Q�操作系�l�或者应用程序的�Ҏ��在它们中间插入新的功能或者做功能扩展。然而，在今天这个商�?化的开发世界里�Q�以及在只有二进制代码发布的�pȝ��中，研究人员几乎没有��Z��可以得到源代码。本文主要讨论Detour在Windows二进制PE文�g基础上的API截获技术。对于Linux�q�_��Q�作�q��g事情��会非常的简单，�׃��最初的操作�pȝ��设计者引入了LD_PRELOAD。如果你讄�� LD_PRELOAD=mylib.so �Q�那么应用程序在载入 dll�Ӟ��会先查看mylib.so的符可��Q�在relocation 的时候会优先使用mylib.so 里的 symbol 。假如你在mylib.so里有个printf() �Q�那么这个printf��׃��替代libc�?printf�?而在mylib.so里的�q�个printf可以直接讉K�� libc.so里的printf函数指针来获得真正的 printf的入口地址�?�q�样�Q�所有的dll的API HOOK在loader加蝲dll的时候就已经完成�Q�非常自�Ӟ��和��^台相关的部分全部交给loader��d��理�?/span>
一�?nbsp; Detour开发库�Q?/span>
�?nbsp; ��?/span>
Detours是一个在x86�q�_��上截获�Q意Win32函数调用的工具库。中断代码可以在�q�行时动态加载。Detours使用一个无条�g转移指��o来替换目标函数的最初几条指令，��控制流转移��C��个用��h��供的截获函数。而目标函��C��的一些指令被保存在一个被�U�Cؓ“trampoline” �Q�译注：英文意�ؓ�y?床，杂技�Q�的函数中，在这里我觉得��译成目标函数的部分克隆/拯��比较贴切。这些指令包括目标函��C��被替换的代码以及一个重新蟩转到目标函数的无条�g�?支。而截获函数可以替换目标函敎ͼ�或者通过执行“trampoline”函数的时候将目标函数作�ؓ子程序来调用的办法来扩展功能�?/span>
Detours是执行时被插入的。内存中的目标函数的代码不是在硬盘上被修改的�Q�因而可以在一个很好的�_�度上��得截获二�q�制函数的执行变得更�Ҏ��。例如，一个应用程序执行时加蝲的DLL中的函数�q�程可以被插入一�D�|��获代码（detoured�Q�，与此同时�Q�这个DLL�q�可以被其他应用�E�序按正常情冉|��行（�?注：也就是按照不被截��L��方式执行�Q�因为DLL二进制文件没有被修改�Q�所以发生截��h��不会影响其他�q�程�I�间加蝲�q�个DLL�Q�。不同于DLL的重新链接或�?静态重定向�Q�Detours库中使用的这�U�中断技术确保不会媄响到应用�E�序中的�Ҏ��或者系�l�代码对目标函数的定位�?/span>
如果其他��Zؓ了调试或者在内部使用其他�pȝ��手�D�而试图修改二�q�制代码�Q�Detours��是一个可以普遍��用的开发包。据我所知，Detours是第一个可以在��L��q�_��上将未修改的目标代码作�ؓ一个可以通过“trampoline”调用的子�E�序来保留的开发包。而以前的�pȝ��在逻辑上预先将截获代码攑ֈ��?标代码中�Q�而不是将原始的目标代码做��Z��个普通的子程序来调用。我们独特的“trampoline”设计对于扩展现有的��Y件的二进制代码是臛_��重要的�?/span>
��Z��使用基本的函数截获功能的目的�Q�Detours同样提供了编辑�Q何DLL导入表的功能�Q�达到向存在的二�q�制代码中添加�Q意数据节表的目的�Q�向一个新�q?�E�或者一个已�l�运行着的进�E�中注入一个DLL。一旦向一个进�E�注入了DLL�Q�这个动态库��可以截获�Q何Win32函数�Q�不论它是在应用�E�序中或者在�pȝ��?中�?/span>
�?nbsp; 基本原理
1�Q?nbsp; WIN32�q�程的内存管�?
众所周知�Q�WINDOWS NT实现了虚拟存储器�Q�每一WIN32�q�程拥有4GB的虚存空��_�� 关于WIN32�q�程的虚存结构及其操作的具体�l�节请参阅WIN32 API手册�Q?以下仅指��Z��Detours相关的几点：
(1) �q�程要执行的指��o也放在虚存空间中
(2) 可以使用QueryProtectEx函数把存放指令的��面的权限更改�ؓ可读可写可执行，再改写其内容�Q�从而修�Ҏ��在运行的�E�序
(3) 可以使用VirtualAllocEx从一个进�E��ؓ另一正运行的�q�程分配虚存�Q�再使用 QueryProtectEx函数把页面的权限更改为可��d��写可执行�Q��ƈ把要执行的指令以二进制机器码的�Ş式写入，从而�ؓ一个正在运行的�q�程注入��L��的代�?�?/span>
2�Q?拦截WIN32 API的原�?
Detours定义了三个概念：
    (1) Target函数�Q�要拦截的函敎ͼ�通常为Windows的API�?/span>
(2) Trampoline函数�Q�Target函数的部分复制品。因为Detours��会改写Target函数�Q�所以先把Target函数的前5个字节复制保存好�Q�一斚w��仍然保存Target函数的过�E�调用语义，另一斚w��便于以后的恢复�?/span>
(3) Detour 函数�Q�用来替代Target函数的函数�?
Detours在Target函数的开头加入JMP Address_of_ Detour_ Function指��o�Q�共5个字节）把对Target函数的调用引导到自己的Detour函数�Q?把Target函数的开头的5个字节加上JMP Address_of_ Target _ Function+ 5�?0个字节作为Trampoline函数。请参考下面的�?和图2�?/span>
(�?�Q�Detour函数的过�E?

�Q�图2�Q?Detour函数的调用过�E�）

说明�Q?/span>
�?nbsp; 目标函数�Q?/span>
目标函数的函��C��Q�二�q�制�Q�至��有5个字节以上。按照微软的说明文档Trampoline函数的函��C��是拷贝前5个字节加一个无条�g跌��{指��o的话�Q�如果没有特�D�处理不可分割指令的话）�Q�那么前5个字节必��L��完整指��o�Q�也��是不能�W?个字节和�W?个字节是一条不可分割的指��o�Q�否则会造成Trampoline 函数执行错误�Q�一条完整的指��o被硬性分割开来，造成�E�序崩溃。对于第5字节和第6个字节是不可分割指��o需要调整拷贝到杂技函数(Trampoline)�?字节个数�Q�这个值可以查看目标函数的汇编代码得到。此函数是目标函数的修改版本�Q�不能在Detour函数中直接调用，需要通过对Trampoline函数的调用来辑ֈ�间接调用�?/span>
�?nbsp; Trampoline函数�Q?/span>
此函数默认分配了32个字节，函数的内容就是拷贝的目标函数的前5个字节，加上一个JMP Address_of_ Target _ Function+5指��o,�?0个字节�?/span>
此函��C��供您的Detour函数调用�Q�执行完�?个字节的指��o后再�l�对跌��{到目标函数的�W?个字节��l�执行原功能函数�?/span>
�?nbsp; Detour函数�Q?/span>
此函数是用户需要的截获API的一个模拟版本，调用方式�Q�参��C��数必��d��目标函数�怸�致。如目标函数是__stdcall�Q�则Detour函数声明也必��?是__stdcall,参数个数和类型也必须相同�Q�否则会造成�E�序崩溃。此函数在程序调用目标函数的�W�一条指令的时候就会被调用�Q�无条�g跌��{�q�来的）�Q�如果在此函��C��想��l�调用目标函敎ͼ�必须调用Trampoline函数�Q�Trampoline函数在执行完目标函数的前5个字节的指��o后会无条件蟩转到目标函数�?个字节后�l�箋执行�Q�，不能再直接调用目标函敎ͼ�否则��进入无�I�递归�Q�目标函数蟩转到Detour函数�Q�Detour函数又蟩转到目标函数的递归�Q?因�ؓ目标函数在内存中的前5个字节已�l�被修改成绝对蟩转）。通过对Trampoline函数的调用后可以获取目标函数的执行结果，此特性对分析目标函数�?常有用，而且可以��目标函数的输出�l�果�q�行修改后再传回�l�应用程序�?/span>
Detour提供了向�q�行中的应用�E�序注入Detour函数和在二进制文件基��上注入Detour函数两种方式。本章主要讨论第二种工作方式。通过 Detours提供的开发包可以在二�q�制EXE文�g中添加一个名�U�CؓDetour的节表，如下�?所�C�，主要目的是实现PE加蝲器加载应用程序的时候会�?动加载您�~�写的Detours DLL�Q�在Detours Dll中的DLLMain中完成对目标函数的Detour�?/span>
�Q�图3�Q?/span>

二�?nbsp; Detours提供的截获API的相��x��?/span>
Detours的提供的API 接口可以作�ؓ一个共享DLL�l�外部程序调用，也可以作��Z��个静态Lib链接到您的程序内部�?/span>
Trampoline函数可以动态或者静态的创徏�Q�如果目标函数本�w�是一个链接符��P��使用静态的trampoline函数��非常简单。如果目标函��C��能在链接时可见，那么可以使用动态trampoline函数�?/span>
�?nbsp; 要��用静态的trampoline函数来截��L��标函敎ͼ�应用�E�序生成trampoline的时候必��M��?/span>
DETOUR_TRAMPOLINE宏。DETOUR_TRAMPOLINE有两个输入参敎ͼ�trampoline的原型和目标函数的名字�?/span>
注意�Q�对于正��的截获模型�Q�包括目标函敎ͼ�trampoline函数�Q�以及截获函数都必须是完全一致的调用形式�Q�包括参数格式和调用�U�定。当通过 trampoline函数调用目标函数的时候拷贝正��参数是截获函数的责仅R��由于目标函��C��仅是截获函数的一个可调用分支�Q�截获函数可以调�?trampoline函数也可以不调用�Q�，�q�种责�Q几乎��是一�U�下意识的行为�?/span>
使用相同的调用约定可以确保寄存器中的��D��正确的保存，�q�且保证调用堆栈在截获函数调用目标函数的时候能正确的徏立和销毁�?/span>
可以使用DetourFunctionWithTrampoline函数来截��L��标函数。这个函数有两个参数�Q�trampoline函数以及截获函数的指针。因为目标函数已�l�被加到trampoline函数中，所有不需要在参数中特别指定�?/span>
�?nbsp; 我们可以使用DetourFunction函数来创��Z��个动态的trampoline函数�Q�它包括两个参数�Q�一个指向目标函数的指针和一个截获函数的指针。DetourFunction分配一个新的trampoline函数�q�将适当的截获代码插入到目标函数中去�?/span>
当目标函��C��是很�Ҏ��使用的时候，DetourFindFunction函数可以扑ֈ�那个函数�Q�不��它是DLL中导出的函数�Q�或者是可以通过二进制目标函数的调试�W�号扑ֈ��?/span>
DetourFindFunction接受两个参数�Q�库的名字和函数的名字。如果DetourFindFunction函数扑ֈ�了指定的函数�Q�返回该函数的指针，否则��返回一个NULL指针。DetourFindFunction会首先��用Win32函数LoadLibrary �?GetProcAddress来定位函敎ͼ�如果函数没有在DLL的导��中找刎ͼ�DetourFindFunction��用ImageHlp库来搜烦�?效的调试�W�号�Q�译注：�q�里的调试符��h��指Windows本��n提供的调试符��P��需要单独安装，具体信息请参考Windows的用戯��断支持信息）�?DetourFindFunction�q�回的函数指针可以用来传递给DetourFunction以生成一个动态的trampoline函数�?/span>
我们可以调用DetourRemoveTrampoline来去掉对一个目标函数的截获�?/span>
注意�Q�因为Detours中的函数会修改应用程序的地址�I�间�Q�请��保当加入截获函数或者去掉截获函数的时候没有其他线�E�在�q�程�I�间中执行，�q�是�E�序员的责�Q。一个简单的�Ҏ��保证�q�个时候是单线�E�执行就是在加蝲Detours库的时候在DllMain中呼叫函数�?/span>
三�?nbsp; 使用Detours实现对API的截��L��两种�Ҏ��
建立一个MFC对话框工�E�，在对话框的OK按钮的单��M��件中加入对MessageBoxA函数的调用，�~�译后的�E�序名称MessageBoxApp,效果如图�?/span>

(�?)
�?nbsp; 静态方�?/span>
建立一个Dll工程�Q�名�U�CؓApiHook�Q�这里以Visual C++6.0开发环境，以截获ASCII版本的MessageBoxA函数来说明。在Dll的工�E�加入：
DETOUR_TRAMPOLINE(int WINAPI Real_Messagebox(HWND hWnd ,
    LPCSTR lpText,
    LPCSTR lpCaption,
UINT uType), ::MessageBoxA);
生成一个静态的MessageBoxA的Trampoline函数�Q�在Dll工程中加入目标函数的Detour函数�Q?/span>
int WINAPI MessageBox_Mine( HWND hWnd ,
    LPCSTR lpText,
    LPCSTR lpCaption,
    UINT uType)
{
CString tmp= lpText;
tmp+=” 被Detour截获”;
return Real_Messagebox(hWnd,tmp,lpCaption,uType);
// return ::MessageBoxA(hWnd,tmp,lpCaption,uType); //Error
}
在Dll入口函数中的加蝲Dll事�g中加入：
DetourFunctionWithTrampoline((PBYTE)Real_Messagebox, (PBYTE)MessageBox_Mine);
在Dll入口函数中的卸蝲Dll事�g中加入：
DetourRemove((PBYTE)Real_Messagebox, (PBYTE)MessageBox_Mine);
�?nbsp; 动态方�?/span>
建立一个Dll工程�Q�名�U�CؓApiHook�Q�这里以Visual C++6.0开发环境，以截获ASCII版本的MessageBoxA函数来说明。在Dll的工�E�加入：
//声明MessageBoxA一��L��函数原型
typedef int (WINAPI * MessageBoxSys)( HWND hWnd ,
    LPCSTR lpText,
    LPCSTR lpCaption,
    UINT uType);
//目标函数指针
MessageBoxSys SystemMessageBox=NULL;
//Trampoline函数指针
MessageBoxSys Real_MessageBox=NULL;
在Dll工程中加入目标函数的Detour函数�Q?/span>
int WINAPI MessageBox_Mine( HWND hWnd ,
    LPCSTR lpText,
    LPCSTR lpCaption,
    UINT uType)
{
CString tmp= lpText;
tmp+=” 被Detour截获”;
return Real_Messagebox(hWnd,tmp,lpCaption,uType);
// return ::MessageBoxA(hWnd,tmp,lpCaption,uType); //Error
}
在Dll入口函数中的加蝲Dll事�g中加入：
SystemMessageBox=(MessageBoxSys)DetourFindFunction("user32.dll","MessageBoxA");
if(SystemMessageBox==NULL)
{
    return FASLE;
}
Real_MessageBox=(MessageBoxSys)DetourFunction((PBYTE)SystemMessageBox, (PBYTE)MessageBox_Mine);
在Dll入口函数中的卸蝲Dll事�g中加入：
DetourRemove((PBYTE)Real_Messagebox, (PBYTE)MessageBox_Mine);
�?nbsp; 重写二进制可执行文�g
使用Detours自带的SetDll.exe重写二进制可执行文�g�Q�可以在需要截��L��E�序中加入一个新的Detours的PE节表。对于本文就是新��Z��个批处理文�g调用SetDll.exe�?/span>
@echo off
if not exist MessageBoxApp.exe (
echo 请将文�g解压到MessageBoxApp.exe的安装目�? 然后执行补丁�E�序
) else (
setdll /d:ApiHook.dll MessageBoxApp.exe
)
Pause
调用后��用depends.exe�Q�微软VC6.0开发包的工具之一�Q�观察MessageBoxApp.exe前后变化�Q?可以看到Setdll已经重写MessageBoxApp.exe
成功�Q�加入了对ApiHook.dll的依赖关�p�R�?/span>

      �Q�执行SetDll.exe前）                                                       (执行SetDll.exe�?
执行SetDll.exe重写后的MessageBoxApp.exe�Q�点�ȝ��定后可以看到�l�果如下�Q?/span>
��x��Q�MessageBoxApp.exe对MessageBoxA函数的调用已�l�被截获�Q�弹出的对话框内容已�l�明显说明这一炏V�?/span>

本文转自�Q?/span>http://www.cnblogs.com/flying_bat/archive/2008/04/18/1159996.html

王�v�?/a> 2012-11-02 14:32 发表评论

�? 数学之美�W�记

Fri, 21 Sep 2012 09:50:00 GMT
半个月前在豆瓣上看到了一本新书《数学之��》，评�h很高。而因为在半年前看了《什么是数学》就�Ҏ��学��生浓厚兴��，但苦于水�q�不��的我便立马��C��一本，希望能对数学多一些了解，�q�认真阅读�v来�?
        令我意外�q�欣喜的是，�q�本书里边的数学内容�q�不晦�ӆ难懂�Q�而且作者�ؓ了讲�q�数学之��而搭配的一些工�E�实例都是和我学习�ƈ感兴��的模式识别�Q�目标分�cȝ��关算法相兌��的。这让我觉得捡到了意外的宝藏�?
        书中每一个章节都或多或少是作者亲�w�经历过的，比如世界�U�教授的��故事，或者Google的搜索引擎原理，又或者是Google的云计算�{�。作者用其行云流水般的语�a��各个知识点像讲故事一��h��的叙述出来�?
        �q�本书着实让我印象深刻，所以我把笔记分享出来，希望更多和我学习研究领域一��L��Z��喜欢�q�亲自阅读这本书�Q��ƈ能支持作者。毕竟国内这�U�书实在是太��了�Q�也希望能有更多领域内的大牛能再写出一些这�U�书�c�来让我们共同提高�?
1.    因�ؓ需要传播信息量的增加，不同的声韛_ƈ不能完全表达信息�Q�语�a�便��生了�?
2.    当文字增加到没有��完全��C��所有文字时�Q�聚�c�d��归类��开始了。例如日代表太阳或者代表一天�?
3.    聚类会带来歧义性，但上下文可以消除歧义。信息冗余是信息安全的保障。例如罗塞塔石碑上同一信息重复三次�?
4.    最短编码原理即常用信息短编码，生僻信息长编码�?
5.    因�ؓ文字只是信息的蝲体而非信息本��n�Q�所以翻译是可以实现的�?
6.    2012�Q�其实是玛雅文明采用二十�q�制�Q�即四百�q�是一个太阳纪�Q��?012�q�恰巧是当前太阳�U�的最后一�q�_��2013�q�是新的太阳�U�的开始，故被误传��Z��界末日�?
7.    字母可以看�ؓ是一�l�编码，而汉字可以看��Z��l�编码�?
8.    ��Z��l�计的自然语�a�处理�Ҏ��Q�在数学模型上和通信是相通的�Q�甚��x��相同的�?
9.    让计��机处理自然语言的基本问题就是�ؓ自然语言�q�种上下文相关的�Ҏ��徏立数学模型，即统计语�a�模型�Q�Statistical Language Modal�Q��?
10.    �Ҏ��大数定理�Q�Law of Large Numbers�Q�，只要�l�计量��够，相对频度��q��于概率�?
11.    二元模型。对于p(w1,w2,…,wn)=p(w1)p(w2|w1)p(w3|w1,w2)…p(wn|w1,w2,…,wn-1)的展开问题�Q�因为p(w3|w1,w2)难计��，p(wn|w1,w2,…,wn-1)更难计算�Q�马��科夫给��Z��一个偷懒但是颇为有效的�Ҏ��Q�也��是每当遇到�q�种情况�Ӟ��假设�Q意wi出现的概率只与它前面的wi-1有关�Q�即p(s)=p(w1)p(w2|w1)p(w3|w2)…p(wi|wi-1)…p(wn|wn-1)。现在这个概率就变的��单了。对应的语言模型�?元模型（Bigram Model�Q��?
12.    *N元模型。wi只与前一个wi-1有关�q�似的过头了�Q�所以N-1阉��科夫假设�ؓp(wi|w1,w2,…,wi-1)=p(wi|wi-N+1,wi-N+2,…,wi-1)�Q�对应的语言模型成�ؓN元模型（N-Gram Model�Q�。一元模型就是上下文无关模型�Q�实际应用中更多实用的是三元模型。Google的罗塞塔��译�pȝ��和语�a�搜烦�pȝ��实用的是四元模型�Q�存储于500��C��上的Google服务器中�?
13.    *卡兹退避法�Q�Katz backoff�Q�，对于频率��过一定阈值的词，它们的概率估计就是它们在语料库中的相寚w��度，对于频率��于�q�个阈值的词，它们的概率估计就��于他们的相寚w��度，出现�ơ数��少�Q�频率下调越多。对于未看见的词�Q�也�l�予一个比较小的概率（即下调得到的频率��d��Q�，�q�样所有词的概率估计都�q�x��了。这��是卡兹退避法�Q�Katz backoff�Q��?
14.    训练数据通常是越多越好，通过�q�x��q�渡的方法可以解决零概率和很��概率的问题�Q�毕竟在数据量多的时候概率模型的参数可以估计的比较准��?
15.    利用�l�计语言模型�q�行分词�Q�即最好的分词�Ҏ��应该保证分完词后�q�个句子出现的概率最大。根据不同应用，汉语分词的颗�_�度大小应该不同�?
16.    �W�合马尔�U�夫假设�Q�各个状态st的概率分布只与它前一个状态st-1有关�Q�的随即�q�程��x��为马��科夫过�E�，也称为马��科夫链�?
17.    隐含马尔�U�夫模型是马��科夫链的扩展，��L��时刻t的状态st是不可见的，所以观察者没法通过观察��C��个状态序列s1,s2,s3,…,sT来推��{�U�L��率等参数。但是隐马尔�U�夫模型在每个时刻t会输��Z��个符号ot�Q�而且ot和st相关且仅和ot相关。这个被�U�Cؓ独立输出假设。其中隐含的状态s1,s2,s3,…是一个典型的马尔�U�夫链�?
18.    隐含马尔�U�夫模型是机器学习主要工具之一�Q�和几乎所有机器学习的模型工具一��P��它需要一个训�l�算法（鲍姆-韦尔奇算法）和��用时的解码算法（�l�特比算法）。掌握了�q�两�cȝ��法，��基本上可以使用隐含马尔�U�夫模型�q�个工具了�?
19.    鲍姆-韦尔奇算法（Baum-Welch Algorithm�Q�，首先扑ֈ�一�l�能够��生输出序列O的模型参敎ͼ��q�个初始模型成�ؓMtheta0�Q�需要在此基��上找��C��个更好的模型�Q�假定不但可以算��个模型��生O的概率P(O|Mtheta0)�Q�而且能够扑ֈ��q�个模型产生O的所有可能的路径以及�q�些路径的概率。�ƈ��出一�l�新的模型参数theta1�Q�从Mtheta0到Mtheta1的过�E�称��Z��ơ�P代。接下来从Mtheta1出发��L��更好的模型Mtheta2�Q��ƈ一直找下去�Q�直到模型的质量没有明显提高为止。这样一直估计（Expectation�Q�新的模型参敎ͼ�使得输出的概率达到最大化�Q�Maximization�Q�的�q�程被称为期望值最大化�Q�Expectation-Maximization�Q�简�U�EM�q�程。EM�q�程能保证一定能收敛��C��个局部最优点�Q�但不能保证扑ֈ�全局最优点。因此，在一些自然语�a�处理的应用中�Q�这�U�无监督的鲍�?韦尔奇算法训�l�处的模型比有监督的训练得到的模型效果略差�?
20.    熵，信息�늚�定义为H(X)=-SumP(x)logP(x)�Q�变量的不确定性越大，熵也��大�?
21.    一个事物内部会存在随机性，也就是不��定性，假定为U�Q�而从外部消除�q�个不确定性唯一的办法是引入信息I�Q�而需要引入的信息量取决于�q�个不确定性的大小�Q�即I>U才行。当I
22.    信息的作用在于消除不��定性�?
23.    互信息，对两个随��Z��件相��x��的量化度量�Q�即随机事�gX的不��定性或者说熵H(X)�Q�在知道随机事�gY条�g下的不确定性，或者说条�g熵H(X|Y)之间的差异，即I(X;Y)=H(X)-H(X|Y)。所谓两个事件相��x��的量化度量�Q�即在了解了其中一个Y的前提下�Q�对消除另一个X不确定性所提供的信息量�?
24.    相对熵（Kullback-Leibler Divergence�Q�也叫交叉熵�Q�对两个完全相同的函敎ͼ�他们的相对熵为零�Q�相对熵��大�Q�两个函数差异越大，反之�Q�相对熵��小�Q�两个函数差异越��；对于概率分布或者概率密度函敎ͼ�如果取值均大于�Ӟ��相对熵可以度量两个随机分布的差异性�?
25.    弗里德里�?#183;��N��克�Q�Frederek Jelinek�Q�是自然语言处理真谛的先��p��?
26.    技术分为术和道两种�Q�具体的做事�Ҏ��是术�Q�做事的原理和原则是道。术会从独门�l�技到普及再到落伍，�q�求术的��Z��很辛苦，只有掌握了道的本质和�_�N��才能永远游刃有余�?
27.    真理在�Ş式上从来是简单的�Q�而不是复杂和含�؜的�?
28.    搜烦引擎不过是一张大表，表的每一行对应一个关键字�Q�而每一个关键字后面跟着一�l�数字，是包含该关键词的文献序号。但当烦引变的非常大的时候，�q�些索引需要通过分布式的方式存储��C��同的服务器上�?
29.    �|�络爬虫�Q�Web Crawlers�Q�，图论的遍历算法和搜烦引擎的关�p�R��互联网虽然复杂�Q�但是说�I�了其实��是一张大�?#8230;…可以把每一个网��当做一个节点，把那些超链接当做�q�接�|�页的弧。有了超链接�Q�可以从��M��一个网��出发，用图的遍历算法，自动讉K��到每一个网��ƈ且把他们存储��h��。完成这个功能的�E�序叫网�l�爬虫�?
30.    哥尼斯堡七桥�Q�如果一个图能从一个顶点出发，每条边不重复的遍历一遍回到这个顶点，那么每一个顶点的度必��Mؓ偶数�?
31.    构徏�|�络爬虫的工�E�要点：1.用BFS�Q�广度优先搜索）�q�是DFS�Q�深度优先搜索）�Q�一般是先下载完一个网站，再进入下一个网站，即BFS的成分多一些�?.��面的分析和URL的提取，如果有些�|�页明明存在�Q�但搜烦引擎�q�没有收录，可能的原因之一是网�l�爬虫中的解析程序没能成功解析网��中不规范的脚本�E�序�?.记录哪些�|�页已经下蝲�q�的URL表，可以用哈希表。最�l�，好的�Ҏ��一般都采用了这样两个技术：首先明确每台下蝲服务器的分工�Q�也��是在调度时�Q�一看到某个URL��q��道要交给哪台服务器去下蝲�Q�这样就避免了很多服务器对同一个URL做出是否需要下载的判断。然后，在明��分工的基础上，判断URL是否下蝲��可以批处理了，比如每次向哈希表�Q�一�l�独立的服务器）发送一大批询问�Q�或者每�ơ更��C��大批哈希表的内容�Q�这样通信的次数就大大减少了�?
32.    PageRank衡量�|�页质量的核心思想�Q�在互联�|�上�Q�如果一个网��被很多其他�|�页所链接�Q�说明它受到普遍的承认和信赖�Q�那么它的排名就高。同�Ӟ��对于来自不同�|�页的链接区别对待，因�ؓ�|�页排名高的那些�|�页的链接更可靠�Q�于是要�l�这些链接比较大的权重�?
33.    TF-IDF(Term Frequency / Inverse Document Frequency) �Q�关键词频率-逆文本频率��|��其中�Q�TF为某个网��上出现关键词的频率�Q�IDF为假定一个关键词w在Dw个网��中出现�q�，那么Dw��大�Q�w的权重越��，反之亦然�Q�公式�ؓlog(D/Dw)�?.一个词预测主题的能力越强，权重��大�Q�反之，权重��小�?.停止词的权重为零�?
34.    动态规划（Dynamic Programming�Q�的原理�Q�将一个寻扑օ��E�最优的问题分解成一个个��L��局部最优的��问题�?
35.    一个好的算法应该像��L��器中最有名的AK-47冲锋枪那��P��单、有效、可靠性好而且�Ҏ��L��Q�易操作�Q�而不应该故弄玄虚。选择��单方案可以容易解释每个步骤和�Ҏ��背后的道理，�q�样不仅便于出问题时的查错，也容易找��C��后改�q�的目标�?
36.    在实际的分类中，可以先进行奇异值分解（得到分类�l�果略显�_�糙但能较快得到�l�果�Q�，在粗分类�l�果的基��上，利用计算向量余��u的方法（对范围内的分�c�d��两两计算�Q�，在粗分类�l�果的基��上，�q�行几次�q�代�Q�得到比较精��的�l�果�?
37.    奇异值分解（Singular Value Decomposition�Q�，在需要用一个大矩阵A来描�q�成千上万文章和几十上百万词的关联性时�Q�计��量非常大，可以��A奇异值分解�ؓX、B和Y三个矩阵�Q�Amn=Xmm*Bmn*Ynn�Q�X表示词和词类的相��x��，Y表示文本和主题的相关性，B表示词类和主题的相关性，其中B对角�U�上的元素很多值相对其他的非常��，或者�ؓ�Ӟ��可以省略。对兌��矩阵A�q�行一�ơ奇异值分解，��可以同时完成近义词分类和文章的分类�Q�同时能得到每个主题和每个词义类之间的相��x��，�q�个�l�果非常漂亮�?
38.    信息指纹。如果能够找��C��U�函敎ͼ��?000亿网址随即地映��到128位二�q�制�Q�也��是16字节的整数空��_��q��q?6字节的随机数做该�|�址的信息指�U�V��信息指�U�可以理解�ؓ��一�D�信息映��到一个多�l�二�q�制�I�间中的一个点�Q�只要这个随卛_��数做的好�Q�那么不同信息对应的点不会重合，因此�q�个二进制的数字��变成了原来信息所��h��的独一无二的指�U�V�?
39.    判断两个集合是否相同�Q�最�W�的�Ҏ��是这个集合中的元素一一比较�Q�复杂度O(squareN)�Q�稍好的是将元素排序后顺序比较，复杂度O(NlogN)�Q�最完美的方法是计算�q�两个集合的指纹�Q�然后直接进行比较，计算复杂度O(N)�?
40.    伪随机数产生器算法（Pseudo-Random Number Generator�Q�PRNG�Q�，�q�是产生信息指纹的关键算法，通过他可以将��L��长的整数转换成特定长度的伪随机数。最早的PRNG是将一个数的��^�Ҏ��头去��֏�中间�Q�当然这�U�方法不是很随即�Q�现在常用的是梅��旋转算法（Mersenne Twister�Q��?
41.    在互联网上加密要使用��Z��加密的伪随机��C�生器�Q�Cryptography Secure Pseudo-Random Number Generator�Q�CSPRNG�Q�，常用的算法有MD5或者SHA-1�{�标准，可以��不定长的信息变成定长的128位或�?60位二�q�制随机数�?
42.    最大熵模型�Q�Maximum Entropy�Q�的原理��是保留全部的不��定性，��风险降到最��。最大熵原理指出�Q�需要对一个随��Z��件的概率分布�q�行预测�Ӟ��我们的预��应当满��_��部已知的条�g�Q�而对未知的情况不要做��M��主观假设。在�q�种情况下，概率分布最均匀�Q�预��的风险最��。I.Csiszar证明�Q�对��M��一�l�不自相矛盾的信息，�q�个最大熵模型不仅存在�Q�而且是唯一的，此外�Q�他们都有同一个非常简单的形式-指数函数�?
43.    通用�q�代��法�Q�Generalized Iterative Scaling�Q�GIS�Q�是最原始的最大熵模型的训�l�方法�?.假定�W�零�ơ�P代的初始模型为等概率的均匀分布�?.用第N�ơ�P代的模型来估��每�U�信息特征在训练数据中的分布。如果超�q�了实际的，��把相应的模型参数变��，反之变大�?.重复步骤2直至收敛。这是一�U�典型的期望值最大化�Q�Expectation Maximization�Q�EM�Q�算法。IIS(Improved Iterative Scaling)比GIS�~�短了一��C��个数量��?
44.    布隆�q��o器实际上是一个很长的二进制向量和一�p�d��随机映射的函数�?
45.    贝叶斯网�l�从数学的层面讲是一个加权的有向图，是马��科夫链的扩展，而从知识论的层面看，贝叶斯网�l�克服了马尔�U�夫那种机械的线性的�U�束�Q�它可以把�Q何有兌��的事件统一到它的框架下面。在�|�络中，假定马尔�U�夫假设成立�Q�即每一个状态只与和它直接相�q�的状态有养I��而和他间接相�q�的状态没有直接关�p�，那么它就是贝叶斯�|�络。在�|�络中每个节�Ҏ��率的计算�Q�都可以用贝叶斯公式来进行，贝叶斯网�l�也因此得名。由于网�l�的每个弧都有一个可信度�Q�贝叶斯�|�络也被�U�C��信念�|�络�Q�Belief Networks�Q��?
46.    条�g随机场是计算联合概率分布的有效模型。在一个隐含马��科夫模型中�Q�以x1,x2,...,xn表示观测值序列，以y1,y2,...,yn表示隐含的状态序列，那么xi只取决于产生它们的状态yi,和前后的状态yi-1和yi+1都无兟뀂显然很多应用里观察值xi可能和前后的状态都有关�Q�如果把xi和yi-1,yi,yi+1都考虑�q�来�Q�这��L��模型��是条�g随机场。它是一�U�特�D�的概率图模型（Probablistic Graph Model�Q�，它的�Ҏ��性在于，变量之间要遵守马��科夫假设，��x��个状态的转移概率只取决于盔R��的状态，�q�一点和另一�U�概率图模型贝叶斯网�l�相同，它们的不同之处在于条仉��机场是无向图�Q�而贝叶斯�|�络是有向图�?
47.    �l�特比算法（Viterbi Algoritm�Q�是一个特�D�但应用最�q�的动态规划算法，利用动态规划，可以解决��M��一个图中的最短�\径问题。它之所以重要，是因为凡是��用隐含马��科夫模型描�q�的问题都可以用它来解码�?.从点S出发�Q�对于第一个状态x1的各个节点，不妨假定有n1个，计算出S��C��们的距离d(S,x1i)�Q�其中x1i代表��L��状�?的节炏V��因为只有一步，所以这些距��都是S��C��们各自的最短距��R�?.对于�W�二个状态x2的所有节点，要计��出从S��C��们的最短距��R��d(S,x2i)=min_I=1,n1_d(S,x1j)+d(x1j,x2i)�Q�由于j有n1�U�可能性，需要一一计算�Q�然后找到最��倹{��这样对于第二个状态的每个节点�Q�需要n1�ơ乘法计��。假定这个状态有n2个节点，把S�q�些节点的距��都��一遍，��有O(n1*n2)�ơ运��?.按照上述�Ҏ��从第二个状态走到第三个状态一直走到最后一个状态，�q�样��得到整个网�l�从头到��最短�\径�?
48.    扩频传输�Q�Spread-Spectrum Transmission�Q�和固定频率的传输相比，有三�Ҏ��昄��好处�Q?.抗干扰能力强�?.信号能量非常低，很难获取�?.扩频传输利用带宽更充分�?
49.    Google针对云计��给出的解决工具是MapReduce�Q�其�Ҏ��原理��是计算机算法上常见的分�ȝ��法（Divide-and-Conquer�Q�。将一个大��d��拆分成小的子��d��Q��ƈ完成子�Q务的计算�Q�这个过�E�叫Map�Q�将中间�l�果合�ƈ成最�l�结果，�q�个�q�程叫Reduce�?
50.    逻辑回归模型�Q�Logistic Regression�Q�是��一个事件出现的概率适应��C��条逻辑曲线�Q�Logistic Curve�Q�上。典型的逻辑回归函数�Q�f(z)=e`z/e`z+1=1/1+e`-z。逻辑曲线是一条S型曲�U�，其特�Ҏ��开始变化快�Q�逐渐减慢�Q�最后饱和。逻辑自回归的好处是它的变量范围从负无�I�到正无�I�P��而值域范围限制�?-1之间。因为值域的范围在0-1之间�Q�这样逻辑回归函数��可以和一个概率分别联�p��v来了。因��变量范围在负无穷到正无穷之间�Q�它��可以把信号�l�合��h��Q�不论组合成多大或者多��的��|��最后依然能得到一个概率分布�?
51.    期望最大化��法�Q�Expectation Maximization Algorithm�Q�，�Ҏ��现有的模型，计算各个观测数据输入到模型中的计��结果，�q�个�q�程�U�Cؓ期望��D��过�E�（Expectation�Q�，或E�q�程�Q�接下来�Q�重新计��模型参敎ͼ�以最大化期望��|��q�个�q�程�U�Cؓ最大化的过�E�（Maximization�Q�，或M�q�程。这一�cȝ��法都�U�CؓEM��法�Q�比如隐含马��科夫模型的训练�Ҏ��Baum-Welch��法�Q�以及最大熵模型的训�l�方法GIS��法�?br />
本文转自�Q?a href="http://www.shnenglu.com/humanchao">http://www.shnenglu.com/humanchao

王�v�?/a> 2012-09-21 17:50 发表评论

如何写好UI�E�序

Wed, 05 Sep 2012 02:45:00 GMT

在Windows�q�_��做开发肯定会接触到UI�E�序的编写，以MFC的UI开发�ؓ例，可以开发单文档�Q�多文档�Q�对话框�{��Ş式的应用。写一个UI�E�序�Ҏ��Q�写好却不是一件简单的事情。在整个代码�l�构的清晰性与可维护性方面需要多加注意。写好UI�E�序需求注意以下几点：

1、围�l�数据编�E�与不是围绕UI�~�程

当我们拿到需求最先接触到的就是UI的设计，也许是美工画的，也许是设计草图。工�E�师在具体设计的时候容易受UI的媄响，或者干脆从UI开始编�E��?/span>

�q�是一个错误的�~�程习惯�Q�无论UI如何展现与交互，最�l�都应该围绕数据�~�程。拿到需求后�Q�应该先思考和推敲数据的设计与��{�Q�UI不过��是数据的一�U�展现�Ş式而已�?/span>

2、做好UI与逻辑的解�?/span>

UI的编�E�会涉及到许多控件的操作�Q�消息的处理�Q�不知不觉，一个UI�cȝ��代码会越写越大，以至于一�D�|��间以后，��览和梳理都会变得不太方�ѝ�?/span>

在UI�c�里�Q�除了与UI本��n的操作有关的代码以外�Q��Q何逻辑代码都应该与此解耦，�q�根据具体情况进行封装调用。如果一个控件关联了太多数据操作�Q�应该把�q�些操作��装到控件的�l�承�c�M��Q�把一�c�M��码进行集中管理和�l�护�?/span>

上述问题�Q�在�E�序写作的初期还不太明显�Q�随着代码逐渐膨胀�Q�会��会��让人难以忍受�?/span>

3、数据单向依赖，单向更新

UI围绕的数据进行展��C��更新�Q�在�q�个�q�程中，所以对数据的操作应该进行封装，而不是散落在UI�E�序在各个角落，数据的更新、获取和UI传递消息时�Q�应该单向操作，如果出现循环处理的情况，在以后维护调试的BUG的过�E�中会变得比较困难，��D��l�护效率下降�?/span>

本文来自CSDN博客�Q��{载请标明出处�Q?/span>http://www.shnenglu.com/humanchao

王�v�?/a> 2012-09-05 10:45 发表评论

优秀�E�序员的特征

Tue, 17 Jul 2012 00:13:00 GMT
什么样的程序员�U�得上优�U��Q�根据我所看到�Q�有如下体会�Q?
1、不愿意��就的�h

�E�序设计工作是一��地地道道的脑力力_��Q�把工作做得很好和做的很差往往只在工作中的一个小��的�l�节�Q�我发现我��n边优�U�的程序员都不太喜�Ƣ将��，始终把自��q��计算机和自己的开发环境调整到最佳状态，原来带我的老员工甚至会自己写一些小工具�Q�来提高工作效率�?/span>

2、不喜欢蛮干

脑力力_��与体力劳动不同，很多时候很��N��过��单的量的�U�篏辑ֈ�目的�Q�尤其是处理一些难题的时候。一味的��蛮干�Q�加班几乎天生与高手无缘。没有思�\的时候，换个环境�Q�也许答案就在明天上班的路上惌��v�?/span>

3、愿意思考、专注改�q?/strong>

�E�序员与其他力_��者相��|��熟练了以后都会�Ş成惯性思维�Q�会不自觉的用自�׃��惯的方式解决问题�Q�但问题的�Ş式与本质��M��变化�Q�只有不断的改进才能使工作效率不断提高。而把脑力力_��变成体力力_��的现象在实际工作中比比皆是�?/span>

4、良好的基础和不断的学习

良好的基��与不断的学习是天生的一对孪生兄弟，因�ؓ基础好所以学的快�Q�因为学得快�Q�所以基本功好。良好学习习惯不是不停的��单追�t�新技术，一斚w��是了解新技术，另一斚w��需要不断的弥补思维盲区�Q�学习可以有很多�U�状态，有一�U�是��M��而知一�Q�技也，有一�U�是��M��而知三，术也�Q�有一�U�是��M��而知十，道也�?/span>

5、直接切入问题的能力

在解决一个问题的时候，有些人��L��能够直接切入问题核心�Q�而有些�h��L��喜欢��x��边缘问题。直入主题是一�U�核心能力，需要思考，实践�Q�改�q�，�U�篏�Q�提高，周而复使，螺旋上升。另外我觉得�q�与思维方式与知识面关系很大�Q�多涉猎一些领域没有坏处�?/span>

***��p��***�Q�呵呵，对，�q�是��p��Q�流利的听说��d��?/span>

本文来自CSDN博客�Q��{载请标明出处�Q?/span>http://www.shnenglu.com/humanchao

王�v�?/a> 2012-07-17 08:13 发表评论

Thu, 12 Apr 2012 04:58:00 GMT
本文转自�Q?a href="http://www.shnenglu.com/humanchao/archive/2008/08/19/59309.html">http://www.shnenglu.com/humanchao/archive/2008/08/19/59309.html

我们先看一个函敎ͼ�函数的功能完�?~10的加法�?br />

int Add1to10(int a, int b)
{
   return a +b;
}

但是一般我们还需要加上几条代码：

int Add1to10(int a, int b)
{
    assert(a >= 1 && a <= 10);
    assert(b >= 1 && b < =10);

    if ( a < 1 || a > 10 || b < 1 || b > 10)
        return -1;

    return a +b;
}

加上上面几条代码的作用是��查函数的输入参数�Q�当参数不正��的时候不光要在返回��g��得到体现�Q�而且会触发assert断言�Q�提醒我们参数有误�?br />
断言式编�E�体��C��个编�E�的思想�Q�在我们的程序执行偏��预想的路线时给出提醒。当�E�序执行偏离预想的�\�U�时一般会出现两种可能�Q�即断言以上的程序没有理解下面程序的调用条�g、或断言以下的程序需要接受更为宽泛输入条件。以下分别讨��Z��Ҏ��法：

1、如果函数的输入参数是我们编�E�的一个疏漏，我们认�ؓ�Ҏ��׃��应该出现或��生这��L��|��那我们应该修改调用函数处的代码，避免非预想的值出现�?br />
2、如果无法避免出现或者��生一个非法输入��|��那我们要么在函数调用处加入判断，产生�W�合条�g的值时调用函数�Q�不�W�合参数条�gelse处理�Q�要么修改函敎ͼ�使函数可以接受更为宽泛输入条�Ӟ��q�调整断�a�内容和参数判断逻辑�?br />
断言不仅可以出现在函数的参数��查的场合�Q�也可以出现在其他的上下文调用的场合。而且它还会随着�E�序的开发进�E�逐渐的增加、删除和调整。它可以验证�E�序是按照我们预想的思�\在执行，当出现意外时及时的给出提醒，提醒我们修正�E�序或者自��q��思�\�?/span>

王�v�?/a> 2012-04-12 12:58 发表评论

[转]写好代码�?0个秘�?

Mon, 09 Apr 2012 05:36:00 GMT

[转]写好代码�?0个秘�?收藏
作者：飞哥 �Q�百度）

先给大家看一�D�|��说是史上最强的�E�序�Q?br />e100 33 f6 bf 0 20 b5 10 f3 a5 8c c8 5 0 2 50 68 13 1 cb e 1f be a1 1 bf 0 1
e11b 6 57 b8 11 1 bb 21 13 89 7 4b 4b 48 79 f9 ad 86 e0 8b c8 bd ff ff e8 20
e134 0 3d 0 1 74 1a 7f 3 aa eb f3 2d ff 0 50 e8 f 0 5a f7 d8 8b d8 26 8a 1 aa
e14f 4a 75 f9 eb de cb 57 bb 21 13 8b c1 40 f7 27 f7 f5 8b fb ba 11 1 4f 4f 4a
e168 39 5 7f f9 52 8b c5 f7 25 f7 37 2b c8 95 f7 65 2 f7 37 95 2b e8 fe e fe
e181 10 79 6 c6 6 fe 10 7 46 d0 14 d1 d1 d1 e5 79 ec 5a b8 11 1 ff 7 4b 4b 48
e19b 3b d0 75 f7 5f c3 83 f7 83 a6 5d 59 82 cd b2 8 42 46 9 57 a9 c5 ca aa 1b
.............................................................................

�q�段�E�序�?997�q�世界程序设计大赛的一�{�奖作品的部分代码（完整的代码下载，把代码复制粘贴到cmd的debug命��o中，回�R看到效果�Q�。这个程序运行后��是一�?D的且伴随着音乐的动甅R��震撼吧�Q?br />是不是从事��Y件开发的人员都希望成��L��武林高手呢？然而真要是用这��L��高手来设计、编写我们的产品代码�Q�恐怕某一天，我们什么都不用�q�了�Q�只能�h手一本机器代码，一句一句进行翻译了�Q�那么对于��Y件��品开发而言�Q�如何写好代码呢�Q�一��的软�g产品的代码具备哪些特征呢�Q?/p>

一��代码的特征

1、稳定可靠（Robustness�Q?
代码写出来以后，一定要能够�q�行得非常好�Q�非常稳定可靠。在��C��的IT行业�Q��Y件��品都是是24*7�Q�即要保证系�l�一�?4��时�Q�一星期7天中都可以无间断的正常运行。比如我们百度的搜烦引擎�pȝ��Q�比如我们的通信�pȝ��Q�等�{�。到了��品开发后期，大部分的成本都将投入��C�品稳定性的提高�?

2、可�l�护且简�z�（Maintainable and Simple Code�Q?br />在写代码�Ӟ��首先要考虑的是�Q�写出来的代码不但要自己可以��L��Q�而且我们的同事、测试工�E�师都可能要修改�q�些代码�Q�对其进行增减。如果代码很复杂�Q�不�Ҏ��L��Q�如�E�序中的递归一大堆、程序不知何时或从何地蟩出，则会使程序的可维护性和��z�性降低。所以必要的注释、统一的编�E�规范等都是非常重要的�?

3、高效（Fast�Q?br />在��Y件行业中效率是非帔R��要的�Q�比如搜索引擎。有些��Y件的搜烦效率��׃��高，搜烦�q�程特别�~�慢�Q�让人难以接受。当然这里面有一个带宽的问题�Q�但是程序效率不高也是一个重要的原因。而实际上�E�序的效率提高，有时候很��单，�q�没有什么神�U�之处，如��用数�l�烦引时候，可以用指针方式而不使用数组下标�Q�数�l�的�I�间定义应该定义�?的N�ơ幂�{�等�?

4、简短（Small�Q?br />�q�方面大家的感受可能不是很深�Q�但是我的感受是很深的。配�|�过PSTN�E�控交换机、�\由器、VoIP�|�关讑֤�的�h都知道，�q�些讑֤�的��Y仉��是从PC机通过�|�口或串口下载到�q�些讑֤�的Flash上（�c�M��PC机的BIOS�Q�再通过讑֤�上的CPU启动。如果程序写的很�|�嗦�Q�随着�Ҏ��不断增加，�E�序规模��变大的巨大�Q�Flash�I�间告急、内存告急、下载升�U�变的不可忍受，�{�等�Q�带来的��是成本不断增加�Q�利润不断下降�?

5、共享性（Reusable�Q?br />如果做大型��品开发，�E�序的共享性也是非帔R��要的。我们��品有那么多开发�h员，如果每一个�h都自己定义字�W�串、链表等数据�l�构�Q�那么开发效率就会降低，我们的��品恐怕到今天也不能出台。我所说的“�׃�n”不是指将别�h的代码复制到自己的代码中�Q�而是指直接调用别人的代码�Q�拿来即可用。这一斚w��可以减少代码的冗余性，另一斚w��可以增强代码的可�l�护性。如果别人的代码里有Bug�Q�只需修改他的代码�Q�而调用此代码的程序不用进行�Q何修改就可以辑ֈ�同步。这同时要求我们在设计的时候，如何考虑�pȝ��的内聚和耦合的问题�?

6、可��试性（Testable�Q?br />我们的��品开发里�Q�除了��Y件开发�h员，�q�有一部分工程师负责��Y件测试。��Y件测试�h员会��开发代码拿来，一行一行地�q�行�Q�看�E�序�q�行是否有错。如果��Y件开发�h员的代码不可��试�Q�那��试工程师就没有办法�q�行工作。因此可��试性在大型软�g开发里是很重要的一炏V��可��试性有时候与可维护性是遥相呼应的，一个具有好的可��试性和可维护性的代码�Q�测试�h员可以根据开发提供的�l�护手册、debug信息手册�{�就可以判断出程序出错在哪个模块�?

7、可�U�L��性（Portable�Q?br />可移植性是指程序写出来以后�Q�不仅在windows 2000里可以运行，在NT/9X下可以运行，而且在Linux甚至Macintosh�{�系�l�下都可以运行。所有这些特性都是一��代码所具备的特性。但是其中有些特性是会有冲突的。比如高效性，�E�序写的效率很高�Q�就可能变得很复杂，牺牲的就是简�z�。好的代码要在这些特性中取得�q��?

写好代码�?0个秘�?br />

1、百家之长归我所有（Follow Basic Coding Style�Q?br />其实写代码的方式有很多，每个人都有自��q��风格�Q�但是众多的风格中��L��一些共性的、基本的写代码的风格�Q�如为程序写注释、代码对齐，�{�等。是不是�~�程规范�Q�对��是�~�程规范�?

2、取个好名字�Q�Use Naming Conventions�Q?br />取个好的函数名、变量名�Q�最好按照一定的规则起名。还是编�E�规范�?

3、凌波微步，未必摔跤�Q�Evil goto's?Maybe Not...�Q?br />�q�里我用“凌�L微步”来�Ş容goto语句。通常�Q�goto语句使程序蟩来蟩去，不容易读�Q�而且不能优化�Q�但是在某种情况下，goto语句反而可以增强程序的可读性。Just go ahead�Q�not go back�?

4、先发制人，后发制于人（Practic Defensive Coding�Q?br />Defensive Coding指一些可能会出错的情况，如变量的初始化等�Q�要考虑到出现错误情况下的处理策略。测试时要多�q�行几个�U�程。有些程序在一个线城下�q�行是正常的�Q�但是在多个�U�程�q�行�q�行时就会出现问题；而有些程序在一个CPU下运行几个线�E�是正常的，但是在多个CPU下运行时��׃��出现问题�Q�因为单CPU�q�行�U�程只是狭义的�ƈ行，多CPU一赯��行程序，才是真正的�ƈ行运��?

5、见招拆招，滴水不漏�Q�Handle The Error Cases�Q�They Will Occur�Q�）
�q�里的Error Case�Q�错误情况）�Q�是指那些不易重视的错误。如果不对Error Case�q�行处理�Q�程序在多数情况下不会出错，但是一旦出现异常，�E�序��׃��崩溃�?6、熟习剑法刀术，所向无敌（Learn Win32 API Seriously�Q?br />�?#8220;剑法刀�?#8221;来�Ş容一些API是因为它们都是经�q�了很多优秀开发�h员的不断开发、测试，其效率很高，而且��z�易懂，希望大家能掌握它�Q�熟悉它�Q��用它。是不是象我们的ULIB�?

7、双手互搏，无坚不摧�Q�Test,but don't stop there�Q?br />�q�里的测试不是指别�h来测试你的代码，而是指自己去��试。因��Z��是写代码的原作者，对代码的了解最深，别�h不可能比你更了解�Q�所以你自己在测试时�Q�可以很好地��L��试哪些边界条�Ӟ��以及一些意向不到的情况�?

8、活用断�a��Q�Use,don't abuse,assertions�Q?br />断言�Q�assertion�Q�是个很好的调试工具和方法，希望大家能多用断�a��Q�但是�ƈ不是所有的情况下都可以用到断言。有些情况��用断�a�反而不合适�?

9、草木皆兵，不可大意�Q�Avoid Assumptions�Q?br />是指在写代码�Ӟ��要小心一些输入的情况�Q�比如输入文件、TCP的sockets、函数的参数�{�等�Q�不要认��Z��用我们的API的用户都知道什么是正确的、什么是错的�Q�也��是说一定要考虑到对外接口的出错处理问题�?

10、最高境界、无招胜有招�Q�Stop writing so much code�Q?br />意思就是说��量避免写太多的代码�Q�写的越多，出错的机会也��多。最好能重用别�h开攄��接口函数或直接调用别人的api�?

本文来自CSDN博客�Q��{载请标明出处�Q?a href="http://www.shnenglu.com/humanchao/archive/2010/08/05/122334.html">http://www.shnenglu.com/humanchao/archive/2010/08/05/122334.html

王�v�?/a> 2012-04-09 13:36 发表评论

Wed, 22 Feb 2012 09:06:00 GMT

大家在启动服务器�Ӟ��有时正常启动有时又启动不了是怎么回事呢？�Q�那��Z��么关掉迅��L��软�g��又好了呢？�Q�现在就来给大家讲解一下，

转自�Q?a >http://yinkai210.blog.163.com/blog/static/287483452009050256466/

�q�些端口如果被其他程序占用就不能正常启动�Q�比如有时启动时会提�C�WEB启动��p�|�Q�其实就�?0端口被占用了�Q�而迅��L��下蝲软�g恰恰��是占用�?0端口�Q�关掉就行了。但有时�q�雷�{�都没有开也启动不了，那就是别的东西占用了�Q�那怎么办呢�Q�我来叫你查看端口�ƈ��x��的方法�?br />1.在开�?-�q�行   里面输入cmd点回车，会出现运行窗口�?br />2.在提�C�符后输入netstat -ano回�R�Q�找到tcp 80端口对应的pid�Q�比�?484.
3.ctrl+alt+del打开��d��理器，选进�E�，�q�里有很多正在运行的�E�序怎么找？别急点上面�?nbsp; 查看--选择�?-在PID�Q�进�E�标�C�符�Q�前面打钩。好了，下面的进�E�前面都有了PID��L��。这时上一步找到的PID��有用了�Q�找�?484�Q�比如PEER.EXE什么的�Q�结束进�E�吧。这时再开服务器，看WEB可以启动了！

如上面的不清楚还有简明的�Q?/strong>

假如我们需要确定谁占用了我们的80端口

1、Windows�q�_��
在windows命��o行窗口下执行�Q?br />C:\>netstat -aon|findstr "80"
TCP     127.0.0.1:80         0.0.0.0:0               LISTENING       2448
看到了吗�Q�端口被�q�程号�ؓ2448的进�E�占用，�l�箋执行下面命��o�Q?br />C:\>tasklist|findstr "2448"
thread.exe                     2016 Console                 0     16,064 K
很清楚吧�Q�thread占用了你的端�?Kill it
如果�W�二步查不到�Q�那��开��d��理器，看哪个进�E�是2448�Q�然后杀之即可�?/strong>

如果需要查看其他端口。把 80 �Ҏ��卛_��

Linux查看端口使用状态、关闭端口方�?br />转自�Q?a >http://blog.csdn.net/wudiyi815/article/details/7473097
前提�Q�首先你必须知道�Q�端口不是独立存在的�Q�它是依附于�q�程的。某个进�E�开启，那么它对应的端口��开启了�Q�进�E�关闭，则该端口也就关闭了。下�ơ若某个�q�程再次开启，则相应的端口也再�ơ开启。而不要纯�_�的理解为关闭掉某个端口�Q�不�q�可以禁用某个端口�?/span>

1. 可以通过"netstat -anp" 来查看哪些端口被打开�?/span>
�Q�注�Q�加参数'-n'会将应用�E�序转�ؓ端口昄��Q�即数字格式的地址�Q�如�Q�nfs->2049, ftp->21�Q�因此可以开启两个终端，一一对应一下程序所对应的端口号�Q?/span>
2. 然后可以通过"lsof -i:$PORT"查看应用该端口的�E�序�Q?PORT指对应的端口��P��。或者你也可以查看文�?etc/services�Q�从里面可以扑և�端口所对应的服务�?/span>
�Q�注�Q�有些端口通过netstat查不出来�Q�更可靠的方法是"sudo nmap -sT -O localhost"�Q?/span>
3. 若要关闭某个端口�Q�则可以�Q?/span>
1)通过iptables工具��该端口��掉�Q�如�Q?/span>
"sudo iptables -A INPUT -p tcp --dport $PORT -j DROP"
"sudo iptables -A OUTPUT -p tcp --dport $PORT -j DROP"
2)或者关掉对应的应用�E�序�Q�则端口��p��然关闭了�Q�如�Q?/span>
"kill -9 PID" (PID�Q�进�E�号)
如：    通过"netstat -anp | grep ssh"
有显�C�：    tcp 0 127.0.0.1:2121 0.0.0.0:* LISTEN 7546/ssh
则：    "kill -9 7546"

�Q�可通过"chkconfig"查看�pȝ��服务的开启状态）

王�v�?/a> 2012-02-22 17:06 发表评论

	相关�?/p>	不相�?/p>
被检索到	A∩ B	A∩ B
未被��索到	A∩B	A∩B

国产精品一级,国产精品美女久久久久久免费,欧美xx69

VS2010调试�W�记

2�?/span>VS2010�~�译错误�Q?/span>fatal error C1189: #error : This file requires _WIN32_WINNT to be #defined at least to 0x

从一道面试题来阐释一个普遍的认知误区�Q��{载）

���试驱动开�?/span>

转自�Q?a style="box-sizing: border-box; color: #3468a4;">http://www.infoq.com/cn/articles/cyw-evaluate-seachengine-result-quality前言

Cranfield评�h体系

查询词集合的选取

Precision-recall�Q�准���率-召回率方法）

计算�Ҏ��

Precision-Recall曲线

P@N�Ҏ��

点击因素

N的选取

MRR

MAP

DCG�Ҏ��

A/B Testing

Interleaving Testing

�ȝ��

HOOK介绍

�? 数学之美�W�记

如何写好UI�E�序

优秀�E�序员的特征

[转]写好代码�?0个秘�?

2�?/span>VS2010�~�译错误�Q?/span>

fatal error C1189: #error : This file requires _WIN32_WINNT to be #defined at least to 0x

��试驱动开�?/span>

转自�Q?a style="box-sizing: border-box; color: #3468a4;">http://www.infoq.com/cn/articles/cyw-evaluate-seachengine-result-quality

前言

Precision-recall�Q�准��率-召回率方法）