欧美午夜精品久久久,欧美精品一区三区在线观看,最新中文字幕亚洲

Thu, 18 Dec 2014 05:04:00 GMT

�׃��目原因�Q�开始学�?f��n)C++�Q�刚接触半个多月�Q�今天参考网上例子，写了(ji��n)个简单的C++�q�接ORACLE的DEMO�Q�可是��用g++�~�译时不��利�Q�不是报�q�个错就是那个，最后参考网上的解决方式和个人理解，�l�于调试好了(ji��n)�Q�现把编译中出现的问题和解决�Ҏ(gu��)��ȝ��出来�?nbsp;

源代�?nbsp;

C++代码

#include
#include
#include "occi.h"
using namespace oracle::occi;
using namespace std;
int main()
{
string usr="sys";
string pwd="orcl";
string SID="ORCL";
string date;
Environment *env=Environment::createEnvironment(Environment::OBJECT);
Connection *conn= env->createConnection(usr,pwd,SID);//all strings
if(conn)
cout<<"success createConnection!"<
else
cout<<"failure createConnection!"<
Statement *stmt = conn->createStatement();
string sSQL = "select to_char(sysdate,'yyyy-mm-dd hh24:mi:ss') from dual";
stmt->setSQL(sSQL);
ResultSet *rs = stmt->executeQuery();
if(rs->next())
{
date = rs->getString(1);
}
cout<<"now time :"<
env->terminateConnection(conn);
Environment::terminateEnvironment(env);
return 0;
}

[c++] view plain copy print ?

#include
#include
#include "occi.h"
using namespace oracle::occi;
using namespace std;
int main()
{
string usr="sys";
string pwd="orcl";
string SID="ORCL";
string date;
Environment *env=Environment::createEnvironment(Environment::OBJECT);
Connection *conn= env->createConnection(usr,pwd,SID);//all strings
if(conn)
cout<<"success createConnection!"<
else
cout<<"failure createConnection!"<
Statement *stmt = conn->createStatement();
string sSQL = "select to_char(sysdate,'yyyy-mm-dd hh24:mi:ss') from dual";
stmt->setSQL(sSQL);
ResultSet *rs = stmt->executeQuery();
if(rs->next())
{
date = rs->getString(1);
}
cout<<"now time :"<
env->terminateConnection(conn);
Environment::terminateEnvironment(env);
return 0;
}

本�hlinux上安装oracle路径�Q?opt/app/oracle/product/10.2.0/db_1

�~�译命��o(h��)�Q�g++ -o conn -L/opt/app/oracle/product/10.2.0/db_1/lib -L/opt/oracle/product/10.2.0/db_1/rdbms/lib conn_db.cpp -g

问题?sh��)��Q�编译时报如下错误：(x��)

Shell代码

[oracle@localhost demo]$ g++ g++ -o conn -L/opt/app/oracle/product/10.2.0/db_1/lib -L/opt/oracle/product/10.2.0/db_1/rdbms/lib -lclntsh -locci /usr/lib/libstdc++.so.5 conn_db.cpp -g
g++: g++: No such file or directory
conn_db.cpp:3:18: error: occi.h: No such file or directory
conn_db.cpp:4: error: 'oracle' has not been declared
conn_db.cpp:4: error: 'occi' is not a namespace-name
conn_db.cpp:4: error: expected namespace-name before ';' token
conn_db.cpp: In function 'int main()':
conn_db.cpp:14: error: 'Environment' was not declared in this scope
conn_db.cpp:14: error: 'env' was not declared in this scope
conn_db.cpp:14: error: 'Environment' is not a class or namespace
conn_db.cpp:14: error: 'Environment' is not a class or namespace
conn_db.cpp:15: error: 'Connection' was not declared in this scope
conn_db.cpp:15: error: 'conn' was not declared in this scope
conn_db.cpp:21: error: 'Statement' was not declared in this scope
conn_db.cpp:21: error: 'stmt' was not declared in this scope
conn_db.cpp:26: error: 'ResultSet' was not declared in this scope
conn_db.cpp:26: error: 'rs' was not declared in this scope
conn_db.cpp:35: error: 'Environment' is not a class or namespace

    解决�Q?/span>�~�译时没有引入OCCI头文�Ӟ��如果没有�Q�先下蝲对应�?ORACLE client安装�Q�比如我的是oracle10g,下蝲�?ji��n)oracle-instantclient-basic- 10.2.0.4-1.i386.zip�Q�解压到一个目录下(/home/oracle/oracle/include)�Q�然后在�~�译文�g的时候引�q�这个解压目�?nbsp;

   �~�译命��o(h��)增加OCCI目录�Q�g++ -o conn -I/home/oracle/oracle/include -L/opt/app/oracle/product/10.2.0/db_1/lib -L/opt/oracle/product/10.2.0/db_1/rdbms/lib conn_db.cpp -g

问题2�Q�找不到对应函数

Shell代码

[oracle@localhost demo]$ g++ -o conn -I/home/oracle/oracle/include -L/opt/app/oracle/product/10.2.0/db_1/lib -L/opt/oracle/product/10.2.0/db_1/rdbms/lib conn_db.cpp -Wall -O -g
/tmp/cclFs9xq.o: In function `main':
/home/oracle/oracle/demo/conn_db.cpp:14: undefined reference to `oracle::occi::Environment::createEnvironment(oracle::occi::Environment::Mode, void*, void* (*)(void*, unsigned int), void* (*)(void*, void*, unsigned int), void (*)(void*, void*))'
/home/oracle/oracle/demo/conn_db.cpp:35: undefined reference to `oracle::occi::Environment::terminateEnvironment(oracle::occi::Environment*)'
collect2: ld returned 1 exit status

解决�Q?/span>增加libocci.so和libclntsh.so指定�~�译

修改后的�~�译命��o(h��)�Q?g++ -o conn -I/home/oracle/oracle/include -L/opt/app/oracle/product/10.2.0/db_1/lib -L/opt/oracle/product/10.2.0/db_1/rdbms/lib conn_db.cpp -lclntsh -locci -Wall -O -g

另外可能在引�?lclntsh -locci�~�译时可能会(x��)报找不到以下错误�Q?nbsp;

Shell代码

[oracle@localhost demo]$ g++ -o conn -I/home/oracle/oracle/include -L/opt/app/oracle/product/10.2.0/db_1/lib -L/opt/oracle/product/10.2.0/db_1/rdbms/lib conn_db.cpp -lclntsh -locci /usr/lib/libstdc++.so.5 -Wall -O -g
/usr/bin/ld: cannot find -lclntsh
collect2: ld returned 1 exit status
[oracle@localhost demo]$

解决�Q�这是因为没有找到l(f��)ibclntsh.so和libocci.so链接�?你在可以把oracle client安装目录下把�q�两个文件拷贝到$ORACLE_HOME/lib目录下，或加�?usr/lib目录下就可以�?nbsp;

问题?sh��)��?x��)occi在linux�~�译�q�行时报libstdc++.so.6冲突的问�?nbsp;

Java代码

[oracle@localhost demo]$ g++ -o conn -I/home/oracle/oracle/include -L/opt/app/oracle/product/10.2.0/db_1/lib -L/opt/oracle/product/10.2.0/db_1/rdbms/lib conn_db.cpp -lclntsh -locci -Wall -O -g
/usr/bin/ld: warning: libstdc++.so.5, needed by /opt/app/oracle/product/10.2.0/db_1/lib/libocci.so, may conflict with libstdc++.so.6

[java] view plain copy print ?

[oracle@localhost demo]$ g++ -o conn -I/home/oracle/oracle/include -L/opt/app/oracle/product/10.2.0/db_1/lib -L/opt/oracle/product/10.2.0/db_1/rdbms/lib conn_db.cpp -lclntsh -locci -Wall -O -g
/usr/bin/ld: warning: libstdc++.so.5, needed by /opt/app/oracle/product/10.2.0/db_1/lib/libocci.so, may conflict with libstdc++.so.6

解决�Q�OCCI库在linux�~�译的时候，�׃��linux版本太高�Q�会(x��)提示以上情况�Q�实际上�Q�在大多数l(f��)inux�pȝ��上，�q��(sh��)��留有libstdc++5的库�Q�自己手工在�~�译的时候加上去��好�?nbsp;

修改后的�~�译命��o(h��)�Q�g++ -o conn -I/home/oracle/oracle/include -L/opt/app/oracle/product/10.2.0/db_1/lib -L/opt/oracle/product/10.2.0/db_1/rdbms/lib -lclntsh -locci /usr/lib/libstdc++.so.5 conn_db.cpp -g

�~�译通过后执行结果输出：(x��)

Shell代码

[oracle@localhost demo]$ g++ -o conn -I/home/oracle/oracle/include -L/opt/app/oracle/product/10.2.0/db_1/lib -L/opt/oracle/product/10.2.0/db_1/rdbms/lib conn_db.cpp -lclntsh -locci /usr/lib/libstdc++.so.5 -Wall -O -g
[oracle@localhost demo]$ ./conn
success createConnection!
now time :2010-11-14 22:49:24
[oracle@localhost demo]$

不会(x��)飞的�?/a> 2014-12-18 13:04 发表评论

各种字符串Hash函数比较

Mon, 10 Nov 2014 11:53:00 GMT

常用的字�W�串Hash函数�q�有ELFHash�Q�APHash�{�等�Q�都是十分简单有效的�Ҏ(gu��)��。这些函��C��用位�q�算使得每一个字�W�都�Ҏ(gu��)��后的函数��g�生媄(ji��ng)响。另外还有以MD5和SHA1��Z��表的杂凑函数�Q�这些函数几乎不可能扑ֈ��撞�?/p>

常用字符串哈希函数有BKDRHash�Q�APHash�Q�DJBHash�Q�JSHash�Q�RSHash�Q�SDBMHash�Q�PJWHash�Q�ELFHash�{�等。对于以上几�U�哈希函敎ͼ�我对其进行了(ji��n)一个小��的评测�?br />

Hash函数	数据1	数据2	数据3	数据4	数据1得分	数据2得分	数据3得分	数据4得分	�q�_��?/td>
BKDRHash	2	0	4774	481	96.55	100	90.95	82.05	92.64
APHash	2	3	4754	493	96.55	88.46	100	51.28	86.28
DJBHash	2	2	4975	474	96.55	92.31	0	100	83.43
JSHash	1	4	4761	506	100	84.62	96.83	17.95	81.94
RSHash	1	0	4861	505	100	100	51.58	20.51	75.96
SDBMHash	3	2	4849	504	93.1	92.31	57.01	23.08	72.41
PJWHash	30	26	4878	513	0	0	43.89	0	21.95
ELFHash	30	26	4878	513	0	0	43.89	0	21.95

其中数据1�?00000个字母和数字�l�成的随��Z��哈希冲突个数。数�?�?00000个有意义的英文句子哈希冲�H�个数。数�?为数�?的哈希��g��1000003(大素�?求模后存储到�U�性表中冲�H�的个数。数�?为数�?的哈希��g��10000019(更大素数)求模后存储到�U�性表中冲�H�的个数�?/p>

�l�过比较�Q�得��Z��上��^均得分。��^均数为��^方��^均数。可以发玎ͼ�BKDRHash无论是在实际效果�q�是�~�码实现中，效果都是最�H�出的。APHash也是较�ؓ(f��)优秀的算法。DJBHash,JSHash,RSHash与SDBMHash各有千秋。PJWHash与ELFHash效果最差，但得分相��|��其算法本质是�怼�的�?/p>

在信息修竞赛中，要本着易于�~�码调试的原则，个�h认�ؓ(f��)BKDRHash是最适合记忆和��用的�?/p>

BYVoid原创�Q�欢�q�徏议、交��、批评和指正�?/p>附：(x��)各种哈希函数的C语言�E�序代码

unsigned int SDBMHash(char *str)
{
    unsigned int hash = 0;

    while (*str)
    {
        // equivalent to: hash = 65599*hash + (*str++);
        hash = (*str++) + (hash << 6) + (hash << 16) - hash;
    }

    return (hash & 0x7FFFFFFF);
}

// RS Hash Function
unsigned int RSHash(char *str)
{
    unsigned int b = 378551;
    unsigned int a = 63689;
    unsigned int hash = 0;

    while (*str)
    {
        hash = hash * a + (*str++);
        a *= b;
    }

    return (hash & 0x7FFFFFFF);
}

// JS Hash Function
unsigned int JSHash(char *str)
{
    unsigned int hash = 1315423911;

    while (*str)
    {
        hash ^= ((hash << 5) + (*str++) + (hash >> 2));
    }

    return (hash & 0x7FFFFFFF);
}

// P. J. Weinberger Hash Function
unsigned int PJWHash(char *str)
{
    unsigned int BitsInUnignedInt = (unsigned int)(sizeof(unsigned int) * 8);
    unsigned int ThreeQuarters    = (unsigned int)((BitsInUnignedInt  * 3) / 4);
    unsigned int OneEighth        = (unsigned int)(BitsInUnignedInt / 8);
    unsigned int HighBits         = (unsigned int)(0xFFFFFFFF) << (BitsInUnignedInt - OneEighth);
    unsigned int hash             = 0;
    unsigned int test             = 0;

    while (*str)
    {
        hash = (hash << OneEighth) + (*str++);
        if ((test = hash & HighBits) != 0)
        {
            hash = ((hash ^ (test >> ThreeQuarters)) & (~HighBits));
        }
    }

    return (hash & 0x7FFFFFFF);
}

// ELF Hash Function
unsigned int ELFHash(char *str)
{
    unsigned int hash = 0;
    unsigned int x    = 0;

    while (*str)
    {
        hash = (hash << 4) + (*str++);
        if ((x = hash & 0xF0000000L) != 0)
        {
            hash ^= (x >> 24);
            hash &= ~x;
        }
    }

    return (hash & 0x7FFFFFFF);
}

// BKDR Hash Function
unsigned int BKDRHash(char *str)
{
    unsigned int seed = 131; // 31 131 1313 13131 131313 etc..
    unsigned int hash = 0;

    while (*str)
    {
        hash = hash * seed + (*str++);
    }

    return (hash & 0x7FFFFFFF);
}

// DJB Hash Function
unsigned int DJBHash(char *str)
{
    unsigned int hash = 5381;

    while (*str)
    {
        hash += (hash << 5) + (*str++);
    }

    return (hash & 0x7FFFFFFF);
}

// AP Hash Function
unsigned int APHash(char *str)
{
    unsigned int hash = 0;
    int i;

    for (i=0; *str; i++)
    {
        if ((i & 1) == 0)
        {
            hash ^= ((hash << 7) ^ (*str++) ^ (hash >> 3));
        }
        else
        {
            hash ^= (~((hash << 11) ^ (*str++) ^ (hash >> 5)));
        }
    }

    return (hash & 0x7FFFFFFF);
}

不会(x��)飞的�?/a> 2014-11-10 19:53 发表评论

[转]C++的Json解析库：(x��)jsoncpp和boost

Sun, 25 May 2014 16:36:00 GMT

JSON(JavaScript Object Notation)跟xml一样也是一�U�数据交换格式，�?ji��n)解json请参考其官网http://json.org/�Q�本文不再对json做介�l�，��重点介�l�c++的json解析库的使用�Ҏ(gu��)��。json官网上列��Z��(ji��n)各种语言对应的json解析库，作者仅介绍自己使用�q�的两种C++的json解析�?jsoncpp(v0.5.0)�?span id="2KSFindDIV">Boost(v1.34.0)�?/span>

一. 使用jsoncpp解析json

Jsoncpp是个跨��^台的开源库�Q�首先从http://jsoncpp.sourceforge.net/上下载j(lu��)soncpp库源码，我下载的是v0.5.0�Q�压�~�包大约107K�Q�解压，在jsoncpp-src-0.5.0/makefiles/vs71目录里找到jsoncpp.sln�Q�用VS2003�?qi��ng)以上版本编译，默认生成静(r��n)态链接库�?在工�E�中引用�Q�只需要include/json�?lib文�g卛_��?/span>

使用JsonCpp前先来熟�(zh��n)�几个主要的�c�：(x��)

Json::Value 可以表示里所有的�c�d��Q�比如int,string,object,array�{�，具体应用��会(x��)在后边示例中介绍�?/span>

Json::Reader ��json文�g��或字符串解析到Json::Value, 主要函数有Parse�?/span>

Json::Writer 与Json::Reader相反�Q�将Json::Value转化成字�W�串��，注意它的两个子类�Q�Json::FastWriter和Json::StyleWriter�Q�分别输��Z��带格式的json和带格式的json�?/span>

1. 从字�W�串解析json

int ParseJsonFromString()
{
  const char* str = "{\"uploadid\": \"UP000000\",\"code\": 100,\"msg\": \"\",\"files\": \"\"}";

  Json::Reader reader;
  Json::Value root;
  if (reader.parse(str, root))  // reader��Json字符串解析到root�Q�root��包含Json里所有子元素
  {
    std::string upload_id = root["uploadid"].asString();  // 讉K��节点�Q�upload_id = "UP000000"
    int code = root["code"].asInt();    // 讉K��节点�Q�code = 100
  }
  return 0;
}

2. 从文件解析json

{
    "uploadid": "UP000000",
    "code": "0",
    "msg": "",
    "files":
    [
        {
            "code": "0",
            "msg": "",
            "filename": "1D_16-35_1.jpg",
            "filesize": "196690",
            "width": "1024",
            "height": "682",
            "images":
            [
                {
                    "url": "fmn061/20111118",
                    "type": "large",
                    "width": "720",
                    "height": "479"
                },
                {
                    "url": "fmn061/20111118",
                    "type": "main",
                    "width": "200",
                    "height": "133"
                }
            ]
        }
    ]
}

解析代码�Q?br />

int ParseJsonFromFile(const char* filename)
{
  // 解析json用Json::Reader
  Json::Reader reader;
  // Json::Value是一�U�很重要的类型，可以代表��L��c�d��。如int, string, object, array
  Json::Value root;

  std::ifstream is;
  is.open (filename, std::ios::binary );
  if (reader.parse(is, root))
  {
    std::string code;
    if (!root["files"].isNull())  // 讉K��节点�Q�Access an object value by name, create a null member if it does not exist.
      code = root["uploadid"].asString();

    // 讉K��节点�Q�Return the member named key if it exist, defaultValue otherwise.
    code = root.get("uploadid", "null").asString();

    // 得到"files"的数�l�个�?/span>
    int file_size = root["files"].size();

    // 遍历数组
    for(int i = 0; i < file_size; ++i)
    {
      Json::Value val_image = root["files"][i]["images"];
      int image_size = val_image.size();
      for(int j = 0; j < image_size; ++j)
      {
        std::string type = val_image[j]["type"].asString();
        std::string url = val_image[j]["url"].asString();
      }
    }
  }
  is.close();
  return 0;
}

3. 在json�l�构中插入json

Json::Value arrayObj;   // 构徏对象
    Json::Value new_item, new_item1;
    new_item["date"] = "2011-12-28";
    new_item1["time"] = "22:30:36";
    arrayObj.append(new_item);  // 插入数组成员
    arrayObj.append(new_item1); // 插入数组成员
    int file_size = root["files"].size();
    for(int i = 0; i < file_size; ++i)
      root["files"][i]["exifs"] = arrayObj;   // 插入原json�?/span>

4. 输出json

// 转换为字�W�串�Q�带格式�Q?/span>
std::string out = root.toStyledString();
// 输出无格式json字符�?/span>
Json::FastWriter writer;
std::string out2 = writer.write(root);

�? 使用Boost property_tree解析json

property_tree可以解析xml�Q�json�Q�ini�Q�info�{�格式的数据�Q�用property_tree解析�q�几�U�格式��用方法很�怼��?/p>

解析json很简单，命名�I�间�?span id="4KSFindDIV">boost::property_tree�Q�reson_json函数��文件流、字�W�串解析到ptree�Q�write_json��ptree输出为字�W�串或文件流。其余的都是对ptree的操作�?/p>

解析json需要加头文�Ӟ��(x��)

#include <boost/property_tree/ptree.hpp>
#include <boost/property_tree/json_parser.hpp>

1. 解析json

解析一�D�下面的数据�Q?/p>

{
  "code": 0,
  "images":
  [
    {
      "url": "fmn057/20111221/1130/head_kJoO_05d9000251de125c.jpg"
    },
    {
      "url": "fmn057/20111221/1130/original_kJoO_05d9000251de125c.jpg"
    }
  ]
}

int ParseJson()
{
  std::string str = "{\"code\":0,\"images\":[{\"url\":\"fmn057/20111221/1130/head_kJoO_05d9000251de125c.jpg\"},{\"url\":\"fmn057/20111221/1130/original_kJoO_05d9000251de125c.jpg\"}]}";
  using namespace boost::property_tree;

  std::stringstream ss(str);
  ptree pt;
  try{
    read_json(ss, pt);
  }
  catch(ptree_error & e) {
    return 1;
  }

  try{
    int code = pt.get<int>("code");   // 得到"code"的value
    ptree image_array = pt.get_child("images");  // get_child得到数组对象

    // 遍历数组
    BOOST_FOREACH(boost::property_tree::ptree::value_type &v, image_array)
    {
      std::stringstream s;
      write_json(s, v.second);
      std::string image_item = s.str();
    }
  }
  catch (ptree_error & e)
  {
    return 2;
  }
  return 0;
}

2. 构造json

int InsertJson()
{
  std::string str = "{\"code\":0,\"images\":[{\"url\":\"fmn057/20111221/1130/head_kJoO_05d9000251de125c.jpg\"},{\"url\":\"fmn057/20111221/1130/original_kJoO_05d9000251de125c.jpg\"}]}";
  using namespace boost::property_tree;

  std::stringstream ss(str);
  ptree pt;
  try{
    read_json(ss, pt);
  }
  catch(ptree_error & e) {
    return 1;
  }

  // 修改/增加一个key-value�Q�key不存在则增加
  pt.put("upid", "00001");

  // 插入一个数�l?/span>
  ptree exif_array;
  ptree array1, array2, array3;
  array1.put("Make", "NIKON");
  array2.put("DateTime", "2011:05:31 06:47:09");
  array3.put("Software", "Ver.1.01");
  exif_array.push_back(std::make_pair("", array1));
  exif_array.push_back(std::make_pair("", array2));
  exif_array.push_back(std::make_pair("", array3));

//   exif_array.push_back(std::make_pair("Make", "NIKON"));
//   exif_array.push_back(std::make_pair("DateTime", "2011:05:31 06:47:09"));
//   exif_array.push_back(std::make_pair("Software", "Ver.1.01"));

  pt.put_child("exifs", exif_array);
  std::stringstream s2;
  write_json(s2, pt);
  std::string outstr = s2.str();

  return 0;
}

�? 两种解析库的使用�l�验

1. �?span id="15KSFindDIV">boost::property_tree解析字符串遇�?\/"时解析失败，而jsoncpp可以解析成功�Q�要知道'/'前面加一�?\'是JSON标准格式�?/p>

2. boost::property_tree的read_json和write_json在多�U�程中��用会(x��)引�v崩溃�?/p>

针对1�Q�可以在使用boost::property_tree解析前写个函数去�?\/"中的'\'�Q�针�?�Q�在多线�E�中同步一下可以解冟�?/p>

我的使用�?j��)得�Q��?span id="18KSFindDIV">boost::property_tree不仅可以解析json�Q�还可以解析xml�Q�info�{�格式的数据。对于解析json�Q��?span id="19KSFindDIV">boost::property_tree解析�q�可以忍受，但解析xml�Q�由于遇到问题太多只能换其它库了(ji��n)�?/p>

不会(x��)飞的�?/a> 2014-05-26 00:36 发表评论

[转]字符串匹配的Boyer-Moore��法

Thu, 06 Mar 2014 13:47:00 GMT

上一��文章，我介�l�了(ji��n)KMP��法�?/p>

但是�Q�它�q�不是效率最高的��法�Q�实际采用�ƈ不多。各�U�文本编辑器�?查找"功能�Q�Ctrl+F�Q�，大多采用Boyer-Moore��法�?/p>

Boyer-Moore��法不仅效率高，而且构思��y妙，�Ҏ(gu��)��理解�?977�q�_(d��)��德克萨斯大学的Robert S. Boyer教授和J Strother Moore教授发明�?ji��n)这�U�算法�?/p>

下面�Q�我�Ҏ(gu��)��Moore教授自己�?a target="_blank" style="margin: 0px; padding: 0px; list-style-type: none; border: none; color: #112233;">例子来解释这�U�算法�?/p>

假定字符串�ؓ(f��)"HERE IS A SIMPLE EXAMPLE"�Q�搜索词�?EXAMPLE"�?/p>

首先�Q?字符�?�?搜烦(ch��)�?头部寚w��Q�从��N��开始比较�?/p>

�q�是一个很聪明的想法，因�ؓ(f��)如果��N��字符不匹配，那么只要一�ơ比较，��可以知道前7个字�W�（整体上）(j��)肯定不是要找的结果�?/p>

我们看到�Q?S"�?E"不匹配。这�Ӟ��"S"��p��U�Cؓ(f��)"坏字�W?�Q�bad character�Q�，即不匚w��的字�W��?/span>我们�q�发玎ͼ�"S"不包含在搜烦(ch��)�?EXAMPLE"之中�Q�这意味着可以把搜索词直接�U�d��"S"的后一位�?/p>

依然从尾部开始比较，发现"P"�?E"不匹配，所�?P"�?坏字�W?。但是，"P"包含在搜索词"EXAMPLE"之中。所以，��搜索词后移两位�Q�两�?P"寚w��?/p>

我们由此�ȝ��?span style="font-weight: 800;">"坏字�W�规�?�Q?/p>

　　后移位数 = 坏字�W�的位置 - 搜烦(ch��)词中的上一�ơ出��C��|?/p>

如果"坏字�W?不包含在搜烦(ch��)词之中，则上一�ơ出��C��|��ؓ(f��) -1�?/p>

�?P"��Z��Q�它作�ؓ(f��)"坏字�W?�Q�出现在搜烦(ch��)词的�W?位（�?开始编��P��(j��)�Q�在搜烦(ch��)词中的上一�ơ出��C��|��ؓ(f��)4�Q�所以后�U?6 - 4 = 2位。再以前面第二步�?S"��Z��Q�它出现在第6位，上一�ơ出��C��|�是 -1�Q�即未出玎ͼ�(j��)�Q�则整个搜烦(ch��)词后�U?6 - (-1) = 7位�?/p>

依然从尾部开始比较，"E"�?E"匚w��?/p>

比较前面一位，"LE"�?LE"匚w��?/p>

比较前面一位，"PLE"�?PLE"匚w��?/p>

比较前面一位，"MPLE"�?MPLE"匚w��?span style="font-weight: 800;">我们把这�U�情�늧��?好后�~�"�Q�good suffix�Q�，��x(ch��ng)��有尾部匹配的字符丌Ӏ?/span>注意�Q?MPLE"�?PLE"�?LE"�?E"都是好后�~��?/p>

比较前一位，发现"I"�?A"不匹配。所以，"I"�?坏字�W?�?/p>

10.

�Ҏ(gu��)��"坏字�W�规�?�Q�此时搜索词应该后移 2 - �Q?1�Q? 3 位。问题是�Q�此时有没有更好的移法？

11.

我们知道�Q�此时存�?好后�~�"。所以，可以采用"好后�~�规则"�Q?/p>

　　后移位数 = 好后�~�的位�|?- 搜烦(ch��)词中的上一�ơ出��C��|?/p>

再�D一个例子，如果字符�?ABCDEF"�?EF"是好后缀�Q�则"EF"的位�|�是5 �Q�上一�ơ出现的位置�?-1�Q�即未出玎ͼ�(j��)�Q�所以后�U?5 - (-1) = 6位，��x(ch��ng)��个字�W�串�U�d��"F"的后一位�?/p>

�q�个规则有三个注意点�Q?/p>

　　�Q?�Q?好后�~�"的位�|�以最后一个字�W��ؓ(f��)准。假�?ABCDEF"�?EF"是好后缀�Q�则它的位置�?F"为准�Q�即5�Q�从0开始计��）(j��)�?/p>
　　�Q?�Q�如�?好后�~�"在搜索词中只出现一�ơ，则它的上一�ơ出��C��|��ؓ(f��) -1。比如，"EF"�?ABCDEF"之中只出��C��ơ，则它的上一�ơ出��C��|��ؓ(f��)-1�Q�即未出玎ͼ�(j��)�?/p>
　　�Q?�Q�如�?好后�~�"有多个，则除�?ji��n)最长的那个"好后�~�"�Q�其�?好后�~�"的上一�ơ出��C��|�必��d��头部。比如，假定"BABCDAB"�?好后�~�"�?DAB"�?AB"�?B"�Q�请问这�?好后�~�"的上一�ơ出��C��|�是什么？回答是，此时采用的好后缀�?B"�Q�它的上一�ơ出��C��|�是头部�Q�即�W?位。这个规则也可以�q�样表达�Q�如果最长的那个"好后�~�"只出��C��ơ，则可以把搜烦(ch��)词改写成如下形式�q�行位置计算"(DA)BABCDAB"�Q�即虚拟加入最前面�?DA"�?/p>

回到上文的这个例子。此�Ӟ��所有的"好后�~�"�Q�MPLE、PLE、LE、E�Q�之中，只有"E"�?EXAMPLE"�q�出现在头部�Q�所以后�U?6 - 0 = 6位�?/p>

12.

可以看到�Q?坏字�W�规�?只能�U?位，"好后�~�规则"可以�U?位。所以，Boyer-Moore��法的基本思想是，每次后移�q�两个规则之中的较大倹{�?/span>

更��y妙的是，�q�两个规则的�U�d��位数�Q�只与搜索词有关�Q�与原字�W�串无关。因此，可以预先计算生成《坏字符规则表》和《好后缀规则表》。��用时�Q�只要查表比较一下就可以�?ji��n)�?/p>

13.

�l�箋(hu��)从尾部开始比较，"P"�?E"不匹配，因此"P"�?坏字�W?。根�?坏字�W�规�?�Q�后�U?6 - 4 = 2位�?/p>

14.

从尾部开始逐位比较�Q�发现全部匹配，于是搜烦(ch��)�l�束。如果还要��l�查找（��x(ch��ng)��出全部匹配）(j��)�Q�则�Ҏ(gu��)��"好后�~�规则"�Q�后�U?6 - 0 = 6位，卛_��部的"E"�U�d��N��?E"的位�|��?/p>

不会(x��)飞的�?/a> 2014-03-06 21:47 发表评论

[转]字符串匹配的KMP��法

Thu, 06 Mar 2014 13:46:00 GMT

字符串匹�?/a>是计��机的基本�Q务之一�?/p>

举例来说�Q�有一个字�W�串"BBC ABCDAB ABCDABCDABDE"�Q�我想知道，里面是否包含另一个字�W�串"ABCDABD"�Q?/p>

许多��法可以完成�q�个��d��Q?a target="_blank" style="margin: 0px; padding: 0px; list-style-type: none; border: none; color: #112233;">Knuth-Morris-Pratt��法�Q�简�U�KMP�Q�是最常用的之一。它以三个发明者命名，起头的那个K��是著名�U�学家Donald Knuth�?/p>

�q�种��法不太�Ҏ(gu��)��理解�Q�网上有很多解释�Q�但读�v来都很费劌Ӏ�直到读�?a target="_blank" style="margin: 0px; padding: 0px; list-style-type: none; border: none; color: #112233;">Jake Boxer的文章，我才真正理解�q�种��法。下面，我用自己的语�a��Q�试囑ֆ�一��比较好懂的KMP��法解释�?/p>

首先�Q�字�W�串"BBC ABCDAB ABCDABCDABDE"的第一个字�W�与搜烦(ch��)�?ABCDABD"的第一个字�W�，�q�行比较。因为B与A不匹配，所以搜索词后移一位�?/p>

因�ؓ(f��)B与A不匹配，搜烦(ch��)词再往后移�?/p>

��p��P��直到字符串有一个字�W�，与搜索词的第一个字�W�相同�ؓ(f��)止�?/p>

接着比较字符串和搜烦(ch��)词的下一个字�W�，�q�是相同�?/p>

直到字符串有一个字�W�，与搜索词对应的字�W�不相同为止�?/p>

�q�时�Q�最自然的反应是�Q�将搜烦(ch��)词整个后�U�M��位，再从头逐个比较。这样做虽然可行�Q�但是效率很差，因�ؓ(f��)你要�?搜烦(ch��)位置"�U�d��已经比较�q�的位置�Q�重比一遍�?/p>

一个基本事实是�Q�当�I�格与D不匹配时�Q�你其实知道前面六个字符�?ABCDAB"。KMP��法的想法是�Q�设法利用这个已知信息，不要�?搜烦(ch��)位置"�U�d��已经比较�q�的位置�Q��l�把它向后移�Q�这样就提高?sh��)��(ji��n)效率�?/p>

怎么做到�q�一点呢�Q�可以针�Ҏ(gu��)��索词�Q�算��Z��张《部分匹配表》（Partial Match Table�Q�。这张表是如何��生的�Q�后面再介绍�Q�这里只要会(x��)用就可以�?ji��n)�?/p>

已知�I�格与D不匹配时�Q�前面六个字�W?ABCDAB"是匹配的。查表可知，最后一个匹配字�W�B对应�?部分匚w��?�?�Q�因此按照下面的公式��出向后�U�d��的位敎ͼ�(x��)

　　�U�d��位数 = 已匹配的字符�?- 对应的部分匹配�?/p>

因�ؓ(f��) 6 - 2 �{�于4�Q�所以将搜烦(ch��)词向后移�?位�?/p>

10.

因�ؓ(f��)�I�格与��E不匹配，搜烦(ch��)词还要��l�往后移。这�Ӟ��已匹配的字符��Cؓ(f��)2�Q?AB"�Q�，对应�?部分匚w��?�?。所以，�U�d��位数 = 2 - 0�Q�结果�ؓ(f��) 2�Q�于是将搜烦(ch��)词向后移2位�?/p>

11.

因�ؓ(f��)�I�格与A不匹配，�l�箋(hu��)后移一位�?/p>

12.

逐位比较�Q�直到发现C与D不匹配。于是，�U�d��位数 = 6 - 2�Q��l�将搜烦(ch��)词向后移�?位�?/p>

13.

逐位比较�Q�直到搜索词的最后一位，发现完全匚w��Q�于是搜索完成。如果还要��l�搜索（��x(ch��ng)��出全部匹配）(j��)�Q�移动位�?= 7 - 0�Q�再��搜索词向后�U�d��7位，�q�里��׃��再重复了(ji��n)�?/p>

14.

下面介绍《部分匹配表》是如何产生的�?/p>

首先�Q�要�?ji��n)解两个概念�Q?前缀"�?后缀"�?"前缀"指除�?ji��n)最后一个字�W�以外，一个字�W�串的全部头部组合；"后缀"指除�?ji��n)第一个字�W�以外，一个字�W�串的全部尾部组合�?/p>

15.

"部分匚w��?��是"前缀"�?后缀"的最长的共有元素的长度。以"ABCDABD"��Z��Q?/p>

　　�Q�　"A"的前�~�和后�~�都�ؓ(f��)�I�集�Q�共有元素的长度�?�Q?/p>
　　�Q�　"AB"的前�~�为[A]�Q�后�~�为[B]�Q�共有元素的长度�?�Q?/p>
　　�Q�　"ABC"的前�~�为[A, AB]�Q�后�~�为[BC, C]�Q�共有元素的长度0�Q?/p>
　　�Q�　"ABCD"的前�~�为[A, AB, ABC]�Q�后�~�为[BCD, CD, D]�Q�共有元素的长度�?�Q?/p>
　　�Q�　"ABCDA"的前�~�为[A, AB, ABC, ABCD]�Q�后�~�为[BCDA, CDA, DA, A]�Q�共有元素�ؓ(f��)"A"�Q�长度�ؓ(f��)1�Q?/p>
　　�Q�　"ABCDAB"的前�~�为[A, AB, ABC, ABCD, ABCDA]�Q�后�~�为[BCDAB, CDAB, DAB, AB, B]�Q�共有元素�ؓ(f��)"AB"�Q�长度�ؓ(f��)2�Q?/p>
　　�Q�　"ABCDABD"的前�~�为[A, AB, ABC, ABCD, ABCDA, ABCDAB]�Q�后�~�为[BCDABD, CDABD, DABD, ABD, BD, D]�Q�共有元素的长度�?�?/p>

16.

"部分匚w��"的实质是�Q�有时候，字符串头部和��N��?x��)有重复。比如，"ABCDAB"之中有两�?AB"�Q�那么它�?部分匚w��?��是2�Q?AB"的长度）(j��)。搜索词�U�d��的时候，�W�一�?AB"向后�U�d��4位（字符串长�?部分匚w��|��(j��)�Q�就可以来到�W�二�?AB"的位�|��?/p>

不会(x��)飞的�?/a> 2014-03-06 21:46 发表评论

Thu, 06 Mar 2014 13:44:00 GMT

�q�程�Q�process�Q�和�U�程�Q�thread�Q�是操作�pȝ��的基本概念，但是它们比较抽象�Q�不�Ҏ(gu��)��掌握�?/p>

最�q�，我读��C��?a target="_blank" style="margin: 0px; padding: 0px; list-style-type: none; border: none; color: #112233;">材料�Q�发现有一个很好的�c�L��Q�可以把它们解释地清晰易懂�?/p>

计算机的核心(j��)是CPU�Q�它承担�?ji��n)所有的计算��d��。它?y��u)��像一座工厂，时刻在运行�?/p>

假定工厂的电(sh��)力有限，一�ơ只能供�l�一个�R间��用。也��是��_(d��)��一个�R间开工的时候，其他车间都必��d��工。背后的含义��是�Q�单个CPU一�ơ只能运行一个�Q务�?/p>

�q�程��好比工厂的车间�Q�它代表CPU所能处理的单个��d��。�Q一时刻�Q�CPU��L��q�行一个进�E�，其他�q�程处于非运行状态�?/p>

一个�R间里�Q�可以有很多工�h。他们协同完成一个�Q务�?/p>

�U�程��好比�R间里的工人。一个进�E�可以包括多个线�E��?/p>

车间的空间是工�h们共享的�Q�比如许多房间是每个工�h都可以进出的。这象征一个进�E�的内存�I�间是共享的�Q�每个线�E�都可以使用�q�些�׃�n内存�?/p>

可是�Q�每间房间的大小不同�Q�有些房间最多只能容�U�一个�h�Q�比如厕所。里面有人的时候，其他人就不能�q�去�?ji��n)。这代表一个线�E��用某些共享内存时�Q�其他线�E�必��ȝ��它结束，才能使用�q�一块内存�?/p>

一个防止他��入的��单方法，��是门口加一把锁。先到的人锁上门�Q�后到的人看��C��锁，��在门口排队�Q�等锁打开再进厅R��这��叫"互斥�?�Q�Mutual exclusion�Q�羃�?Mutex�Q�，防止多个�U�程同时��d��某一块内存区域�?/p>

�q�有些房��_(d��)��可以同时容纳n个�h�Q�比如厨�ѝ��也��是��_(d��)��如果人数大于n�Q�多出来的�h只能在外面等着。这好比某些内存区域�Q�只能供�l�固定数目的�U�程使用�?/p>

10.

�q�时的解��x(ch��ng)��法，��是在门口挂n把钥匙。进�ȝ��人就取一把钥匙，出来时再把钥匙挂回原处。后到的人发现钥匙架�I�Z��(ji��n)�Q�就知道必须在门口排队等着�?ji��n)。这�U�做法叫�?a target="_blank" style="margin: 0px; padding: 0px; list-style-type: none; border: none; color: #112233;">"信号�?�Q�Semaphore�Q�，用来保证多个�U�程不会(x��)互相冲突�?/p>

不难看出�Q�mutex是semaphore的一�U�特�D�情况（n=1�Ӟ��(j��)。也��是��_(d��)��完全可以用后者替代前者。但是，因�ؓ(f��)mutex较�ؓ(f��)��单，且效率高�Q�所以在必须保证资源独占的情况下�Q�还是采用这�U�设计�?/p>

11.

操作�pȝ��的设计，因此可以归结��Z��点：(x��)

�Q?�Q�以多进�E��Ş式，允许多个��d��同时�q�行�Q?/p>

�Q?�Q�以多线�E��Ş式，允许单个��d��分成不同的部分运行；

�Q?�Q�提供协调机�Ӟ��一斚w��防止�q�程之间和线�E�之间��生冲�H�，另一斚w��允许�q�程之间和线�E�之间共享资源�?/p>

不会(x��)飞的�?/a> 2014-03-06 21:44 发表评论

[转]�怼�囄��搜烦(ch��)的原理（二）(j��)

Thu, 06 Mar 2014 13:42:00 GMT

昨天�Q�我�?a target="_blank" style="margin: 0px; padding: 0px; list-style-type: none; border: none; color: #112233;">isnowfy的网站看刎ͼ��q�有其他两种�Ҏ(gu��)��也很��单，�q�里做一些笔记�?/p>

一、颜色分布法

每张囄��都可以生�?a target="_blank" style="margin: 0px; padding: 0px; list-style-type: none; border: none; color: #112233;">颜色分布的直方图�Q�color histogram�Q�。如果两张图片的直方囑־�接近�Q�就可以认�ؓ(f��)它们很相伹{�?/p>

��M��一�U�颜色都是由�U�绿蓝三原色�Q�RGB�Q�构成的�Q�所以上囑օ��?张直方图�Q�三原色直方�?+ 最后合成的直方图）(j��)�?/p>

如果每种原色都可以取256个��|��那么整个颜色�I�间共有1600万种颜色�Q?56的三�ơ方�Q�。针对这1600万种颜色比较直方图，计算量实在太大了(ji��n)�Q�因此需要采用简化方法。可以将0�?55分成四个区：(x��)0�?3为第0区，64�?27为第1区，128�?91为第2区，192�?55为第3区。这意味着�U�绿蓝分别有4个区�Q��d��可以构成64�U�组合（4�?�ơ方�Q��?/p>

��M��一�U�颜色必然属于这64�U�组合中的一�U�，�q�样��可以统计每一�U�组合包含的像素数量�?/p>

上图是某张图片的颜色分布表，��表中最后一栏提取出来，�l�成一�?4�l�向�?7414, 230, 0, 0, 8, ..., 109, 0, 0, 3415, 53929)。这个向量就是这张图片的特征值或者叫"指纹"�?/p>

于是�Q�寻扄��似图片就变成�?ji��n)找��Z��其最�怼�的向量。这可以�?a target="_blank" style="margin: 0px; padding: 0px; list-style-type: none; border: none; color: #112233;">皮尔逊相关系�?/a>或�?a target="_blank" style="margin: 0px; padding: 0px; list-style-type: none; border: none; color: #112233;">余��u�怼��?/a>��出�?/p>

二、内容特征法

除了(ji��n)颜色构成�Q�还可以从比较图片内容的�怼�性入手�?/p>

首先�Q�将原图转成一张较?y��u)��的灰度囄��Q�假定�ؓ(f��)50x50像素。然后，��定一个阈��|��灰度图片�{成黑白图片�?/p>

如果两张囄��很相��|��它们的黑白轮廓应该是相近的。于是，问题��变成了(ji��n)�Q�第一步如何确定一个合理的阈��|��正确呈现照片中的轮廓�Q?/p>

昄��Q�前景色与背景色反差��大�Q�轮廓就��明显。这意味着�Q�如果我们找��C��个��|��可以使得前景色和背景色各自的"�c�d��差异最��?�Q�minimizing the intra-class variance�Q�，或�?�c�间差异最�?�Q�maximizing the inter-class variance�Q�，那么�q�个值就是理想的阈倹{�?/p>

1979�q�_(d��)��日本学者大�z�展之证明了(ji��n)�Q?�c�d��差异最��?�?�c�间差异最�?是同一件事�Q�即对应同一个阈倹{��他提出一�U�简单的��法�Q�可以求�?gu��)��个阈��|��q�被�U�Cؓ(f��)"大��|�?�Q�Otsu's method�Q�。下面就是他的计��方法�?/p>

假定一张图片共有n个像素，其中灰度值小于阈值的像素�?n1 个，大于�{�于阈值的像素�?n2 个（ n1 + n2 = n �Q�。w1 �?w2 表示�q�两�U�像素各自的比重�?/p>

　　w1 = n1 / n
　　w2 = n2 / n

再假定，所有灰度值小于阈值的像素的��^均值和方差分别�?μ1 �?σ1�Q�所有灰度值大于等于阈值的像素的��^均值和方差分别�?μ2 �?σ2。于是，可以得到

　　�c�d��差异 = w1(σ1的��^�? + w2(σ2的��^�?
　　�c�间差异 = w1w2(μ1-μ2)^2

可以证明�Q�这两个式子是等��L(f��ng)��Q�得�?�c�d��差异"的最��|��{�同于得�?�c�间差异"的最大倹{��不�q�，从计��难度看�Q�后者的计算要容易一些�?/p>

下一步用"�I��D�?�Q�将阈��g��灰度的最低值到最高��|��依次取一遍，分别代入上面的算式。��?�c�d��差异最��?�?�c�间差异最�?的那个��|��是最�l�的阈倹{��具体的实例和Java��法�Q�请�?a target="_blank" style="margin: 0px; padding: 0px; list-style-type: none; border: none; color: #112233;">�q�里�?/p>

有了(ji��n)50x50像素的黑白羃略图�Q�就�{�于有了(ji��n)一�?0x50�?-1矩阵。矩�늚�每个值对应原囄��一个像素，0表示黑色�Q?表示白色。这个矩阵就是一张图片的特征矩阵�?/p>

两个特征矩阵的不同之处越��，��׃��表两张图片越�怼�。这可以�?异或�q�算"实现�Q�即两个��g��中只有一个�ؓ(f��)1�Q�则�q�算�l�果�?�Q�否则运��结果�ؓ(f��)0�Q�。对不同囄��的特征矩阵进�?异或�q�算"�Q�结果中�?��少�Q�就是越�怼�的图片�?/p>

不会(x��)飞的�?/a> 2014-03-06 21:42 发表评论

Thu, 06 Mar 2014 13:42:00 GMT

上个月，Google�?a target="_blank" style="margin: 0px; padding: 0px; list-style-type: none; border: none; color: #112233;">"�怼�囄��搜烦(ch��)"正式放上�?ji��n)首��c(di��n)�?/p>

你可以用一张图片，搜烦(ch��)互联�|�上所有与它相似的囄��。点�?a target="_blank" style="margin: 0px; padding: 0px; list-style-type: none; border: none; color: #112233;">搜烦(ch��)�?/a>中照相机的图标�?/p>

一个对话框�?x��)出现�?/p>

你输入网片的�|�址�Q�或者直接上传图片，Google��׃��(x��)扑և�与其�怼�的图片。下面这张图片是��国��x(ch��ng)��员Alyson Hannigan�?/p>

上传后，Google�q�回如下�l�果�Q?/p>

�c�M��?�怼�囄��搜烦(ch��)引擎"�q�有不少�Q?a target="_blank" style="margin: 0px; padding: 0px; list-style-type: none; border: none; color: #112233;">TinEye甚至可以扑և�照片的拍摄背景�?/p>

==========================================================

�q�种技术的原理是什么？计算机怎么知道两张囄��怼�呢？

�Ҏ(gu��)��Neal Krawetz博士的解释，原理非常��单易懂。我们可以用一个快速算法，��p��到基本的效果�?/p>

�q�里的关键技术叫�?感知哈希��法"�Q�Perceptual hash algorithm�Q�，它的作用是对每张囄��生成一�?指纹"�Q�fingerprint�Q�字�W�串�Q�然后比较不同图片的指纹。结果越接近�Q�就说明囄��相伹{�?/p>

下面是一个最��单的实现�Q?/p>

�W�一步，�~�小��寸�?/span>

��图片羃?y��u)��?x8的尺寸，��d��64个像素。这一步的作用是去除图片的�l�节�Q�只保留�l�构、明暗等基本信息�Q�摒弃不同尺寸、比例带来的囄��差异�?/p>

�W�二步，��化色彩�?/span>

��羃?y��u)��后的图片，转��?f��)64�U�灰度。也��是��_(d��)��所有像素点��d��只有64�U�颜艌Ӏ?/p>

�W�三步，计算�q�_��倹{�?/span>

计算所�?4个像素的灰度�q�_��倹{�?/p>

�W�四步，比较像素的灰度�?/span>

��每个像素的灰度�Q�与�q�_��D��行比较。大于或�{�于�q�_��|��Cؓ(f��)1�Q�小于��^均��|��Cؓ(f��)0�?/p>

�W�五步，计算哈希倹{�?/span>

��上一步的比较�l�果�Q�组合在一��P��构成了(ji��n)一�?4位的整数�Q�这��是�q�张囄��的指�U�V��组合的�ơ序�q�不重要�Q�只要保证所有图片都采用同样�ơ序��p��?ji��n)�?/p>

= = 8f373714acfcf4d0

得到指纹以后�Q�就可以�Ҏ(gu��)��不同的图片，看看64位中有多��位是不一��L(f��ng)��。在理论上，�q�等同于计算"汉明距离"�Q�Hamming distance�Q�。如果不相同的数据位不超�q?�Q�就说明两张囄��很相��|��如果大于10�Q�就说明�q�是两张不同的图片�?/p>

具体的代码实玎ͼ�可以参见Wote用python语言写的imgHash.py。代码很短，只有53行。��用的时候，�W�一个参数是基准囄��Q�第二个参数是用来比较的其他囄��所在的目录�Q�返回结果是两张囄��之间不相同的数据位数量（汉明距离�Q��?/p>

�q�种��法的优�Ҏ(gu��)��单快速，不受囄��大小�~�放的媄(ji��ng)响，�~�点是图片的内容不能变更。如果在囄��上加几个文字�Q�它?y��u)��p��不出来了(ji��n)。所以，它的最佳用途是�Ҏ(gu��)��~�略图，扑և�原图�?/p>

实际应用中，往往采用更强大的pHash��法�?a target="_blank" style="margin: 0px; padding: 0px; list-style-type: none; border: none; color: #112233;">SIFT��法�Q�它们能够识别图片的变�Ş。只要变形程度不��过25%�Q�它们就能匹配原图。这些算法虽然更复杂�Q�但是原理与上面的简便算法是一��L(f��ng)��Q�就是先��图片�{化成Hash字符�Ԍ��然后再进行比较�?/p>

不会(x��)飞的�?/a> 2014-03-06 21:42 发表评论

[转]TF-IDF与余弦相似性的应用�Q�三�Q�：(x��)自动摘要

Thu, 06 Mar 2014 13:37:00 GMT

有时候，很简单的数学�Ҏ(gu��)��Q�就可以完成很复杂的��d��?/p>

�q�个�p�d��的前两部分就是很好的例子。仅仅依靠统计词频，��p��扑և�关键�?/a>�?a target="_blank" style="margin: 0px; padding: 0px; list-style-type: none; border: none; color: #112233;">�怼�文章。虽然它们算不上效果最好的�Ҏ(gu��)��Q�但肯定是最��便易行的�Ҏ(gu��)��?/p>

今天�Q�依然��l�这个主题。讨论如何通过词频�Q�对文章�q�行自动摘要�Q�Automatic summarization�Q��?/p>

如果能从3000字的文章�Q�提炼出150字的摘要�Q�就可以��者节省大量阅��L��间。由人完成的摘要�?人工摘要"�Q�由机器完成的就�?自动摘要"。许多网站都需要它�Q�比如论文网站、新�ȝ��站、搜索引擎等�{��?007�q�_(d��)��国学者的论文《A Survey on Automatic Text Summarization�?/a>�Q�Dipanjan Das, Andre F.T. Martins, 2007�Q��ȝ��?ji��n)目前的自动摘要��法。其中，很重要的一�U�就是词频统计�?/p>

�q�种�Ҏ(gu��)��最早出�?958�q�的IBM公司�U�学�?a target="_blank" style="margin: 0px; padding: 0px; list-style-type: none; border: none; color: #112233;">H.P. Luhn的论�?a target="_blank" style="margin: 0px; padding: 0px; list-style-type: none; border: none; color: #112233;">《The Automatic Creation of Literature Abstracts�?/a>�?/p>

Luhn博士认�ؓ(f��)�Q�文章的信息都包含在句子中，有些句子包含的信息多�Q�有些句子包含的信息��?自动摘要"��是要找出那些包含信息最多的句子�?/p>

句子的信息量�?关键�?来衡量。如果包含的关键词越多，��p��明这个句子越重要。Luhn提出�?��?�Q�cluster�Q�表�C�关键词的聚集。所�?��?��是包含多个关键词的句子片段�?/p>

上图��是Luhn原始论文的插图，被框��h��的部分就是一�?��?。只要关键词之间的距��d��?门槛�?�Q�它们就被认为处于同一个簇之中。Luhn��的门槛值是4�?。也��是��_(d��)��如果两个关键词之间有5个以上的其他词，��可以把�q�两个关键词分在两个��?/p>

下一步，对于每个��，都计��它的重要性分倹{�?/p>

以前图�ؓ(f��)例，其中的簇一共有7个词�Q�其�?个是关键词。因此，它的重要性分值等�?( 4 x 4 ) / 7 = 2.3�?/p>

然后�Q�找出包含分值最高的��的句子�Q�比�?句）(j��)�Q�把它们合在一��P��构成了(ji��n)�q�篇文章的自动摘要。具体实现可以参�?a target="_blank" style="margin: 0px; padding: 0px; list-style-type: none; border: none; color: #112233;">《Mining the Social Web: Analyzing Data from Facebook, Twitter, LinkedIn, and Other Social Media Sites�?/a>�Q�O'Reilly, 2011�Q�一书的�W?章，python代码�?a target="_blank" style="margin: 0px; padding: 0px; list-style-type: none; border: none; color: #112233;">github�?/p>

Luhn的这�U�算法后来被��化，不再区分"��?�Q�只考虑句子包含的关键词。下面就是一个例子（采用伪码表示�Q�，只考虑关键词首先出现的句子�?/p>

　　Summarizer(originalText, maxSummarySize):
　　　　// 计算原始文本的词频，生成一个数�l�，比如[(10,'the'), (3,'language'), (8,'code')...]
　　　　wordFrequences = getWordCounts(originalText)
　　　　// �q��o(h��)掉停用词�Q�数�l�变成[(3, 'language'), (8, 'code')...]
　　　　contentWordFrequences = filtStopWords(wordFrequences)
　　　　// 按照词频�q�行排序�Q�数�l�变成['code', 'language'...]
　　　　contentWordsSortbyFreq = sortByFreqThenDropFreq(contentWordFrequences)
　　　　// ��文章分成句�?br />　　　　sentences = getSentences(originalText)
　　　　// 选择关键词首先出现的句子
　　　　setSummarySentences = {}
　　　　foreach word in contentWordsSortbyFreq:
　　　　　　firstMatchingSentence = search(sentences, word)
　　　　　　setSummarySentences.add(firstMatchingSentence)
　　　　　　if setSummarySentences.size() = maxSummarySize:
　　　　　　　　break
　　　　// ��选中的句子按照出现顺序，�l�成摘要
　　　　summary = ""
　　　　foreach sentence in sentences:
　　　　　　if sentence in setSummarySentences:
　　　　　　　　summary = summary + " " + sentence
　　　　return summary

�c�M��的算法已�l�被写成�?ji��n)工��P��比如��Z��Java�?a target="_blank" style="margin: 0px; padding: 0px; list-style-type: none; border: none; color: #112233;">Classifier4J库的SimpleSummariser模块、基于C语言�?a target="_blank" style="margin: 0px; padding: 0px; list-style-type: none; border: none; color: #112233;">OTS库、以�?qi��ng)基于classifier4J�?a target="_blank" style="margin: 0px; padding: 0px; list-style-type: none; border: none; color: #112233;">C#实现�?a target="_blank" style="margin: 0px; padding: 0px; list-style-type: none; border: none; color: #112233;">python实现�?/p>

不会(x��)飞的�?/a> 2014-03-06 21:37 发表评论

欧美午夜精品久久久,欧美精品一区三区在线观看,最新中文字幕亚洲

各种字符串Hash函数比较

[转]C++的Json解析库：(x��)jsoncpp和boost

一. 使用jsoncpp解析json

�? 使用Boost property_tree解析json

�? 两种解析库的使用�l�验

[转]字符串匹配的Boyer-Moore���法

[转]字符串匹配的KMP���法

[转]�怼�囄���搜烦(ch��)的原理（二）(j��)

[转]TF-IDF与余弦相似性的应用�Q�三�Q�：(x��)自动摘要

[转]字符串匹配的Boyer-Moore��法

[转]字符串匹配的KMP��法

[转]�怼�囄��搜烦(ch��)的原理（二）(j��)