學(xué)著站在巨人的肩膀上

金融數(shù)學(xué),InformationSearch,Compiler,OS,

C++博客 :: 首頁(yè) :: 新隨筆 :: 聯(lián)系 :: 聚合

:: 管理 ::

12 隨筆 :: 0 文章 :: 8 評(píng)論 :: 0 Trackbacks

<

2010年3月

>

日

一

二

三

四

五

六

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

6

7

8

9

10

公告

發(fā)布經(jīng)典原創(chuàng)文章

常用鏈接

留言簿(1)

隨筆分類

中文文本信息處理(9) (rss)

隨筆檔案

搜索

閱讀排行榜

有前面注釋我們可以知道查詢關(guān)鍵字和字典文件準(zhǔn)備好好后，將進(jìn)入用戶關(guān)鍵字分詞階段

//TSESearch.cpp中：

view plaincopy to clipboardprint?
CHzSeg iHzSeg;      //include ChSeg/HzSeg.h

//
iQuery.m_sSegQuery = iHzSeg.SegmentSentenceMM(iDict, iQuery.m_sQuery); //將get到的查詢變量分詞分成 "我/        愛/      你們/ 的/      格式"

vector<STRING></STRING> vecTerm;
iQuery.ParseQuery(vecTerm);     //將以"/"劃分開的關(guān)鍵字一一順序放入一個(gè)向量容器中

set<STRING></STRING> setRelevantRst;
iQuery.GetRelevantRst(vecTerm, mapBuckets, setRelevantRst);

gettimeofday(&end_tv,&tz);
// search end
//搜索完畢

CHzSeg iHzSeg; //include ChSeg/HzSeg.h

//
iQuery.m_sSegQuery = iHzSeg.SegmentSentenceMM(iDict, iQuery.m_sQuery); //將get到的查詢變量分詞分成 "我/ 愛/ 你們/ 的/ 格式"

vector vecTerm;
iQuery.ParseQuery(vecTerm); //將以"/"劃分開的關(guān)鍵字一一順序放入一個(gè)向量容器中

set setRelevantRst;
iQuery.GetRelevantRst(vecTerm, mapBuckets, setRelevantRst);

gettimeofday(&end_tv,&tz);
// search end
//搜索完畢view plaincopy to clipboardprint?
看CHzSeg 中的這個(gè)方法

看CHzSeg 中的這個(gè)方法view plaincopy to clipboardprint?
//ChSeg/HzSeg.h

//ChSeg/HzSeg.hview plaincopy to clipboardprint?
/**
* 程序翻譯說明
* 進(jìn)一步凈化數(shù)據(jù)，轉(zhuǎn)換漢字
* @access public
* @param   CDict, string 參數(shù)的漢字說明:字典，查詢字符串
* @return string 0
*/
// process a sentence before segmentation
//在分詞前處理句子
string CHzSeg::SegmentSentenceMM (CDict &dict, string s1) const
{
    string s2="";
    unsigned int i,len;

    while (!s1.empty())
    {
        unsigned char ch=(unsigned char) s1[0];
        if(ch<128)
        { // deal with ASCII
            i=1;
            len = s1.size();
            while (i<LEN len="s1.length();" i="0;" 中文標(biāo)點(diǎn)等非漢字字符="" if="" else="" yhf="" s1="s1.substr(i);" by="" added="" ch="=13)" s2="" cr=""></LEN>=161)
              && (!((unsigned char)s1[i]==161 && ((unsigned char)s1[i+1]>=162 && (unsigned char)s1[i+1]<=168)))
              && (!((unsigned char)s1[i]==161 && ((unsigned char)s1[i+1]>=171 && (unsigned char)s1[i+1]<=191)))
              && (!((unsigned char)s1[i]==163 && ((unsigned char)s1[i+1]==172 || (unsigned char)s1[i+1]==161)
              || (unsigned char)s1[i+1]==168 || (unsigned char)s1[i+1]==169 || (unsigned char)s1[i+1]==186
              || (unsigned char)s1[i+1]==187 || (unsigned char)s1[i+1]==191)))
                {
                    ii=i+2; // 假定沒有半個(gè)漢字
                }

                if (i==0) ii=i+2;

                // 不處理中文空格
                if (!(ch==161 && (unsigned char)s1[1]==161))
                {
                    if (i <= s1.size()) // yhf
                        // 其他的非漢字雙字節(jié)字符可能連續(xù)輸出
                        s2 += s1.substr(0, i) + SEPARATOR;
                    else break; // yhf
                }

                if (i <= s1.size()) // yhf
                    s1s1=s1.substr(i);
                else break;     //yhf

                continue;
            }
        }


    // 以下處理漢字串

        i = 2;
        len = s1.length();

        while(i<LEN></LEN>=176)
//    while(i<LEN></LEN>=128 && (unsigned char)s1[i]!=161)
            i+=2;

        s2+=SegmentHzStrMM(dict, s1.substr(0,i));

        if (i <= len)    // yhf
            s1s1=s1.substr(i);
        else break; // yhf
    }

    return s2;
}

/**
* 程序翻譯說明
* 進(jìn)一步凈化數(shù)據(jù)，轉(zhuǎn)換漢字
* @access public
* @param CDict, string 參數(shù)的漢字說明:字典，查詢字符串
* @return string 0
*/
// process a sentence before segmentation
//在分詞前處理句子
string CHzSeg::SegmentSentenceMM (CDict &dict, string s1) const
{
string s2="";
unsigned int i,len;

while (!s1.empty())
{
  unsigned char ch=(unsigned char) s1[0];
  if(ch<128)
  { // deal with ASCII
   i=1;
   len = s1.size();
   while (i=161)
              && (!((unsigned char)s1[i]==161 && ((unsigned char)s1[i+1]>=162 && (unsigned char)s1[i+1]<=168)))
              && (!((unsigned char)s1[i]==161 && ((unsigned char)s1[i+1]>=171 && (unsigned char)s1[i+1]<=191)))
              && (!((unsigned char)s1[i]==163 && ((unsigned char)s1[i+1]==172 || (unsigned char)s1[i+1]==161)
              || (unsigned char)s1[i+1]==168 || (unsigned char)s1[i+1]==169 || (unsigned char)s1[i+1]==186
              || (unsigned char)s1[i+1]==187 || (unsigned char)s1[i+1]==191)))
    {
     i=i+2; // 假定沒有半個(gè)漢字
    }

if (i==0) i=i+2;

    // 不處理中文空格
    if (!(ch==161 && (unsigned char)s1[1]==161))
    {
     if (i <= s1.size()) // yhf
      // 其他的非漢字雙字節(jié)字符可能連續(xù)輸出
      s2 += s1.substr(0, i) + SEPARATOR;
     else break; // yhf
    }

    if (i <= s1.size()) // yhf
     s1=s1.substr(i);
    else break;  //yhf

    continue;
   }
  }

// 以下處理漢字串

i = 2;
len = s1.length();

  while(i=176)
//    while(i=128 && (unsigned char)s1[i]!=161)
   i+=2;

s2+=SegmentHzStrMM(dict, s1.substr(0,i));

  if (i <= len) // yhf
   s1=s1.substr(i);
  else break; // yhf
}

return s2;
}view plaincopy to clipboardprint?

view plaincopy to clipboardprint?
//Query.cpp

//Query.cppview plaincopy to clipboardprint?
<PRE class=csharp name="code">/**
* 程序翻譯說明
* 將以"/"劃分開的關(guān)鍵字一一順序放入一個(gè)向量容器中
*
* @access public
* @param   vector<STRING></STRING> 參數(shù)的漢字說明：向量容器
* @return void
*/
void CQuery::ParseQuery(vector<STRING></STRING> &vecTerm)
{
    string::size_type idx;
    while ( (idx = m_sSegQuery.find("/ ")) != string::npos ) {
        vecTerm.push_back(m_sSegQuery.substr(0,idx));
        m_sSegQuerym_sSegQuery = m_sSegQuery.substr(idx+3);
    }
}
</PRE>
<PRE class=csharp name="code"> </PRE>
<PRE class=csharp name="code"><PRE class=csharp name="code">/**
* 程序翻譯說明
* 相關(guān)性分析查詢，構(gòu)造結(jié)果集合setRelevantRst //瓶頸所在
*
* @access public
* @param   vector<STRING></STRING> map set<STRING></STRING> 參數(shù)的漢字說明：用戶提交關(guān)鍵字的分詞組，倒排索引映射，相關(guān)性結(jié)果集合
* @return string 0
*/
bool CQuery::GetRelevantRst
(
    vector<STRING></STRING> &vecTerm,
    map &mapBuckets,
    set<STRING></STRING> &setRelevantRst
) const
{
    set<STRING></STRING> setSRst;

    bool bFirst=true;
    vector<STRING></STRING>::iterator itTerm = vecTerm.begin();

    for ( ; itTerm != vecTerm.end(); ++itTerm )
    {

        setSRst.clear();
        copy(setRelevantRst.begin(), setRelevantRst.end(), inserter(setSRst,setSRst.begin()));

        map mapRstDoc;
        string docid;
        int doccnt;

        map::iterator itBuckets = mapBuckets.find(*itTerm);
        if (itBuckets != mapBuckets.end())
        {
            string strBucket = (*itBuckets).second;
            string::size_type idx;
            idx = strBucket.find_first_not_of(" ");
            strBucketstrBucket = strBucket.substr(idx);

            while ( (idx = strBucket.find(" ")) != string::npos )
            {
                docid = strBucket.substr(0,idx);
                doccnt = 0;

                if (docid.empty()) continue;

                map::iterator it = mapRstDoc.find(docid);
                if ( it != mapRstDoc.end() )
                {
                    doccnt = (*it).second + 1;
                    mapRstDoc.erase(it);
                }
                mapRstDoc.insert( pair(docid,doccnt) );

                strBucketstrBucket = strBucket.substr(idx+1);
            }

            // remember the last one
            docid = strBucket;
            doccnt = 0;
            map::iterator it = mapRstDoc.find(docid);
            if ( it != mapRstDoc.end() )
            {
                doccnt = (*it).second + 1;
                mapRstDoc.erase(it);
            }
            mapRstDoc.insert( pair(docid,doccnt) );
        }

        // sort by term frequencty
        multimap > newRstDoc;
        map::iterator it0 = mapRstDoc.begin();
        for ( ; it0 != mapRstDoc.end(); ++it0 ){
            newRstDoc.insert( pair((*it0).second,(*it0).first) );
        }

        multimap::iterator itNewRstDoc = newRstDoc.begin();
        setRelevantRst.clear();
        for ( ; itNewRstDoc != newRstDoc.end(); ++itNewRstDoc ){
            string docid = (*itNewRstDoc).second;

            if (bFirst==true) {
                setRelevantRst.insert(docid);
                continue;
            }

            if ( setSRst.find(docid) != setSRst.end() ){
                setRelevantRst.insert(docid);
            }
        }

        //cout << "setRelevantRst.size(): " << setRelevantRst.size() << "<BR>";
        bFirst = false;
    }
    return true;
}</PRE>
</PRE>
接下來(lái)的就是現(xiàn)實(shí)了，前面都只是處理數(shù)據(jù)得到 setRelevantRst 這個(gè)查詢結(jié)構(gòu)集合,這里就不多說了下面就和php之類的腳本語(yǔ)言差不多，格式化結(jié)果集合并顯示出來(lái)。

view plaincopy to clipboardprint?/**   * 程序翻譯說明   * 將以"/"劃分開的關(guān)鍵字一一順序放入一個(gè)向量容器中   *   * @access public   * @param   vector<STRING></STRING> 參數(shù)的漢字說明：向量容器   * @return void   */ void CQuery::ParseQuery(vector<STRING></STRING> &vecTerm)   {       string::size_type idx;        while ( (idx = m_sSegQuery.find("/ ")) != string::npos ) {            vecTerm.push_back(m_sSegQuery.substr(0,idx));            m_sSegQuery = m_sSegQuery.substr(idx+3);        }   } /**
* 程序翻譯說明
* 將以"/"劃分開的關(guān)鍵字一一順序放入一個(gè)向量容器中
*
* @access public
* @param   vector 參數(shù)的漢字說明：向量容器
* @return void
*/
void CQuery::ParseQuery(vector &vecTerm)
{
string::size_type idx;
while ( (idx = m_sSegQuery.find("/ ")) != string::npos ) {
  vecTerm.push_back(m_sSegQuery.substr(0,idx));
  m_sSegQuery = m_sSegQuery.substr(idx+3);
}
}

view plaincopy to clipboardprint?
view plaincopy to clipboardprint?<PRE class=csharp name="code">/**   * 程序翻譯說明   * 相關(guān)性分析查詢，構(gòu)造結(jié)果集合setRelevantRst //瓶頸所在   *   * @access public   * @param   vector<STRING></STRING> map set<STRING></STRING> 參數(shù)的漢字說明：用戶提交關(guān)鍵字的分詞組，倒排索引映射，相關(guān)性結(jié)果集合   * @return string 0   */ bool CQuery::GetRelevantRst   (       vector<STRING></STRING> &vecTerm,        map &mapBuckets,        set<STRING></STRING> &setRelevantRst   ) const {       set<STRING></STRING> setSRst;         bool bFirst=true;       vector<STRING></STRING>::iterator itTerm = vecTerm.begin();         for ( ; itTerm != vecTerm.end(); ++itTerm )       {             setSRst.clear();           copy(setRelevantRst.begin(), setRelevantRst.end(), inserter(setSRst,setSRst.begin()));             map mapRstDoc;           string docid;           int doccnt;             map::iterator itBuckets = mapBuckets.find(*itTerm);           if (itBuckets != mapBuckets.end())           {               string strBucket = (*itBuckets).second;               string::size_type idx;               idx = strBucket.find_first_not_of(" ");               strBucket = strBucket.substr(idx);                 while ( (idx = strBucket.find(" ")) != string::npos )                {                   docid = strBucket.substr(0,idx);                   doccnt = 0;                     if (docid.empty()) continue;                     map::iterator it = mapRstDoc.find(docid);                   if ( it != mapRstDoc.end() )                   {                       doccnt = (*it).second + 1;                       mapRstDoc.erase(it);                   }                   mapRstDoc.insert( pair(docid,doccnt) );                     strBucket = strBucket.substr(idx+1);               }                 // remember the last one               docid = strBucket;               doccnt = 0;               map::iterator it = mapRstDoc.find(docid);               if ( it != mapRstDoc.end() )               {                   doccnt = (*it).second + 1;                   mapRstDoc.erase(it);               }               mapRstDoc.insert( pair(docid,doccnt) );           }             // sort by term frequencty           multimap > newRstDoc;           map::iterator it0 = mapRstDoc.begin();           for ( ; it0 != mapRstDoc.end(); ++it0 ){               newRstDoc.insert( pair((*it0).second,(*it0).first) );           }             multimap::iterator itNewRstDoc = newRstDoc.begin();           setRelevantRst.clear();           for ( ; itNewRstDoc != newRstDoc.end(); ++itNewRstDoc ){               string docid = (*itNewRstDoc).second;                 if (bFirst==true) {                   setRelevantRst.insert(docid);                   continue;               }                 if ( setSRst.find(docid) != setSRst.end() ){                       setRelevantRst.insert(docid);               }           }             //cout << "setRelevantRst.size(): " << setRelevantRst.size() << "<BR>";           bFirst = false;       }       return true;   }</PRE> view plaincopy to clipboardprint?/**   * 程序翻譯說明   * 相關(guān)性分析查詢，構(gòu)造結(jié)果集合setRelevantRst //瓶頸所在   *   * @access public   * @param   vector<STRING></STRING> map set<STRING></STRING> 參數(shù)的漢字說明：用戶提交關(guān)鍵字的分詞組，倒排索引映射，相關(guān)性結(jié)果集合   * @return string 0   */ bool CQuery::GetRelevantRst   (       vector<STRING></STRING> &vecTerm,        map &mapBuckets,        set<STRING></STRING> &setRelevantRst   ) const {       set<STRING></STRING> setSRst;         bool bFirst=true;       vector<STRING></STRING>::iterator itTerm = vecTerm.begin();         for ( ; itTerm != vecTerm.end(); ++itTerm )       {             setSRst.clear();           copy(setRelevantRst.begin(), setRelevantRst.end(), inserter(setSRst,setSRst.begin()));             map mapRstDoc;           string docid;           int doccnt;             map::iterator itBuckets = mapBuckets.find(*itTerm);           if (itBuckets != mapBuckets.end())           {               string strBucket = (*itBuckets).second;               string::size_type idx;               idx = strBucket.find_first_not_of(" ");               strBucket = strBucket.substr(idx);                 while ( (idx = strBucket.find(" ")) != string::npos )                {                   docid = strBucket.substr(0,idx);                   doccnt = 0;                     if (docid.empty()) continue;                     map::iterator it = mapRstDoc.find(docid);                   if ( it != mapRstDoc.end() )                   {                       doccnt = (*it).second + 1;                       mapRstDoc.erase(it);                   }                   mapRstDoc.insert( pair(docid,doccnt) );                     strBucket = strBucket.substr(idx+1);               }                 // remember the last one               docid = strBucket;               doccnt = 0;               map::iterator it = mapRstDoc.find(docid);               if ( it != mapRstDoc.end() )               {                   doccnt = (*it).second + 1;                   mapRstDoc.erase(it);               }               mapRstDoc.insert( pair(docid,doccnt) );           }             // sort by term frequencty           multimap > newRstDoc;           map::iterator it0 = mapRstDoc.begin();           for ( ; it0 != mapRstDoc.end(); ++it0 ){               newRstDoc.insert( pair((*it0).second,(*it0).first) );           }             multimap::iterator itNewRstDoc = newRstDoc.begin();           setRelevantRst.clear();           for ( ; itNewRstDoc != newRstDoc.end(); ++itNewRstDoc ){               string docid = (*itNewRstDoc).second;                 if (bFirst==true) {                   setRelevantRst.insert(docid);                   continue;               }                 if ( setSRst.find(docid) != setSRst.end() ){                       setRelevantRst.insert(docid);               }           }             //cout << "setRelevantRst.size(): " << setRelevantRst.size() << "<BR>";           bFirst = false;       }       return true;   } /**
* 程序翻譯說明
* 相關(guān)性分析查詢，構(gòu)造結(jié)果集合setRelevantRst //瓶頸所在
*
* @access public
* @param   vector map set 參數(shù)的漢字說明：用戶提交關(guān)鍵字的分詞組，倒排索引映射，相關(guān)性結(jié)果集合
* @return string 0
*/
bool CQuery::GetRelevantRst
(
vector &vecTerm,
map &mapBuckets,
set &setRelevantRst
) const
{
set setSRst;

bool bFirst=true;
vector::iterator itTerm = vecTerm.begin();

for ( ; itTerm != vecTerm.end(); ++itTerm )
{

setSRst.clear();
copy(setRelevantRst.begin(), setRelevantRst.end(), inserter(setSRst,setSRst.begin()));

  map mapRstDoc;
  string docid;
  int doccnt;

  map::iterator itBuckets = mapBuckets.find(*itTerm);
  if (itBuckets != mapBuckets.end())
  {
   string strBucket = (*itBuckets).second;
   string::size_type idx;
   idx = strBucket.find_first_not_of(" ");
   strBucket = strBucket.substr(idx);

   while ( (idx = strBucket.find(" ")) != string::npos )
   {
    docid = strBucket.substr(0,idx);
    doccnt = 0;

if (docid.empty()) continue;

    map::iterator it = mapRstDoc.find(docid);
    if ( it != mapRstDoc.end() )
    {
     doccnt = (*it).second + 1;
     mapRstDoc.erase(it);
    }
    mapRstDoc.insert( pair(docid,doccnt) );

strBucket = strBucket.substr(idx+1);
}

   // remember the last one
   docid = strBucket;
   doccnt = 0;
   map::iterator it = mapRstDoc.find(docid);
   if ( it != mapRstDoc.end() )
   {
    doccnt = (*it).second + 1;
    mapRstDoc.erase(it);
   }
   mapRstDoc.insert( pair(docid,doccnt) );
  }

  // sort by term frequencty
  multimap > newRstDoc;
  map::iterator it0 = mapRstDoc.begin();
  for ( ; it0 != mapRstDoc.end(); ++it0 ){
   newRstDoc.insert( pair((*it0).second,(*it0).first) );
  }

  multimap::iterator itNewRstDoc = newRstDoc.begin();
  setRelevantRst.clear();
  for ( ; itNewRstDoc != newRstDoc.end(); ++itNewRstDoc ){
   string docid = (*itNewRstDoc).second;

   if (bFirst==true) {
    setRelevantRst.insert(docid);
    continue;
   }

   if ( setSRst.find(docid) != setSRst.end() ){
    setRelevantRst.insert(docid);
   }
  }

//cout << "setRelevantRst.size(): " << setRelevantRst.size() << "";
bFirst = false;
}
return true;
}

接下來(lái)的就是現(xiàn)實(shí)了，前面都只是處理數(shù)據(jù)得到 setRelevantRst 這個(gè)查詢結(jié)構(gòu)集合,這里就不多說了下面就和php之類的腳本語(yǔ)言差不多，格式化結(jié)果集合并顯示出來(lái)。
//TSESearch.cpp

view plaincopy to clipboardprint?
//下面開始顯示
    CDisplayRst iDisplayRst;
    iDisplayRst.ShowTop();

    float used_msec = (end_tv.tv_sec-begin_tv.tv_sec)*1000
        +((float)(end_tv.tv_usec-begin_tv.tv_usec))/(float)1000;

    iDisplayRst.ShowMiddle(iQuery.m_sQuery,used_msec,
            setRelevantRst.size(), iQuery.m_iStart);

    iDisplayRst.ShowBelow(vecTerm,setRelevantRst,vecDocIdx,iQuery.m_iStart);

posted on 2009-12-10 22:53 學(xué)者站在巨人的肩膀上閱讀(1006) 評(píng)論(0) 編輯收藏引用所屬分類: 中文文本信息處理

只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。


相關(guān)文章: 自頂向下學(xué)搜索引擎——北大天網(wǎng)搜索引擎TSE分析及完全注釋[6]倒排索引的建立的程序分析(4) 自頂向下學(xué)搜索引擎——北大天網(wǎng)搜索引擎TSE分析及完全注釋[6]倒排索引的建立的程序分析(3) 自頂向下學(xué)搜索引擎——北大天網(wǎng)搜索引擎TSE分析及完全注釋[6]倒排索引的建立的程序分析(2) 自頂向下學(xué)搜索引擎——北大天網(wǎng)搜索引擎TSE分析及完全注釋[6]倒排索引的建立的程序分析(1) 自頂向下學(xué)搜索引擎——北大天網(wǎng)搜索引擎TSE分析及完全注釋[5]倒排索引的建立及文件介紹自頂向下學(xué)搜索引擎——北大天網(wǎng)搜索引擎TSE分析及完全注釋[4]小結(jié) 自頂向下學(xué)搜索引擎——北大天網(wǎng)搜索引擎TSE分析及完全注釋[3]來(lái)到關(guān)鍵字分詞及相關(guān)性分析程序自頂向下學(xué)搜索引擎——北大天網(wǎng)搜索引擎TSE分析及完全注釋[2]路過查詢處理程序自頂向下學(xué)搜索引擎——北大天網(wǎng)搜索引擎TSE分析及完全注釋[1]尋找搜索引擎入口

網(wǎng)站導(dǎo)航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品