青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

學著站在巨人的肩膀上

金融數學,InformationSearch,Compiler,OS,

  C++博客 :: 首頁 :: 新隨筆 :: 聯系 :: 聚合  :: 管理 ::
  12 隨筆 :: 0 文章 :: 8 評論 :: 0 Trackbacks

前面的DocIndex程序輸入一個Tianwang.raw.*****文件,會產生一下三個文件 Doc.idx, Url.idx, DocId2Url.idx,我們這里對DocSegment程序進行分析。

這里輸入 Tianwang.raw.*****,Doc.idx,Url.idx.sort_uniq等三個文件,輸出一個Tianwang.raw.***.seg 分詞完畢的文件

int main(int argc, char* argv[])
{
    string strLine, strFileName=argv[1];
    CUrl iUrl;
    vector<CUrl> vecCUrl;
    CDocument iDocument;
    vector<CDocument> vecCDocument;
    unsigned int docId = 0;

    //ifstream ifs("Tianwang.raw.2559638448");
    ifstream ifs(strFileName.c_str());  //DocSegment Tianwang.raw.****
    if (!ifs) 
    {
        cerr << "Cannot open tianwang.img.info for input\n";
        return -1;
    }

    ifstream ifsUrl("Url.idx.sort_uniq");   //排序并消重后的url字典
    if (!ifsUrl) 
    {
        cerr << "Cannot open Url.idx.sort_uniq for input\n";
        return -1;
    }
    ifstream ifsDoc("Doc.idx"); //字典文件
    if (!ifsDoc) 
    {
        cerr << "Cannot open Doc.idx for input\n";
        return -1;
    }

    while (getline(ifsUrl,strLine)) //偏離url字典存入一個向量內存中
    {
        char chksum[33];
        int  docid;

        memset(chksum, 0, 33);
        sscanf( strLine.c_str(), "%s%d", chksum, &docid );
        iUrl.m_sChecksum = chksum;
        iUrl.m_nDocId = docid;
        vecCUrl.push_back(iUrl);
    }

    while (getline(ifsDoc,strLine))     //偏離字典文件將其放入一個向量內存中
    {
        int docid,pos,length;
        char chksum[33];

        memset(chksum, 0, 33);
        sscanf( strLine.c_str(), "%d%d%d%s", &docid, &pos, &length,chksum );
        iDocument.m_nDocId = docid;
        iDocument.m_nPos = pos;
        iDocument.m_nLength = length;
        iDocument.m_sChecksum = chksum;
        vecCDocument.push_back(iDocument);
    }

 

    strFileName += ".seg";
    ofstream fout(strFileName.c_str(), ios::in|ios::out|ios::trunc|ios::binary);    //設置完成分詞后的數據輸出文件
    for ( docId=0; docId<MAX_DOC_ID; docId++ )
    {

        // find document according to docId
        int length = vecCDocument[docId+1].m_nPos - vecCDocument[docId].m_nPos -1;
        char *pContent = new char[length+1];
        memset(pContent, 0, length+1);
        ifs.seekg(vecCDocument[docId].m_nPos);
        ifs.read(pContent, length);

        char *s;
        s = pContent;

        // skip Head
        int bytesRead = 0,newlines = 0;
        while (newlines != 2 && bytesRead != HEADER_BUF_SIZE-1) 
        {
            if (*s == '\n')
                newlines++;
            else
                newlines = 0;
            s++;
            bytesRead++;
        }
        if (bytesRead == HEADER_BUF_SIZE-1) continue;


        // skip header
        bytesRead = 0,newlines = 0;
        while (newlines != 2 && bytesRead != HEADER_BUF_SIZE-1) 
        {
            if (*s == '\n')
                newlines++;
            else
                newlines = 0;
            s++;
            bytesRead++;
        }
        if (bytesRead == HEADER_BUF_SIZE-1) continue;

        //iDocument.m_sBody = s;
        iDocument.RemoveTags(s);    //去除<>
        iDocument.m_sBodyNoTags = s;

        delete[] pContent;
        string strLine = iDocument.m_sBodyNoTags;

        CStrFun::ReplaceStr(strLine, " ", " ");
        CStrFun::EmptyStr(strLine); // set " \t\r\n" to " "


        // segment the document 具體分詞處理
        CHzSeg iHzSeg;
        strLine = iHzSeg.SegmentSentenceMM(iDict,strLine);
        fout << docId << endl << strLine;
        fout << endl;
        
    }

    return(0);
}
這里只是浮光掠影式的過一遍大概的代碼,后面我會有專題詳細講解 parse html 和 segment docment 等技術

 

 

posted on 2009-12-10 23:02 學者站在巨人的肩膀上 閱讀(1179) 評論(1)  編輯 收藏 引用 所屬分類: 中文文本信息處理

評論

# re: 自頂向下學搜索引擎——北大天網搜索引擎TSE分析及完全注釋[6]倒排索引的建立的程序分析(2) 2009-12-12 13:17 凡客誠品網
捱三頂四看來達到  回復  更多評論
  

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            久久久综合精品| 亚洲视频欧洲视频| 欧美中文在线观看| 久久国产婷婷国产香蕉| 亚洲精品之草原avav久久| 在线一区二区三区做爰视频网站| 欧美成人免费网| 免费精品99久久国产综合精品| 欧美日韩网址| 久久精品亚洲| 欧美黄污视频| 久久久久久久999精品视频| 欧美成人精品一区二区| 欧美在线亚洲综合一区| 欧美第十八页| 欧美在线精品免播放器视频| 日韩视频在线观看| 欧美伊人久久久久久久久影院 | 日韩一级免费| 午夜精品福利视频| 99精品热视频| 久久久久久久综合| 欧美在线视频二区| 欧美久久久久久久| 欧美成人亚洲| 国语自产精品视频在线看一大j8| 欧美一区1区三区3区公司| 久久精品女人天堂| 亚洲欧美视频一区二区三区| 欧美美女日韩| 欧美激情五月| 悠悠资源网亚洲青| 欧美一区二区精品久久911| 亚洲一区视频在线观看视频| 欧美精品一级| 亚洲激情自拍| 伊人狠狠色丁香综合尤物| 亚洲欧美视频一区二区三区| 亚洲欧美精品在线| 欧美视频中文一区二区三区在线观看| 亚洲免费婷婷| 欧美日韩高清在线| 欧美肥婆在线| 精品成人一区二区三区| 欧美在线视频导航| 久久精品国产精品亚洲精品| 国产伦理一区| 亚洲欧美资源在线| 欧美在线在线| 国产尤物精品| 久久久久这里只有精品| 男同欧美伦乱| 亚洲欧洲免费视频| 欧美激情在线有限公司| 亚洲精品视频在线观看网站| 99精品99久久久久久宅男| 欧美日本精品| 亚洲视频电影图片偷拍一区| 亚洲免费小视频| 国产亚洲精品v| 久久久久国产精品一区二区| 欧美成ee人免费视频| 91久久久在线| 欧美日韩在线视频一区| 亚洲一区二区毛片| 久久精品日韩| 亚洲国产精品一区二区第四页av| 亚洲精品美女在线| 国产精品99久久久久久人 | 亚洲精品久久嫩草网站秘色| 女同性一区二区三区人了人一| 亚洲图中文字幕| 国产精品视频一二| 欧美专区中文字幕| 欧美大片一区| 日韩午夜在线电影| 国产精品乱码人人做人人爱| 午夜电影亚洲| 亚洲二区免费| 欧美日韩伦理在线| 校园激情久久| 亚洲电影免费在线观看| 亚洲天堂av在线免费| 国产日韩一区二区三区| 美女亚洲精品| 在线亚洲精品福利网址导航| 久久久久成人精品| 亚洲免费av网站| 国产日韩欧美高清| 欧美激情五月| 欧美在线观看视频在线| 亚洲欧洲一区二区三区| 久久黄色影院| 一区二区三区视频在线播放| 国产一区久久久| 欧美日韩精品一区二区天天拍小说 | 亚洲乱码精品一二三四区日韩在线 | 久久国产婷婷国产香蕉| 影音欧美亚洲| 欧美图区在线视频| 久久伊人免费视频| 亚洲一级片在线看| 亚洲国产日韩一区| 久久久7777| 亚洲一区二区三区高清不卡| 在线播放一区| 国产伦理一区| 欧美性猛片xxxx免费看久爱 | 亚洲经典自拍| 国产精品午夜久久| 欧美喷水视频| 免费成人毛片| 久久国产欧美| 亚洲欧美另类综合偷拍| 亚洲精品小视频在线观看| 欧美不卡一卡二卡免费版| 久久精品久久综合| 午夜精品久久久久久99热软件| 欧美日韩专区在线| 欧美va日韩va| 狂野欧美激情性xxxx| 欧美在线高清| 亚洲视频观看| 一区二区日韩欧美| 日韩视频一区二区三区在线播放| 亚洲一区3d动漫同人无遮挡| 亚洲国产小视频在线观看| 国产亚洲成av人在线观看导航| 久久久久久九九九九| 亚洲欧美另类久久久精品2019| 久久九九免费| 欧美一级网站| 性刺激综合网| 欧美一激情一区二区三区| 午夜精品久久久久久久白皮肤| 国产精品视频久久| 欧美日韩在线精品| 欧美激情成人在线| 欧美日本韩国| 国产精品video| 欧美亚韩一区| 国产精品一区毛片| 国产日韩一区二区三区| 国产在线成人| 尤物99国产成人精品视频| 在线观看亚洲视频啊啊啊啊| 在线观看成人av电影| 亚洲黄色一区| 欧美图区在线视频| 欧美午夜免费影院| 国产精品久在线观看| 国产日韩欧美| 在线免费精品视频| 亚洲每日在线| 亚洲一区二区三区视频| 欧美一二三区在线观看| 久久人人看视频| 欧美国产视频在线| 一本久道久久综合狠狠爱| 亚洲午夜视频在线观看| 午夜精品久久久久| 久久在精品线影院精品国产| 欧美国产欧美亚洲国产日韩mv天天看完整 | 亚洲二区三区四区| 亚洲精品日韩在线观看| 亚洲午夜激情| 久久久久久有精品国产| 亚洲第一偷拍| 亚洲一区二区三区激情| 久久美女性网| 欧美日韩成人| 国产一区日韩欧美| 日韩一二三区视频| 欧美与黑人午夜性猛交久久久| 99天天综合性| 午夜精品久久久久久久久久久久 | 久久av资源网| 欧美成人精品激情在线观看| 欧美日韩精品一区二区在线播放 | 欧美激情一区二区三区蜜桃视频 | 国产精品日韩欧美大师| 国产日韩在线视频| 亚洲人成毛片在线播放| 亚洲欧美日韩精品久久| 另类综合日韩欧美亚洲| 一本久道久久久| 久久综合网hezyo| 国产精品丝袜xxxxxxx| 91久久久久久国产精品| 欧美综合77777色婷婷| 亚洲人成网站色ww在线| 欧美资源在线| 国产精品久久久久久久久免费桃花 | 亚洲人成在线观看一区二区| 亚洲欧美日本精品| 免费久久久一本精品久久区| 在线一区亚洲| 欧美精品电影在线| 亚洲第一页中文字幕| 久久激情综合网|