青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

學著站在巨人的肩膀上

金融數學,InformationSearch,Compiler,OS,

  C++博客 :: 首頁 :: 新隨筆 :: 聯系 :: 聚合  :: 管理 ::
  12 隨筆 :: 0 文章 :: 8 評論 :: 0 Trackbacks

前面的DocIndex程序輸入一個Tianwang.raw.*****文件,會產生一下三個文件 Doc.idx, Url.idx, DocId2Url.idx,我們這里對DocSegment程序進行分析。

這里輸入 Tianwang.raw.*****,Doc.idx,Url.idx.sort_uniq等三個文件,輸出一個Tianwang.raw.***.seg 分詞完畢的文件

int main(int argc, char* argv[])
{
    string strLine, strFileName=argv[1];
    CUrl iUrl;
    vector<CUrl> vecCUrl;
    CDocument iDocument;
    vector<CDocument> vecCDocument;
    unsigned int docId = 0;

    //ifstream ifs("Tianwang.raw.2559638448");
    ifstream ifs(strFileName.c_str());  //DocSegment Tianwang.raw.****
    if (!ifs) 
    {
        cerr << "Cannot open tianwang.img.info for input\n";
        return -1;
    }

    ifstream ifsUrl("Url.idx.sort_uniq");   //排序并消重后的url字典
    if (!ifsUrl) 
    {
        cerr << "Cannot open Url.idx.sort_uniq for input\n";
        return -1;
    }
    ifstream ifsDoc("Doc.idx"); //字典文件
    if (!ifsDoc) 
    {
        cerr << "Cannot open Doc.idx for input\n";
        return -1;
    }

    while (getline(ifsUrl,strLine)) //偏離url字典存入一個向量內存中
    {
        char chksum[33];
        int  docid;

        memset(chksum, 0, 33);
        sscanf( strLine.c_str(), "%s%d", chksum, &docid );
        iUrl.m_sChecksum = chksum;
        iUrl.m_nDocId = docid;
        vecCUrl.push_back(iUrl);
    }

    while (getline(ifsDoc,strLine))     //偏離字典文件將其放入一個向量內存中
    {
        int docid,pos,length;
        char chksum[33];

        memset(chksum, 0, 33);
        sscanf( strLine.c_str(), "%d%d%d%s", &docid, &pos, &length,chksum );
        iDocument.m_nDocId = docid;
        iDocument.m_nPos = pos;
        iDocument.m_nLength = length;
        iDocument.m_sChecksum = chksum;
        vecCDocument.push_back(iDocument);
    }

 

    strFileName += ".seg";
    ofstream fout(strFileName.c_str(), ios::in|ios::out|ios::trunc|ios::binary);    //設置完成分詞后的數據輸出文件
    for ( docId=0; docId<MAX_DOC_ID; docId++ )
    {

        // find document according to docId
        int length = vecCDocument[docId+1].m_nPos - vecCDocument[docId].m_nPos -1;
        char *pContent = new char[length+1];
        memset(pContent, 0, length+1);
        ifs.seekg(vecCDocument[docId].m_nPos);
        ifs.read(pContent, length);

        char *s;
        s = pContent;

        // skip Head
        int bytesRead = 0,newlines = 0;
        while (newlines != 2 && bytesRead != HEADER_BUF_SIZE-1) 
        {
            if (*s == '\n')
                newlines++;
            else
                newlines = 0;
            s++;
            bytesRead++;
        }
        if (bytesRead == HEADER_BUF_SIZE-1) continue;


        // skip header
        bytesRead = 0,newlines = 0;
        while (newlines != 2 && bytesRead != HEADER_BUF_SIZE-1) 
        {
            if (*s == '\n')
                newlines++;
            else
                newlines = 0;
            s++;
            bytesRead++;
        }
        if (bytesRead == HEADER_BUF_SIZE-1) continue;

        //iDocument.m_sBody = s;
        iDocument.RemoveTags(s);    //去除<>
        iDocument.m_sBodyNoTags = s;

        delete[] pContent;
        string strLine = iDocument.m_sBodyNoTags;

        CStrFun::ReplaceStr(strLine, " ", " ");
        CStrFun::EmptyStr(strLine); // set " \t\r\n" to " "


        // segment the document 具體分詞處理
        CHzSeg iHzSeg;
        strLine = iHzSeg.SegmentSentenceMM(iDict,strLine);
        fout << docId << endl << strLine;
        fout << endl;
        
    }

    return(0);
}
這里只是浮光掠影式的過一遍大概的代碼,后面我會有專題詳細講解 parse html 和 segment docment 等技術

 

 

posted on 2009-12-10 23:02 學者站在巨人的肩膀上 閱讀(1179) 評論(1)  編輯 收藏 引用 所屬分類: 中文文本信息處理

評論

# re: 自頂向下學搜索引擎——北大天網搜索引擎TSE分析及完全注釋[6]倒排索引的建立的程序分析(2) 2009-12-12 13:17 凡客誠品網
捱三頂四看來達到  回復  更多評論
  

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            在线不卡a资源高清| 99天天综合性| 久久国产精品99久久久久久老狼| 在线观看精品| 亚洲精品日韩一| 国产综合av| 亚洲精品国产视频| 国产女主播一区二区| 麻豆国产精品va在线观看不卡| 欧美日韩久久| 欧美大胆人体视频| 国产片一区二区| 日韩视频久久| 午夜精品在线看| 夜夜爽www精品| 久久国产免费看| 午夜精品久久久久久久久| 欧美1区3d| 久久综合一区二区| 国产日韩精品视频一区二区三区| 99国内精品久久| 日韩亚洲在线| 欧美大成色www永久网站婷| 久久日韩精品| 美女国内精品自产拍在线播放| 亚洲精品欧美精品| 欧美一区二区大片| 亚洲一区二区精品| 欧美劲爆第一页| 免费观看国产成人| 国产一区二区精品在线观看| 一本一本久久a久久精品综合麻豆| 亚洲国产精品久久91精品| 欧美在线视屏 | 18成人免费观看视频| 亚洲一级免费视频| 亚洲影院免费观看| 国产精品多人| 亚洲四色影视在线观看| 一区二区三区视频在线观看| 欧美99久久| 亚洲激情网站| 亚洲免费黄色| 欧美日韩国产色站一区二区三区| 亚洲国产视频直播| 日韩视频免费观看高清完整版| 免费日本视频一区| 欧美韩国日本一区| 亚洲激情六月丁香| 欧美h视频在线| 欧美韩日高清| 亚洲精品影院在线观看| 欧美激情一区二区三区成人 | 国内精品久久久久影院 日本资源 国内精品久久久久伊人av | 亚洲欧美另类在线观看| 亚洲欧美日韩精品| 国产精品色婷婷| 午夜日韩福利| 久久先锋资源| 亚洲欧洲一区二区三区在线观看 | 久久国产精品网站| 正在播放欧美视频| 久久国产精品亚洲va麻豆| 国产在线精品一区二区夜色| 久久精品亚洲| 亚洲国产毛片完整版| 亚洲无限乱码一二三四麻| 国产精品免费一区豆花| 欧美专区18| 亚洲激情精品| 亚洲欧美日韩综合一区| 欧美福利视频网站| 亚洲国产成人av| 久久综合九色欧美综合狠狠| 欧美激情成人在线| 亚洲午夜高清视频| 国产日韩欧美自拍| 欧美xxx在线观看| 夜夜嗨av色综合久久久综合网| 亚洲欧美一级二级三级| 尹人成人综合网| 欧美人与性禽动交情品| 亚洲欧美激情诱惑| 欧美黄色一区| 亚洲一区制服诱惑| 红桃视频国产精品| 欧美日韩一区二区三区在线 | 亚洲精品日本| 国产精品视频网站| 免费欧美在线视频| 亚洲男同1069视频| 亚洲国产成人高清精品| 欧美一级视频精品观看| 亚洲国产中文字幕在线观看| 亚洲激情在线视频| 久久国产精品一区二区三区四区| 亚洲区中文字幕| 国产日韩欧美一区在线 | 久色婷婷小香蕉久久| 亚洲一区二区精品在线| 在线免费观看日韩欧美| 国产精品露脸自拍| 欧美 日韩 国产 一区| 亚洲综合色视频| 亚洲精品一区中文| 免费国产一区二区| 午夜精品av| 99re66热这里只有精品3直播| 国产亚洲欧美激情| 欧美三级在线播放| 欧美激情综合五月色丁香小说| 久久精品国产亚洲精品| 亚洲一区二区精品在线| 亚洲美女在线看| 欧美电影资源| 久久九九有精品国产23| 亚洲一区二区三区视频| 亚洲人体1000| 亚洲国产高清在线| 一色屋精品视频免费看| 国产伪娘ts一区| 国产精品亚洲片夜色在线| 欧美日韩天堂| 欧美日本中文| 欧美精品一区二区久久婷婷| 美女亚洲精品| 久久综合激情| 久久夜色精品| 欧美.www| 欧美高清在线播放| 老司机凹凸av亚洲导航| 久久视频一区| 久久久久久久999| 久久精品视频免费观看| 欧美在线看片| 久久久综合免费视频| 久久久久网站| 免费观看成人| 欧美成人一区二区三区片免费| 欧美 日韩 国产在线| 欧美—级高清免费播放| 欧美激情久久久久久| 中日韩美女免费视频网址在线观看| 99国产精品| 亚洲精品视频在线播放| 日韩一级黄色片| 亚洲人成网站精品片在线观看| 久久一区二区三区av| 国产精品日韩欧美| 国产精品久久| 国产精品久在线观看| 国产女主播一区二区三区| 国产亚洲欧美色| 一区二区视频在线观看| 亚洲国产精品小视频| 日韩天堂在线观看| 亚洲一区二区久久| 久久福利资源站| 男人的天堂亚洲| 亚洲欧洲日夜超级视频| 一区二区欧美在线观看| 性一交一乱一区二区洋洋av| 久久九九精品99国产精品| 欧美mv日韩mv国产网站app| 欧美日韩ab| 国产三级欧美三级日产三级99| 久久国产精品99国产精| 卡通动漫国产精品| 欧美午夜视频网站| 韩日在线一区| 一区二区三区高清在线| 欧美一级视频免费在线观看| 欧美成人午夜激情视频| 亚洲免费高清视频| 久久av一区二区| 欧美日韩精品在线播放| 国产综合欧美在线看| 99视频精品| 久久久在线视频| 亚洲另类在线一区| 久久超碰97人人做人人爱| 欧美人与性动交cc0o| 激情婷婷亚洲| 亚洲欧美在线一区二区| 欧美va亚洲va日韩∨a综合色| 一区二区欧美国产| 免费在线亚洲欧美| 国产亚洲精品久久飘花| 亚洲午夜视频| 欧美激情一区二区久久久| 亚洲欧美美女| 欧美日韩性视频在线| 在线观看成人av| 欧美在线欧美在线| 一区二区精品在线观看| 欧美a级理论片| 在线播放不卡| 久久精品一区二区三区四区| 亚洲视频一二三| 欧美韩日一区二区|