• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>

            各搜索引擎搜索結果的獲取

            用http的get方法,構造要查詢的url,get下來,分析結果頁面即可
            首先是構造url,以下是一些示例,主要看清楚?號后面的參數所代表的意思即可:
            http://www.google.cn/search?num=100&&q=%E5%85%83%E6%90%9C%E7%B4%A2&start=10

            http://www.baidu.com/s?wd=%D4%AA%CB%D1%CB%F7&rn=100&pn=10  //第二頁pn

            http://www.yahoo.cn/s?p=%E5%85%83%E6%90%9C%E7%B4%A2&b=10  //第二頁b

            http://search.yahoo.com/search?n=100&p=%E5%85%83%E6%90%9C%E7%B4%A2&b=101

            http://cnweb.search.live.com/results.aspx?q=%E5%85%83%E6%90%9C%E7%B4%A2&first=51  //第二頁first=51

            http://p.zhongsou.com/p?w=%D4%AA%CB%D1%CB%F7&b=3  //b=3表示第三頁

            http://www.soso.com/q?w=%D4%AA%CB%D1%CB%F7&num=20&pg=1 //第一頁,每頁20個

            第二步是解釋搜索結果頁面:

            <meta http-equiv="content-type" content="text/html;charset=gb2312">

            Google
            搜索結果個數的字符串前綴:約有<b> //獲取個數用字符串定位的方式
            搜索結果開始的標簽:<div id=res> //也可以用字符串定位的方式,要準確就用查找標簽定位的方式
             各個搜索結果的開始標簽:<div class=g> //字符串定位的方式
             
              搜索結果的url在第一個<a target=_blank class=l>標簽里頭
              搜索結果的標題在<a></a>的標簽之間

              搜索結果的摘要在接下來的<table><tr><td>標簽里頭直到<b>...<b><br>
              搜索結果的重寫的url在<b>...<b><br>之后的<span>標簽里頭,格式為:url,一個空格,網頁大小
              搜索結果的網頁快照在接下來的<a class=fl>的標簽里頭,屬性中有url,標簽之間有網頁快照文字
              接下來還有類似網頁等,都在<a class=fl>標簽里頭

             各個搜索結果的結束標簽是</td></tr></table></div>

            ......................

            相關搜索的開始標簽:<p class=e>
            在接下來的各個<a></a>標簽之間的內容就是相關搜索的內容
            直到標簽<br clear=all>就可以結束了

             

            Baidu
            搜索結果個數的字符串前綴:<td align=\"righ,在定位該字符串后,直到</td>,即在這個td標簽之內含有的字符串包含相關網頁數和用時
            搜索結果開始的標簽:<DIV id=ScriptDiv></DIV>
             各個搜索結果的開始標簽:<table

              搜索結果的url在第一個<a target=_blank class=l>標簽里頭
              搜索結果的標題在<a></a>的標簽之間,以<br>標簽結束
              
              搜索結果的摘要以<br>開始直到下一個<br>標簽
              
              接下來的一行(<br>換行)的font標簽中有搜索結果url的重寫,一個空格,網頁大小,網頁時間
              在接下來會有一些<a>標簽如百度快照,直到又一個<br>

             然后搜索結果的結束標簽</table>

            .........................

            導航條的開始標簽:<br clear=all>
            導航條的內容在開始標簽之后的<div class="p"></div>標簽之間
            相關搜索在接下來的<div>標簽之間的各個<a>標簽之內

            其他考慮:對于字符串的匹配可以利用kmp,注意到匹配搜索結果各部分的時候所用到的模式字符串的最大前綴字符串最多是一個字符,這樣可以避免求取最大前綴字符串從而提高效率;如果要精確地匹配還需要弄兩個函數,一個用來構造標簽,一個用來讀取標簽之間的文本。

            posted on 2008-01-10 20:50 zlf 閱讀(1901) 評論(1)  編輯 收藏 引用

            評論

            # re: 各搜索引擎搜索結果的獲取 2008-12-01 19:44 boyeco

            我們怎么用google或baidu的搜索結果生成我們自己想要的頁面哪?比如搜索元搜索的結果按我們想要的頁面從新生成一個頁面,要用get等方法從搜索出結果后的頁面的腳本里或得url嗎?
              回復  更多評論   

            導航

            <2008年12月>
            30123456
            78910111213
            14151617181920
            21222324252627
            28293031123
            45678910

            統計

            常用鏈接

            留言簿(1)

            隨筆檔案

            文章檔案

            搜索

            最新評論

            • 1.?re: 各搜索引擎搜索結果的獲取
            • 我們怎么用google或baidu的搜索結果生成我們自己想要的頁面哪?比如搜索元搜索的結果按我們想要的頁面從新生成一個頁面,要用get等方法從搜索出結果后的頁面的腳本里或得url嗎?
            • --boyeco
            • 2.?re: 序列化探討
            • 看的暈 序列化主要還是要考慮怎樣在對代碼改動最小的情況下增加對序列化的支持!~
            • --shaker(太子)
            • 3.?re: AVL樹的簡單實現
            • 評論內容較長,點擊標題查看
            • --zlf
            • 4.?re: AVL樹的簡單實現
            • 評論內容較長,點擊標題查看
            • --Minidx全文檢索

            閱讀排行榜

            評論排行榜

            精品午夜久久福利大片| 欧美日韩精品久久久免费观看| 奇米影视7777久久精品人人爽| 区久久AAA片69亚洲 | 国产精品福利一区二区久久| 久久九九有精品国产23百花影院| 国产91久久综合| 综合久久一区二区三区 | 国产福利电影一区二区三区久久久久成人精品综合 | 久久狠狠爱亚洲综合影院 | 久久久久久亚洲Av无码精品专口| 91精品国产高清91久久久久久| 久久久久久A亚洲欧洲AV冫 | 久久这里只有精品首页| 久久精品国产一区| 少妇熟女久久综合网色欲| 情人伊人久久综合亚洲| 久久成人国产精品免费软件| 国产精品99久久久久久猫咪| 69久久精品无码一区二区| 青青草原综合久久大伊人| 国产精品九九久久免费视频| 久久久久久国产精品免费无码 | 色综合色天天久久婷婷基地| 亚洲中文字幕无码久久精品1 | 色综合久久久久无码专区| 午夜福利91久久福利| 成人国内精品久久久久影院VR| 久久久无码一区二区三区| 久久婷婷色香五月综合激情| 久久精品国产一区二区三区不卡| 97久久超碰国产精品旧版| 久久综合给合久久国产免费| 香蕉久久av一区二区三区| 国产精品久久久久久久久软件| 久久精品成人| 欧美亚洲另类久久综合婷婷 | 久久精品人妻中文系列| 久久婷婷五月综合色奶水99啪| 中文字幕精品久久| 久久91精品国产91|