青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

不會(huì)飛的鳥

2010年12月10日 ... 不鳥他們!!! 我要用自己開發(fā)的分布式文件系統(tǒng)、分布式調(diào)度系統(tǒng)、分布式檢索系統(tǒng), 做自己的搜索引擎!!!大魚有大志!!! ---楊書童

[轉(zhuǎn)]新浪微博 爬取實(shí)現(xiàn)之微博登錄

最近做一個(gè)東西,需要抓取新浪微博的微話題,新浪微博api有所限制所以就沒用新浪微博api了,想直接的從網(wǎng)頁上獲取內(nèi)容,但微博的很多網(wǎng)頁都需要登錄后才能瀏覽的,所以做了個(gè)新浪微博的登錄功能,基本需要的功能實(shí)現(xiàn)了,但并不健全。

對(duì)于新浪微博的頁面是要用戶登錄之后才能進(jìn)入的,如http://weibo.com/pub/topic,那么爬蟲也必須登錄上新浪微博才能爬取內(nèi)容,在這里實(shí)現(xiàn)下新浪微博的登錄功能,到現(xiàn)在還有一些問題沒解決,但可以實(shí)現(xiàn)必須登錄后才能進(jìn)入的頁面的文本捕獲了。

先分析下微博登錄提交的內(nèi)容,新浪微博主頁登錄向服務(wù)器提交的是使用POST的,post附帶的參數(shù)有


entry:weibo
gateway:1
from:
savestate:7
useticket:1
ssosimplelogin:1
vsnf:1
vsnval:
su:NDY0Mjg5NTg4JTQwcXEuY29t
service:miniblog
servertime:1321269451
nonce:HGE0XB 
pwencode:wsse
sp:a3135915db1b5d15a47a43e550d89e1499a26a9b
encoding:UTF-8
url:http://weibo.com/ajaxlogin.php?framelogin=1&callback=parent.sinaSSOController.feedBackUrlCallBack
returntype:META

  在這些參數(shù)中su是用戶的用戶名使用base64編碼的;servertime是該動(dòng)作的開始時(shí)間,nonce是隨機(jī)產(chǎn)生的6為隨機(jī)數(shù),pwencode:wsse應(yīng)該指的是密碼格式的編碼了,sp是密碼的通過編碼后的形式。對(duì)于我現(xiàn)在的應(yīng)用只需要這幾個(gè)參數(shù)就好了。

接著分析下這些參數(shù)吧:

request.su=sinaSSOEncoder.base64.encode(urlencode(username));

  用戶名通過了urlencode和base64編碼后才提交的;

servertime在哪里忘記了,通過獲取時(shí)間/1000就可以得到servertime了;

var makeNonce=function(len){var x="ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789";var str="";for(var i=0;i<len;i++){str+=x.charAt(Math.ceil(Math.random()*1000000)%x.length)}return str};

  nonce參數(shù)是上面函數(shù)得到的;

sp的得到就相對(duì)比較麻煩一些,是通過password,servertime,nonce 共同編碼后得到的數(shù)據(jù);使用的編碼函數(shù)是

var sinaSSOEncoder=sinaSSOEncoder||{};(function(){var i=0;var g=8;this.hex_sha1=function(j){return h(b(f(j),j.length*g))};var b=function(A,r){A[r>>5]|=128<<(24-r%32);A[((r+64>>9)<<4)+15]=r;var B=Array(80);var z=1732584193;var y=-271733879;var v=-1732584194;var u=271733878;var s=-1009589776;for(var o=0;o<A.length;o+=16){var q=z;var p=y;var n=v;var m=u;var k=s;for(var l=0;l<80;l++){if(l<16){B[l]=A[o+l]}else{B[l]=d(B[l-3]^B[l-8]^B[l-14]^B[l-16],1)}var C=e(e(d(z,5),a(l,y,v,u)),e(e(s,B[l]),c(l)));s=u;u=v;v=d(y,30);y=z;z=C}z=e(z,q);y=e(y,p);v=e(v,n);u=e(u,m);s=e(s,k)}return Array(z,y,v,u,s)};var a=function(k,j,m,l){if(k<20){return(j&m)|((~j)&l)}if(k<40){return j^m^l}if(k<60){return(j&m)|(j&l)|(m&l)}return j^m^l};var c=function(j){return(j<20)?1518500249:(j<40)?1859775393:(j<60)?-1894007588:-899497514};var e=function(j,m){var l=(j&65535)+(m&65535);var k=(j>>16)+(m>>16)+(l>>16);return(k<<16)|(l&65535)};var d=function(j,k){return(j<<k)|(j>>>(32-k))};var f=function(m){var l=Array();var j=(1<<g)-1;for(var k=0;k<m.length*g;k+=g){l[k>>5]|=(m.charCodeAt(k/g)&j)<<(24-k%32)}return l};var h=function(l){var k=i?"0123456789ABCDEF":"0123456789abcdef";var m="";for(var j=0;j<l.length*4;j++){m+=k.charAt((l[j>>2]>>((3-j%4)*8+4))&15)+k.charAt((l[j>>2]>>((3-j%4)*8))&15)}return m};this.base64={encode:function(l){l=""+l;if(l==""){return""}var j="";var s,q,o="";var r,p,n,m="";var k=0;do{s=l.charCodeAt(k++);q=l.charCodeAt(k++);o=l.charCodeAt(k++);r=s>>2;p=((s&3)<<4)|(q>>4);n=((q&15)<<2)|(o>>6);m=o&63;if(isNaN(q)){n=m=64}else{if(isNaN(o)){m=64}}j=j+this._keys.charAt(r)+this._keys.charAt(p)+this._keys.charAt(n)+this._keys.charAt(m);s=q=o="";r=p=n=m=""}while(k<l.length);return j},_keys:"ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+/="}}).call(sinaSSOEncoder);

  得到得到sp的函數(shù)為

password=sinaSSOEncoder.hex_sha1(""+sinaSSOEncoder.hex_sha1(sinaSSOEncoder.hex_sha1(password))+me.servertime+me.nonce)}request.sp=password;return request};

  必要的參數(shù)已經(jīng)分析到了,只要封裝http包先服務(wù)器發(fā)送即可。我使用的是java實(shí)現(xiàn),把上面一些javascript函數(shù)改寫成java函數(shù)

//用戶名編碼
private String encodeAccount(String account){
        return Base64.encodeBase64String(URLEncoder.encode(account).getBytes());
    }
//六位隨機(jī)數(shù)nonce的產(chǎn)生
private String makeNonce(int len){
        String x="ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789";
        String str = "";
        for(int i=0;i<len;i++){
            str+=x.charAt((int) (Math.ceil(Math.random()*1000000)%x.length()));
        }
        return str;
    }
//servertime的產(chǎn)生
private String getServerTime(){
        long servertime = new Date().getTime()/1000;
        return String.valueOf( servertime);
    }
//密碼的編碼
this.sp = new SinaSSOEncoder().encode(this.pwd, this.servertime, this.nonce);

  SinaSSOEncoder編碼類的實(shí)現(xiàn)

package com.sinaweibo;
 
//新浪微博密碼加密的算法
public class SinaSSOEncoder {
    private boolean i=false;
    private int g=8;
     
    public SinaSSOEncoder(){
         
    }
    public String encode(String psw,String servertime,String nonce){
        String password;
        password=hex_sha1(""+hex_sha1(hex_sha1(psw))+servertime+nonce);
        return password;
    }
     
    private String hex_sha1(String j) {
        return h(b(f(j,j.length()*g), j.length() * g));
    }
    private String h(int[] l){
        String k = i ? "0123456789ABCDEF" : "0123456789abcdef";
        String m = "";
        for (int j = 0; j < l.length * 4; j++) {
            m += k.charAt((l[j >> 2] >> ((3 - j % 4) * 8 + 4)) & 15) + "" + k.charAt((l[j >> 2] >> ((3 - j % 4) * 8)) & 15);
        }
        return m;
    }
     
    private int[] b(int[] A,int r){
        A[r>>5]|=128<<(24-r%32);
        A[((r+64>>9)<<4)+15]=r;
        int[] B = new int[80];
        int z = 1732584193;
        int y = -271733879;
        int v = -1732584194;
        int u = 271733878;
        int s = -1009589776;
        for (int o = 0; o < A.length; o += 16) {
            int q = z;
            int p = y;
            int n = v;
            int m = u;
            int k = s;
            for (int l = 0; l < 80; l++) {
                if (l < 16) {
                    B[l] = A[o + l];
                } else {
                    B[l] = d(B[l - 3] ^ B[l - 8] ^ B[l - 14] ^ B[l - 16], 1);
                }
                int C = e(e(d(z, 5), a(l, y, v, u)), e(e(s, B[l]), c(l)));
                s = u;
                u = v;
                v = d(y, 30);
                y = z;
                z = C;
            }
            z = e(z, q);
            y = e(y, p);
            v = e(v, n);
            u = e(u, m);
            s = e(s, k);
        }
        return new int[]{z,y,v,u,s};
    }
     
    private int a(int k,int j,int m,int l){
        if(k<20){return(j&m)|((~j)&l);};
        if(k<40){return j^m^l;};
        if(k<60){return(j&m)|(j&l)|(m&l);};
        return j^m^l;
    }
     private int c(int j){
        return(j<20)?1518500249:(j<40)?1859775393:(j<60)?-1894007588:-899497514;
    }
    private int e(int j, int m) {
        int l = (j & 65535) + (m & 65535);
        int k = (j >> 16) + (m >> 16) + (l >> 16);
        return (k << 16) | (l & 65535);
    }
    private int d(int j,int k){
        return(j<<k)|(j>>>(32-k));
    }
     
    private int[] f(String m,int r){
        int[] l;
        int j = (1<<this.g)-1;
        int len=((r+64>>9)<<4)+15;
        int k;
        for(k=0;k<m.length()*g;k+=g){
            len = k>>5>len?k>>5:len;
        }
        l = new int[len+1];
        for(k=0;k<l.length;k++){
            l[k]=0;
        }
        for(k=0;k<m.length()*g;k+=g){
            l[k>>5]|=(m.charAt(k/g)&j)<<(24-k%32);
        }
        return l;
    }
}

  得到這幾個(gè)參數(shù)后連通其他的一些參數(shù),其他的參數(shù)內(nèi)容不需要改變,一起封裝成HTTP包先服務(wù)器發(fā)送即可,到這一步,已經(jīng)完成得差不多了,提交 到服務(wù)器后服務(wù)器返回了一些Cookie,有六個(gè)tgc,SUE,SUP,ALC,ALF,SUR。登錄新浪微博提交的Cookie有很多,但在訪問需要 用戶登錄的頁面只需要這里面的2個(gè)參數(shù)即可, SUE,SUP;還有一個(gè)wvr的參數(shù),其值為4,其他的參數(shù)還沒去理解,為了方便我把所有服務(wù)器返回的Cookie全都封裝在HTTP包里了。

要訪問其他的之前需要登錄的頁面時(shí),這需要在提交的http包的Header加上Cookie項(xiàng),值為獲得的這幾個(gè)參數(shù)加上wvr=4就好了。這就會(huì)發(fā)現(xiàn)原來不能直接訪問的頁面,現(xiàn)在可以訪問了。

分析數(shù)據(jù)是個(gè)挺花時(shí)間的過程,但最終能實(shí)現(xiàn)還是很爽的。。。

一些其他的參數(shù)還沒去理解他們的意義,爬取微話題的主頁是沒問題的,但使用一些新浪微博api時(shí)就出現(xiàn)了一些問題。

posted on 2012-03-30 09:27 不會(huì)飛的鳥 閱讀(985) 評(píng)論(1)  編輯 收藏 引用

評(píng)論

# re: [轉(zhuǎn)]新浪微博 爬取實(shí)現(xiàn)之微博登錄 2012-05-07 14:22 紫楓閑人

膜拜牛人,被你翻譯成java了,代碼貼過來稍微改改就是C#的,呵呵。加我Q4157874,多交流啊  回復(fù)  更多評(píng)論   


只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。
網(wǎng)站導(dǎo)航: 博客園   IT新聞   BlogJava   博問   Chat2DB   管理


青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            亚洲第一精品夜夜躁人人躁| 国产精品午夜在线| 欧美激情精品久久久| 国产精品视频一区二区三区| 亚洲国产精品va| 小处雏高清一区二区三区| 亚洲电影在线免费观看| 午夜日本精品| 欧美日韩午夜在线视频| 亚洲欧洲一区二区三区久久| 欧美在线首页| 亚洲性感美女99在线| 欧美日产国产成人免费图片| 亚洲国产欧美在线人成| 久久婷婷国产综合国色天香| 亚洲在线免费视频| 欧美无乱码久久久免费午夜一区| 亚洲国产一二三| 久久只有精品| 性感少妇一区| 国产精品素人视频| 亚洲视频一区| 欧美久久久久| 国产精品日本欧美一区二区三区| 亚洲人线精品午夜| 欧美国产精品劲爆| 久久成人人人人精品欧| 国产精品中文字幕欧美| 午夜激情久久久| 亚洲视频电影图片偷拍一区| 欧美日韩综合一区| 在线天堂一区av电影| 亚洲精品午夜精品| 欧美区一区二| 一区二区三区**美女毛片| 亚洲精品社区| 欧美激情综合网| 99视频一区| 亚洲另类在线视频| 欧美日韩国产成人在线观看| 亚洲最新合集| 日韩视频永久免费观看| 欧美日韩一区二区视频在线| 亚洲一二三区视频在线观看| 一区二区三区国产精品| 国产精品久久久对白| 校园春色综合网| 欧美一级片在线播放| 狠狠色狠狠色综合日日91app| 久久久久在线观看| 久久久久久夜| 91久久综合| 亚洲精品久久久久中文字幕欢迎你| 欧美连裤袜在线视频| 亚洲性感激情| 亚洲欧美日韩网| 国语自产精品视频在线看抢先版结局| 久久夜色精品国产亚洲aⅴ | 亚洲精品在线一区二区| 亚洲人午夜精品免费| 欧美日韩色一区| 午夜视频一区二区| 欧美一区亚洲| 最新国产乱人伦偷精品免费网站| 亚洲精品裸体| 国产精品免费观看视频| 久久久亚洲精品一区二区三区| 久久三级视频| 一区二区电影免费在线观看| 在线亚洲欧美| 国产一区二区按摩在线观看| 美女国产精品| 欧美人妖在线观看| 午夜激情久久久| 久久久久久9| 日韩视频国产视频| 亚洲图片欧美午夜| 韩日精品在线| 亚洲区国产区| 国产精品视频免费观看| 久久综合伊人77777| 麻豆视频一区二区| 亚洲一级免费视频| 欧美一进一出视频| 最新日韩欧美| 亚洲无线视频| 亚洲第一福利在线观看| 日韩视频永久免费观看| 国内一区二区三区在线视频| 91久久国产综合久久| 国产麻豆9l精品三级站| 欧美福利视频网站| 欧美精品免费在线观看| 性欧美暴力猛交另类hd| 美女主播视频一区| 亚洲综合欧美| 久久久久国产一区二区三区四区| 99视频国产精品免费观看| 午夜日韩在线| 亚洲精品乱码久久久久久日本蜜臀| 一本色道久久| 在线观看日韩av电影| 99国产精品久久久久久久| 黑人一区二区| 在线亚洲美日韩| 亚洲激情精品| 午夜久久久久久| 99热这里只有精品8| 久久久精品国产一区二区三区| 一区二区免费在线观看| 久久狠狠婷婷| 中文在线不卡| 巨乳诱惑日韩免费av| 午夜久久久久| 欧美精品在线一区二区三区| 久久综合久久88| 国产精品久久777777毛茸茸| 欧美国产精品日韩| 国产欧美一区二区三区久久| 亚洲激情在线| 激情综合中文娱乐网| 一本色道久久综合亚洲91| 亚洲第一精品久久忘忧草社区| 亚洲一区区二区| 国产精品v欧美精品v日韩 | 午夜精品免费在线| 99热这里只有精品8| 久久久久国产精品一区| 午夜精品区一区二区三| 欧美精品国产精品| 久久夜色精品| 国产欧美精品在线| 99热在这里有精品免费| 亚洲人在线视频| 久久激情五月丁香伊人| 亚洲欧美日韩一区二区在线 | 亚洲精品国产精品乱码不99| 欧美在线免费观看视频| 午夜精彩国产免费不卡不顿大片| 欧美电影免费观看| 久久久青草婷婷精品综合日韩| 国产精品国产三级国产普通话蜜臀| 亚洲欧洲一区二区三区在线观看| 亚洲第一主播视频| 久久精品国产欧美亚洲人人爽| 欧美亚洲综合网| 国产精品高清在线观看| 亚洲精品综合| 亚洲精品一区二区三区婷婷月| 久久免费国产| 麻豆久久久9性大片| 国产亚洲一二三区| 欧美亚洲一区二区在线| 亚洲免费婷婷| 国产精品夫妻自拍| 日韩视频在线观看免费| 一区二区三区精品在线| 欧美精品日本| 亚洲精品一区二| 99视频精品在线| 欧美日韩精品一区二区在线播放| 91久久亚洲| 日韩视频一区二区在线观看| 欧美大片免费观看| 亚洲国产婷婷香蕉久久久久久99 | 欧美3dxxxxhd| 欧美二区视频| 亚洲国产精品尤物yw在线观看| 久久久蜜臀国产一区二区| 久久都是精品| 国外成人免费视频| 久久久综合香蕉尹人综合网| 老司机久久99久久精品播放免费| 激情五月综合色婷婷一区二区| 久久成人综合网| 麻豆成人在线观看| 影音先锋久久资源网| 麻豆成人91精品二区三区| 欧美 日韩 国产在线| 亚洲韩国精品一区| 免费成人你懂的| 91久久久亚洲精品| 一区二区三区欧美日韩| 欧美午夜视频| 午夜精品久久久久久久99黑人 | 欧美一区二区高清| 久久久999精品| 在线日韩中文| 欧美激情精品久久久久久久变态| 亚洲国产精品日韩| 一区二区精品在线观看| 国产精品毛片大码女人| 性感少妇一区| 欧美福利视频在线| 在线视频欧美日韩精品| 国产精品日韩在线| 香蕉久久a毛片| 嫩草伊人久久精品少妇av杨幂| 亚洲激精日韩激精欧美精品| 欧美日韩三级视频|