• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>

            [轉(zhuǎn)]利用Winsock模擬HTTP的GET請(qǐng)求

              網(wǎng)絡(luò)爬蟲需要從指定的URL通過HTTP協(xié)議來獲得HTML文件信息,以此從一個(gè)URL爬到另一個(gè)URL。在Windows平臺(tái)上,這往往通過WinINet接口實(shí)現(xiàn)。
              但是,如果對(duì)HTTP協(xié)議熟悉的話,也可以通過Winsock接口實(shí)現(xiàn)。代碼如下。

              1 #pragma warning (disable:4996)
              2 
              3 #define DEFAULT_URL "http://www.google.com"
              4 
              5 BOOL WinsockStartup(BYTE highVer, BYTE lowVer)
              6 {
              7     WSADATA wsaData;
              8     return WSAStartup(MAKEWORD(highVer, lowVer), &wsaData) == 0;
              9 }
             10 
             11 int SendData(SOCKET s, char * data)
             12 {
             13     return send(s, data, strlen(data), 0);
             14 }
             15 
             16 void ParseTheURL(char * pszURL, char * pszHostName)
             17 {
             18     char * p, * pHostStart;
             19 
             20     p = strstr(pszURL, "http://");
             21     if (p && p == pszURL)
             22     {
             23         pHostStart = pszURL + 7;
             24     }
             25     else
             26     {
             27         pHostStart = pszURL;
             28     }
             29     p = strchr(pHostStart, '/');
             30     if (p)
             31     {
             32         memcpy(pszHostName, pHostStart, p - pHostStart);
             33     }
             34     else
             35     {
             36         memcpy(pszHostName, pHostStart, strlen(pHostStart));
             37     }
             38 }
             39 
             40 int _tmain()
             41 {
             42     int iRet = 0;
             43     DWORD dwError = 0;
             44     BOOL bOk = FALSE;
             45 
             46     char szURL[256= { 0 };                // 主機(jī)文件,即URL
             47     char szHostName[256= { 0 };            // 主機(jī)名
             48     char szPortName[] = "80";                // 端口號(hào)
             49 
             50     if (!WinsockStartup(22))
             51     {
             52         _tcprintf(TEXT("初始化Windows Sockets失敗!"));
             53         cin.getline(szURL, 255);
             54         return -1;
             55     }
             56 
             57     addrinfo aiHints = { 0 };
             58     addrinfo * aiList;
             59 
             60     aiHints.ai_family = AF_INET;
             61     aiHints.ai_socktype = SOCK_STREAM;
             62     aiHints.ai_protocol = IPPROTO_TCP;
             63 
             64     cout<<"輸入U(xiǎn)RL:";
             65     cin.getline(szURL, 255);
             66 
             67     if (strcmp(szURL, ""== 0)
             68     {
             69         strcpy(szURL, DEFAULT_URL);
             70         cout<<DEFAULT_URL<<endl;
             71     }
             72 
             73     ParseTheURL(szURL, szHostName);
             74 
             75     if (getaddrinfo(szHostName, szPortName, NULL, &aiList) != 0)
             76     {
             77         _tcprintf_s(TEXT("getaddrinfo失敗:%d"), WSAGetLastError());
             78         WSACleanup();
             79         cin.getline(szURL, 255);
             80         return -1;
             81     }
             82 
             83     SOCKET s;
             84     for (addrinfo * aiPtr = aiList; aiPtr != NULL; aiPtr = aiPtr->ai_next)
             85     {
             86         s = socket(aiList->ai_family, aiList->ai_socktype, aiList->ai_protocol);
             87         if (s == INVALID_SOCKET)
             88         {
             89             _tcprintf_s(TEXT("socket創(chuàng)建失敗:%d"), WSAGetLastError());
             90             continue;
             91         }
             92 
             93         if (connect(s, aiPtr->ai_addr, aiPtr->ai_addrlen) == SOCKET_ERROR)
             94         {
             95             closesocket(s);
             96             s = INVALID_SOCKET;
             97             _tcprintf_s(TEXT("connect失敗:%d"), WSAGetLastError());
             98             continue;
             99         }
            100         break;
            101     }
            102 
            103     freeaddrinfo(aiList);
            104 
            105     if (s == INVALID_SOCKET)
            106     {
            107         WSACleanup();
            108         cin.getline(szURL, 255);
            109         return -1;
            110     }
            111 
            112     char requestData[512= { 0 };
            113     sprintf(requestData, "GET %s HTTP/1.1\r\n", szURL);
            114     SendData(s, requestData);
            115     //SendData(s, "GET / HTTP/1.1\r\n");
            116     sprintf(requestData, "Host:%s\r\n", szHostName);
            117     SendData(s, requestData);
            118     SendData(s, "Accept: */*\r\n");
            119     SendData(s, "User-Agent: Mozilla/4.0(compatible; MSIE 5.00; Windows NT)\r\n");
            120     SendData(s, "Connection:Close\r\n");
            121     //SendData(s, "Connection:Keep-Alive\r\n");
            122     SendData(s, "\r\n");
            123     SendData(s, "\r\n");//最后要加空行
            124 
            125     BOOL done = FALSE;
            126     char buffer[1024= { 0 };
            127     int l, chars = 0;
            128 
            129     // 打印http響應(yīng)的頭部
            130     while (!done)
            131     {
            132         l = recv(s, buffer, 10);
            133         if (l <= 0)
            134             done = TRUE;
            135         switch(*buffer)
            136         {
            137         case '\r':
            138             break;
            139         case '\n':
            140             if(chars == 0)
            141                 done = TRUE;
            142             chars = 0;            // 表示另起一行
            143             break;
            144         default:
            145             ++chars;
            146             break;
            147         }
            148         printf("%c",*buffer);
            149     }
            150 
            151     // 接收正文部分
            152     int sum = 0;
            153     do
            154     {
            155         l = recv(s, buffer, sizeof (buffer) - 10);
            156         if( l <= 0 )
            157             break;
            158         sum += l;
            159         *(buffer + l) = 0;
            160         printf(buffer);
            161     } while( l > 0 );
            162 
            163     //這里輸出正文部分大小,發(fā)現(xiàn)其實(shí)和響應(yīng)消息頭部的Content-length大小是一樣的
            164     //這樣就可以檢查是否接受完畢
            165     printf("\n\n大小 = %d字節(jié)\n",sum);
            166 
            167     WSACleanup();
            168 
            169     cin.getline(szURL, 255);
            170     return 0;
            171 }

            posted on 2010-03-01 10:43 小虎無憂 閱讀(1866) 評(píng)論(0)  編輯 收藏 引用 所屬分類: Network


            只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。
            網(wǎng)站導(dǎo)航: 博客園   IT新聞   BlogJava   博問   Chat2DB   管理


            <2009年8月>
            2627282930311
            2345678
            9101112131415
            16171819202122
            23242526272829
            303112345

            導(dǎo)航

            統(tǒng)計(jì)

            常用鏈接

            留言簿

            隨筆分類

            隨筆檔案

            搜索

            最新評(píng)論

            閱讀排行榜

            評(píng)論排行榜

            亚洲一级Av无码毛片久久精品| 成人国内精品久久久久一区| 久久美女网站免费| 国产人久久人人人人爽| 少妇人妻88久久中文字幕| 97精品伊人久久久大香线蕉 | 久久婷婷是五月综合色狠狠| 久久精品国产黑森林| 九九久久精品无码专区| 国产精品嫩草影院久久| 日韩va亚洲va欧美va久久| 中文字幕久久精品 | 久久精品国产亚洲AV香蕉| 久久青青草原精品国产| 久久免费视频观看| 久久精品国产亚洲Aⅴ香蕉 | 欧美一区二区三区久久综| 久久99精品国产自在现线小黄鸭| 久久精品国产久精国产果冻传媒| 日产精品久久久一区二区| 国产V亚洲V天堂无码久久久| 国产精品九九久久免费视频 | 国产精品久久久天天影视香蕉| 久久丝袜精品中文字幕| 久久99精品国产麻豆宅宅| 97久久国产亚洲精品超碰热| 精品久久久久久无码人妻热| 久久国产亚洲精品| 久久久青草久久久青草| 合区精品久久久中文字幕一区 | 2021久久精品免费观看| 久久国产精品一国产精品金尊| 国产精品亚洲美女久久久| 浪潮AV色综合久久天堂| 久久午夜无码鲁丝片午夜精品| 亚洲va久久久噜噜噜久久男同| 久久93精品国产91久久综合| 国产亚洲色婷婷久久99精品| 日本久久久久久久久久| 嫩草影院久久国产精品| 人人狠狠综合久久88成人|