• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            posts - 24,  comments - 62,  trackbacks - 0

            Livespace要在明年關(guān)閉了,搭建了micolog在google app engine,方便以后自己掙騰。上次用生拙的C#寫個live space到livespace的博客遷移工具,使用metaweblog接口,見?Live Spaces新舊空間遷移方法 。上次使用getRecentPosts函數(shù)依次取得最近的一篇,然后存檔后發(fā)表后,刪除。這次通過正則表達式分析網(wǎng)頁內(nèi)容,獲取到postid后,再使有g(shù)etPost接口獲取文章,再進行發(fā)表,而且這次使用python寫成的。

            metaweblog的內(nèi)容不再敘述,其實這個協(xié)議寫得真不怎么樣,沒有檢索文章的接口,要讓人硬生生地從網(wǎng)頁中分析出postid來。因此解析postid是這個遷移工具的重要內(nèi)容。

            #獲取www.shnenglu.com樣式的postid列表
            def getCppblogId(blog):
            url='http://www.shnenglu.com/'+blog['user']+'/default.html?page=1&OnlyTitle=1'
            urlfile = urllib.urlopen(url)
            html = urlfile.read()
            #獲取存檔頁碼數(shù)
            pattern = re.compile(r'http://www.shnenglu.com/'+blog['user']+'/default.html\?page=(\d+)&OnlyTitle=1')
            pages = [1]
            pages += pattern.findall(html)

            ids=[]
            for p in pages:
            url= 'http://www.shnenglu.com/'+blog['user']+'/default.html?page='+str(p)+'&OnlyTitle=1'
            urlfile = urllib.urlopen(url)
            html = urlfile.read()
            pattern = re.compile(r'http://www.shnenglu.com/'+blog['user']+'/admin/EditPosts.aspx\?postid=(\d+)')
            id = pattern.findall(html)
            ids += id
            return ids

            利用存檔頁面得到總共頁數(shù)(或許頁數(shù)多了或有問題,未驗證),然后在每頁解析出postid,cppblog較簡單

            def getLivespaceId(blog):
            ids=[]
            url=blog['user']+'.spaces.live.com/blog/'
            i=0
            while True:
            url='http://'+url
            urlfile = urllib.urlopen(url)
            html = urlfile.read()
            #print html
            pattern = re.compile(r'entrycns!'+'([a-zA-Z0-9!]*)')
            id = pattern.findall(html)
            ids += id
            pattern = re.compile(blog['user']+'.{1,50}pagedir=Next[^"]*')
            urls = pattern.findall(html)
            i=i+1
            if len(urls) ==0:
            break
            url = unescape(urls[0])
            return ids

            live space沒有總共的頁數(shù),只能一直next下去,發(fā)現(xiàn)沒有next按鈕了就停止,在每頁再解析出postid來,unescape是自定義函數(shù),目的是將html編碼轉(zhuǎn)換為像!等符號。

            在遷移post時出現(xiàn)未micolog中定義的目錄(category)會出錯,因此遷移工具里如果碰到未定義過的類別,會自動舍棄掉。因此在使用 時需要在micolog里定義原先blog的類別,以致不會出現(xiàn)目錄丟失的現(xiàn)象。此遷移工具在python2.5下完成,只要在源碼中修改中開頭的 srcBlog和dstBlog定義里的用戶名,密碼,webapi即可使用。源碼中還實現(xiàn)BlogXML類,用于存檔為xml格式,但未用于主程序中。

            遷移工具源碼
            posted on 2010-11-08 20:55 len 閱讀(1602) 評論(0)  編輯 收藏 引用 所屬分類: IT技術(shù)

            <2025年7月>
            293012345
            6789101112
            13141516171819
            20212223242526
            272829303112
            3456789

            常用鏈接

            留言簿(4)

            隨筆分類

            隨筆檔案

            搜索

            •  

            最新評論

            閱讀排行榜

            評論排行榜

            久久久久国产精品人妻| 久久精品国产亚洲AV不卡| 国产免费久久精品99re丫y| 国产精品久久久久免费a∨| 亚洲国产成人久久综合野外| 亚洲欧洲精品成人久久奇米网| 精品久久久无码21p发布| 99999久久久久久亚洲| 久久久综合香蕉尹人综合网| 色偷偷久久一区二区三区| 精品久久久久久99人妻| 久久久久亚洲AV无码网站| 亚洲第一永久AV网站久久精品男人的天堂AV | 精品国产乱码久久久久久呢| 久久久久无码精品国产| 日韩十八禁一区二区久久| 国产精品99久久不卡| 久久精品国产亚洲av日韩| 色综合久久中文字幕综合网| 久久久久四虎国产精品| 久久久国产精品亚洲一区| 精品国产乱码久久久久软件| 精品无码久久久久久久久久| 99久久免费国产精品热| 亚洲午夜久久久久妓女影院| 伊人久久无码精品中文字幕| 亚洲精品乱码久久久久久| 99精品国产免费久久久久久下载 | 久久精品国产免费一区| 久久影院综合精品| 久久香蕉国产线看观看精品yw| 久久人做人爽一区二区三区| 中文成人无码精品久久久不卡| 久久97久久97精品免视看秋霞| 国产一区二区精品久久凹凸| 国产一久久香蕉国产线看观看| 国内精品人妻无码久久久影院| 久久香蕉超碰97国产精品| 国产精品福利一区二区久久| 97久久精品人人澡人人爽| 久久天天躁狠狠躁夜夜av浪潮 |