• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>

            sunrise

            每天不斷學(xué)習(xí),才能不斷提升自己。

              C++博客 :: 首頁 :: 新隨筆 :: 聯(lián)系 :: 聚合  :: 管理 ::
              64 隨筆 :: 0 文章 :: 92 評論 :: 0 Trackbacks
            話不多說,奉上代碼。

            #/usr/bin/env python
            #
            coding=utf8

            #對提取的數(shù)據(jù)進行預(yù)處理

            def pretreat(infile,outfile):
              rfile = open(infile,'r')
              wfile = open(outfile,'wa+')
              while(1):
                line = rfile.readline()
                if not line:
                  break
                line = line.split('>')

                #數(shù)據(jù)的長度,避免重復(fù)計算
                lens = len(line)

                #獲得有效信息
                for i in range(lens):
                  line[i] = line[i].split('/')
                for i in range(lens):
                  #處理三元組第三個元素
                  #print line[i]
                  flag = 0
                  if '@zh' in line[i][0]:
                    line[i][0] = line[i][0].replace('@zh .','')
                    line[i][0] = line[i][0].replace('','')
                  if '^^<http:' in line[i][0]:
                    flag = 1
                    line[i][0] = line[i][0].replace('^^<http:','')
                    line[i][0] = line[i][0].replace('','')
                    print line[i][0]
                    wfile.write(line[i][0].strip())
                  if len(line[i]) >= 1 and i != 3 and 0 == flag:
                    if '' in line[i][len(line[i])-1]:
                      line[i][len(line[i])-1] = line[i][len(line[i])-1].replace('','')
                    wfile.write(line[i][len(line[i])-1].strip()+' ')
                wfile.write('\n')
              wfile.close()

            #判斷是否含有字母
            def is_alphabet(input):
              input = unicode(input,"utf-8")
              buf = []
              for uchar in input:
                if (uchar >= u'\u0041' and uchar<=u'\u005a'or (uchar >= u'\u0061' and uchar<=u'\u007a'):
                  return True
                else:
                  return False

              #去除國家名中含有字母的三元組
            def removealp(infile,outfile):
              rfile = open(infile,'r')
              wfile = open(outfile,'w')
              while(1):
                line = rfile.readline()
                if not line:
                  break
                linetmp = line
                line = line.split(' ')
                if False == is_alphabet(line[0]):
                  wfile.write(linetmp)
              wfile.close()


            pretreat('article_categories_en_uris_zh.nt','tag_article_categories_en_uris_zh.txt')
            posted on 2012-09-13 17:29 SunRise_at 閱讀(1413) 評論(0)  編輯 收藏 引用 所屬分類: 可愛的python
            久久天天躁狠狠躁夜夜不卡| 久久久国产乱子伦精品作者| 国产99久久久国产精品~~牛| 日本精品久久久久中文字幕8| 国产综合精品久久亚洲| 青青草原综合久久大伊人| 久久精品国产亚洲av麻豆色欲| 99999久久久久久亚洲| 免费精品久久久久久中文字幕| 久久精品国产亚洲AV不卡| 狠狠色丁香久久综合婷婷| 2021最新久久久视精品爱| 国产精品青草久久久久婷婷| 亚洲国产综合久久天堂| 久久综合久久综合九色| 亚洲中文字幕无码久久精品1| 国产农村妇女毛片精品久久| 久久久久99精品成人片欧美| 久久频这里精品99香蕉久| 久久久久久久久无码精品亚洲日韩| 国产精品欧美久久久久天天影视| 亚洲精品国产字幕久久不卡| 色婷婷综合久久久久中文字幕| 东京热TOKYO综合久久精品| 久久久久se色偷偷亚洲精品av| 国产成人精品综合久久久| 久久久久久亚洲Av无码精品专口| 亚洲&#228;v永久无码精品天堂久久 | 一本一道久久综合狠狠老| 成人午夜精品久久久久久久小说| 人人狠狠综合久久88成人| 少妇熟女久久综合网色欲| 伊人色综合久久天天人守人婷| 97精品伊人久久久大香线蕉| 精品久久久久久亚洲| 久久精品一区二区国产| 国产精品久久久久影院色| 精品久久香蕉国产线看观看亚洲 | 久久久久亚洲av无码专区喷水| 亚洲精品第一综合99久久 | 久久九九久精品国产免费直播|