青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
金慶的專欄
C++博客
::
首頁
::
新隨筆
::
聯系
::
聚合
::
管理
::
423 隨筆 :: 0 文章 :: 454 評論 :: 0 Trackbacks
公告
我的隨筆
我的評論
我參與的隨筆
留言簿
(12)
給我留言
查看公開留言
查看私人留言
隨筆分類
(502)
1. C/C++(166)
(rss)
2. 網游開發(108)
(rss)
3. Golang(20)
(rss)
4. Linux/Unix(30)
(rss)
5. 軟工與管理(44)
(rss)
6. Python(23)
(rss)
7. Erlang(18)
(rss)
8. Rust(16)
(rss)
9. 其它(77)
(rss)
隨筆檔案
(423)
2023年1月 (1)
2022年11月 (1)
2022年10月 (2)
2022年9月 (1)
2022年4月 (6)
2022年1月 (2)
2021年12月 (4)
2021年11月 (6)
2021年10月 (2)
2021年9月 (2)
2021年8月 (7)
2021年7月 (2)
2021年5月 (2)
2021年3月 (1)
2021年2月 (2)
2021年1月 (1)
2020年12月 (1)
2020年10月 (1)
2020年9月 (5)
2020年8月 (1)
2020年7月 (1)
2020年6月 (1)
2020年4月 (2)
2020年3月 (3)
2020年2月 (3)
2020年1月 (1)
2019年12月 (1)
2019年9月 (2)
2019年4月 (2)
2019年1月 (1)
2018年12月 (1)
2018年11月 (3)
2018年10月 (1)
2018年9月 (3)
2018年8月 (3)
2018年7月 (2)
2018年6月 (4)
2018年5月 (4)
2018年4月 (4)
2018年3月 (1)
2018年1月 (2)
2017年12月 (2)
2017年11月 (3)
2017年10月 (3)
2017年8月 (7)
2017年7月 (1)
2017年6月 (1)
2017年5月 (3)
2017年4月 (3)
2017年3月 (3)
2017年2月 (2)
2017年1月 (2)
2016年12月 (5)
2016年11月 (2)
2016年10月 (2)
2016年9月 (1)
2016年8月 (6)
2016年7月 (3)
2016年6月 (2)
2016年5月 (4)
2016年4月 (2)
2016年3月 (2)
2016年1月 (3)
2015年12月 (2)
2015年11月 (2)
2015年10月 (1)
2015年8月 (2)
2015年7月 (1)
2015年6月 (1)
2015年5月 (4)
2015年4月 (3)
2015年3月 (4)
2015年2月 (5)
2015年1月 (4)
2014年12月 (3)
2014年11月 (3)
2014年10月 (2)
2014年9月 (3)
2014年8月 (1)
2014年4月 (4)
2014年3月 (1)
2014年2月 (4)
2014年1月 (5)
2013年12月 (5)
2013年11月 (5)
2013年9月 (2)
2013年8月 (2)
2013年7月 (2)
2013年6月 (2)
2013年5月 (1)
2013年1月 (2)
2012年12月 (1)
2012年11月 (1)
2012年9月 (1)
2012年8月 (3)
2012年7月 (2)
2012年6月 (1)
2012年4月 (3)
2012年3月 (2)
2012年2月 (3)
2012年1月 (2)
2011年11月 (2)
2011年10月 (3)
2011年9月 (2)
2011年8月 (2)
2011年7月 (3)
2011年6月 (2)
2011年5月 (3)
2011年1月 (2)
2010年12月 (1)
2010年11月 (2)
2010年10月 (2)
2010年9月 (3)
2010年8月 (2)
2010年7月 (3)
2010年6月 (1)
2010年5月 (3)
2010年4月 (3)
2010年3月 (5)
2010年2月 (4)
2010年1月 (4)
2009年12月 (2)
2009年11月 (3)
2009年10月 (4)
2009年9月 (3)
2009年8月 (2)
2009年7月 (4)
2009年6月 (1)
2009年5月 (3)
2009年4月 (4)
2009年3月 (2)
2009年2月 (5)
2009年1月 (1)
2008年12月 (7)
2008年11月 (4)
2008年10月 (1)
2008年9月 (3)
2008年8月 (4)
2008年7月 (3)
2008年6月 (4)
2008年5月 (6)
2008年4月 (7)
2008年3月 (6)
2008年1月 (5)
2007年12月 (7)
2007年11月 (4)
2007年10月 (5)
2007年9月 (6)
2007年8月 (8)
2007年7月 (5)
相冊
公告照片
搜索
積分與排名
積分 - 659884
排名 - 25
最新評論
1.?re: boost::asio::spawn 將一統C++網絡庫
asio 成為C++首選網絡庫
--linda
2.?re: log4cxx中文輸出錯誤補丁
評論內容較長,點擊標題查看
--金慶
3.?re: mingw編譯OrzNet
能發送一個mingw編譯好的OrzNet庫給我嗎? liuweiqcxy@163.com
謝謝!
--劉威
4.?re: log4cxx中文輸出錯誤補丁
評論內容較長,點擊標題查看
--bigbad
5.?re: log4cxx中文輸出錯誤補丁
評論內容較長,點擊標題查看
--bigbad
閱讀排行榜
1.?"multiple definition of" 錯誤(11060)
2.?SVN中邪惡的replace(10986)
3.?VS2005編譯libevent(10431)
4.?混音算法的學習與研究(10238)
5.?C調用lua腳本的效率測試(9020)
評論排行榜
1.?VC6正在被拋棄(35)
2.?VS2005編譯libevent(21)
3.?"multiple definition of" 錯誤(18)
4.?C++引用優于指針(17)
5.?ACE與ASIO之間關于Socket編程的比較(16)
批量html轉text
批量html轉text
(轉載請注明來源于金慶的專欄)
原來的代碼是參考“Recipe 12.11. Using MSHTML to Parse XML or HTML”,利用htmlfile提取文本。
將當前目錄下的所有html文件轉換為text文件。
def
extractHtmlFile(htmlFilePath):
'''
Extract html text and save to text file.
'''
htmlData
=
file(htmlFilePath,
'
r
'
).read()
import
win32com.client
html
=
win32com.client.Dispatch(
'
htmlfile
'
)
html.writeln(htmlData)
text
=
html.body.innerText.encode(
'
gbk
'
,
'
ignore
'
)
但是發現MSHTML解析文件可能會出錯,造成文本提取失敗。
jigloo經過對10W+個html文件的測試,得出結論,htmlfile的容錯比InternetExplorer.Application要差很多。
原文見:http://groups.google.com/group/python-cn/msg/c9221764bcafbc21
他的代碼大致如下,IE使用稍煩:
#
!/usr/bin/env python
import
sys, os, re, codecs
import
time
import
win32com.client
class
htmlfile:
def
__init__
(self):
self.
__ie
=
win32com.client.Dispatch(
'
InternetExplorer.Application
'
)
self.
__ie
.Silent
=
True
self.
__filename
=
''
self.
__document
=
None
def
__del__
(self):
self.
__ie
.Quit()
def
__getdocument
(self, filename):
filename
=
os.path.abspath(filename)
if
self.
__filename
!=
filename:
self.
__filename
=
filename
self.
__ie
.Navigate2(filename)
self.
__ie
.Document.close()
while
self.
__ie
.Document.Body
is
None:
time.sleep(
0.1
)
self.
__document
=
self.
__ie
.Document
return
self.
__document
def
gettext(self, filename):
return
self.
__getdocument
(filename).Body.innerText
def
gettitle(self, filename):
return
self.
__getdocument
(filename).title
if
__name__
==
'
__main__
'
:
hf
=
htmlfile()
for
root, dirs, names
in
os.walk(u
'
.
'
):
for
name
in
names:
if
name.endswith(
'
htm
'
)
or
name.endswith(
'
html
'
):
htmlpath
=
os.path.join(root, name)
textpath
=
htmlpath
+
'
.txt
'
file(textpath,
'
wb
'
).write(hf.gettext(htmlpath).encode(
'
mbcs
'
))
#
End of if.
#
End of for name.
#
End of for root.
del
hf
#
End of if.
對于我的簡單任務,這就足夠了。
有一個問題,如果有資源管理器打開著,運行這段代碼會關閉資源管理器,并出錯退出。比較奇怪,但應該不難解決,可能是IE控件的使用上還有問題。
self.__ie.Document.close()
File "C:\Python25\Lib\site-packages\win32com\client\dynamic.py", line 496, in
__getattr__
raise AttributeError, "%s.%s" % (self._username_, attr)
AttributeError: Document.close
posted on 2008-03-13 11:55
金慶
閱讀(1732)
評論(1)
編輯
收藏
引用
所屬分類:
6. Python
評論
#
re: 批量html轉text
2008-12-01 15:48
Hanqing Chen
你好,我需要這個程序代碼,可以發給我一份嗎?
不勝感謝,我的郵箱 lychenhanqing@163.com
回復
更多評論
刷新評論列表
只有注冊用戶
登錄
后才能發表評論。
【推薦】100%開源!大型工業跨平臺軟件C++源碼提供,建模,組態!
相關文章:
vs2017 linux 編譯輸出改成 vs 格式
xlsx批量轉為utf8的csv
如何運行 rpcz python example
Windows上Python讀取stdin出錯
建立Socket Policy服務器
python計算24點
(Python編程)Pickle對象
Boost.Python中文文檔下載
用Boost.Python構建混合系統
Python封裝的性能研究
網站導航:
博客園
IT新聞
BlogJava
博問
Chat2DB
管理
Powered by:
C++博客
Copyright © 金慶
青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
午夜欧美不卡精品aaaaa
|
国产精品白丝黑袜喷水久久久
|
中日韩男男gay无套
|
亚洲精品乱码久久久久久蜜桃91
|
麻豆freexxxx性91精品
|
毛片av中文字幕一区二区
|
久久精品国产久精国产一老狼
|
国产亚洲欧美一区二区
|
免费在线欧美视频
|
一区二区三区视频在线播放
|
欧美与黑人午夜性猛交久久久
|
欧美不卡高清
|
国产一二三精品
|
久久久久久久一区二区三区
|
久久久久久久999
|
国产精品女人毛片
|
亚洲免费高清
|
久久综合网色—综合色88
|
久久久噜噜噜久久久
|
亚洲精品国偷自产在线99热
|
亚洲图片在区色
|
韩国精品一区二区三区
|
午夜激情久久久
|
亚洲精品一二区
|
国产伦精品一区二区三区
|
99ri日韩精品视频
|
香蕉视频成人在线观看
|
国产精品theporn88
|
久久亚洲欧美
|
久久9热精品视频
|
99国产精品久久久
|
久久成人资源
|
亚洲影视九九影院在线观看
|
亚洲国产综合视频在线观看
|
国产精品系列在线
|
亚洲青色在线
|
欧美日韩国产三区
|
久久一区二区三区av
|
国产精品国产三级国产普通话蜜臀
|
一本色道久久综合亚洲精品不
|
国产精品一区二区在线观看不卡
|
亚洲毛片一区二区
|
亚欧成人在线
|
在线看欧美日韩
|
老**午夜毛片一区二区三区
|
欧美亚洲日本网站
|
亚洲欧美日韩在线高清直播
|
欧美精品在线看
|
欧美顶级少妇做爰
|
伊人成人在线视频
|
欧美在线免费视屏
|
欧美一区亚洲
|
国产精品免费小视频
|
一区二区三区免费看
|
亚洲深夜激情
|
久久精品国产清自在天天线
|
美女性感视频久久久
|
亚洲国产岛国毛片在线
|
亚洲直播在线一区
|
狠狠色综合日日
|
欧美黄色成人网
|
欧美精品一线
|
欧美在现视频
|
久久天天躁狠狠躁夜夜av
|
久久精品2019中文字幕
|
久久在精品线影院精品国产
|
久久嫩草精品久久久精品一
|
国产日产欧产精品推荐色
|
亚洲综合国产激情另类一区
|
亚洲免费一级电影
|
国产老女人精品毛片久久
|
亚洲一区免费视频
|
亚洲成色www8888
|
亚洲日本中文
|
宅男噜噜噜66一区二区
|
小黄鸭精品aⅴ导航网站入口
|
欧美伊久线香蕉线新在线
|
久久看片网站
|
午夜精品影院在线观看
|
老鸭窝毛片一区二区三区
|
欧美成人午夜视频
|
国产精品99久久久久久久女警
|
欧美在线视频免费播放
|
玖玖精品视频
|
国产日韩1区
|
91久久嫩草影院一区二区
|
国产精品大全
|
欧美中日韩免费视频
|
亚洲国产另类精品专区
|
国产主播喷水一区二区
|
日韩视频一区二区三区在线播放免费观看
|
狠狠色丁香久久综合频道
|
欧美激情成人在线
|
久久视频这里只有精品
|
亚洲日本欧美日韩高观看
|
久久成人羞羞网站
|
香蕉久久夜色
|
欧美视频一区二区在线观看
|
欧美国内亚洲
|
亚洲欧美日韩精品久久久
|
亚洲高清视频一区二区
|
欧美有码在线视频
|
亚洲三级电影在线观看
|
久久精品中文字幕免费mv
|
日韩视频精品
|
激情综合色综合久久综合
|
香蕉成人伊视频在线观看
|
亚洲视频综合在线
|
亚洲国产高潮在线观看
|
国产精品免费一区二区三区在线观看
|
欧美人妖在线观看
|
久久精品免费电影
|
久久综合久久久久88
|
夜夜精品视频
|
欧美丝袜一区二区三区
|
亚洲国产精品久久91精品
|
久久综合影音
|
麻豆国产精品va在线观看不卡
|
国产精品夜色7777狼人
|
在线视频欧美精品
|
亚洲在线视频免费观看
|
国产精品高清一区二区三区
|
欧美ab在线视频
|
91久久精品久久国产性色也91
|
亚洲国产综合视频在线观看
|
麻豆freexxxx性91精品
|
亚洲一区制服诱惑
|
久久精品青青大伊人av
|
亚洲欧美成人精品
|
在线视频免费在线观看一区二区
|
欧美日韩另类一区
|
亚洲色在线视频
|
欧美一区二区在线
|
亚洲午夜黄色
|
中国av一区
|
宅男精品导航
|
国产亚洲精品久久久
|
欧美在线关看
|
欧美自拍偷拍午夜视频
|
欧美资源在线
|
久久久久国产精品厨房
|
亚洲高清久久网
|
亚洲性色视频
|
国产区在线观看成人精品
|
国产精品入口福利
|
国产伦精品一区二区
|
久久综合伊人77777
|
久久久999精品视频
|
久久久久久久一区二区
|
久久久久久久综合
|
亚洲午夜精品久久
|
亚洲一区二区三区中文字幕
|
亚洲一区二区精品视频
|
亚洲欧美日韩国产一区二区三区
|
欧美成人嫩草网站
|
欧美福利视频在线观看
|
欧美连裤袜在线视频
|
欧美日韩一区二区在线播放
|
欧美一区二区三区免费观看视频
|
午夜天堂精品久久久久
|
最新国产精品拍自在线播放
|
亚洲欧美日韩综合aⅴ视频
|
午夜精品视频在线
|
在线视频中文亚洲
|
亚洲欧美日本伦理
|
久久免费观看视频
|
亚洲一区高清
|
亚洲人体偷拍
|
亚洲欧美在线网
|
美女日韩欧美
|
av不卡免费看
|
久久久久久久性
|
欧美性大战xxxxx久久久
|
国内精品久久久久久
|
夜夜嗨av一区二区三区免费区
|
揄拍成人国产精品视频
|
亚洲精品孕妇
|
最新精品在线
|
欧美一区二区三区精品电影
|
99在线观看免费视频精品观看
|
午夜精彩国产免费不卡不顿大片
|
久久蜜臀精品av
|
在线中文字幕一区
|
欧美mv日韩mv国产网站
|
国产日韩精品一区二区三区
|
亚洲人精品午夜
|
久久男人资源视频
|
久久久亚洲人
|
久久免费99精品久久久久久
|
午夜在线一区二区
|
韩日午夜在线资源一区二区
|
国产精品chinese
|
亚洲激情在线视频
|
亚洲国内高清视频
|
欧美亚洲一区二区三区
|
亚洲免费av网站
|
中日韩美女免费视频网址在线观看
|
亚洲精品国产精品国自产在线
|
欧美一乱一性一交一视频
|
欧美一区亚洲
|