huyutian

他強(qiáng)由他強(qiáng)，清風(fēng)拂山崗；他橫由他橫，明月照大江。他自狠來他自惡，我自一口真氣足

C++博客 :: 首頁 :: 新隨筆 :: 聯(lián)系 :: 聚合

:: 管理 ::

20 隨筆 :: 47 文章 :: 22 評論 :: 0 Trackbacks

<

2025年12月

>

日

一

二

三

四

五

六

30

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

6

7

8

9

10

常用鏈接

留言簿(15)

隨筆檔案

文章分類

文章檔案

相冊

EC2108

搜索

閱讀排行榜

評論排行榜

pandas使用HDF5格式存儲需要注意的問題

HDF5格式非常適合保存層次化的結(jié)構(gòu)數(shù)據(jù)集合。python下有pytable和h5py兩種接口方式支持存儲HDF5文件，pandas就支持直接讀寫pytable。保存數(shù)據(jù)量不太大（一般控制在2GB以內(nèi)）的日線分鐘線數(shù)據(jù)用h5格式還是很方便的。pandas在讀取h5文件時，可以像數(shù)據(jù)庫一樣進(jìn)行條件檢索。詳細(xì)資料可參考pandas.HDFStore的where參數(shù)。要使column可以在where語句中查詢，保存數(shù)據(jù)文件時需要增加index或者明確指定data_columns。但是指定過多的column為data_columns將會使得性能下降。
網(wǎng)上搜索后找到了關(guān)于pandas存儲HDF5文件性能優(yōu)化的一些建議，原文在這里

1.不使用index，創(chuàng)建出來的HDF文件尺寸會小一些，速度也快一些。
2.通過store.create_table_index() 創(chuàng)建索引，對data_columns進(jìn)行篩選時的速度沒有什么影響。
3.保存HDF時使用壓縮選項對數(shù)據(jù)的讀取速度影響很小，但是壓縮后，文件尺寸會顯著的變小。
使用pandas讀寫hdf5文件示例如下

#write
store=pd.HDFStore("./data/Minutes.h5","a", complevel=9, complib='zlib')
store.put("Year2015", dfMinutes, format="table", append=True, data_columns=['dt','code'])
# read
store=pd.HDFStore("./data/Minutes.h5","r")
store.select("Year2015", where=['dt<Timestamp("2015-01-07")','code=="000570"'])

posted on 2015-12-08 16:38 胡雨田閱讀(11954) 評論(0) 編輯收藏引用

只有注冊用戶登錄后才能發(fā)表評論。




網(wǎng)站導(dǎo)航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品