huyutian

他強由他強，清風拂山崗；他橫由他橫，明月照大江。他自狠來他自惡，我自一口真氣足

C++博客 :: 首頁 :: 新隨筆 :: 聯系 :: 聚合

:: 管理 ::

20 隨筆 :: 47 文章 :: 22 評論 :: 0 Trackbacks

<

2025年12月

>

日

一

二

三

四

五

六

30

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

6

7

8

9

10

常用鏈接

留言簿(15)

隨筆檔案

文章分類

文章檔案

相冊

EC2108

搜索

閱讀排行榜

評論排行榜

關于pandas的DataFrame的一個性能問題

最近經常用pandas進行一些數據分析，感覺功能確實很強大，上手也還比較方便。但是無意見發現了一個關于DataFrame和Series賦值的性能問題。
從網上摘取一些數據一條一條的放入DataFrame中，當數據量較大時，感覺運行特別慢。原來還以為是DataFrame運算時比較耗時，但是用二維list數組讀取數據，然后一次性放入DataFrame中卻會快很多。寫了一個簡單的測試程序進行對比。

1 """
2 Created on Sun Jul 12 16:29:57 2015
3 @author: hbhuyt
4 """
5
6 import pandas as pd
7 import random
8 import timeit
9
10
11 def func1():
12     aa = []
13     for x in xrange(200):
14         aa.append([random.randint(0, 1000) for r in xrange(5)])
15     pdaa = pd.DataFrame(aa)
16
17 def func2():
18     pdbb = pd.DataFrame()
19     for y in xrange(200):
20         pdbb[y] = pd.Series([random.randint(0, 1000) for r in xrange(5)])
21
22 def func3():
23     aa = {}
24     for x in xrange(200):
25         aa[str(x)] = random.randint(0, 1000)
26     psaa = pd.Series(aa)
27
28 def func4():
29     psbb = pd.Series()
30     for y in xrange(200):
31         psbb[str(y)] = random.randint(0, 1000)
32
33
34 t1 = timeit.timeit(stmt =func1, number=1000)
35 t2 = timeit.timeit(stmt =func2, number=1000)
36 print t1, t2
37 t3 = timeit.timeit(stmt =func3, number=1000)
38 t4 = timeit.timeit(stmt =func4, number=1000)
39 print t3, t4
40

測試結果如下圖：

可以看出DataFrame一行一行的填充數據是非常耗時的（與添加行的列數關系不大），最好是list或dict等標準容器填充數據后一次性導入到DataFrame中去。

posted on 2015-08-11 09:15 胡雨田閱讀(6939) 評論(0) 編輯收藏引用所屬分類: 編程技巧

只有注冊用戶登錄后才能發表評論。


相關文章: 關于pandas的DataFrame的一個性能問題關于python字典key值查找效率的測試從dll文件自動生成lib文件 python自學筆記（六） python自學筆記（五） python技巧摘錄（一） python自學筆記（四） python自學筆記（三） python自學筆記（二） python自學筆記（一）

網站導航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品