流动的水没有形状,漂流的风找不到踪迹,变化的规律无处可寻,这节博客带来的是数据分析工具Pandas。

包括tushare在内的很多财经工具包,都使用pandas进行数据分析。在tushare中,获取数据的格式主要就是pandas中的DataFrame二维表格。

0 Pandas主要数据结构

Pandas有三种数据结构

  • Series:1D labeled homogeneously-typed array
  • DataFrame:General 2D labeled, size-mutable tabular structure with potentially heterogeneously-typed columns
  • Panel: General 3D labeled, also  size-mutable array

1 数据存储

CSV

写入:df.to_cvs(‘foo.csv’)

读取:df.read_csv(‘foo.csv’)

HDF5

读入:df.to_hdf(‘foo.h5′,’df’)

读取:df.read_hdf(‘foo.h5′,’df’)

Excel

读入:df.to_hdf(‘foo.xlsx’,sheet_name=’Sheet1′)

读取:df.read_hdf(‘foo.xlsx’,’Sheet1′,index_col=None, na_values=[‘NA’])

2 引入

matplotlib官网pandas官网 ,pandas快速入门

3 查看数据

3.1 查看头尾数据

3.2 查看行键、列键、数据

3.3 查看数据整体概况,和、平均值、最大、最小值等

查看数据整体情况

查看数据信息

行或列的平均值

转置

根据行、列排序

4 选择数据

选择单列

选择局部

标签选择,通过行键、列键进行选择

位置选择

布尔索引

5 修改数据

读取时将多列并成一排

Series赋值列

赋值单个元素

修改索引

后面的内容不再粘完整结果,如果需要的话参见:Pandas快速入门

6 缺省值处理

去掉缺省值

df1.dropna(how=’any’)

填充缺省值

df1.fillna(value= 5)

判断何处缺失

pd.isnull(df1)

7 操作

偏移,对齐操作

对元素应用函数

直方图统计

字符串操作

8 合并

Concat

Join

Append

9 分组

对键A分组 并对每个组执行sum操作

df.groupby(‘A’).sum() 

df.groupby([‘A’ ‘B’]).sum() 

 

 

 

 

 

 

发表评论

电子邮件地址不会被公开。 必填项已用*标注