pandas的安装与基本使用方法

2018.10.09

简介

一个高效数据处理库,建立在Numpy基础上。

安装

$ pip install pandas #pip安装
$ conda install pandas #conda安装

导入方法

1
import pandas as pd

基本使用方法

使用前,需要了解pandas有三种常见的数据结构,依次是:Series(序列),DateFrame(数据框),Panel(面板)。可以这样理解,Panel是DateFrame的容器,DateFrame是Series的容器。DateFrame是最常用的数据结构。

所以本文档先介绍DateFrame的相关操作:
DateFrame是二维的带标签的各列数据类型可以不同的数据结构。可以想象成电子表格或者字典序列数据结构。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
# 创建一个空的DataFrame
import pandas as pd
df = pd.DataFrame()
print(df)

#从列表创建DataFrame
import pandas as pd
data = [1,2,3,4,5]
df = pd.DataFrame(data)
print(df)

#使用字典结构创建DataFrame
import pandas as pd
data = {'Name':['Tom', 'Jack', 'Steve', 'Ricky'],'Age':[28,34,29,42]}
df = pd.DataFrame(data)
print(df)

#通过传递columns参数来设置各列的顺序
pd.DataFrame(data,columns=['Age','Name'])

#通过index参数定义各行标签
pd.DataFrame(data,index=['a','b','c','d'])

#选择特定列
df['Age']

#删除特定列
del df['Age']

#插入特定列
df.insert(0,'Age',[1,2,3,4])

读写数据

  • pandas提供了多种读/写数据的接口,读/写数据的范围主要包括读取文本数据,从数据库中读取数据,和其他库中的数据交互。
  • pandas可以读取各种格式的文本数据,并将它们转换成DataFrame(数据框)。
  • read_csv和read_table是读取文本数据的两个重要函数。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
#直接读取CSV文件
import pandas as pd
df=pd.read_csv('./example_1.csv')
print(df)

#使用read_table读取文件(需定义分隔符)
df=pd.read_table('./example_1.csv',sep=',')
print(df)

#head默认为第一行数据
df.head

#把数据写入文本中(以下为例子)
import numpy as np
import pandas as pd
data=pd.DataFrame(np.random.rand(4,4))
data.to_csv('./example_2.csv')

推荐阅读