Python数据分析之pandas入门 一、pandas库简介

 pandas是一个专门用于数据分析的开源Python库,目前很多使用Python分析数据的专业人员都将pandas作为基础工具来使用。pandas是以Numpy作为基础来设计开发的,Numpy是大量Python数据科学计算库的基础,pandas以此为基础,在计算方面具有很高的性能。pandas有两大数据结构,这是pandas的核心,数据分析的所有任务都离开它们,分别是Series和DataFrame。

 

二、pandas库的安装

paandas安装较为简单,如果使用Anaconda的话,就在终端输入命令 “conda install pandas” 就能安装;如果电脑安装了pip的话,就在终端输入命令 “pip install pandas” 就能安装成功。安装完成后,可以在终端输入 “import pandas as pd” ,测试pandas是否安装成功。
 

三、Series的使用

Series用来表示一维数据结构,跟数组类似,它由两个相关联的数组组成,其中一个叫index的数组用来存储标签,这些标签与另一个数组中的元素一一对应。如下图所示:

声明Series对象时,需要调用Series()构造函数,并传入一个数组作为Series的主数组,比如:
复制代码
import pandas as pd ser=pd.Series([12,33,55,66]) print(ser)  '''输出为 0    12 1    33 2    55 3    66 dtype: int64 '''
复制代码

运行上面的代码,可以知道,如果不指定标签,那么默认标签就是从0开始递增,我们也可以在声明一个Series对象时给它指定标签:

复制代码
import pandas as pd ser=pd.Series([12,33,55,66],index=['a','s','d','f']) print(ser)  '''输出为: a    12 s    33 d    55 f    66 dtype: int64 '''
复制代码
我们可以通过Series的index很方便得到其内部元素,或者为某元素赋值:

 

复制代码
import pandas as pd ser=pd.Series([12,33,55,66]) print(ser[2]) ser[2]=99print(ser[2])  '''输出为: 55 99 '''
复制代码
Series对象可以进行运算,比如加减乘除,也可以使用Numpy中的数学函数来对它进行计算:

 

复制代码
import pandas as pd ser=pd.Series([12,33,55,66]) ser2=ser/2print(ser2)  import numpy as np print(np.log(ser))  '''输出为: 0     6.0 1    16.5 2    27.5 3    33.0 dtype: float64 0    2.484907 1    3.496508 2    4.007333 3    4.189655 dtype: float64 '''
复制代码
从上面可以看出,Series对象似乎跟字典很相似,我们可以把Series对象当作字典来使用,我们在创建Series对象时,将创建好的字典传入Series的构造函数即可,这样字典的键就组成了索引数组,每个索引对应的元素就是字典中对应的值:

 

复制代码
import
                    
50000+
5万行代码练就真实本领
17年
创办于2008年老牌培训机构
1000+
合作企业
98%
就业率

联系我们

电话咨询

0532-85025005

扫码添加微信