Pandas 是 Python 的核心数据分析支持库,拥有快速、灵活、明确的数据结构,旨在简单、直观、快速地处理关系型、标记型数据,是一款强大、灵活的开源数据分析工具。
目录
一、生成数据表
二、数据表信息查看
三、数据表清洗
四、数据预处理
五、数据提取
六、数据筛选
七、数据汇总
八、数据统计
九、数据输出
之后有时间会按照以上目录补充内容
一、数据生成
1、导入CSV或者xlsx文件的方法:
df = pd.DataFrame(pd.read_csv('文件名.csv',header=1))
df = pd.DataFrame(pd.read_excel('文件名.xlsx'))
2、创建dataframe数据表
DataFrame 一个表格型的数据结构,既有行标签(index),又有列标签(columns),它也被称异构数据表,所谓异构,指的是表格中每列的数据类型可以不同,比如可以是字符串、整型或者浮点型等。
import pandas as pd pd.DataFrame( data, index, columns, dtype, copy)参数说明:
参数名称 | 说明 |
---|---|
data | 输入的数据,可以是 ndarray,series,list,dict,标量以及一个 DataFrame。 |
index | 行标签,如果没有传递 index 值,则默认行标签是 np.arange(n),n 代表 data 的元素个数。 |
columns | 列标签,如果没有传递 columns 值,则默认列标签是 np.arange(n)。 |
dtype | dtype表示每一列的数据类型。 |
copy | 默认为 False,表示复制数据 data。 |
推荐阅读:http://c.biancheng.net/pandas/dataframe.html
二、数据表信息查看
1、维度查看:df.shape2、数据表基本信息(维度、列名称、数据格式、所占空间等):df.info()
3、每一列数据的格式:df.dtypes
4、某一列格式:df['B'].dtype
5、空值:df.isnull()
6、查看某一列空值:df['B'].isnull()
7、查看某一列的唯一值:df['B'].unique()
8、查看数据表的值:df.values
9、查看列名称:df.columns
10、查看前5行数据 df.head()、后5行数据:df.tail()
三、pandas删除指定行或列
# 删除列,注意:结果返回的是一个新对象,原对象不会被改变 df.drop(['ca'],axis=1) # 删除多列 df.drop(['ca','te'],axis=1) # 删除行 df.drop(['a']) # 按列条件删除行 df.drop(df[df.oh>3].index) 查找指定数值的索引 z=df.query('user_id=="326541"').index #删除指定索引并重建索引 z=df.drop(z).reset_index(drop=True)
如需转载请保留本文出处: https://zhe94.com/917.html