数据获取——》数据清洗——》数据转换——》数据分析

目前在Python中, numpy和pandas是最主流的工具。
在Python中,尽可能多的使用numpy和pandas中的函数,提高数据清洗的效率
1.可以通过np.array([1,2,3,4])创建一维数组
2. np.array([[1,2,3,4],[5,6,7,8],[9,10,11,12]])创建多维数组
3. 可以使用其他函数例如arange、linspace、zeros等创建 np.arange(0,10,1) np.linspace(1,10,10) np.zeros([2,3])
4. 常用方法
5.常用数据清洗函数
1.series序列
2.series方法
3.dataframe



4.dataframe方法




1.使用read_csv/read_excel方法读取,结果为dataframe格式
2.在读取csv文件时,文件名称尽量是英文
3.读取csv时,注意编码,常用编码为utf-8、gbk 、gbk2312和gb18030等
4.使用to_csv/to_excel方法快速保存
1.使用sqlalchemy建立连接
2.pandas中read_sql 函数读入,读取完以后是dataframe格式
3.dataframe的to_sql方法保存
df.to_sql(name, con=engine, if_exists=‘replace/append/fail’,index=False)
name:表名; con:连接;
if_exists:表如果存在怎么处理。三个选项 append代表追加, replace代表删除原表,建立新表,fail代表什么都不干;index=False:不插入索引index
4.建立连接
conn=create_engine(‘mysql+pymysql://root:passward@IP:3306/test01’)
root: 用户名;passward: 密码;IP : 服务器IP,本地电脑用localhost;3306: 端口号; test01 : 数据库名称
df.info() #查看数据
df.head(5) #查看前5行
df.tail(5) #查看后5行
df[‘id’] #简单索引
df[‘id’][1:5] #第二行到第五行
df[[‘id’,‘name’,‘score’]][:5] #多个变量选择,前5行
loc与iloc
loc

iloc

**loc 与 iloc区别**
1.增加一列

2.插入一列

3.删除一列

4.drop删除行和列

1.数据修改



一般均为纵向合并,即使用concat时,axis =1(0代表横向);注意join取inner或者outer时,分别代表交集和并集



1.Pandas中使用to_datetime()方法将文本格式转换为日期格式

2.dataframe数据类型如果为datetime64,可以使用dt方法取出年月日等

3.对于时间差数据,可以使用timedelta函数将其转换为指定时间单位的数值

4.时间差数据,可以使用dt方法访问其常用属性