数据预处理也有套路的

2019-01-08 16:40

万码学堂

数据挖掘的核心是什么？这个的答案是算法应该没什么疑问。那数据挖掘的基石又是什么呢？那就是今天我们要来说的数据预处理。

什么是数据预处理？

复制代码

import pandas as pd import numpy as np

导入数据集

我们已经导入库了，接下来我们需要获取数据集。在我本地里，我将我的数据集文件命名为‘profess’，它的格式为.csv。

#读取数据（我的数据集文件跟我的python文件在同一目录下）

data = pd.read_csv("profess.csv")

导入数据集后，我们输出看下它的格式如何

print(data)

good!我们成功得将数据集导入测试环境中。

数据清洗--查看缺失值

为了成功管理数据，缺失值的概念很重要。如果工程师没有正确处理缺失值，可能最后得出关于数据的推断是不准确的。我们再来仔细看下我们的数据的缺失值情况，用 pandas 库的 isnull 函数来看看。

print(data.isnull().sum())

我们可以发现 Age,Salary列都有缺失值（就是为空的值），缺失值数量都为1。处理缺失值有7种处理方法，我们这里说说比较常用的两种。

1、此方法经常用于处理空值，如果某行有特定特征d的空值，就删除此行。如果特定列具有超过75%的缺失值，就删除特定列。不过我们要在确保样本数据足够多的情况下，采用这个方法。因为我们要确保删除数据后，不会增加偏差。

data.dropna(inplace=True)  print(data.isnull().sum())

2、这个方法适用于具有年份或者年龄，金额等数字数据的功能。我们可以计算特征的均值，中值或众数，将其替换为缺失值。与第一种方法相比，这种可以抵消数据的缺失，产生更好的效果。

我们用来看一下操作

# 将 Age 列中为空的值替换为 Age 的中位数。# medain()是 pandas 库的求中位数的方法 data['Age'] = data['Age']             .replace(np.NaN,data['Age']             .median())              print(data['Age'])

关键字：

可能你正在寻找一家靠谱的IT培训机构，渴望突破职业瓶颈，找一份得体的工作。恰巧万码学堂正在寻找像你这样不甘平凡的追光者！我们拒绝纸上谈兵，直接参与真实开发流程！
现在行动，未来可期‌
立即拨打0532-85025005，预约免费职业规划咨询前20名咨询者赠送《2025高薪技术岗位白皮书》!
你不是在报名课程，而是在投资五年后的自己！

申请免费试听课程

50000+

5万行代码练就真实本领

17年

创办于2008年老牌培训机构

1000+

合作企业

98%

就业率

联系我们

电话咨询

0532-85025005

万码学堂2025年课程全面升级

数据预处理也有套路的

什么是数据预处理？

青岛软件培训

联系我们

电话咨询

扫码添加微信