数据预处理也有套路的

 数据挖掘的核心是什么?这个的答案是算法应该没什么疑问。那数据挖掘的基石又是什么呢?那就是今天我们要来说的数据预处理。

什么是数据预处理?

复制代码

import pandas as pd import numpy as np
复制代码

导入数据集

我们已经导入库了,接下来我们需要获取数据集。在我本地里,我将我的数据集文件命名为‘profess’,它的格式为.csv。

#读取数据(我的数据集文件跟我的python文件在同一目录下)

data = pd.read_csv("profess.csv")
 

导入数据集后,我们输出看下它的格式如何

print(data)

good!我们成功得将数据集导入测试环境中。

数据清洗--查看缺失值

为了成功管理数据,缺失值的概念很重要。如果工程师没有正确处理缺失值,可能最后得出关于数据的推断是不准确的。 我们再来仔细看下我们的数据的缺失值情况,用 pandas 库的 isnull 函数来看看。

print(data.isnull().sum())

 

我们可以发现 Age,Salary列都有缺失值(就是为空的值),缺失值数量都为1。处理缺失值有7种处理方法,我们这里说说比较常用的两种。

1、此方法经常用于处理空值,如果某行有特定特征d的空值,就删除此行。如果特定列具有超过75%的缺失值,就删除特定列。不过我们要在确保样本数据足够多的情况下,采用这个方法。因为我们要确保删除数据后,不会增加偏差。

复制代码
data.dropna(inplace=True)  print(data.isnull().sum())
复制代码

 

2、这个方法适用于具有年份或者年龄,金额等数字数据的功能。我们可以计算特征的均值,中值或众数,将其替换为缺失值。与第一种方法相比,这种可以抵消数据的缺失,产生更好的效果。

我们用来看一下操作

复制代码
# 将 Age 列中为空的值替换为 Age 的中位数。# medain()是 pandas 库的求中位数的方法 data['Age'] = data['Age']             .replace(np.NaN,data['Age']             .median())              print(data['Age'])
复制代码

 

关键字:
50000+
5万行代码练就真实本领
17年
创办于2008年老牌培训机构
1000+
合作企业
98%
就业率

联系我们

电话咨询

0532-85025005

扫码添加微信