何使用 scikit-learn 为机器学习准备文本数据- 学习笔记- 青岛软件培训-选择一家好的青岛软件培训学校，就要看教学质量和口碑

何使用 scikit-learn 为机器学习准备文本数据

2018-02-28 15:20

欢迎大家前往

词袋模型（ Bag-of-Words Model ）

使用机器学习算法时，我们不能直接使用文本。

相反，我们需要将文本转换为数字。

我们可能想对文档进行分类，每一类文档都是“输入”，而类别标签是我们预测算法的“输出”。算法将数字向量作为输入，因此我们需要将文档转换为固定长度的数字向量。

在机器学习中，Bag-of-Words 模型（BoW）是一种简单而有效的让计算机“理解”文本文档的模型。

这个模型非常简单，它移除了单词的诸如词序、语法等顺序信息，只关注文档中该单词的出现情况。

上面这一步可以通过为每个单词分配一个唯一的编码来完成。我们所看到的任何文档都可以被编码为一个固定长度的矢量，其长度为文档中全部已知单词的词汇量。矢量中每个位置的值可以用编码文档中每个单词的出现个数或频率填充。

在词袋模型中，我们只关心编码方案，而编码方案描述了文档中出现了什么单词，以及这些单词在编码文档中出现的频率，而没有任何关于顺序的信息。

有很多方法来扩展这个简单的方法，例如，我们可以想办法更好地解释一个单词的含义，或是更好地规定向量中每个单词的编码方式。

scikit-learn 库提供了3种不同的方案供我们使用，下面简要地介绍一下。

使用 CountVectorizer 计算字数

from sklearn.feature_extraction.text import CountVectorizer  # 下面是一个文本文档的列表  text = ["The quick brown fox jumped over the lazy dog."]  # 实例化 CountVectorizer 类  vectorizer = CountVectorizer()  # 标记并建立索引  vectorizer.fit(text)  # 查看结果  print(vectorizer.vocabulary_)  # 编码文档  vector = vectorizer.transform(text)  # 查看编码后的向量  print(vector.shape)  print(type(vector))  print(vector.toarray())

在上面的代码中，如下一行是用来帮助我们访问这个索引并查看标记的结果的：

print(vectorizer.vocabulary_)

我们可以看到，所有的单词默认都是小写字母，标点符号也被忽略了。标记的许多方面都是可以配置的，您可以查看API文档中的所有选项。

运行示例之后，首先输出的是索引，然后输出的是编码文档的结构。我们可以看到索引中有8个词，因此编码向量长度为 8。

从接下来输出的类型中可以看出，编码向量是一个稀疏向量。而最后的输出是编码向量的数组版本，其表达的含义是，索引值为 7 的单词出现次数为 2，其余单词出现次数为 1。

{'dog': 1, 'fox': 2, 'over': 5, 'brown': 0, 'quick': 6, 'the': 7, 'lazy': 4, 'jumped': 3}  (1, 8)  <class 'scipy.sparse.csr.csr_matrix'>  [[1 1 1 1 1 1 1 2]]

重要的是，同一个矢量化器可以用在包含词汇表中没有包括的单词的文档上。不过，没有包括的词会被忽略，并且不会在结果向量中计数。

举个例子，下面是使用上述向量化器对另一个文档进行编码的例子。这个文本文档包含两个词，一个词包含在索引中，另一个不包含在索引中。

将另一个文档编码

text2 = ["the puppy"]  vector = vectorizer.transform(text2)  print(vector.toarray())

运行这个例子，会输出编码的稀疏向量的数组版本，从这个输出中可以看出，在词汇中出现的单词的没有被忽略，而另一个不在词汇中的单词被忽略了。

[[0 0 0