新手学习爬虫之创建第一个完整的scrapy工程-糗事百科- 学习笔记- 青岛软件培训-选择一家好的青岛软件培训学校，就要看教学质量和口碑

创建第一个scrapy工程-糗事百科

最近不少小伙伴儿，问我关于scrapy如何设置headers的问题，时间久了不怎么用，还真有的忘，全靠记忆去写了，为了方便大家参考，也方便我以后的查阅，这篇文章就诞生了。本章内容从实战出发让我们熟悉如何用scrapy写爬虫，本篇内容主要是实战，不讲述过多的理论性东西，因为讲多了我也不知道。😄

明确目标

首先，我们要明确我们的爬虫最终的目的是什么，这里我们要做的是爬取糗事百科的热门分类的前10页信息。包括发布者和内容，因为入门教程所以我们写的简单点主要是熟悉这个过程，这个如何入手呢？

分析链接的变化

一般我们会通过点击下一页，然后观察地址栏的信息来总结规律。
第一页也就是首页地址为：upload/201811021518117308.gif" alt="" style="margin: 0px auto; padding: 0px; border: none; max-width: 100%; height: auto; color: inherit; font-family: "Helvetica Neue", Helvetica, "Hiragino Sans GB", "Microsoft YaHei", Arial, sans-serif; font-size: inherit; letter-spacing: 2px; word-spacing: 2px; line-height: inherit; display: block;" />
于是我们就确定了链接，也就是页数改为1-10就可以访问相应的页数了。

安装scrapy

我们要确保正确安装好了scrapy
针对mac和linux直接运行pip安装即可。

pip install scrapy

但是windows的坑就比较多了，关于windows的安装请参考我之前写的这篇文章
:upload/201811021518161765.gif" alt="" style="margin: 0px auto; padding: 0px; border: none; max-width: 100%; height: auto; color: inherit; font-family: "Helvetica Neue", Helvetica, "Hiragino Sans GB", "Microsoft YaHei", Arial, sans-serif; font-size: inherit; letter-spacing: 2px; word-spacing: 2px; line-height: inherit; display: block;" />
然后我们会发现了多了一个文件名为qiushibaike的文件夹
然后我们通过命令创建一个事例工程
进入qiushibaike

cd qiushibaike

然后用下面scrapy的第二个命令genspider
使用方法 scrapy genspider spider_name domain
spider_name就是爬虫的名字，每一个爬虫有一个名字这个名字是唯一的，后面运行的时候也是通过这个名字来运行的，下面的qsbk就是我们的爬虫名字，domain指定爬虫的域也就是爬虫的范围。查找网页我们发现域名为

scrapy genspider qsbk qiushibaike.com

看到以下命令证明我们成功的创建了项目。

Created spider 'qsbk' using template 'basic' in module:
  qiushibaike.spiders.qsbk

开始编写spider文件

关键字：

万码学堂2025年课程全面升级

新手学习爬虫之创建第一个完整的scrapy工程-糗事百科

创建第一个scrapy工程-糗事百科

明确目标

分析链接的变化

安装scrapy

开始编写spider文件

青岛软件培训

联系我们

电话咨询

扫码添加微信