创建第一个scrapy工程-糗事百科
最近不少小伙伴儿,问我关于scrapy如何设置headers的问题,时间久了不怎么用,还真有的忘,全靠记忆去写了,为了方便大家参考,也方便我以后的查阅,这篇文章就诞生了。本章内容从实战出发让我们熟悉如何用scrapy写爬虫,本篇内容主要是实战,不讲述过多的理论性东西,因为讲多了我也不知道。😄

明确目标
首先,我们要明确我们的爬虫最终的目的是什么,这里我们要做的是爬取糗事百科的热门分类的前10页信息。包括发布者和内容,因为入门教程所以我们写的简单点主要是熟悉这个过程,这个如何入手呢?
分析链接的变化
一般我们会通过点击下一页,然后观察地址栏的信息来总结规律。
第一页也就是首页地址为:upload/201811021518117308.gif" alt="" style="margin: 0px auto; padding: 0px; border: none; max-width: 100%; height: auto; color: inherit; font-family: "Helvetica Neue", Helvetica, "Hiragino Sans GB", "Microsoft YaHei", Arial, sans-serif; font-size: inherit; letter-spacing: 2px; word-spacing: 2px; line-height: inherit; display: block;" />
于是我们就确定了链接,也就是页数改为1-10就可以访问相应的页数了。
安装scrapy
我们要确保正确安装好了scrapy
针对mac和linux直接运行pip安装即可。
pip install scrapy
但是windows的坑就比较多了,关于windows的安装请参考我之前写的这篇文章
:upload/201811021518161765.gif" alt="" style="margin: 0px auto; padding: 0px; border: none; max-width: 100%; height: auto; color: inherit; font-family: "Helvetica Neue", Helvetica, "Hiragino Sans GB", "Microsoft YaHei", Arial, sans-serif; font-size: inherit; letter-spacing: 2px; word-spacing: 2px; line-height: inherit; display: block;" />
然后我们会发现了多了一个文件名为qiushibaike的文件夹
然后我们通过命令创建一个事例工程
进入qiushibaike
cd qiushibaike
然后用下面scrapy的第二个命令genspider
使用方法 scrapy genspider spider_name domain
spider_name就是爬虫的名字,每一个爬虫有一个名字这个名字是唯一的,后面运行的时候也是通过这个名字来运行的,下面的qsbk就是我们的爬虫名字,domain指定爬虫的域也就是爬虫的范围。查找网页我们发现域名为
scrapy genspider qsbk qiushibaike.com
看到以下命令证明我们成功的创建了项目。
Created spider 'qsbk' using template 'basic' in module:
  qiushibaike.spiders.qsbk

开始编写spider文件
