这是简易数据分析系列的第 12 篇文章。

前面几篇文章我们介绍了 Web Scraper 应对各种翻页的解决方法,比如说

今天我们就学学,Web Scraper 怎么对付这种类型的网页翻页。

其实我们在本教程的第一个例子,

但当时我们是找网页链接规律抓取的,没有利用分页器去抓取。因为当一个网页的链接变化规律时,控制链接参数抓取是实现成本最低的;如果这个网页进可以翻页,但是链接的变化不是规律的,就得去会一会这个分页器了。

说这些理论有些枯燥,我们举个翻页链接不规律的例子。

8 月 2 日是蔡徐坤的生日,为了表达庆祝,在微博上粉丝们给坤坤刷了 300W 的转发量,微博的转发数据正好是用分页器分割的,我们就分析一下微博的转发信息页面,看看这类数据怎么用 Web Scraper 抓取。

这条微博的直达链接是:

https://weibo.com/1776448504/I0gyT8aeQ?type=repost

看了他那么多的视频,为了表达感激,我们可以点进去出为坤坤加一份阅读量。

首先我们看看第 1 页转发的链接,长这个样子:

https://weibo.com/1776448504/I0gyT8aeQ?type=repost

第 2 页长这个样子,注意到多了个 #_rnd1568563840036参数:

https://weibo.com/1776448504/I0gyT8aeQ?type=repost#_rnd1568563840036

第 3 页参数为 #_rnd1568563861839

https://weibo.com/1776448504/I0gyT8aeQ?type=repost#_rnd1568563861839

第 4 页参数为 #_rnd1568563882276

https://weibo.com/1776448504/I0gyT8aeQ?type=repost#_rnd1568563882276

多看几个链接你就可以发现,这个转发网页的网址毫无规律可言,所以只能通过分页器去翻页加载数据。下面就开始我们的实战教学环节。

1.创建 SiteMap

我们首先创建一个 SiteMap,这次取名为 cxk,起始链接为 https://weibo.com/1776448504/I0gyT8aeQ?type=repost

2.创建容器的 selector

因为我们要点击分页器,外面的容器的类型我们选为