【Python3爬虫】为什么你的博客没人看呢?

 我相信对于很多爱好和习惯写博客的人来说,如果自己的博客有很多人阅读和评论的话,自己会非常开心,但是你发现自己用心写的博客却没什么人看,多多少少会觉得有些伤心吧?我们今天就来看一下为什么你的博客没人看呢?

 

一、页面分析

首先进入

所携带的参数是这样的:

我们很容易就知道只需要改变PageIndex的数值就能实现翻页了。

 

二、解析网页

返回的结果如下图:

 

我们可以很方便的使用xpath来解析,相关代码如下:

复制代码
1 et = etree.HTML(html) 2 title_list = et.xpath('//*[@class="post_item_body"]/h3/a/text()')  # 标题3 author_list = et.xpath('//*[@class="post_item_foot"]/a/text()')  # 作者4 time_list = et.xpath('//*[@class="post_item_foot"]/text()')  # 发布时间5 read_list = et.xpath('//*[@class="post_item_foot"]/span[2]/a/text()')  # 阅读数6 comment_list = et.xpath('//*[@class="post_item_foot"]/span[1]/a/text()')  # 评论数
复制代码

这里得到的数据都是”发布于 2019-01-23 14:16“、”评论(0)“、”阅读(86)“这种,这样显然不利于我们对数据进行分析,所以还需要进行一下处理,相关代码如下:

复制代码
1 # 处理数据2 time_list = [i.strip().lstrip('发布于 ') for i in time_list if i.strip() != ''] 3 comment_list = [int(i.strip().strip('评论(').rstrip(')')) for i in comment_list] 4 read_list = [int(i.strip().strip('阅读(').rstrip(')')) for i in read_list]
复制代码

 

三、存储数据

这次我使用的数据库是MySQL数据库,首先创建一个数据表blogs,SQL代码如下:

                        
关键字:
50000+
5万行代码练就真实本领
17年
创办于2008年老牌培训机构
1000+
合作企业
98%
就业率

联系我们

电话咨询

0532-85025005

扫码添加微信