我相信对于很多爱好和习惯写博客的人来说,如果自己的博客有很多人阅读和评论的话,自己会非常开心,但是你发现自己用心写的博客却没什么人看,多多少少会觉得有些伤心吧?我们今天就来看一下为什么你的博客没人看呢?
一、页面分析
所携带的参数是这样的:

我们很容易就知道只需要改变PageIndex的数值就能实现翻页了。
二、解析网页
返回的结果如下图:

我们可以很方便的使用xpath来解析,相关代码如下:
1 et = etree.HTML(html) 2 title_list = et.xpath('//*[@class="post_item_body"]/h3/a/text()') # 标题3 author_list = et.xpath('//*[@class="post_item_foot"]/a/text()') # 作者4 time_list = et.xpath('//*[@class="post_item_foot"]/text()') # 发布时间5 read_list = et.xpath('//*[@class="post_item_foot"]/span[2]/a/text()') # 阅读数6 comment_list = et.xpath('//*[@class="post_item_foot"]/span[1]/a/text()') # 评论数
这里得到的数据都是”发布于 2019-01-23 14:16“、”评论(0)“、”阅读(86)“这种,这样显然不利于我们对数据进行分析,所以还需要进行一下处理,相关代码如下:
1 # 处理数据2 time_list = [i.strip().lstrip('发布于 ') for i in time_list if i.strip() != ''] 3 comment_list = [int(i.strip().strip('评论(').rstrip(')')) for i in comment_list] 4 read_list = [int(i.strip().strip('阅读(').rstrip(')')) for i in read_list]
三、存储数据
这次我使用的数据库是MySQL数据库,首先创建一个数据表blogs,SQL代码如下:

