Python网络爬虫实战(三)照片定位与B站弹幕- 学习笔记- 青岛软件培训-选择一家好的青岛软件培训学校，就要看教学质量和口碑

之前两篇已经说完了如何爬取网页以及如何解析其中的数据，那么今天我们就可以开始第一次实战了。

这篇实战包含两个内容。

* 利用爬虫调用Api来解析照片的拍摄位置

* 利用爬虫爬取Bilibili视频中的弹幕

关于爬虫调用Api这一说法，其实就是通过get或者post请求携带着参数，将内容发给对方服务器，服务器会根据请求的Api是哪个来进行处理。

比如说/delete?id=2和/save?id=1&name=antz这两个请求就分别是删除id等于2的数据，保存一条id等于1姓名为antz的数据。

此时我们就只需要向对方服务器发送出这个请求就可以了，requests.get(url)就这么简单。

一.根据照片解析定位

不知道你平常拍照片有没有在你手机的设置里仔细查看过，比如说下面这个选项【地理位置】。

打开它之后，我拍的照片上也没有显示地理位置啊？

这是因为这些数据被放在了照片文件数据里面，可能你很难理解，你可以回想一下之前我们说的get之后的响应，响应体分为响应头和响应体。照片的数据也是一样，有信息头(随便叫的)和数据体，信息头里面有你这张照片的各种信息，拍摄时间地点设备等，而数据体就是你用看图软件打开时显示在你眼中的那些了，我们平常关注到的只有数据体，只关心照片是不是好看，而信息头的内容对我们来说其实无关紧要。

下面是我之前拍的一张照片经过解析获得的信息头数据，从里面可以看到照片尺寸，我的Make设备是HUAWEI，我的镜头数据，时间等等。

在Python中我们可以使用exifread库来解析图片的头信息。

pip install exifread

调用exifread的process_file方法，参数传入file，就可以得到照片的exif信息了。

img_exif = exifread.process_file(open("路径", 'rb'))

返回的img_exif是一个字典数据，我们可以直接根据上面那张头数据里面的标题来拿到对应的数据。

# 纬度数 latitude_gps = img_exif['GPS GPSLatitude']  # N,S 南北纬方向 latitude_direction = img_exif['GPS GPSLatitudeRef']  # 经度数 longitude_gps = img_exif['GPS GPSLongitude']  # E,W 东西经方向 longitude_direction = img_exif['GPS GPSLongitudeRef']

这样我们就拿到南北纬以及经纬度了。

那么如何根据这些数据来获得定位呢？

我们可以利用高德地图开放的Api来将经纬度转换为我们能够直接读懂的位置信息。

url = 'upload/201909181056220080.png" alt="8" style="margin: 0px; padding: 0px; border: 0px; max-width: 900px; height: auto;" />
二.Bilibili弹幕爬虫
先来思考一个问题，B站一个视频的弹幕最多会有多少？
比较多的会有2000条吧，这么多数据，B站肯定是不会直接把弹幕和这个视频绑在一起的。
也就是说，有一个视频地址为upload/201909181056238865.png" alt="9" style="margin: 0px; padding: 0px; border: 0px; max-width: 900px; height: auto;" />
它的响应时间98毫秒，远超其它几个响应，所以说如果把弹幕直接放在视频页面，用户体验一定会很差。
找到弹幕了，爬取它很容易，但是我们想要是爬取固定av号视频的弹幕，而不是说随意去找一个oid来爬取弹幕，这样我们都不知道爬下来的弹幕是哪个视频的。
接下来我们就可以复制oid的117784982值，去视频页面搜索看看了，通过视频来获得它的oid再来爬xml弹幕就很方便了。
这次用了谷歌浏览器，在里面通过搜索oid果然搜索到相关的数据了。
其中cid是弹幕对应的id，aid对应视频av号。
先把这个页面爬取下来。
# encoding: utf-8  import requests  headers = {     'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',     'Accept': 'text/html',     'Cookie': "_uuid=1DBA4F96-2E63-8488-DC25-B8623EFF40E773841infoc; buvid3=FE0D3174-E871-4A3E-877C-A4ED86E20523155831infoc; LIVE_BUVID=AUTO8515670521735348; sid=l765gx48; DedeUserID=33717177; DedeUserID__ckMd5=be4de02fd64f0e56; SESSDATA=cf65a5e0%2C1569644183%2Cc4de7381; bili_jct=1e8cdbb5755b4ecd0346761a121650f5; CURRENT_FNVAL=16; stardustvideo=1; rpdid=|(umY))|ukl~0J'ulY~uJm)kJ; UM_distinctid=16ce0e51cf0abc-02da63c2df0b4b-5373e62-1fa400-16ce0e51cf18d8; stardustpgcv=0606; im_notify_type_33717177=0; finger=b3372c5f; CURRENT_QUALITY=112; bp_t_offset_33717177=300203628285382610"  } resp = requests.get('upload/201909181056231588.png" alt="12" style="margin: 0px; padding: 0px; border: 0px; max-width: 900px; height: auto;" />
观察这里的内容，我们大致的匹配规则就有了。
cid={目标}&aid=av号
117784982就是我们的目标。
av_id = '67946325'  resp = requests.get('upload/201909181056230066.png" style="margin: 0px; padding: 0px; border: 0px;" alt="" />                        随意随意，要是我的文章对你有帮助，可以考虑请我喝瓶阔落。https://www.cnblogs.com/LexMoon/p/pyspider03.html