selenium爬虫
目录
Web自动化测试工具,可运行在浏览器,根据指令操作浏览器,只是工具,必须与第三方浏览器结合使用,相比于之前学的爬虫只是慢了一点而已。而且这种方法爬取的东西不用在意时候ajax动态加载等反爬机制。因此找标签可以直接F12找,不用确定源码中是否存在。
安装
Linux: sudo pip3 install selenium
Windows: python -m pip install selenium
phantomjs浏览器
phantomjs浏览器又叫做无界面浏览器(又称无头浏览器),在内存中进行页面加载,运行高效。
安装(phantomjs(无界面浏览器)、chromedriver(谷歌浏览器)、geckodriver(火狐浏览器))
Windows
1、下载对应版本的phantomjs、chromedriver、geckodriver
2、chromedriver下载与谷歌浏览器对应的版本,把chromedriver.exe拷贝到python安装目录的Scripts目录下(添加到系统环境变量),查看python安装路径: where python
3、验证,cmd命令行: chromedriver
Linux
1、下载后解压:tar -zxvf geckodriver.tar.gz
2、拷贝解压后文件到 /usr/bin/ (添加环境变量):sudo cp geckodriver /usr/bin/
3、更改权限
sudo -i
cd /usr/bin/
chmod 777 geckodriver
示例代码一:使用 selenium+谷歌浏览器 打开百度,并截图百度首页
from selenium import webdriver browser = webdriver.Chrome() # 创建浏览器对象browser.get('http://www.baidu.com/') # 打开百度browser.save_screenshot('baidu.png') # 截屏browser.quit() # 退出浏览器
示例代码二:打开百度,搜索赵丽颖