一起学爬虫——PyQuery常用用法总结- 学习笔记- 青岛软件培训-选择一家好的青岛软件培训学校，就要看教学质量和口碑

什么是PyQuery PyQuery是一个类似于jQuery的解析网页工具，使用lxml操作xml和html文档，它的语法和jQuery很像。和XPATH，Beautiful Soup比起来，PyQuery更加灵活，提供增加节点的class信息，移除某个节点，提取文本信息等功能。初始化PyQuery对象 html文档的所有操作都需要PyQuery对象来完成，初始化PyQuery对象主要有三种方式，分别是通过网址、字符串和文件名创建。方式一：通过网址初始化PyQyery对象先看一段代码： from pyquery import PyQuery as pq s = 'PyQuery用法总结<title></html>' doc = pq(s) print(doc('title')) 运行结果： <title>PyQuery用法总结首先要import PyQuery类，然后将字符串传递给PyQuery类，这样就生成了一个PyQuery对象，通过该对象就可以访问字符串中的title节点。 PyQuery还会将残缺的html文档补全。看下面的代码： from pyquery import PyQuery as pq s = 'PyQuery用法总结' doc = pq(s) print(doc('html')) 运行的结果： PyQuery用法总结可以我们的字符串的html节点是没有闭合的，并且缺少head节点。初始化PyQuery对象之后，会把html文档补全，并且自动加上head节点。方式二：URL网址初始化PyQyery对象将要解析的URL网址当做参数传递给PyQuery类： from pyquery import PyQuery as pq url = 'http://www.bigdata17.com' doc = pq(url=url,encoding='utf-8') print(doc('title')) 运行结果： Home - Summer哥的自留地方式三：通过文件初始化PyQyery对象这个方式也比较常用，很多时候我们会将网站爬取下来然后保存在本地磁盘： from pyquery import PyQuery as pq doc = pq(filename='test_pyquery.html',encoding='utf-8') print(doc('title')) 访问节点属性：使用attr()方法访问节点的属性: from pyquery import PyQuery as pq li = pq('

')('li') print(li.attr("id")) 运行结果： test1 上面的代码中有两个id不同的li节点，但是attr()方法只取第一个li节点的id属性值，而不取第二个，我们把上面的代码修改下，把第一个li节点的id属性去掉，attr方法是否只取第一个复合条件节点的属性值： from pyquery import PyQuery as pq li = pq('

')('li') print(li.attr("id")) 运行结果： None 第一个li节点没有id属性，因此返回结果为None，所以可见，attr()方法返回的是第一个节点的属性值。那要取多个li节点的属性值，要怎么做呢？这就要结合items()方法来实现。items()方法是返回的节点的生成器generator object PyQuery.items： from pyquery import PyQuery as pq li = pq('

')('li') print(li.items()) for item in li.items(): print(item.attr("id")) 运行结果： test1 test2 动态添加节点属性 PyQuery有很多方法动态添加节点的属性，我们挑选几个比较常用的方法介绍个大伙。 addClass(),动态添加节点class属性： from pyquery import PyQuery as pq html = '

' li = pq(html)('li') li.addClass("addClass") print(li) 运行结果：

可见li节点的calss属性值有test1变为test1 addclass。 addClass()方法只能动态添加节点class属性的值，能不能动态添加其他属性呢？答案是当然可以，attr()方法就可以实现： from pyquery import PyQuery as pq html = '

' li = pq(html)('li') li.attr("name","li name") print(li) li.attr("type","li") print(li) print(li.attr("type")) 运行结果：

li 上面的代码一共执行了3次attr()方法，执行第一次attr()方法时，有两个参数，分别是name和li name。这是给li节点添加name属性及属性值。执行第二次attr()方法也有两个参数，分别是type和li，这是给li几点添加type属性及type属性值。执行第三次方法attr()方法只有一个type参数，根据前面介绍的attr()方法的用法可知，是获取li节点type属性的值。小结： attr()方法只有一个参数时，是获取节点的属性值，有两个参数时，是给节点添加属性及属性值，第一个参数时属性，第二个参数时属性值。 removeClass(),动态移除节点的class属性： from pyquery import PyQuery as pq html = '

' li = pq(html)('li') li.removeClass("test1") print(li) 运行结果：

将class节点的属性值有test1变为“”。动态添加/修改文本值 PyQuery支持动态给节点添加文本值： from pyquery import PyQuery as pq html = '

' li = pq(html)('li') li.html("use html() dynamic add text") print(li) li.text("use text() dynamic add text") print(li) 运行结果：

use html() dynamic add text

use text() dynamic add text

可见使用html()和text()方法都可以动态的给节点添加或修改节点的文本值。获取节点文本值 PyQuery提供text()和html()方法获取节点的文本属性值： from pyquery import PyQuery as pq html = '

li text value

' li = pq(html)('li') print(li.text()) print(li.html()) 运行结果： li text value li text value 小结： html()和text()如果没参数，则是获取属性的文本值，如果有参数，则是改变或者添加节点的属性值。移除节点： remove()方法可以动态移除节点： from pyquery import PyQuery as pq html = '''

hello I am li tag

''' ul = pq(html)('ul') print(ul.text()) print('执行remove()移除节点') ul.find('li').remove() print(ul.text()) 运行结果： hello I am ul tag hello I am li tag 执行remove()移除节点 hello I am ul tag 上述代码的ul节点中有个li节点，执行ul.text()方法会返回包括li节点的文本信息，如果我们不想返回li节点的文本信息，仅仅只需要ul节点的文本信息“hell I am ul tag”，要怎么做呢？这时候remove()方法就派上用场了，它删除掉ul节点内的li节点。查找节点 PyQuery支持使用css的.和#来查找节点： from pyquery import PyQuery as pq html = '''