爬虫——网页解析利器--re & xpath
目录
正则解析模块re
re模块使用流程
方法一
r_list=re.findall('正则表达式',html,re.S)
方法二 创建正则编译对象
pattern = re.compile('正则表达式',re.S)
r_list = pattern.findall(html)
正则表达式元字符:https://www.cnblogs.com/LXP-Never/p/9522475.html
类别 | 元字符 |
匹配字符 | . [...] [^...] \d \D \w \W \s \S |
匹配重复 | * + ? {n} {m,n} |
匹配位置 | ^ $ \A \Z \b \B |
其他 | | () \ |
匹配任意一个字符的正则表达式
import re pattern = re.compile('.',re.S) # 方法一pattern = re.compile('[\s\S]') # 方法二
贪婪匹配和非贪婪匹配
贪婪匹配(默认)
- 在整个表达式匹配成功的前提下,尽可能多的匹配 * + ?
- 表示方式: .* .+ .?