python 3.x 爬虫基础
python 3.x 爬虫基础---http headers详解
python 3.x 爬虫基础---Requersts,BeautifulSoup4(bs4)
前言
正则表达式是对字符串的一种逻辑公式,用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则的字符串”,此字符串用来表示对字符串的一种“过滤”逻辑。正在在很多开发语言中都存在,而非python独有。对其知识点进行总结后,会写一个demo。
1.正则表达式
python是自1.5开始引进re模块进行处理正则的。我先把正则的匹配规则总结一下,再总结re模块相应的方法。
1.1匹配规则
| 语法 | 解释 | 表达式 | 成功匹配对象 |
|---|---|---|---|
| 一般字符 | 匹配自身相对应的字符 | abc | abc |
| . | 匹配除换行符(\n)以外的任意字符 | a.c | abc |
| \ | 转义字符,可以改变原字符的意思 | a.c | a.c |
| \d | 匹配数字:0~9 | \dabc | 1abc |
| \w | 匹配单词字符,a~z;A~Z;0~9 | \w\w\w | oX2 |
| \s | 匹配空格字符(\t,\n,\r,\f,\v) | a\sc | a c |
| \D | 匹配非数字字符 | \Dabc | aabc |
| \W | 匹配非单词字符 | a\Wc | a c |
| \S | 匹配非空格字符 | \S\Sc | 1bc |
| [] | 字符集,对应位置上可以是字符集里的任意字符 | a[def]c | aec |
| [^] | 对字符集当中的内容进行取反 | a[^def]c | a2c |
| [a-z] | 指定一个范围字符集 | a[A-Z]c | aBc |
| * | 允许前一个字符可以出现0次或者无限次 | a*b | aaab或b |
| + | 前一个字符至少出现1次 | a+b | aaab或ab |
| ? | 前一个字符只能出现一次或者不出现 | a?b | ab或b |
| {m} | 允许前一个字符只能出现m次 | a{3}b | aaab |
| {m,n} | 允许前一个字符至少出现m次,最多出现n次(如果不写n,则代表至少出现m次) | a{3,5}b和a{3,} | aaaab和aaaaaab |
| ^ | 匹配字符串的开始,多行内容时匹配每一行的开始 | ^abc | abc |
|
50000+
5万行代码练就真实本领
17年
创办于2008年老牌培训机构
1000+
合作企业
98%
就业率
|
