一、正则表达式
^:以什么开始
.:任意字符
*:前面字符匹配任意多次
$:结尾字符必须是$符号之前的字符
?:非贪婪匹配模式
+:出现至少一次
{2}:限定前面字符出现的次数
{2,}:以上
{2,3}:之间
|:或关系
[abc]:满足任意一个就可以
[a-z::区间中任意一个
[^1]:取反
\s:空格字符
\S:费空格字符
\w:a-zA-Z0-9_
\W:
[\u4E00-\u9FA5]:汉字
\d:数字
二、xpath语法
xapth使用路径表达式在xml和html中进行导航
xpath包含标准函数库
xpath是一个w3cb标准
1、父节点
2、子节点
3、兄弟节点
4、先辈节点
5、后代节点
article: 获取article元素的所有子节点
/article: 获取根元素article
article/a: 获取article下的子元素的a元素
//div: 获取所有div元素
article//div: 获取属于article元素的后代div元素
//@class: 获取所有名为class的属性
/article/div[1]: 获取article子元素的第一个div
/article/div[last()]: 获取article子元素的最后一个div
/article/div[last()-1]: 获取article子元素的倒数第二个div
//div[@class]: 获取所有有class属性的div
//div[@class='test’]: 获取所有class属性为test的div
//div/: 获取div下的子元素
//: 获取所有元素
//div[@*]: 获取所有带属性的div值
//div/a | //div/p: 获取所有div元素下的a元素和p元素
//span | //ul: 获取所有的span元素和ul元素
article/div/p | //span:获取属于article元素的div元素的p元素和所有的span元素