正则表达式,学一次忘一次,记录之。
Regex
正则表达式是一组由字母和符号组成的特殊文本,它可以用来从文本中找出满足你想要的格式的句子。
以上的正则表达式可以接受 john_doe
、jo-hn_doe
、john12_as
。 但不匹配Jo
,因为它包含了大写的字母而且太短了。
1.基本匹配
正则表达式其实就是在执行搜索时的格式,它由一些字母和数字组合而成。 例如:一个正则表达式 the
,它表示一个规则:由字母t
开始,接着是h
,再接着是e
。
1 | "the" => The fat cat sat on the mat. |
2.元字符
元字符不代表他们本身的字面意思,他们都有特殊的含义。
一些元字符写在方括号中的时候有一些特殊的意思。以下是一些元字符的介绍:
元字符 | 描述 |
---|---|
. | 句号匹配任意单个字符除了换行符。 |
[ ] | 字符种类。匹配方括号内的任意字符。 |
[^ ] | 否定的字符种类。匹配除了方括号里的任意字符 |
* | 匹配>=0个重复的在*号之前的字符。 |
+ | 匹配>=1个重复的+号前的字符。 |
? | 标记?之前的字符为可选. |
{n,m} | 匹配num个大括号之前的字符或字符集 (n <= num <= m). |
(xyz) | 字符集,匹配与 xyz 完全相等的字符串. |
| | 或运算符,匹配符号前或后的字符. |
\ | 转义字符,用于匹配一些保留的字符 `[ ] ( ) { } . * + ? ^ $ \ |
^ | 从开始行开始匹配. |
$ | 从末端开始匹配. |
2.1 点运算符 .
.
是元字符中最简单的例子。 .
匹配任意单个字符,但不匹配换行符。 例如,表达式.ar
匹配一个任意字符后面跟着是a
和r
的字符串。
1 | ".ar" => The car parked in the garage. |
2.2 字符集
字符集也叫做字符类。 方括号用来指定一个字符集。 在方括号中使用连字符来指定字符集的范围。 在方括号中的字符集不关心顺序。 例如,表达式[Tt]he
匹配 the
和 The
。
1 | "[Tt]he" => The car parked in the garage. |
方括号的句号就表示句号。 表达式 ar[.]
匹配 ar.
字符串
1 | "ar[.]" => A garage is a good place to park a car. |
2.2.1 否定字符集
一般来说 ^
表示一个字符串的开头,但它用在一个方括号的开头的时候,它表示这个字符集是否定的。 例如,表达式[^c]ar
匹配一个后面跟着ar
的除了c
的任意字符。
1 | "[^c]ar" => The car parked in the garage. |
2.3 重复次数
后面跟着元字符 +
,*
or ?
的,用来指定匹配子模式的次数。 这些元字符在不同的情况下有着不同的意思。
2.3.1 *
号
*
号匹配 在*
之前的字符出现大于等于0
次。 例如,表达式 a*
匹配0或更多个以a开头的字符。表达式[a-z]*
匹配一个行中所有以小写字母开头的字符串。
1 | "[a-z]*" => The car parked in the garage #21. |
*
字符和.
字符搭配可以匹配所有的字符.*
。 *
和表示匹配空格的符号\s
连起来用,如表达式\s*cat\s*
匹配0或更多个空格开头和0或更多个空格结尾的cat字符串。
1 | "\s*cat\s*" => The fat cat sat on the concatenation. |
2.3.2 +
号
+
号匹配+
号之前的字符出现 >=1 次。 例如表达式c.+t
匹配以首字母c
开头以t
结尾,中间跟着至少一个字符的字符串。
1 | "c.+t" => The fat cat sat on the mat. |
2.3.3 ?
号
在正则表达式中元字符 ?
标记在符号前面的字符为可选,即出现 0 或 1 次。 例如,表达式 [T]?he
匹配字符串 he
和 The
。
1 | "[T]he" => The car is parked in the garage. |
1 | "[T]?he" => The car is parked in the garage. |
2.4 {}
号
在正则表达式中 {}
是一个量词,常用来限定一个或一组字符可以重复出现的次数。 例如, 表达式 [0-9]{2,3}
匹配最少 2 位最多 3 位 0~9 的数字。
1 | "[0-9]{2,3}" => The number was 9.9997 but we rounded it off to 10.0. |
我们可以省略第二个参数。 例如,[0-9]{2,}
匹配至少两位 0~9 的数字。
1 | "[0-9]{2,}" => The number was 9.9997 but we rounded it of |
如果逗号也省略掉则表示重复固定的次数。 例如,[0-9]{3}
匹配3位数字
1 | "[0-9]{3}" => The number was 9.9997 but we rounded it off to 10.0. |
2.5 (...)
特征标群
特征标群是一组写在 (...)
中的子模式。(...)
中包含的内容将会被看成一个整体,和数学中小括号( )的作用相同。例如, 表达式 (ab)*
匹配连续出现 0 或更多个 ab
。如果没有使用 (...)
,那么表达式 ab*
将匹配连续出现 0 或更多个 b
。再比如之前说的 {}
是用来表示前面一个字符出现指定次数。但如果在 {}
前加上特征标群 (...)
则表示整个标群内的字符重复 N 次。
我们还可以在 ()
中用或字符 |
表示或。例如,(c|g|p)ar
匹配 car
或 gar
或 par
.
1 | "(c|g|p)ar" => The car is parked in the garage. |
2.6 |
或运算符
或运算符就表示或,用作判断条件。
例如 (T|t)he|car
匹配 (T|t)he
或 car
。
1 | "(T|t)he|car" => The car is parked in the garage. |
2.7 转码特殊字符
反斜线 \
在表达式中用于转码紧跟其后的字符。用于指定 { } [ ] / \ + * . $ ^ | ?
这些特殊字符。如果想要匹配这些特殊字符则要在其前面加上反斜线 \
。
例如 .
是用来匹配除换行符外的所有字符的。如果想要匹配句子中的 .
则要写成 \.
以下这个例子 \.?
是选择性匹配.
1 | "(f|c|m)at\.?" => The fat cat sat on the mat. |
2.8 锚点
在正则表达式中,想要匹配指定开头或结尾的字符串就要使用到锚点。^
指定开头,$
指定结尾。
2.8.1 ^
号
^
用来检查匹配的字符串是否在所匹配字符串的开头。
例如,在 abc
中使用表达式 ^a
会得到结果 a
。但如果使用 ^b
将匹配不到任何结果。因为在字符串 abc
中并不是以 b
开头。
例如,^(T|t)he
匹配以 The
或 the
开头的字符串。
1 | "(T|t)he" => The car is parked in the garage. |
1 | "^(T|t)he" => The car is parked in the garage. |
2.8.2 $
号
同理于 ^
号,$
号用来匹配字符是否是最后一个。
例如,(at\.)$
匹配以 at.
结尾的字符串。
1 | "(at\.)" => The fat cat. sat. on the mat. |
1 | "(at\.)$" => The fat cat. sat. on the mat. |
3. 简写字符集
正则表达式提供一些常用的字符集简写。如下:
简写 | 描述 |
---|---|
. | 除换行符外的所有字符 |
\w | 匹配所有字母数字,等同于 [a-zA-Z0-9_] |
\W | 匹配所有非字母数字,即符号,等同于: [^\w] |
\d | 匹配数字: [0-9] |
\D | 匹配非数字: [^\d] |
\s | 匹配所有空格字符,等同于: [\t\n\f\r\p{Z}] |
\S | 匹配所有非空格字符: [^\s] |
\f | 匹配一个换页符 |
\n | 匹配一个换行符 |
\r | 匹配一个回车符 |
\t | 匹配一个制表符 |
\v | 匹配一个垂直制表符 |
\p | 匹配 CR/LF(等同于 \r\n ),用来匹配 DOS 行终止符 |
进阶内容:
4.零宽断言
无论是零宽还是断言,听起来都古古怪怪的,
那先解释一下这两个词。
断言:俗话的断言就是“我断定什么什么”,而正则中的断言,就是说正则可以指明在指定的内容的前面或后面会出现满足指定规则的内容,
意思正则也可以像人类那样断定什么什么,比如”ss1aa2bb3”,正则可以用断言找出aa2前面有bb3,也可以找出aa2后面有ss1.零宽:就是没有宽度,在正则中,断言只是匹配位置,不占字符,也就是说,匹配结果里是不会返回断言本身。
假设我们要用爬虫抓取csdn里的文章阅读量。通过查看源代码可以看到文章阅读量这个内容是这样的结构
1 | 1 "<span class="read-count">阅读数:641</span>" |
其中也就‘641’这个是变量,也就是说不同文章不同的值,当我们拿到这个字符串时,需要获得这里边的‘641’有很多种办法,但如果正则应该怎么匹配呢?
下面先来讲几种类型的断言:
- 正向先行断言(正前瞻):
- 语法:(?=pattern)
作用:匹配pattern表达式的前面内容,不返回本身。
这样子说,还是一脸懵逼,好吧,回归刚才那个栗子,要取到阅读量,在正则表达式中就意味着要能匹配到</span>
前面的数字内容
按照上所说的正向先行断言可以匹配表达式前面的内容,那意思就是:(?=) 就可以匹配到前面的内容了。
匹配什么内容呢?如果要所有内容那就是:
1 | String reg=".+(?=</span>)"; |
可是老哥我们要的只是前面的数字呀,那也简单咯,匹配数字 \d,那可以改成:
1 | String reg="\\d+(?=</span>)"; |
- 正向后行断言(正后顾):
语法:(?<=pattern)
作用:匹配pattern表达式的后面的内容,不返回本身。
有先行就有后行,先行是匹配前面的内容,那后行就是匹配后面的内容啦。
上面的栗子,我们也可以用后行断言来处理.
1 | //(?<=<span class="read-count">阅读数:)\d+ |
就这么简单。
- 负向先行断言(负前瞻)
- 语法:(?!pattern)
- 作用:匹配非pattern表达式的前面内容,不返回本身。
有正向也有负向,负向在这里其实就是非的意思。
举个栗子:比如有一句 “我爱祖国,我是祖国的花朵”
现在要找到不是’的花朵’前面的祖国
用正则就可以这样写:
1 | 祖国(?!的花朵) |
- 负向后行断言(负后顾)
- 语法:(?<!pattern)
- 作用:匹配非pattern表达式的后面内容,不返回本身。
5. 捕获和非捕获
单纯说到捕获,他的意思是匹配表达式,但捕获通常和分组联系在一起,也就是“捕获组”
捕获组:匹配子表达式的内容,把匹配结果保存到内存中中数字编号或显示命名的组里,以深度优先进行编号,之后可以通过序号或名称来使用这些匹配结果。
而根据命名方式的不同,又可以分为两种组:
- 数字编号捕获组:
语法:(exp)
解释:从表达式左侧开始,每出现一个左括号和它对应的右括号之间的内容为一个分组,在分组中,第0组为整个表达式,第一组开始为分组。
比如固定电话的:020-85653333
他的正则表达式为:(0\d{2})-(\d{8})
按照左括号的顺序,这个表达式有如下分组:
序号 | 编号 | 分组 | 内容 |
---|---|---|---|
0 | 0 | (0\d{2})-(\d{8}) | 020-85653333 |
1 | 1 | (0\d{2}) | 020 |
2 | 2 | (\d{8}) | 85653333 |
1 | String test = "020-85653333"; |
输出结果:
1 | 分组的个数有:2 |
可见,分组个数是2,但是因为第0个为整个表达式本身,因此也一起输出了。
- 命名编号捕获组:
语法:(?exp)
解释:分组的命名由表达式中的name指定
比如区号也可以这样写:(?\0\d{2})-(? \d{8})
按照左括号的顺序,这个表达式有如下分组:
序号 | 编号 | 分组 | 内容 |
---|---|---|---|
0 | 0 | (0\d{2})-(\d{8}) | 020-85653333 |
1 | quhao | (0\d{2}) | 020 |
2 | haoma | (\d{8}) | 85653333 |
1 | String test = "020-85653333"; |
输出结果:
1 | 分组的个数有:2 |
- 非捕获组:
语法:(?:exp)
解释:和捕获组刚好相反,它用来标识那些不需要捕获的分组,说的通俗一点,就是你可以根据需要去保存你的分组。
比如上面的正则表达式,程序不需要用到第一个分组,那就可以这样写:
1 | (?:\0\d{2})-(\d{8}) |
序号 | 编号 | 分组 | 内容 |
---|---|---|---|
0 | 0 | (0\d{2})-(\d{8}) | 020-85653333 |
1 | 1 | (\d{8}) | 85653333 |
输出结果:
1 | 分组的个数有:1 |
6.反向引用
上面讲到捕获,我们知道:**捕获会返回一个捕获组,这个分组是保存在内存中,不仅可以在正则表达式外部通过程序进行引用,也可以在正则表达式内部进行引用,这种引用方式就是反向引用**。
根据捕获组的命名规则,反向引用可分为:
- 数字编号组反向引用:\k
或\number - 命名编号组反向引用:\k
或者'name’
上面说到捕获组是匹配子表达式的内容按序号或者命名保存起来以便使用
注意两个字眼:“内容” 和 “使用”
这里所说的“内容”,是匹配结果,而不是子表达式本身,强调这个有什么用?嗯,先记住
那这里所说的“使用”是怎样使用呢?
- 1)匹配到一个字母
- 2)匹配第下一个字母,检查是否和上一个字母是否一样
- 3)如果一样,则匹配成功,否则失败
首先匹配一个字母:\w
我们需要做成分组才能捕获,因此写成这样:(\w)
那这个表达式就有一个捕获组:(\w)
然后我们要用这个捕获组作为条件,那就可以:(\w)\1
这样就大功告成了
可能有人不明白了,\1是什么意思呢?
还记得捕获组有两种命名方式吗,一种是是根据捕获分组顺序命名,一种是自定义命名来作为捕获组的命名
在默认情况下都是以数字来命名,而且数字命名的顺序是从1开始的
因此要引用第一个捕获组,根据反向引用的数字命名规则 就需要 \k<1>或者\1
当然,通常都是是后者。
我们来测试一下:
1 | String test = "aabbbbgbddesddfiid"; |
输出结果
1 | aa |
嗯,这就是我们想要的了。
在举个替换的例子,假如想要把字符串中abc换成a
1 | String test = "abcbbabcbcgbddesddfiid"; |
输出结果:
1 | abbabcgbddesddfiid |
7.贪婪和非贪婪
我们都知道,贪婪就是不满足,尽可能多的要。
在正则中,贪婪也是差不多的意思:
贪婪匹配:当正则表达式中包含能接受重复的限定符时,通常的行为是(在使整个表达式能得到匹配的前提下)匹配尽可能多的字符,这匹配方式叫做贪婪匹配。
特性:一次性读入整个字符串进行匹配,每当不匹配就舍弃最右边一个字符,继续匹配,依次匹配和舍弃(这种匹配-舍弃的方式也叫做回溯),直到匹配成功或者把整个字符串舍弃完为止,因此它是一种最大化的数据返回,能多不会少。
前面我们讲过重复限定符,其实这些限定符就是贪婪量词,比如表达式:
1 | \d{3,6} |
用来匹配3到6位数字,在这种情况下,它是一种贪婪模式的匹配,也就是假如字符串里有6个个数字可以匹配,那它就是全部匹配到。
1 | String reg="\\d{3,6}"; |
输出结果:
1 | 文本:61762828 176 2991 44 871 |
由结果可见:本来字符串中的“61762828”这一段,其实只需要出现3个(617)就已经匹配成功了的,但是他并不满足,而是匹配到了最大能匹配的字符,也就是6个。
一个量词就如此贪婪了,
那有人会问,如果多个贪婪量词凑在一起,那他们是如何支配自己的匹配权的呢?
是这样的,多个贪婪在一起时,如果字符串能满足他们各自最大程度的匹配时,就互不干扰,但如果不能满足时,会根据深度优先原则,也就是从左到右的每一个贪婪量词,优先最大数量的满足,剩余再分配下一个量词匹配。
1 | String reg="(\\d{1,2})(\\d{3,4})"; |
- “617628” 是前面的\d{1,2}匹配出了61,后面的匹配出了7628
- “2991” 是前面的\d{1,2}匹配出了29 ,后面的匹配出了91
- “87321”是前面的\d{1,2}匹配出了87,后面的匹配出了321
2. 懒惰(非贪婪)
懒惰匹配:当正则表达式中包含能接受重复的限定符时,通常的行为是(在使整个表达式能得到匹配的前提下)匹配尽可能少的字符,这匹配方式叫做懒惰匹配。
特性:从左到右,从字符串的最左边开始匹配,每次试图不读入字符匹配,匹配成功,则完成匹配,否则读入一个字符再匹配,依此循环(读入字符、匹配)直到匹配成功或者把字符串的字符匹配完为止。
懒惰量词是在贪婪量词后面加个“?”
代码 | 说明 |
---|---|
*? | 重复任意次,但尽可能少重复 |
+? | 重复1次或者更多次,但尽可能减少重复 |
?? | 重复0次或者1次,但尽可能减少重复 |
(n,m)? | 重复n到m次,尽可能减少重复 |
(n,)? | 重复n次以上,但尽可能减少重复 |
1 | String reg="(\\d{1,2}?)(\\d{3,4})"; |
输出结果:
1 | 文本:61762828 176 2991 87321 |
“61762” 是左边的懒惰匹配出6,右边的贪婪匹配出1762
“2991” 是左边的懒惰匹配出2,右边的贪婪匹配出991
“87321” 左边的懒惰匹配出8,右边的贪婪匹配出7321
8.反义
前面说到元字符的都是要匹配什么什么,当然如果你想反着来,不想匹配某些字符,正则也提供了一些常用的反义元字符:
字符 | 解释 |
---|---|
\W | 匹配任意不是字母,数字,下划线,汉字的字符 |
\S | 匹配任意不是空白符的字符 |
\D | 匹配任意非数字的字符 |
\B | 匹配不是单词开头或结束的位置 |
[^x] | 匹配除了x以外的任意字符 |
[^aeiou] | 匹配除了aeiou这几个字母以外的任意字符 |
Tips
Linux中的通配符
通配符 | 含义 |
---|---|
* | 代表任意个数个字符 |
? | 代表任意一个字符,至少一个 |
[] | 表示可以匹配字符组中的任意一个 |
[abc] | 匹配 a b c中的任意一个 |
[a-f] | 匹配范围中任意一个 |
以上通配符都可以跟在ls命令后面,在现实的结果里面进行进一层的筛选。
Demo
1 |
|