Python RegEx

RegEx 或正則表達式是形成搜索模式的字符序列。

RegEx 可用于檢查字符串是否包含指定的搜索模式。

RegEx 模塊

Python 提供名為 re 的內置包,可用于處理正則表達式。

導入 re 模塊:

import re

Python 中的 RegEx

導入 re 模塊后,就可以開始使用正則表達式了:

實例

檢索字符串以查看它是否以 "China" 開頭并以 "country" 結尾:

import re
txt = "China is a great country"
x = re.search("^China.*country$", txt)

運行實例

RegEx 函數

re 模塊提供了一組函數,允許我們檢索字符串以進行匹配:

函數 描述
findall 返回包含所有匹配項的列表
search 如果字符串中的任意位置存在匹配,則返回 Match 對象
split 返回在每次匹配時拆分字符串的列表
sub 用字符串替換一個或多個匹配項

元字符

元字符是具有特殊含義的字符:

字符 描述 示例 TIY
[] 一組字符 "[a-m]" 試一試
\ 示意特殊序列(也可用于轉義特殊字符) "\d" 試一試
. 任何字符(換行符除外) "he..o" 試一試
^ 起始于 "^hello" 試一試
$ 結束于 "world$" 試一試
* 零次或多次出現 "aix*" 試一試
+ 一次或多次出現 "aix+" 試一試
{} 確切地指定的出現次數 "al{2}" 試一試
| 兩者任一 "falls|stays" 試一試
() 捕獲和分組

特殊序列

特殊序列指的是 \ 后跟下表中的某個字符,擁有特殊含義:

字符 描述 示例 TIY
\A 如果指定的字符位于字符串的開頭,則返回匹配項 "\AThe" 試一試
\b 返回指定字符位于單詞的開頭或末尾的匹配項 r"\bain"
r"ain\b"
試一試
試一試
\B 返回指定字符存在的匹配項,但不在單詞的開頭(或結尾處) r"\Bain"
r"ain\B"
試一試
試一試
\d 返回字符串包含數字的匹配項(數字 0-9) "\d" 試一試
\D 返回字符串不包含數字的匹配項 "\D" 試一試
\s 返回字符串包含空白字符的匹配項 "\s" 試一試
\S 返回字符串不包含空白字符的匹配項 "\S" 試一試
\w 返回一個匹配項,其中字符串包含任何單詞字符
(從 a 到 Z 的字符,從 0 到 9 的數字和下劃線 _ 字符)
"\w" 試一試
\W 返回一個匹配項,其中字符串不包含任何單詞字符 "\W" 試一試
\Z 如果指定的字符位于字符串的末尾,則返回匹配項 "Spain\Z" 試一試

集合(Set)

集合(Set)是一對方括號 [] 內的一組字符,具有特殊含義:

集合 描述 試一試
[arn] 返回一個匹配項,其中存在指定字符(a,r 或 n)之一 試一試
[a-n] 返回字母順序 a 和 n 之間的任意小寫字符匹配項 試一試
[^arn] 返回除 a、r 和 n 之外的任意字符的匹配項 試一試
[0123] 返回存在任何指定數字(0、1、2 或 3)的匹配項 試一試
[0-9] 返回 0 與 9 之間任意數字的匹配 試一試
[0-5][0-9] 返回介于 0 到 9 之間的任何數字的匹配項 試一試
[a-zA-Z] 返回字母順序 a 和 z 之間的任何字符的匹配,小寫或大寫 試一試
[+] 在集合中,+、*、.、|、()、$、{} 沒有特殊含義,因此 [+] 表示:返回字符串中任何 + 字符的匹配項 試一試

findall() 函數

findall() 函數返回包含所有匹配項的列表。

實例

打印所有匹配的列表:

import re
str = "China is a great country"
x = re.findall("a", str)
print(x)

運行實例

這個列表以被找到的順序包含匹配項。

如果未找到匹配項,則返回空列表:

實例

如果未找到匹配,則返回空列表:

import re
str = "China is a great country"
x = re.findall("USA", str)
print(x)

運行實例

search() 函數

search() 函數搜索字符串中的匹配項,如果存在匹配則返回 Match 對象。

如果有多個匹配,則僅返回首個匹配項:

實例

在字符串中搜索第一個空白字符:

import re
str = "China is a great country"
x = re.search("\s", str)
print("The first white-space character is located in position:", x.start())

運行實例

如果未找到匹配,則返回值 None

實例

進行不返回匹配的檢索:

import re
str = "China is a great country"
x = re.search("USA", str)
print(x)

運行實例

split() 函數

split() 函數返回一個列表,其中字符串在每次匹配時被拆分:

實例

在每個空白字符處進行拆分:

import re
str = "China is a great country"
x = re.split("\s", str)
print(x)

運行實例

您可以通過指定 maxsplit 參數來控制出現次數:

實例

僅在首次出現時拆分字符串:

import re
str = "China is a great country"
x = re.split("\s", str, 1)
print(x)

運行實例

sub() 函數

sub() 函數把匹配替換為您選擇的文本:

實例

用數字 9 替換每個空白字符:

import re
str = "China is a great country"
x = re.sub("\s", "9", str)
print(x)

運行實例

您可以通過指定 count 參數來控制替換次數:

實例

替換前兩次出現:

import re
str = "China is a great country"
x = re.sub("\s", "9", str, 2)
print(x)

運行實例

Match 對象

Match 對象是包含有關搜索和結果信息的對象。

注釋:如果沒有匹配,則返回值 None,而不是 Match 對象。

實例

執行會返回 Match 對象的搜索:

import re
str = "China is a great country"
x = re.search("a", str)
print(x) # 將打印一個對象

運行實例

Match 對象提供了用于取回有關搜索及結果信息的屬性和方法:

  • span() 返回的元組包含了匹配的開始和結束位置
  • .string 返回傳入函數的字符串
  • group() 返回匹配的字符串部分

實例

打印首個匹配出現的位置(開始和結束位置)。

正則表達式查找以大寫 "C" 開頭的任何單詞:

import re
str = "China is a great country"
x = re.search(r"\bC\w+", str)
print(x.span())

運行實例

實例

打印傳入函數的字符串:

import re
str = "China is a great country"
x = re.search(r"\bC\w+", str)
print(x.string)

運行實例

實例

打印匹配的字符串部分。

正則表達式查找以大寫 "C" 開頭的任何單詞:

import re
str = "China is a great country"
x = re.search(r"\bC\w+", str)
print(x.group())

運行實例

注釋:如果沒有匹配項,則返回值 None,而不是 Match 對象。