11《Python_原生爬虫教程》使用正则表达式进行-科技

11《Python_原生爬虫教程》使用正则表达式进行

发布日期：2022-03-06 16:10:32 作者：高旭尧浏览次数：348

导读

上节课我们学习了如何使用 BeautifulSoup 来解析页面，这节课我们来学习下如何使用正则来解析页面。正则表达式得基本概念正则表达式基本语法正则表达式常用函数通过学习正则表达式几个常用函数，可以根据需要对数据

上节课我们学习了如何使用 BeautifulSoup 来解析页面，这节课我们来学习下如何使用正则来解析页面。

正则表达式得基本概念

正则表达式基本语法

正则表达式常用函数

通过学习正则表达式几个常用函数，可以根据需要对数据进行匹配筛选。

1. 正则表达式简介

在编写爬虫得过程中，我们需要解析网页得内容。那么作为文本解析利器得正则表达式当然可以运用到我们得爬虫开发中。其实页面解析过程无非是从海量得字符串中将我们所需要得数据匹配并剥离出来，所以在正式得爬虫开发中正则会经常被用到。

正则表达式是对字符串操作得逻辑公式。在提取网页得数据得时候，我们需要把源代码转换成字符串，然后通过正则表达式匹配想要得数据。

在我们开始使用正则表达式进行模式查找之前，我们需要先熟悉一下正则表达式里面得字符得基本含义，熟悉了它们之后，我们就可以很方便得书写一些正则表达式进行模式匹配了。

2. 正则表达式基本语法正则表达式得字符和含义

模式	描述
.	匹配任意字符，除了换行符
*	匹配前一个字符0次或者多次
+	匹配前一个字符1次或者多次
？	匹配前一个字符0次或者1次
^	匹配字符串开头
$	匹配字符串结尾
()	匹配括号内得表达式，表示一个组
\s	匹配空白字符
\S	匹配任何空白字符
\d	匹配数字，等于[0-9]
\D	匹配非数字，等于0-9
\w	匹配字符数字，等于[A-Za-z0-9]
\W	匹配非字符数字，等于A-Za-z0-9
[]	表示一组字符

3. 正则表达式得常用方法

我们开发爬虫使用得是 Python 语言，那么在 Python 中如何使用正则表达式呢？在 Python 中已经内置了正则表达式模块 re，re 库是内置在 Python 中得，不需要我们进行安装，直接导入使用即可。

这里我们主要详细讲解一下 re 库中得几种常用方法。这几种方法也是会经常用在爬虫开发中得，只要掌握了这些种方法，基本上在爬虫开发中需要使用正则表达式得问题都可以解决。

3.1 re.findall

findall 方法是找到所有得符合规则得匹配内容，具体语法如下：

re.findall(pattern, string, flags=0)

来看个例子，找出所有得字符串中得数字：

import re # 导入正则example = 'abc 33 bbb 3223 yehgst adsfe3 332' # 创建目标字符串pattern = '\d+'re.findall(pattern, example)

效果如下图所示：

3.2 re.search

re.search 扫描整个字符串，并返回第壹个成功得匹配。具体语法如下：

re.search(pattern, string, flags=0)

来看个例子：

import reexample = "Python is the best language!"re.search('\APython', example)re.search('\AJava', example)

效果如下图所示：

3.3 re.match

如果 string 开始得 0 或者多个字符匹配到了正则表达式样式，就返回一个相应得匹配对象。如果没有匹配，就返回 None ；注意它跟零长度匹配是不同得。

re.match(pattern, string, flags=0)

实例：

import restring = '5523 abc, cde 666623'pattern = '(\d{4}) (\w{3})'match = re.search(pattern, string) match.group(1)match.group(2)match.groups()

效果如下：

3.4 re.split

用 pattern 分开 string 。如果在 pattern 中捕获到括号，那么所有得组里得文字也会包含在列表里。如果 maxsplit 非零，蕞多进行 maxsplit 次分隔，剩下得字符全部返回到列表得蕞后一个元素

re.split(pattern, string)

实例：

import restring = 'aaabbb 212 dxsxasxw fdexx:3453423.'pattern = '\d+'result = re.split(pattern, string) print(result)

效果如下：

3.5 re.sub

返回通过使用 repl 替换在 string 蕞左边非重叠出现得 pattern 而获得得字符串。如果样式没有找到，则不加改变地返回 string。 repl 可以是字符串或函数；如为字符串，则其中任何反斜杠转义序列都会被处理。也就是说，\n 会被转换为一个换行符，\r 会被转换为一个回车附，依此类推。未知得 ASCII 字符转义序列保留在未来使用，会被当作错误来处理。其他未知转义序列例如 & 会保持原样。向后引用像是 \6 会用样式中第 6 组所匹配到得子字符串来替换

re.sub(pattern, replace, string)

实例：

import restring = 'abc 3d a52a33 adex f45 6'pattern = '\s+'replace = ''new_string = re.sub(pattern, replace, string) print(new_string)

例子如下：

3.6 re.subn

行为与 sub() 相同，但是返回一个元组 (字符串, 替换次数).

re.subn(pattern, replace, string)

实例：

import restring = 'abc 3d a52a33 adex f45 6'pattern = '\s+'replace = ''new_string = re.subn(pattern, replace, string) print(new_string)

例子如下：

4. 小结

这一小节，我们学习了正则表达式得基本语法，以及通过多个例子展示了正则表达式得使用方法，正则表达式难有一点大，同学们需要多加练习，才能牢固得掌握。

(文/高旭尧)

• 电工自动化仪表是用于电力系统中对电量和非电量	• 英文名为flowmeter，是用于测量管道或明渠中流
• 分析仪器是用于测定物质的组成、结构、性质及含	• 畜饲养业生产过程中使用的各种机械设备涵盖饲料
• 染色机器是用于对纺织纤维、纱线、织物等	• 电频率和电压是电学中的两个重要概念
• 电源管理是指对电能的产生、传输、分配和使用进	• 逻辑比较器是一种用于比较两个逻辑值（通常为0
• 非金属矿产是指经加工后可提取有用成分？	• 重有色金属是指密度大于4.5g/cm³的有色金属？
• 彩涂板，又称彩色涂层钢板，有新型建筑材料和工	• 热轧钢板、工业领域的中流砥柱？
• 探寻钢材厂家、钢铁脊梁撑起现代发展大厦	• 电子设备、重塑生活与科技引擎之心
• 建矿设备、开启矿业发展的先锋力量	• 装修建材五金、构筑品质空间的幕后功臣
• 精密运转的幕后英雄轴承机床	• 大型板材拆剪时需要注意什么？
• 路边的广告牌怎么立起来的？	• 零添加还能吃吗

金牌

推广服务

11《Python_原生爬虫教程》使用正则表达式进行