加载中......
输入验证码,即可复制
微信扫码下载好向圈APP, 登陆后即可进入消息页面查看验证码
只需要3秒时间
用正则表达式查找电话号码(\d在正则中表示0-9中任一数字)

用 import re 导入正则表达式模块

用re.compile()函数创建一个Regex对象

向Regex对象的search()方法传入想查找的字符串。他返回一个Match对象(Match对象的group方法可获取search到的内容并返回)

调用Match对象的group()方法,返回实际匹配的字符串
import regeshi=re.compile(r'\d{11}')#\d 表示0-9任一数字,{11}表示这样的数字要有11个才行,如果不嫌麻烦你也可以用\d\d\d\d\d\d\d\d\d\d\dphonenumber = geshi.search('这里面藏着我的电话号码假设这个文本超级超级超级长15673271781')print('我的电话号码是:'+ phonenumber.group())
运行结果

这些貌似有点简单于是我去网页copy了一些电话号码建了个txt文档多查找一些
import reimport osphonenumbe=re.compile(r'\d{4}-\d{8}|\d{11}')#竖杠”|“表示或的意思(or)f=open ('D:\\recent\\code\\venv\\phone.txt','r',encoding='utf-8')#打开文档phone.txt,'r'表示以只读模式打开,并转码为utf-8,txt打开默认gbk模式,#我试了试gbk模式一旦有特殊字符就读不出来了ph=f.read()#读取mo=phonenumber.findall(ph)#在ph中查找并返回所有的满足phonenumbe格式的一个字符串列表n=1for i in mo:#遍历列表打印文本    print('photonumber found '+str(n)+': ' + i)    n+=1f.close()
执行结果
D:\recent\code\venv\Scripts\python.exe D:/recent/code/venv/test.pyphotonumber found 1: 13738450312photonumber found 2: 13362488361photonumber found 3: 15862413006photonumber found 4: 0574-87245828photonumber found 5: 0574-56176485photonumber found 6: 13056822332photonumber found 7: 0574-86062413photonumber found 8: 13968371215photonumber found 9: 0574-87664179photonumber found 10: 0574-89115294photonumber found 11: 0574-62995006photonumber found 12: 0574-62821458photonumber found 13: 0574-88412332photonumber found 14: 15957411508photonumber found 15: 18267496379photonumber found 16: 18058531330photonumber found 17: 13777103739photonumber found 18: 13454786113photonumber found 19: 15824227808进程已结束,退出代码
then 继续学习…

- 匹配更多模式
利用括号分组()
假设你只想我的电话号码尾号四位这是上面代码import regeshi=re.compile(r'\d{11}')#\d 表示0-9任一数字,{11}表示这样的数字要有11个才行,如果不嫌麻烦你也可以用\d\d\d\d\d\d\d\d\d\d\dphonenumber = geshi.search('这里面藏着我的电话号码假设这个文本超级超级超级长15673271781')print('我的电话号码是:'+ phonenumber.group())
把上面的代码改一下(自己diy)
import regeshi=re.compile(r'(\d{7})(\d{4})')phonenumber = geshi.search('这里面藏着我的电话号码假设这个文本超级超级超级长15673271781')print('我的电话号码尾号四位是:'+ phonenumber.group(2))
执行结果
D:\recent\code\venv\Scripts\python.exe D:/recent/code/venv/test3.py我的电话号码尾号四位是:1781进程已结束,退出代码0
如果想获取所有分组可以改成 phonenumber.groups(),他的类型是元组
最后一句要改成print( phonenumber.group(s))
D:\recent\code\venv\Scripts\python.exe D:/recent/code/venv/test3.py('1567327', '1781')进程已结束,退出代码0用管道匹配多个分组(符号 |)
前面有用到这个符号|,我理解的他就是or的意思>>> import re>>> bat=re.compile(r'Bat(man|mobile|copter|bat)')>>> mo=bat.search('Batmobile lost a wheel')>>> mo.group()'Batmobile'>>> mo.group(1)'mobile'用问号实现可选匹配
字符?表示他前面的分组在这个模式中是可选的
瞅瞅代码就明白啥意思了
>>> Bt=re.compile('super(wo)?man')>>> mo=Bt.search('I am superman')>>> mo.group()'superman'>>> mo=Bt.search('you are superwoman')>>> mo.group()'superwoman'用星号 * 匹配零次或多次
即星号 * 之前的分组可以在文本中出现任意此
继续用上个例子来理解>> Bt=re.compile('super(wo)*man')#问号改成了星号>>> mo=Bt.search('i am superwowowowowowowowowowoman')>>> mo.group()'superwowowowowowowowowowoman'用加号+匹配一次或多次 (备注:* 号是0到多次)>>> Bt=re.compile('super(wo)+man')>>> mo=Bt.search('i am superwowowowowowowowowowoman')>>> mo.group()'superwowowowowowowowowowoman'
用花括号{}匹配特定次数

super(wo){3}man表示 superwowowoman

上面用过了,这里详细解释一下

花括号还可以传入其它参数

super(wo){3,5}man表示wo只要在min值-max值之间都可以被匹配到即3-5次之间

贪心和非贪心匹配

前面(wo){3-5}可以匹配3,4或者5个wo,如果wo出现了5次,Match对象的group()调用会返回

‘wowowowowowo’而不是‘wowowo’,这是为什么?
>>> Bt=re.compile(r'(wo){3,5}')>>> mo1=Bt.search('wowowowowo')>>> mo1.group()'wowowowowo'#这里为啥不返回wowowopython的正则表达式默认是’贪心‘的,这表示在有二义的情况下,它们会尽可能匹配最长的字符串。
那可能我就要问了,我就想它匹配最短的,这时候我们可以向python发起灵魂的质问:你为什么要那么贪心呢?
我们一质问他,他就不贪心了
我们通过在花括号后面加个问号?向他发起质问
>>> Bt=re.compile(r'(wo){3,5}?')>>> mo1=Bt.search('wowowowowo')>>> mo1.group()'wowowo'findall()方法,我前面也试过这个
Regex方法还有一个findall方法。
search()返回一个对象,包含被查找字符串中第一次匹配的文本findall()方法将返回一组字符串列表包含被查找字符串中的所有匹配
search是这样的:
>>> import re>>> wyphone=re.compile(r'\d{11}')>>> phonenumber=wyphone.search('现在的手机号17682515555以前的手机号17682501111')>>> phonenumber.group()'17682515555'
findall是这样的
>>> wyphone.findall('现在的手机号17682515555以前的手机号17682501111')['17682515555', '17682501111']
findall()不用调用Match对象,直接返回列表

如果正则表达式中有分组,findall()将返回元组的列表
>>> wyphone=re.compile(r'(\d{7})(\d{4})')>>> wyphone.findall('现在的手机号17682515555以前的手机号17682501111')[('1768251', '5555'), ('1768250', '1111')]字符分类
前面学到了\d表示0-9的整数,那其它字符怎么表示?


学Python一定要过的神奇坎---正则表达式(超详细)-1.jpg

建立自己的字符分类方法很简单 用中括号把你想要建立的字符分类包起来就好了
举个栗子
>>> yuanyin=re.compile(r'[aeiouAEIOU]')>>> yuanyin.findall('adjfkdjfkajkllkdgjroueriuituirt')['a', 'a', 'o', 'u', 'e', 'i', 'u', 'i', 'u', 'i']
通过在前面加一个"^"符号,就可以得到非字符类
>>> yuanyin=re.compile(r'[^aeiouAEIOU]')>>> yuanyin.findall('adjfkdjfkajkllkdgjroueriuituirt')['d', 'j', 'f', 'k', 'd', 'j', 'f', 'k', 'j', 'k', 'l', 'l', 'k', 'd', 'g', 'j', 'r', 'r', 't', 'r', 't']插入字符和美元字符在正则表达式开始处插入符号(^),表面匹配必须发生在被查找文本开始处在正则表达式的末尾加上($)符号,表示该字符串必须以这个正则表达式的模式结束通配字符.(句点)字符称为“通配符”,句点字符值匹配一个字符>>> atgex=re.compile(r'..dog')>>> atgex.findall('11dog 12dog 13dog')['11dog', '12dog', '13dog']>>> atgex=re.compile(r'.{2}dog')>>> atgex.findall('11dog 12dog 13dog')['11dog', '12dog', '13dog']
上面俩是一样的,因吹斯挺

要匹配真正的句点,要用反斜杠转义 \ .

用点星匹配所有字符( .*)即任意文本
>> nameregex=re.compile(r'firstname:(.*) lastname:(.*)')>>> mo=nameregex.search('firstname:alen lastname:pyouthon')>>> mo.group(1)'alen'>>> mo.group(2)'pyouthon'>>> mo.groups()('alen', 'pyouthon')
.* 点星 使用贪心模式:它总是匹配尽可能多的文本。要用“非贪心”模式匹配所有文本,就使用
.*? 点星问
>>> nr=re.compile(r'<.*?>')>>> mo=nr.search('<to eat > more>')>>> mo.group()'<to eat >'
不用?号的话
>>> mo=nr.search('<to eat > more>')>>> mo.group()'<to eat > more>'传入re.DOTALL 作为re.compile()的第二个参数可以让句点字符匹配所有字符,包括换行字符>>> nw=re.compile('.*')>>> nw.search('srhakg. \n proto').group()'srhakg. '>>> nw2=re.compile('.*',re.DOTALL)>>> nw2.search('srhakg. \n proto').group()'srhakg. \n proto'不区分大小写的匹配向re.compile()传入 re.IGNORECASE或re.I ,作为第二个参数>>> nw2=re.compile(r'dog',re.I)>>> nw2.search('DOG').group()'DOG'用sub()方法替换字符串正则表达式不仅能找到文本模式,而且能够用新的文本特换掉这些模式Regex对象的sub()方法需要传入两个参数。第一个参数是一个字符串,用于取代发现的匹配。第二个参数也是一个字符串,使用正则表达式匹配的内容sub()方法返回替换完成的字符串>> name=re.compile(r'Agent \w+')#表示匹配 Agent+空格+一个或者多个字符  遇到空格会停止>>> name.sub('Bob','Agent Jack gave the book to Agent Alice')'Bob gave the book to Bob'在sub()的第一个参数中可以输入\1,\2,\3…表示“在替换中输入分组1,2,3…的文本”举个栗子假设要隐去密探的姓名,只留首字母显示
举个栗子
假设要隐去密探的姓名,只留首字母显示
>>> agentname=re.compile(r'agent (\w)\w*')>>> agentname.sub(r'\1*******','agent Bob told agent Jack that agent Eve knew agent Alen was a double agent.')'B******* told J******* that E******* knew A******* was a double agent.'
上面的\1其实就是用regex对象的group(1)
如果我来反向操作一波,会变成咋样

>>> agentname=re.compile(r'agent (\w)(\w*)')#这里加了个分组>>> agentname.sub(r'\2*******','agent Bob told agent Jack that agent Eve knew agent Alen was a double agent.')'ob******* told ack******* that ve******* knew len******* was a double agent.'管理复杂的正则表达式向re.compile()第二个参数传入re.VERBOSE,忽略正则表达式字符串中的空白符和注释用r’’’ ‘’’ 多行然后再在里面加注释就好了>>> ph=re.compile(r'''(\d{4}|\d{3})   #区号... (\d{8}) #电话... ''',re.VERBOSE)
Regex对象的参数只有两个,我要是re.VERBOSE,re.DOTALL, re.IGNORECASE都想用怎么办?
    很简单,回到最初的原点,用竖杠(“|”)表示“或”就好了

注:文章转自互联网
程序员圈
28018 查看 0 0 反对

说说我的看法高级模式

您需要登录后才可以回帖 登录|立即注册

还没人评论此主题哦

相关阅读