我们使用正则表达式,来讲文本中的电子邮件和URL进行找出来

使用egrep来进行解决

能够匹配电子邮件的正则表达式如下

[A-Za-z0-9.]+@[]A-Za-z0-9.]+\.[a-zA-Z]{2,4}

那么,一个文件中读取所有的邮件地址的方式如下

egrep -o “[A-Za-z0-9.]+@[]A-Za-z0-9.]+\.[a-zA-Z]{2,4}” url_text.txt

匹配一个url的egrep的正则表达式

http://[a-zA-Z0-9\-\.] + \.[a-zA-Z]{2,4}

使用的方式

egrep -o “http://[a-zA-Z0-9\-\.] + \.[a-zA-Z]{2,4}” url.txt

其实现的原理在于

使用正则表达式来匹配是否成功

那么主要就是正则比到时

[A-Za-z0-9.]匹配一次或者多次的应用,然后,[A-Za-z0-9.] 同样应该出现一次或者多次(+)的样式

\.表示呈现一个字面意思的”.” 而[a-zA-Z]{2,4}表示字母的长度在2到4之间

匹配HTTP URL与匹配电子邮件地址类似,只是不需要匹配 name@部分

发表评论

邮箱地址不会被公开。 必填项已用*标注