我们使用正则表达式,来讲文本中的电子邮件和URL进行找出来
使用egrep来进行解决
能够匹配电子邮件的正则表达式如下
[A-Za-z0-9.]+@[]A-Za-z0-9.]+\.[a-zA-Z]{2,4}
那么,一个文件中读取所有的邮件地址的方式如下
egrep -o “[A-Za-z0-9.]+@[]A-Za-z0-9.]+\.[a-zA-Z]{2,4}” url_text.txt
匹配一个url的egrep的正则表达式
http://[a-zA-Z0-9\-\.] + \.[a-zA-Z]{2,4}
使用的方式
egrep -o “http://[a-zA-Z0-9\-\.] + \.[a-zA-Z]{2,4}” url.txt
其实现的原理在于
使用正则表达式来匹配是否成功
那么主要就是正则比到时
[A-Za-z0-9.]匹配一次或者多次的应用,然后,[A-Za-z0-9.] 同样应该出现一次或者多次(+)的样式
\.表示呈现一个字面意思的”.” 而[a-zA-Z]{2,4}表示字母的长度在2到4之间
匹配HTTP URL与匹配电子邮件地址类似,只是不需要匹配 name@部分