页面会包含HTML文本和一些诸如Javascript CSS的页面,HTML标记是网页的基础,我们需要解析网页来查找也定的内容,需要一个BASH脚本,我们收到了一个HTML的文件,我们可以利用命令行来模拟出一个浏览器页面,Lynx是一个简单的基于命令行的Web浏览器,我们可以将Lynx的纯文本格式化输出作为网页来获取
lynx -dump URL > webpage_as_text.txt
-dump会将网页以ACSII字符的形式下载到文本文件中
所以我们会获取到所有的超链接,作为文本输出的页脚列在References标题下,这样也不用解析了
然后其中的输出如下
lynx -dump www.baidu.com > baidu,txt
然后可以直接查看这个网页
Current directory is /tmp/www.baidu.com
drwxrwxrwt 192 root root 12288 Jul 27 11:24 [1]../
-rw-rw-r– 1 locker locker 2381 Jul 27 11:02 [2]index.html
-rw-rw-r– 1 locker locker 2814 Jan 3 2020 [3]robots.txt
References