5.2格式化下载网站

页面会包含HTML文本和一些诸如Javascript CSS的页面,HTML标记是网页的基础,我们需要解析网页来查找也定的内容,需要一个BASH脚本,我们收到了一个HTML的文件,我们可以利用命令行来模拟出一个浏览器页面,Lynx是一个简单的基于命令行的Web浏览器,我们可以将Lynx的纯文本格式化输出作为网页来获取

lynx -dump URL > webpage_as_text.txt

-dump会将网页以ACSII字符的形式下载到文本文件中

所以我们会获取到所有的超链接,作为文本输出的页脚列在References标题下,这样也不用解析了

然后其中的输出如下

lynx -dump www.baidu.com > baidu,txt

然后可以直接查看这个网页

Current directory is /tmp/www.baidu.com

drwxrwxrwt 192 root root 12288 Jul 27 11:24 [1]../

-rw-rw-r– 1 locker locker 2381 Jul 27 11:02 [2]index.html

-rw-rw-r– 1 locker locker 2814 Jan 3 2020 [3]robots.txt

References

1. file://localhost/tmp

2. file://localhost/tmp/www.baidu.com/index.html

3. file://localhost/tmp/www.baidu.com/robots.txt