页面会包含HTML文本和一些诸如Javascript CSS的页面,HTML标记是网页的基础,我们需要解析网页来查找也定的内容,需要一个BASH脚本,我们收到了一个HTML的文件,我们可以利用命令行来模拟出一个浏览器页面,Lynx是一个简单的基于命令行的Web浏览器,我们可以将Lynx的纯文本格式化输出作为网页来获取

lynx -dump URL > webpage_as_text.txt

-dump会将网页以ACSII字符的形式下载到文本文件中

所以我们会获取到所有的超链接,作为文本输出的页脚列在References标题下,这样也不用解析了

然后其中的输出如下

lynx -dump www.baidu.com > baidu,txt

然后可以直接查看这个网页

Current directory is /tmp/www.baidu.com

    drwxrwxrwt  192 root     root       12288 Jul 27 11:24 [1]../

    -rw-rw-r–    1 locker   locker      2381 Jul 27 11:02 [2]index.html

    -rw-rw-r–    1 locker   locker      2814 Jan  3  2020 [3]robots.txt

References

   1. file://localhost/tmp

   2. file://localhost/tmp/www.baidu.com/index.html

   3. file://localhost/tmp/www.baidu.com/robots.txt

发表评论

邮箱地址不会被公开。 必填项已用*标注