博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
WinHTTrack Website Copier使用说明
阅读量:6682 次
发布时间:2019-06-25

本文共 1049 字,大约阅读时间需要 3 分钟。

WinHTTrack Website Copier使用说明

WinHTTrack Website Copier可以抓取整个网站或者某个网页、某个论坛帖子。以抓取论坛某个主题帖子为例:

1、打开WinHTTrack Website Copier,下一步

2、工程名可以以帖子标题命名,最好用英文,分类随意,保存路径建议非C盘。

 

 

 3、我们要下载若干个帖子,所以操作选择下载个别文件,web地址可以逐个输入,也可以用list列表,列表以回车键分开,对于有规律的帖子,可以在excel中拖动快速形成。

  4、选项,最大深度选择1,最大外部链接深度选择0这样我们只搜索当前帖子或页面所在的网址内容,不要外链到其他网站,所以选择0.这两个选项很重要。

 5、链接我选择了试图捕获所有的URLs,保存所有指向非HTML文件的链接,例如外部的zip文件或图片文件,首先保存HTML文件,取默认也行,没看出多少区别。

 6、构造取默认值即可。

 7、搜寻页面取默认值。

 8、浏览器标致取默认值。

 9、确定后直接开始。

 10、特别要注意的是,新建一个工程要重新命名,否则会覆盖原来的地址!

WinHTTrack Website Copier比Offline Explorer Portable(离线浏览器工具)的好处是抓取的文件很精准,没有多余的外链和文件,而且文件都是压缩之后存储的,占用空间较小,而且文件数量很小。而Offline Explorer Portable搜索深度设置为1的时候,会搜索本站点的外链,这不是我想要的,但是设置搜索深度为0的话,又会出现附件没有被下载的问题。

缺点是同一个站点的文件不能共用,需要再次下载,如果把列表放在一起下载,以前下载的又会被覆盖,而Offline Explorer Portable会更新以前下载的目录,它是以站点为单位进行下载的,网站有更新直接刷新下就好了。

WinHTTrack Website Copier还有个缺点是网址不支持变量,对于有规律的网址,需要借助excel生成。而Offline Explorer Portable有网址宏功能,可以自定义网址的起始页,例如page=:{1..4}代表1~4页。

WinHTTrack Website Copier和Offline Explorer Portable都可以下载论坛的附件(包括zip和jpg等类型的图片附件),但是论坛的图片不一定能正确抓取,网页内嵌的图片可以正常抓取,原因有待探索。

 

2018年10月9日

转载地址:http://rlxao.baihongyu.com/

你可能感兴趣的文章
sysprep重置windows,封装系统
查看>>
我的友情链接
查看>>
冒泡排序
查看>>
sed学习笔记-2
查看>>
Linux系统的启动和修复模式
查看>>
Citrix ICA协议简要介绍
查看>>
软件发布版本区别介绍
查看>>
python操作selenium的基本操作
查看>>
kvm虚拟机迁移
查看>>
Docker 修改docker容器内部时间
查看>>
解决windows下redis狂占C盘内存
查看>>
yii2高级模板添加新增模块
查看>>
【推荐】(SqlServer)不公开存储过程sp_Msforeachtable与sp_Msforeachdb详解
查看>>
在结构体内定义宏
查看>>
TURBOGATE邮件网关——最经济高效的企业网关选择
查看>>
MS14-058 最新提权神器
查看>>
数据挖掘算法(Analysis Services – 数据挖掘)
查看>>
Apache配置详解(最好的APACHE配置教程)
查看>>
JAVA笔记——String类
查看>>
我的友情链接
查看>>