如何下载整个网站以供离线阅读

尽管这些天到处都有Wi-Fi,但您可能会不时发现自己没有它。并且当您这样做时,可能希望某些网站可以在脱机时进行保存和访问-可能用于研究,娱乐或后代。

保存单个网页以供脱机阅读很容易,但是什么呢?是否要下载整个网站?好吧,这比您想象的要容易!这里有四个漂亮的工具,您可以使用它们下载任何网站以供离线阅读,而无需费力。

1。 WebCopy

仅适用于Windows。

WebCopy 由Cyotek获取网站URL并扫描其链接,页面,和媒体。找到页面后,它会递归地查找更多链接,页面和媒体,直到发现整个网站。然后,您可以使用配置选项来决定要离线下载哪些部分。

关于WebCopy的有趣之处在于,您可以设置多个“项目",每个项目都有各自的设置和配置。这样一来,您就可以轻松地随时重新下载许多不同的站点,每次都以相同的精确方式重新下载。

一个项目可以复制许多网站,因此请按有组织的计划使用它们(例如“技术"(用于复制技术站点的项目)。

  • 安装并启动该应用程序。
  • 导航到 File> New 以创建一个新项目。
  • 网站字段中输入URL。
  • 保存文件夹字段更改为您希望网站保存的位置。
  • 试玩 Project> Rules…(了解有关WebCopy规则的更多信息)。
  • 导航到 File> Save As…以保存项目。
  • 单击工具栏中的复制网站以开始该过程。
  • 复制完成后,您可以使用“结果"标签查看其状态每个单独的页面和/或媒体文件。 “错误"选项卡显示可能发生的所有问题,“跳过"选项卡显示未下载的文件。

    最重要的是站点地图,它显示了WebCopy发现的网站的完整目录结构。

    要离线查看网站,请打开文件资源管理器并导航到您指定的保存文件夹。在您选择的浏览器中打开 index.html (有时甚至是 index.htm )以开始浏览。

    2。 HTTrack

    适用于Windows,Linux和Android。

    HTTrack 比WebCopy知名得多,并且可以说更好因为它是开源的,并且可以在Windows以外的平台上使用,但是界面有点笨拙,还有很多不足之处。但是,它很好用,所以不要让您失望。

    像WebCopy一样,它使用基于项目的方法,可以复制多个网站并使它们保持井井有条。您可以暂停和继续下载,也可以通过重新下载旧文件和新文件来更新复制的网站。

  • 安装并启动该应用。
  • 单击下一步 >开始创建一个新项目。
  • 给该项目一个名称,类别,基本路径,然后单击下一步
  • 选择下载网络网站进行操作,然后在网址框中键入每个网站的URL,每行一个URL。您还可以将URL存储在TXT文件中并将其导入,这在以后要重新下载相同站点时很方便。单击下一步
  • 根据需要调整参数,然后单击完成
  • 下载所有内容后,您可以浏览转到正常的网站,方法是下载文件的位置,然后在浏览器中打开 index.html index.htm

    3。 SiteSucker

    适用于Mac和iOS。

    如果您使用的是Mac,则最好的选择是 SiteSucker 。这个简单的工具可以撕裂整个网站并保持相同的整体结构,并且还包括所有相关的媒体文件(例如图像,PDF,样式表)。

    它具有简洁易用的界面,可以不太容易使用:您可以直接粘贴网站网址,然后按 Enter。

    一个不错的功能是可以将下载的内容保存到文件中,然后使用该文件以后(或在另一台计算机上)再次下载相同的文件并重新构建结构。此功能也是允许SiteSucker暂停和恢复下载的原因。

    SiteSucker的价格为5美元,并且没有免费版本或免费试用版,这是它的最大缺点。最新版本需要macOS 10.13 High Sierra或更高版本。较旧的SiteSucker版本适用于较旧的Mac系统,但某些功能可能会丢失。

    4。 Wget

    适用于Windows,Mac和Linux。

    Wget 是一种命令行实用程序,可以检索所有类型通过HTTP和FTP协议的文件。由于网站是通过HTTP服务的,并且大多数Web媒体文件都可以通过HTTP或FTP进行访问,因此Wget成为翻录网站的出色工具。

    虽然Wget通常用于下载单个文件,但它可以用于递归下载通过初始页面找到的所有页面和文件:

    wget -r -p //www.PCPC.me

    但是,某些网站可能会检测到并阻止您尝试执行操作,因为抄录网站可能会导致费用他们很多带宽。要解决此问题,您可以使用用户代理字符串将自己伪装成Web浏览器:

    wget -r -p -U Mozilla //www.PCPC.me

    如果您想保持礼貌,还应该限制下载速度(因此请不要占用网络资源)服务器的带宽)和每次下载之间的暂停(这样您就不会因请求过多而使Web服务器不堪重负):

    wget -r -p -U Mozilla --wait=10 --limit-rate=35K //www.PCPC.me

    Wget与大多数基于Unix的系统捆绑在一起。在Mac上,您可以使用单个Homebrew命令安装Wget: brew install wget (如何在Mac上设置Homebrew)。在Windows上,您将需要改用此移植版本。

    您要下载哪个网站?

    现在,您知道如何下载整个网站,则永远不要即使没有互联网访问,也无法阅读任何内容。

    但是请记住:网站越大,下载量越大。我们不建议下载PCPC.me之类的大型站点,因为您将需要成千上万的MB来存储我们使用的所有媒体文件。

    最好的下载站点是那些文本较多且图像较少的站点,以及不定期添加新页面或未更改的网站。静态信息网站,在线电子书网站以及要关闭的情况下要存档的网站是理想的选择。

    如果您对脱机阅读的更多选项感兴趣,请查看如何设置Google Chrome浏览器可离线阅读书籍,而不是下载书籍,请查看我们的提示和技巧。

    图片来源:RawPixel.com/Shutterstock

    标签: 下载管理 脱机浏览