如何归档网站:以各种方式构建Web文件的指南

温馨提示:注册会员付费购买资源可永久免费下载更新版本

维护您的网站需要一个专门的备份策略。虽然备份是必不可少的,但它们不是保护站点的唯一方法。备份的自然延伸是对网站进行归档,尽管它们是互补的过程。

有几种灵活的方法来归档网站。好消息是,它们都易于使用和访问。您只需要根据自己的需求和要求选择合适的解决方案。

在这篇文章中,我们将看看如何存档网站。我们还将探索您将遇到的不同类型的归档,总结一些最著名的站点归档工具,并讨论一些关于归档站点的提示。

网站存档简介

为什么要存档网站?

你会遇到不同类型的网络档案

互联网存档工具和网站初学者指南

什么是网络存档(WARC)文件格式?

管理脱机文件的技巧

网站存档的4种方法

网站存档简介

存档网站意味着保留内容、数据和媒体以备将来参考。使用Wayback Machine等专用服务(虽然我们稍后会推出其他解决方案),可以查看网站的旧版本。

2016年闪电网站是什么样子

在技术层面上,爬虫会对网站进行快照,这就构成了存档本身。如果您愿意,您可以使用一个简单的日历来访问它,并以时间线格式查看每个迭代。

闪电网站的时光倒流机日历档案

至于为什么会有Wayback Machine这样的解决方案,还得追溯到2000年代初。互联网泡沫差点破灭;许多企业正在倒闭。一些受欢迎的网站被关闭或放弃,留下了很少的记忆。

类似于互联网之前的其他媒体形式(如音乐和电视),这些网站具有历史和怀旧价值。它们意味着拯救未来的互联网用户,让他们看到我们与早期技术之间的差距。

在互联网档案馆启动Wayback机器,帮助维护网站。如果网站已经在那里存档,可以看到网站这些年的发展。

存档网站需要许多爬虫,包括巨大的个人爬虫,可能需要数年才能完成。执行爬行“冒险”和存储结果快照所需的工作量是巨大的。

例如,Wayback Machine的第一台100TB服务器在2004年投入使用。到2020年底,Wayback Machine已经存储了超过70PB的数据。这超过70,000TB。

然而,并不是每个人都对互联网档案馆的工作感到满意。基于网站档案是否破坏了现有的版权,已经有了很多讨论和法律上的挑战。

尽管如此,鉴于存储档案数量的显著增加,人们显然希望保留该网站。

为什么要存档网站?

想要存档一个网站有很多原因,不仅仅是怀旧。对于现实世界的类比,请查看GitHub。

GitHub的基础设施很像互联网档案馆。

Github存储了项目的存储库,以及每一次提交。这将与Internet归档进行比较,在Internet归档中,存储库代表整个归档,而提交是一个快照。

正如Git存储库很有价值一样,归档也很有价值。例如,你可以看看网站以前的版本(甚至是几年前的版本)来影响你现在的设计选择。

此外,您可能有法律义务对您的网站进行存档,尤其是在金融或法律行业。

最后,如果你不幸卷入了一场围绕你的网站的诉讼,你的档案将成为有价值的证据。如果能提供清晰完整的网站档案,甚至可以在法院介入之前解决纠纷。

备份和归档的区别

在我们讨论不同类型的网络档案之前,有必要回到我们之前提到的话题。理论上,网站备份和网站存档看起来很相似。然而,它们执行不同的工作,并相互补充。简而言之:

备份是基于数据的。他们更关心的是保留你网站的数据。如果您需要恢复您的站点,备份是至关重要的,因此对您的数据进行完整备份是至关重要的。

保存存档数据的上下文。如果你浏览你喜欢的网站的档案,你会注意到这个功能通常是不完整的。然而,网站的设计和静态内容通常是完整的。

值得注意的是,存档并不是为了完全避免数据保存。其实好处之一就是用户可以像身临其境一样浏览你的网站。即便如此,考虑到Wayback Machine等网站是作为虚拟的“记忆通道”而存在的,保持视觉效果的完整比保持后端功能具有更高的优先级。

简而言之,你需要为你的站点同时使用备份和存档——前者作为日常保护以防最坏的情况发生,后者作为一种额外的方式来帮助记录你的站点的发展。

你会遇到不同类型的网络档案

网络存档不仅仅是一种风格。你会遇到几种不同的类型。以下是每一项的细目分类:

客户端:它包括最终用户保存相关网站的版本。这是简单的,可扩展的,让你很容易存档你的网站。

服务器端:Wayback机等方法归类为服务器端存档。它使用爬虫和其他技术来归档网站,但它也需要一定程度的同意,这在客户端归档中是不可用的。

基于事务的:尽管这仍然基于服务器端归档,但它更复杂,并且需要站点所有者的明确同意。本质上,它将最终用户和服务器之间的站点事务归档。

对于一个包含静态数据的简单网站,再加上一个有组织的归档策略,客户端归档应该能够满足要求。然而,大多数其他站点更喜欢服务器端归档——大多数站点不需要基于事务的归档。

最后——我们将在本文中更详细地讨论这一点——您还需要考虑归档文件存储在哪里以及如何存储。例如,本地存档是一个不错的选择,但如果您的计算机发生故障,您可能会看到它消失。另一方面,如果您选择第三方解决方案,您对存档内容的控制将会减少。

正如你所料,这里的答案是使用各种方法来存档网站。我们建议将存档视为备份:三个不同的副本保存在不同的位置,并以某种方式同步。

您可能还希望使其中一个存档有效,以便可以利用站点上的任何服务器端功能。结果是一个具有强大备份和归档策略的网站,对其他人仍然有用。

互联网存档工具和网站初学者指南

有许多解决方案可用于网站存档。我们将介绍一些比较受欢迎的,以及我们对它如何适合你的看法。

1.返程机

返程机

首先,我们来讨论一下Wayback机。这是同类产品中的第一款,因此它为其他归档工具树立了一个基准。

所以在找档案网站的时候可能是第一负责人。它有许多方法来创建和上传档案,甚至有一个特殊的API来连接它的功能。值得注意的是,它也是一个服务器端归档解决方案。

也就是说,由于其抓取和归档网站的方式,Wayback Machine可能无法保留您网站的所有功能。尽管如此,它被认为是网络档案员的行业标准,可以免费开始。在本文的后面,我们将更详细地向您展示如何使用Wayback Machine来归档网站。

2.存档.今天

Archive.today网站

接下来是Archive。今天,它在许多方面都与Wayback Machine相似——甚至是网站近乎“复古”的设计。其数据服务器位于欧洲,但存档方式与Wayback机不同。

首先,Archive.today不是基于网络上运行的爬虫。相反,你提交你的网址,并同意将其纳入存档。此外,它的功能列表比其他解决方案更简单。例如,没有强有力的删除策略,归档过程排除了某些介质和文件类型。

尽管如此,如果你想要一个免费的地方存放档案,它仍然是免费的和适当的。这个网站甚至有一个搜索功能,可以找到以前存档的网站。

3.Heritrix

Heritrix网站

到目前为止,我们在本文中已经提到了Internet Archive和Wayback Machine。但是,Wayback Machine只是一个服务。此外,互联网档案馆还提供其他一些存档产品。Heritrix是一款免费的开源工具,诞生于互联网档案馆和北欧图书馆的合作。

它本质上是一个网络爬虫,而不是一个全功能的归档工具。但是,您可以将所有的爬行结果打包在一起。虽然在过去不是这样,但Wayback Machine现在使用Heritrix来抓取站点,以包含在自己的站点中。更重要的是,大量的图书馆和机构使用Heritrix建立档案。

尽管它的功能令人印象深刻,但安装Heritrix需要一些技术知识。没有用户友好的界面给你安装,所以你需要了解Git,GitHub和命令行。

像其他类似的解决方案一样,Heritrix完全免费使用,因此它适合作为一种高性价比的自归档解决方案。

4.Web存档集成层(WAIL)

Web档案集成层(WAIL)网站

如果你正在考虑使用Heritrix来存档你的网站,但是厌倦了简单安装软件所需的技术知识,那么这里有一个潜在的解决方案给你。web Archive Integration Layer(WAIL)是一个免费的开源跨平台桌面应用程序,它让您可以使用一个功能图形用户界面(GUI),与安装程序一起使用。

好消息是,Heritrix是WAIL的爬行引擎。这意味着您可以利用Heritrix的强大功能,而不必遍历GitHub和命令行。此外,WAIL使用OpenWayback引擎来“重放”网络档案。

因此,您可以在您的机器上使用一个全功能的Web归档工具。在本文的后面,我们还将向您展示WAIL是如何工作的。

5.斯蒂利奥

Stillio网站

我们的倒数第二个归档工具叫做自动解决方案,它可以在设定的时间间隔拍摄快照。Stillio是一项高级服务,在外观和感觉上与其他归档解决方案不同。

该网站看起来很漂亮,为您提供了无数选项来创建符合您确切要求的个人资料。例如,您可以向URL添加标签和自定义标题。

此外,你可以选择将档案存储到Dropbox、Google Drive和其他第三方服务。

然而,Stillio有一个巨大的缺点:它不支持后端存档。只能用网站截图,不能用完整的数据存档。对于许多应用程序来说,这是不够的。

然而,Stillio在某些情况下可能是有用的,例如用作品牌管理和跟踪工具。比如可以截图竞争对手的网站或者搜索引擎结果。也非常适合内容验证。

Stillio起价每月29美元,通过四个级别涨到每月299美元。这是一个大问题,尤其是当有功能更强大的免费替代品时。但是如果它完全符合您的用例,那么它就值得一看!

6.页面冻结器

Pagefreezer网站

我们最终的解决方案是另一个自动化工具。Pagefreezer提供了许多与Stillio相同的好处,但它也可以归档社交媒体内容、短信、完整的网站和企业级协作平台。

从表面上看,Pagefreezer似乎是一个比Stillio更强大的解决方案,在各种用例中具有更大的价值。

例如,如果法律要求您完全存档您的网站,Pagefreezer可以满足要求。它允许您自动生成快照数量,并使用站点存档浏览器和比较工具查看它们。

总的来说,Pagefreezer是一个优秀的企业级工作场所归档解决方案。使用Yammer或Salesforce的Chatter的公司将会被这种类型的解决方案所吸引,工作场所用户也是如此。

什么是网络存档(WARC)文件格式?

如果你正在研究如何将网站存档,你会遇到网络存档(WARC)格式。它是在您的站点中归档的各种文件的打包组合,因此它是可移植的和自包含的。

互联网的档案馆创造了WARC来长期保存网络数据。互联网保护联盟(IIPC)已经发布了完整的文件格式规范。它将存储图像、元数据,以及你的网站独立运行所需的几乎所有东西。

虽然它最初只是一种方便的文件格式,但WARC现在是数字档案的国际ISO标准。因此,它已被政府和其他官方机构采用。事实上,有几个用例WARC文件是至关重要的:

电子发现:这是诉讼过程中的一个过程,在这个过程中,研究数字记录并将其提交给审判。对于社交媒体记录,WARC文档符合电子发现的法律标准。

信息自由(FOI):有许多国家的政府和官方机构使用这一FOI和开放记录的作用是提供一个“知情权”(RTK)的服务地位的组成部分。WARC格式是数码录音的理想选择。

许多不同的归档解决方案和爬虫都使用WARC,比如StormCrawler和Apache Nutch。您还可以调整命令行工具(如Wget)的设置,将请求提取并打包为WARC文件。我们将很快更详细地讨论这个问题。

还有许多其他工具也可以导出到WARC文件。比如开源的网页保存工具wallabag就可以做到这一点。

作为一种选择,抓取网站是一个基于网络的应用程序,可以帮助抓取档案作为WARC文件。

打开WARC文件取决于您使用的工具。无论您喜欢哪种解决方案,请记住这些工具中的一些已经有一段时间没有更新了。

因此,您需要确保您选择的解决方案适合您当前的系统,并且可以在将来使用。如果在项目归档过程中避免使用可能被终止或废弃的工具,会省去很多麻烦。

管理脱机文件的技巧

在我们讨论如何对网站进行归档之前,让我们花几分钟时间来帮助您整理现有的归档。我们已经讨论过这个话题,但是采用一种可靠的方法会使你的档案更容易管理。你的网站的用户也将从组织良好的档案中获得更多的使用。

你必须记住三个关键因素:

频率:决定多久存档一次网站。一个巨大的、动态的、复杂的、几乎每天都在变化的站点需要比静态站点更频繁的快照。

位置:就像备份一样,您应该将您的档案保存在多个不同的位置,包括云中。遵循3-2-1法则获得额外保障。如果你想捕捉网站的全部深度,我们也建议你提供更多的信息。

结构:就像你的电脑目录一样,你应该使用一个清晰的文件夹,细分为网站存档的名称和特定网站的存档日期。

虽然您可以进一步扩展您的存档管理,这三个提示将开始您的存档工作。

网站存档的4种方法

下面,我们将建议五种不同的方法来存档网站。我们根据解决方案的相对难度对它们进行了排序。但是,如果您找到了一个您认为可以满足您当前需求的解决方案,请继续深入挖掘,了解更多信息。

1.将单个页面保存到本地计算机。

我们来讨论一下最直接的解决方法。如果您需要归档单个页面,这很好。更妙的是,几乎每个浏览器都已经有这个功能了。

首先,打开你喜欢的浏览器,进入你想要存档的网站。页面加载后,导航到浏览器的文件菜单,找到页面另存为选项:

Firefox的文件菜单包含保存单个网页所需的功能。Firefox的文件菜单包含保存单个网页所需的功能。

接下来,单击保存页面的选项,浏览器将显示一个对话框。

在这里,为您的页面选择一个名称(尽管默认值是好的)。另外,确保你保存了整个页面,而不仅仅是HTML。它将保持网站尽可能多的功能。

2.使用在线存档(例如Wayback机器)

没有一个教程是完整的,没有向你展示如何回机器工作。幸运的是,这个过程非常简单。也就是说,请注意,这种方法只允许您归档单个页面(尽管订阅Archive-It服务确实允许您归档整个站点)。

对于这种方法,请访问Wayback Machine的主页并查看“立即保存页面”表格:

在Wayback Machine网站上保存现在页面表单

要存档页面,只需将您希望保存的URL添加到此表单,然后单击保存页面。根据页面的大小或复杂程度,您可能需要等待几分钟,让爬虫和引擎完成它们的工作。也许页面看起来像是崩溃了。我们在测试中遇到了一段时间的死亡白屏(WSoD)。

但是,一旦页面存档,Wayback Machine会将您重定向到一个新的专用页面。

在Wayback机器上存档页面

请注意,您也可以使用书签和浏览器扩展来存档网站。事实上,目前大多数浏览器都有这些开箱即用的选项,包括谷歌Chrome、火狐和Safari。

4.安装Web档案集成层(WAIL)

使用这种方法的第一步是下载WAIL本身并安装它。幸运的是,该工具有一个专用的安装程序(尽管它使用PyInstaller模块,因为该程序是用Python编写的)。

安装过程很简单。无论您使用什么操作系统(OS ),都可以执行以下操作:

导航到WAIL网站并下载适用于您的操作系统的安装程序。

解压缩Windows版本的文件,或者安装macOS的DMG映像。

在macOS的结果对话框屏幕上,将应用程序图标拖到应用程序文件夹中。对于Windows用户,只需将解压后的文件夹拖到根目录C:驱动器即可。

启动WAIL.app或WAIL.app(取决于您的操作系统)。

打开wall后,您将看到它的最小界面:

WAIL界面为您提供了三个选项

现在你可以选择三个选项:查看存档,检查其状态或存档网站。按钮有点令人困惑,因为你的自然倾向可能是从左向右阅读。然而,当它首次发布时,您的档案中不会有任何内容。

相反,请输入您要存档的网站的URL,然后单击“立即存档”!你会看到威尔开始爬网站。你可以在高级> Heritrix选项卡上检查你的抓取状态:

WAIL显示捕获作业的当前状态。

当你完成时,它会显示一个“成功”的信息。此时,您可以单击“基本”选项卡上的“查看归档”按钮。这将在浏览器中打开您的存档站点供您查看。

5.如果你习惯使用命令行,请使用Wget。

对于网站归档的最后一种方法,在开始之前你需要做一些事情:

命令行访问您的计算机

适当的命令行工具,如macOS和Linux上的Windows命令提示符或终端

Wget已安装在您的计算机上。

你可能已经有了前两个。

在macOS上,可以使用brew install Wget命令通过Homebrew安装Wget。请注意,你也需要安装家酿,但只需要几秒钟。在Linux上,Wget预装在大多数主要发行版中。

如果你是Windows用户,在电脑上安装Wget可能会比较困难。虽然网络上有教程,但是它们的说明在机器之间似乎并不一致。相反,我们建议你去Wget官方网站查看一些可用的Windows二进制文件,因为它们更有可能适合你。

反正一旦安装了Wget,就很好用了。首先,导航到新终端窗口中的目录。这里,我们也在创建一个目录,但这一步是可选的:

cd documents && mkdir archive && cd archive

请注意,Wget会将所有下载的内容放入任何工作目录。在本例中,我们为文件指定了一个文件夹。

接下来,您需要抓取站点并提取文件。要用wget命令调用每个操作,需要使用以下格式:

wget “https://www.wbolt.com/” –warc-file=”kins”

按回车键开始下载www.wbolt.com到index.html文件,并创建一个名为kins-00000.warc.gz的WARC文件。

WARC文件存档的网站

Wget功能强大,可以使用很多命令和选项。例如,您可以使用此- mirror命令创建一个包含站点完整镜像的WARC文件。您还可以使用这个-no – no-warc-compression命令来编写未压缩的文件,尽管这显然会在每次下载时占用更多的空空间。使用内置压缩机是最好的方法。

总结

网络存档源于记录快速变化的互联网形式的需要。它现在有多种有效的应用——例如,在法律文档和需求方面。无论您需要什么,拥有一个结构良好、组织有序的归档都可以补充您的总体备份策略。

幸运的是,有许多解决方案可以提供帮助。大多数浏览器都提供在你的电脑上保存网页的功能。然而,特殊的存档工具,如Wayback Machine、Heritrix、WAIL和Wget是特别强大的解决方案,并提供标准化的文件格式。

声明:

1,本站分享的资源来源于用户上传或网络分享,如有侵权请联系站长。

2,本站软件分享目的仅供大家学习和交流,请不要用于商业用途,下载后请于24小时后删除。

3,如果你也有好的建站资源,可以投稿到本站。

4,本站提供的所有资源不包含技术服务请大家谅解!

5,如有链接无法下载,请联系站长!

6,特别声明:仅供参考学习,不提供技术支持,建议购买正版!如果发布资源侵犯了您的利益请留言告知!


创网站长资源网 » 如何归档网站:以各种方式构建Web文件的指南