全文共4604字,23图

预计阅读时间:12分钟

ps:干货很多,文章很长,耐心阅读,收获多多哦!

在日常生活中,你是不是经常会遇到保存的网页突然显示不存在或“404”,一些重要的信息链接突然失效,那我们该如何避免这种情况发生呢?接下来,福韵君就来给你支招。

打开网易新闻 查看更多图片

图源:福韵原创图片

速度是任何类型调查中的关键因素,因为信息被搁置的时间越长,被污染、出现失真甚至完全消失的可能性就越大,这也就是所谓的“信息损耗”。从信息传播过程的可变性可知,信息作为一种特殊的存在物,很容易在传播过程中出现损耗和丢失

比如,我们经常玩的小游戏“传声筒”,若干人排成一队,组织者用耳语告诉排在最前面的人“吃饭”二字,让他传给第二个人,第二个人再传给第三人,……,传到第20个人时,他说出的结果是“翅膀”,而不是“吃饭”,这就是信息传递中的自然损耗和扭曲。

在互联网上的信息传播同样是如此。因此,在我们平时的调查过程中,知道如何迅速采取行动以在丢失信息之前做好保存和收集是一项重要技能

比如,通过下面这张某活动现场实时发布的照片,你知道这张照片是在哪里拍摄的吗?

图源:Twitter

我们知道照片的发布平台是 Twitter ,我们可以结合使用 Twitter 的实时更新、Twitter 的实时地理位置数据、以及 OneMillionTweetMap、Snapchat Map 和 Facebook 的主题标签,可以非常快速地找到这个位置。

值得注意的是,这个方法在很大程度上依赖于来自各种社交媒体应用程序的短期实时数据。通过快速收集并保存数据(在这种情况下仅使用屏幕截图就可以),信息的损耗可以争取到最小化,并且可以非常快速地完成地理定位。

但是,如果我们是在四个月后才开始这项调查的,结果会是什么样子呢?

这种情况下尝试从 Twitter 捕获实时数据已经毫无意义了,Snapchat Map 镜头也早已消失,而 Facebook 搜索机制的变化将意味着,即使不是不可能,也很难找到这场游行的准确路线。

打开网易新闻 查看更多图片

图源:摄图网可商用图片

最后,不仅是我们最初所依赖的数据已经不再可用,而且,还有其他因素会导致更大的信息损失:这是一次气候维权大游行,但是自从拍摄那张照片以来,这里还有更多的同类游行出现。我们可能分不清哪张照片来自哪个游行。

这意味着将有数百万个搜索结果遮盖你一直在寻找的内容,本该依赖的某些 Twitter 帐户已被删除等。

在该照片发布的最初几个小时中,可用的信息库足以找到拍摄位置,但是如果是在照片发布后的几个月才开始调查,可能许多可用的信息已经消失了。

因此,在调查过程中我们必须快速采取行动,尽早收集和保留开源情报信息,这将对最终结果产生重大影响

接下来,福韵君将向大家介绍如何以及为何要快速保存开源情报资料。

保留和收集开源情报数据

图源:Twitter

防止证据丢失的需求并非开源情报调查所独有,在公安刑侦、律师取证等调查中均需要迅速完善保存好证据,比如血迹、指纹、头发样本、脚印之类的重要证据对于解决严重犯罪来说至关重要。这些法医线索会很快退化或丢失,因此好的调查员会保留它们以防止丢失。

图源:摄图网可商用图片

这就是为什么犯罪案件发生后,现场会迅速被警方围起来,避免不相干的人闯入破坏了上述证据。所有最敏感的区域都覆盖有帐篷,这不仅是为了让围观者远离,帐篷还可以保护非常敏感的证据碎片免受雨水、风和其他可能导致损失的因素的影响。如果一开始丢失或污染了这些证据,那么整个案件可能永远无法解决。在开源调查中,使用的原理也一样。如果你没有收集和保存正在发生或才刚发生的事件信息,证据就会丢失。

在瞬息万变的互联网世界中,宝贵的信息不仅会快速被新信息所掩埋,甚至可能还有其他恶意行为者在机器人的协助下推动信息战,积极地试图破坏证据、并利用阴谋论淹没原始资料。

Twitter 就是一个很好的例子。如果无法快速识别和捕获主要来源,则很容易丢失它们,从而导致调查受挫。

接下来福韵君将介绍一些实用的工具,可用于可靠的、快速地从Web捕获信息,以及其他一些工具,可帮助你恢复一开始可能会丢失的信息。

保存工具

我们可以使用多种工具来快速有效地捕获信息,Screenshot 就有很多不同的屏幕截取工具。比如微信、QQ自带的截图工具,以及电脑快捷键截图,还有一些屏幕截图插件和软件,比如 Snipaste 都可以很方便地进行屏幕截图。

在 Mac 上是 Command+Control+Shift+3, PC 端按 Print Screen 按钮,通常标有“Prt Scr”,或者如果你想抓取活动窗口,可以同时按下“Alt Gr”和“Prt Scr”。

我们还可以在Chrome 网上应用店或Firefox 附加组件页面 中查找适用于浏览器的附加组件和扩展程序。许多都是免费提供的,并且可以轻松安装到浏览器中。

如果你的工作涉及大量屏幕抓取,那么可能值得投资像 Techsmith 的 Snagit 这样专业的屏幕捕获软件,它也可以复制网页的区域、注释捕获,甚至制作网站的视频。

这有时对于展示网站的功能或保存流媒体内容、视频和动画至关重要。市面上有很多屏幕捕捉程序都是免费的。

捕获屏幕截图后,我们可以将其通过电子邮件发送给某人,在网页上使用它或将其粘贴到 Word 文档中并打印出来。

屏幕抓取的缺点是我们只能保留页面的数字图像,无法单击其链接来访问连接的网页,也无法选择文本或分离出照片。解决此问题的一种方法是将页面、其代码和图像完好无损地保存到硬盘上。

保存网页

1.屏幕截图

保存网页最简单的方法就是按 Ctrl + S 并将网页另存为 HTML 文件。

打开Chrome的扩展来右侧的按钮,选择 “更多工具 – 网页另存为”,或者直接按快捷键 Ctrl + S ,就可以打开浏览器的网页保存窗口,将网页的文件全部保存到本地,包括网页内容、图片、代码文件等全部都会拷贝下来。

打开网易新闻 查看更多图片

图源:福韵数据官网截图

通过选择“仅 HTML”作为选项,我们可以保存页面的基本版本,没有图像且功能有限。但大多数人将页面保存为“完成”。后一个选项将图像和一些嵌入的技术文件保存到一个单独的文件夹中,允许我们查看和使用在线直播版本的大部分功能。

但它也有一些限制,不能保留嵌入的视频或无法执行搜索,但对于大多数用途而言,这是保存基于 Web 的证据的一种非常合适的方式。

不过,默认情况下当你保存网页时,每个网页都会带有一个文件夹,管理起来不够方便。此时,你可以做一个操作,将保存类型设置为 .mhtml 格式的单个文件,这样就可以将网页中的所有内容合并成一个文件了,可以更方便地存储和使用。我们还可以将页面另存为 PDF 文档。

另外,也可以使用一些保存网页的扩展程序,比如 Save Page WE 这款插件就可以一键保存完整的网页为单个html文件。

https://chrome.google.com/webstore/detail/save-page-we/dhhpefjklgkmgeafimnjhojgjamoafof

Chrome商店的一款截图扩展 FireShot,它就是专门制作网页长截图的,安装好扩展后,点击捕捉整个页面,FireShot 就会自动滚动页面并截取网页,软件会自动忽略页面中的固定元素,保证内容完整显示。

https://chrome.google.com/webstore/detail/take-webpage-screenshots/mcbpblocgmgfnpjjppndjkmgjaogfceg?hl=zh-CN

截图完成后,你可以选择存储为图片或PDF格式,还可以发送到Gmail、复制剪贴板等操作,定制性很高,另外,还有一些截图扩展还支持保存到网盘、分享、标注等功能,可以进一步提高工作的效率。

如果你只是偶尔需要保存几个网页,又不想安装浏览器扩展,也可以使用支持滚动截图的截图软件来截取网页,比如使用QQ自带的截图、Xnip、CleanShot等都提供了滚动截图功能。

打开网易新闻 查看更多图片

https://cleanshot.com/

只需要在截图时滚动鼠标,它会自动为你拼接出一个长网页,你可以截取任意长度的网页,不过有一个缺点是对于特别长的网页,这种滚动截图的方式速度太慢,而且需要不断拖动滚轮,所以并不适合重度用户使用。

2. TweetBeaver

https://tweetbeaver.com/

TweetBeaver 包含多个工具,可以从 Twitter 下载所选信息,并在需要时将其导出为CSV。其中的 Twint 是在 Twitter 下载批量信息的好方法,并且它的用户界面非常简单。

它不使用 Twitter API,功能非常强大。它具有捕获特定种类信息的许多功能,并且与一些常见的可视化工具很好地集成在一起。

3. Archive.is 

Archive.is 是“网页的时间胶囊”。它不如互联网档案馆那么知名,并且它不包含太多信息,但是,它确实为我们提供了一个选择,可以非常快速地归档你想要的任何页面。只需在红色框中输入页面的URL,Archive.is 便会复制并保存该页面,即使原始页面已被删除。

4. Pastebin 

Pastebin 的界面很简单。它只能用于存储文本,但有时如果你急于收集且不能在本地保存文档或者出于某种原因而不想这样做,那么它可能会是一个有用的选择。

复制并粘贴你要保存的文本,然后 Pastebin 创建一个唯一的URL,还可以将其用作书签。但是注意在默认情况下保存的内容不是私密的。

5. Httrack

HTTrack 是保存网站的强大工具。它复制了网站或页面的整个结构,并可以离线保存。它比简单地将网页另存为HTML文件更强大,因为它捕获了使网页起作用所需的所有相关脚本和样式。它非常详尽,可让你创建网站的精确副本以供离线查看。

唯一的缺点是,在逐页复制整个网站时,捕获整个网站所需的时间要比仅拍摄一些屏幕截图要长,但是,最终产品的细节要丰富得多。Windows 和 Linux 均可使用。

https://www.httrack.com/page/2/

6. YouTube-dl 

它几乎可以从任何网页(不仅仅是YouTube)中获取视频内容。

https://snapcraft.io/youtube-dl-snap

7. Hunchly

Hunchly 是捕获Web浏览器证据的最佳工具,没有之一。当你浏览、抓取网页、视频、屏幕截图、搜索等内容时,它可以在后台默默地捕获证据,同时为你进行的研究创建可审核的踪迹。

不过要花钱,一年的许可费用为129美元,但是,如果你是专业的从事调查的人员可以尝试一下。它在 Windows、MacOS 和 Linux 上同样有效。

https://www.hunch.ly/

8. OSIRT 

OSIRT Browser 虽然不像 Hunchly 那样知名,但它的使用体验还是不错的。它在你浏览时进行捕获,具有内置的视频捕获工具、网页捕获功能、还有Tor功能,并且允许你添加自己的记录,最后将整个内容导出为PDF。它最初是为执法人员而设计的,但现在已公开提供给所有人使用(仅限 Windows)。

https://osirtbrowser.com/

由于今天的干货内容太多,福韵君分上下两期来向大家介绍,敬请期待下一期的干货吧!

END

本篇文章为福韵原创内容,未经授权禁止转载

福韵原创IP形象设计,原创勿盗,侵权必究

封面来源:福韵原创图片