本地文档检索工具——Recoll

电脑存了这十几年收集的电子书、文档及网页上保存下来的好文章,即便在不断精简的情况下,目前算下来也有几十个 GB。生活在信息过剩的年代,很容易就囤积了可能一辈子都看不完的资料;另一方面,如果只保存 URL,再云存储资料,既不可靠,资料也过于分散,不利于阅读和查阅,所以我更习惯把资料存在本地统一管理,并且定期向备用硬盘里备份。

收藏的文档除了平时拿来主动阅读,更重要是在需要查某些资料时,能优先把电脑里相关资料调出来参考,而不是网上查了一番后才发现自己电脑里已经有了。那些既不会再看,又不会当作资料的文档最终变成了电子垃圾。当然存储在本地的文档可能是一个 PDF 文件,或是 CHM、HTML、纯文本、Word等等格式的文件,而 Recoll 就是款支持常见文件格式、能把文档里的文本提取出来做全文索引的软件。

Recoll 支持 Linux、Mac 和 Windows,官方网站:https://www.lesbonscomptes.com/recoll/

要做的就是把文档集中放在某个地方,然后在软件主界面“选项”菜单 > “Index configuration”中,设置好索引的目录及忽略的目录,软件会根据路径自动建立索引。

Recoll 也支持后台监控目录变化,然后自动更新索引,对于会频繁变动的资料目录,可以在“选项”菜单 > “Indexing schedule”中设置定时或实时索引。

“选项”菜单 > “GUI configuration”里可以配置搜索结果的展示,比如字体、颜色、排序等等,我建议把“结果列表”里的每页显示条数的数值改大一点。

如图,比如最近要写 IoT 方面的资料,我把电脑里提及到 IoT 的文档都检索出来:

IoT.png

检索结果里,会显示出文件路径、标题以及部分内容。有三个操作按钮,选择“预览”,Recoll 会以纯文本方式预览文档;选择”打开“则会用系统对应格式的默认的启动软件来打开文档;“Snippets”则会把涉及到搜索关键字的句子给罗列出来。

整体来说,Recoll 的界面或许没有其他相关软件那么漂亮,但是它足够方便,建索引和检索速度够快。稳定性方面,只遇到过一次因目录资料太多而崩溃的情况,启动后继续建索引即可。