机器学习和大数据正在释放欧洲的档案库

这些问题在阿姆斯特丹是众所周知的，阿姆斯特丹正试图披露其全部档案。荷兰阿姆斯特丹市档案馆的档案保管员Pauline van den Heuvel说，仅就公证记录而言，“纸上大约有三公里半。” 端到端放置约11800页A4纸。她说，整个藏书长约50公里，相当于170,000张A4页。 “我们知道它们确实很重要（文档），但这确实是一个黑洞。”

她说，手动记录这些文件中可用的名称通常需要数十年的工作和资金。

几年前，档案馆与READ项目及其Transkribus平台合作，该平台为档案管理员提供了一种转录和搜索其历史文档的新方法。在线平台允许用户训练计算机手写识别模型，以转录用多种欧洲语言手写的历史文档。

用户使用50至100页的现有转录本或手动转录到系统中的转录本来训练模型。经过训练后，该模型将使用机器学习将现在知道的笔迹模式与用户想要转录的文档的笔迹模式进行比较。模型会自动逐行转录。为了使其正常工作，新文档必须使用与模型以前看到的相同或相似的笔迹。

协调该项目的奥地利因斯布鲁克大学的GünterMühlberger博士说，到目前为止，用户已经培训了7700多个模型。

用户可以训练自己的模型，也可以选择现有模型。一个可用的模型可以识别英国哲学家杰里米·本特姆（Jeremy Bentham）的笔迹风格。另一位承认17世纪意大利秘书的笔迹风格。用户可以将这样的模型用作他们自己的训练的起点。

Transkribus完成工作后，用户通常只需要校对即可纠正所有小错误。尽管这似乎是很多初期工作，但它可以节省档案工作者，历史学家和学者数百个小时（甚至不是数千个小时）的时间，坐在计算机前手动转录整套文档。

“现在，您可以研究大量数据中的模式，人与人之间的联系-这是全新的研究。”

Pauline van den Heuvel，荷兰阿姆斯特丹市档案馆

机器学习

Transkribus是READ项目开发新技术以更好地识别和自动抄写手写文档的结果。这些文字可以帮助研究人员更好地在整个非洲大陆的档案中存储的数十亿个页面中搜索单词或短语。

对于Transkribus，该项目使用了一种“监督式机器学习”算法，该算法可在学习过程中整理历史数据。该数据可用于训练更大的模型。

该项目的关键是“大数据”-足够的存档文档，可以使该算法对笔迹和页面布局具有复杂的理解。该项目与欧洲70多个档案馆，大学和研究机构合作，包括德国的黑森州国家档案馆和意大利的Archivio Storico Ricordi。 Mühlberger博士说：“从中世纪到20世纪，我们获得了成千上万页的页面，这些页面具有不同的布局和不同的（文字类型）。”

他说，Transkribus可能是全球历史笔迹培训数据最多的集合-超过700,000个文档。

Mühlberger博士说，他们面临的主要挑战是还要训练算法，以识别手写文档中的一行字。他解释说，例如，用于将PDF转换为文本的常规“光学字符识别”软件可以很好地与旧的打印文档配合使用，因为行和单词空间具有固定的布局。

他说，如果你试图用手写做同样的事情，那你将彻底失败。他说，在草书中孤立单个字符几乎是不可能的。

该项目的初始机器学习算法可以识别85％的手写文本。但是，该项目很快意识到，对于处理数千个手写档案页面的档案馆来说，这还不够好。

他说：“百分之八十五的研究报告看起来不错，但对于坐在电脑前的用户而言却不然。”

线数

研究人员然后使用了两种方法来提高程序的准确性。他们首先重新考虑了程序如何识别文本行。他们没有寻找文本的整个块区域，而是训练了算法来寻找每个单词赖以生存的共同“基线”，这类似于行规页面教孩子如何在页面上平均书写。米尔伯格博士说：“这是非常重要的简化。”

在项目期间绘制了超过100,000条线，以训练算法来识别普通线的外观。如果Transkribus无法识别一行文本，则用户可以通过在下面画一条线来显示该程序，这是一种较简单的技术，从长远来看可以节省数小时的时间。

另一个变化是Transkribus识别语言的方式。在项目的早期，他们使用字典来帮助它识别文档中的整个单词。但是，通过切换为仅识别培训文档中的字符，团队可以将其准确性进一步提高10％。识别字母也意味着该算法对于旧形式的语言很有用，并且能够处理缩写。最近的新增功能使Transkribus可以自动扩展缩写。

他们希望进一步完善Transkribus的工作方式。一种方法涉及合并不同的用户训练算法，以整体提高Transkribus的文本识别能力。另一个是添加新功能，例如转录包括表格和表格在内的结构化信息，并允许档案管理员大规模搜索和更正关键字。 Mühlberger博士说，他们希望改善平台的用户体验和布局，以便即使是小型家庭历史学家也可以轻松地使用Transkribus上传和转录文档的扫描副本。 Transkribus的合作结构意味着赚到的任何钱都会反馈到平台上以改善其服务。

档案

自2015年推出以来，使用Transkribus的人数已大幅增加。该平台目前拥有超过45,000个用户，其中包括阿姆斯特丹市档案馆的志愿者。 Van den Heuvel说，当档案馆意识到将17个名字，地点和日期编入索引时，他们选择了Transkribus参加他们的工作^日和18^日世纪的文件将需要数十年的工作。经过培训的Transkribus算法能够完成项目18的转录^日世纪文件比预期早一年。她说，虽然志愿者可能需要花费数月的时间才能索引50,000份扫描文档，但是模型一旦经过培训，仅需几个小时。她说，一个由300名志愿者组成的团队现在只需要仔细检查转录。

她说，这仅仅是开始。 “现在，您可以研究大量数据中的模式，人与人之间的联系-这是全新的研究。” 工作仍在进行中，尽管范登·赫维尔（van den Heuvel）表示，完成的工作将与欧洲时光机器机构网络建立联系，这些网络将使用记录来阐明欧洲在一段时间内的社会和政治发展。

整个欧洲还有其他正在进行中的项目，这些项目都有档案。芬兰的国家档案馆也正在努力发布其国家档案馆，自2016年以来一直在使用Transkribus。芬兰国家档案局高级研究官Maria Kallio表示，档案馆首先在他们的一些日记条目中使用了Transkribus。对结果印象深刻后，他们决定执行更大的任务。

她说：“我们已经开始抄写这些19世纪法院的记录，这是一个巨大的收藏，仅19世纪的记录就是数百万页。” “为了使对……记录的研究更加容易，我们认为在其上尝试该技术可能是一个好主意。”

他们与READ项目的合作使芬兰档案馆现已向公众发布了约80万份转录文件，包括整个芬兰大部分地区的契约，抵押和监护案件的法律记录，可追溯到16^日世纪。人们现在可以使用这些记录来研究家族史并跟踪财产所有权。

该技术仍然存在局限性。 Van den Heuvel说，所有17种产品都需要大量培训材料^日世纪的笔迹来创建一个通用模型，该模型可以在如此大而多样的收藏中使用，例如他们的收藏。拥有大量页面的馆藏还需要为使用Transkribus技术的费用提供资金，该技术可在前500页免费使用，然后需要购买“信用”来抄写更多页面。例如，接下来的120个手写页面为€18。

尽管如此，这项技术仍受到研究人员的欢迎。卡尔利奥说：“有可能提出这类研究问题，以回答有关事物如何发展的更广泛的问题。” “现在，您实际上可以掌握所有材料，并提出之前无法解决的问题。”

本文中的研究由欧盟资助。如果您喜欢这篇文章，请考虑在社交媒体上分享。

2020年9月下旬，READ项目及其Transkribus软件被评为欧盟委员会地平线影响力奖的获奖者之一。

This article – “机器学习和大数据正在释放欧洲的档案库地平线：《欧盟研究与创新》杂志
” – was originally published in Horizon, the EU Research & Innovation magazine