构建谷歌数据集搜索,培育开放的数据生态系统

徐大白
2年前 阅读 51 点赞 2

九月早些时候,谷歌启动了Google Dataset Search,这个工具旨在让研究人员更容易发现可以帮助他们工作的数据集。我们俗称之为“Google Scholar for data”,Google Dataset Search是一个跨越元数据的搜索引擎,用于跨越万维网的数千个存储库中的数百万个数据集。在这篇文章中,我们详细介绍了数据集搜索是如何构建的,概述了我们认为将有助于开发开放数据生态系统的,并且我们还解决了自从数据集搜索启动以来我们经常收到的问题,“为什么我的数据集没有出现在Google数据集搜索中?”

概述

在一个非常高的级别上,Google Data Search依赖于数据集提供者,无论大小,都使用开放的schema.org/Dataset标准在他们的站点上添加结构化元数据。元数据指定每个数据集的显著属性:其名称和描述、空间和时间覆盖、来源信息等等。DataSet搜索使用此元数据,将其与谷歌上可用的其他资源链接(更多在此下面!),并建立一个丰富的元数据语料库索引。一旦我们构建了索引,我们就可以开始回答用户查询,并找出哪些结果最适合查询。

使用数据提供者的结构化元数据

当Google的搜索引擎处理带有schema.org/Dataset标记的网页时,它理解那里有数据集元数据,并且处理结构化元数据以创建“记录”,以描述页面上每个带注释的数据集。org的使用允许开发人员将这个结构化信息嵌入到HTML中,而不影响页面的外观,同时使信息的语义对所有搜索引擎可见。

然而,无论Simul.Org定义或指南有多精确,某些元数据不可避免地会是不完整的、错误的或完全缺失的。此外,某些字段之间的区别可以是模糊的:数据集存储库是发布者还是数据集的提供者?我们如何区分引用的科学论文,描述数据集的创建与论文描述其用途?事实上,这些问题经常产生积极的学术讨论。

尽管有这些变化,数据集搜索必须在前端提供统一和可预测的用户体验。因此,在某些情况下,我们用一个更通用的字段名(例如,“提供”)来显示来自多个其他字段的值(例如,“发布者”、“创建者”等)。在其他情况下,我们根本不能使用一些字段:如果特定领域被数据集提供者以许多不同的方式误解,那么我们现在绕过该领域,与社区合作以阐明指南。在每一个决定中,我们有一个特定的问题,帮助我们在困难的情况下“什么将有助于数据发现最多?”专注于我们正在处理的任务使一些问题比起初看起来更容易。

连接数据集的副本

一个数据集,特别是一个流行的数据集,在多个存储库中是很常见的。我们使用各种信号来确定两个数据集何时是彼此的副本。例如,schema.org可以通过schema.org/sameAs显式指定连接,这是将不同副本链接在一起并指向数据集的规范源的最佳方法。其他信号包括指向相同规范页、具有相同数字对象标识符(DOI)、共享用于下载数据集的链接或在其他元数据字段中具有大重叠的两个数据集描述。这些信号没有一个是孤立的完美的,所以我们将它们组合起来以获得两个数据集何时相同的最强的可能指示。

与Google知识图协调

Google的知识图是一个强大的平台,它描述和链接关于许多实体的信息,包括出现在数据集元数据中的实体:提供数据集的组织、数据的空间覆盖位置、资助机构,以及等等。

因此,我们尝试将元数据字段中提到的信息与知识图中的项目进行协调。我们可以以两个主要的原因很好地进行和解。

首先,我们知道知识图中的项目类型和元数据字段中期望的实体类型。因此,我们可以从与特定元数据字段的值匹配的知识图中限制实体的类型。例如,数据集的提供者应该与知识图中的组织实体匹配,而不是与位置(例如,位置)匹配。

其次,Web页面本身的上下文有助于减少选择的数量,这对于区分共享相同缩略词的组织特别有用。例如,缩写CAMRA可以代表“智利先进的气象雷达”或“真正的ALE运动”。如果我们使用网页上的术语,那么当我们在页面上看到诸如“云”、“蒸气”和“水”之类的术语时,就可以更容易地确定CAMRA实际上是Chilbolton雷达。

这种类型的协调开辟了许多可能性来改善用户的搜索体验。例如,数据集搜索可以通过以与页面其余部分相同的语言显示元数据的调和值来本地化结果。此外,它还可以依赖同义词、纠正拼写错误、扩展缩略词或使用知识图中的其他关系进行查询扩展。

链接到其他谷歌资源

Google还有许多其他的数据资源,这些资源对于增强数据集元数据很有用,比如Google Scholar。知道在出版物中引用和引用哪些数据集至少有两个目的:

  • 它提供了关于数据集重要性和显著性的一个有价值的信号。
  • 它给数据集作者一个简单的地方看到他们的数据引用,并获得信贷。

事实上,我们希望突出使用数据的出版物将带来更健康的数据引用生态系统。目前,我们与谷歌学者的联系非常接近,因为我们缺少一个关于人们如何引用数据的好模型。我们试图超越DOIS来给予更好的覆盖,但是引用数据集的文章的数量最终是近似的。我们希望在这方面取得更大的进步,以获得更高的精度水平。

搜索结果排序

当用户发出查询时,我们通过数据集的语料库进行搜索,其方式与Google Search在网页上进行搜索没什么不同。就像任何搜索一样,我们需要确定文档是否与查询相关,然后对相关文档进行排序。因为目前还没有大规模的关于用户如何搜索数据集的研究,作为第一近似,我们依赖于Google Web的排名。

然而,对数据集进行排名不同于对网页进行排名,我们添加了一些附加的信号,这些信号考虑了元数据质量、引用等等。随着数据集搜索被我们的用户更多地使用,并且我们更好地理解用户如何搜索数据集,我们希望排名将显著提高。

一个更好的开放数据生态系统我们建立数据集搜索

试图创建一个工具,将积极影响数据的可发现性。依赖开放标准(schema.org、W3C DCAT、JSON-LD等)进行标记的决定是有意的,因为数据集搜索只能像它所支持的开放数据生态系统一样好。

因此,谷歌DataSet搜索旨在通过鼓励支持一个强大的开放数据生态系统:

  • 广泛采用开放的元数据格式来描述已发布的数据。
  • 进一步开发开放元数据格式来描述更多类型的数据,并更详细地描述。
  • 引用数据的文化就像我们引用研究出版物的方式,给那些创建和发布数据的人应有的信誉。
  • 利用这些元数据来实现更多发现或更好地使用数据的工具的开发。

随着数据集搜索(以及,希望还有其他工具)的不断发展,开放元数据标准的日益采用应该促进一个更健康的开放数据生态系统,其中数据是研究的一流公民。

那么,你的数据集在哪里?

现在可能很清楚,数据集搜索只与数据集的网页上存在的元数据一样好。对于为什么特定数据集没有显示在我们的结果中的问题,最常见的答案是该数据集的Web页面没有任何标记。只需将该页弹出到结构化数据测试工具中,您就可以看到标记是否存在。如果您在那里没有看到任何标记,并且您拥有该页面,那么您可以添加它,并且如果您不拥有该页面,那么您可以要求页面所有者这样做,这将使每个人更容易发现他们的页面。

鸣谢

我们希望社区发现数据集搜索有用,用户偶然发现,节省时间,科学家和记者花更少的时间搜索数据,更多的时间使用它。感谢小孟班、丹·布里克利、李·巴特勒、托马斯·陈、科琳娜·科尔茨、凯文·埃斯皮诺萨、阿卡纳·贾恩、迈克·琼斯、基肖尔·帕皮尼尼、克里斯·萨特、高汗·图尔汗、赵书宾和安迪·瓦伊达为该项目所做的工作,感谢我们所有的合作伙伴、合作者和伯爵请采纳他们的帮助。

| 2
登录后可评论,马上登录吧~
评论 ( 1 )
像徐大神学习
回复
2年前
相关推荐