注意:谷歌的新数据集搜索工具已于2020年1月23日问世。
疫情防控阶段,大家的“寒假“越过越长,这么“长”时间的寒假能做些什么呢?
最近,谷歌发布了免费工具datasetsearch,它可以搜索2500万个公开可用的数据集。
搜索工具包括过滤器,可基于许可证(免费或付费)、格式(csv,图像等)和更新时间限制结果。
结果还包括对数据集内容的描述以及作者的引用。
谷歌的数据集聚合方法不同于其他数据集存储库(如亚马逊的开放数据注册表)。与其他自行管理和托管数据集的存储库不同,谷歌不会直接管理或提供2500万个数据集的访问权限。
取而代之的是,谷歌依靠数据集发布者,使用 schema.org的开放标准描述其数据集的元数据。然后,谷歌索引元数据,并使其在发布者之间可搜索。
发布者仍需自己托管数据集,因此符合schema.org标准的营利性发布者也将使用谷歌为其数据集建立索引。根据以往经验,笔者发现,搜索与市场相关的数据集时,其百分比更高,搜索结果中约有一半的数据集来自营利性聚合器。
该平台上其他受欢迎的数据集发布者包括政府机构和研究机构。谷歌声称,仅美国政府机构就已经发布了超过200万个数据集。
据谷歌统计,大多数数据集涉及”地球科学、生物学和农业领域。”
简单使用schema.org的开放标准即可发布自己的数据集。越来越多的出版商遵守该标准,公开可用的数据集的数量可能会持续增长。
目前,谷歌未提供用于搜索或下载免费数据集的API。
网上数百万个数据集出没
在网络上,用户感兴趣的任何主题,几乎都有数百万个数据集。如果想购买一只小狗,可以查找数据集来汇总买家的投诉或查找对小狗认知度的研究。或者,如果喜欢滑雪,可以查找有关滑雪胜地收入或受伤率及受伤人数的数据。Dataset Search 已为其中近2500万个数据集建立了索引,可以在一个地方搜索数据集并查找指向数据所在位置的链接。在过去一年里,人们对其进行尝试并提供了反馈,现在DatasetSearch正式退出测试版。
查询“滑雪”的一些搜索结果,涉及最快滑雪者的速度以及滑雪胜地收入的数据集。
Dataset Search有何创新之处?
根据从DatasetSearch早期试用版中得到的反馈,开发者添加了新功能。现在,根据所需的数据集类型(例如表格、图像、文本)或是否可以从提供商处免费获得数据集,就可以过滤结果。如果数据集是关于某个地区的,可以查看地图。另外, 该产品现在可以在移动设备上使用,并且数据集描述的质量得到了极大改善。然而,一件事情没有改变:发布数据的任何人都可以使用开放标准(schema.org)在自己的网页上描述其数据集的属性,从而使人们在搜索中可以发现数据集。
开发者还了解到有不同类型的人在寻找数据。有一些学术研究人员正在寻找可以支持其假设的数据(例如:尝试催产素)、学生查找表格形式并涵盖其高级论文主题的免费数据(例如:尝试使用相应过滤器的监禁率)、业务分析师和数据科学家寻找有关移动应用程序或快餐店等的信息。所有这些都有数据!用户都搜索什么呢?最常见的查询包括“教育”、“天气”、“癌症”,“犯罪”、“足球”和“狗”。
上图为查询“快餐店”的一些搜索结果。
在Dataset Search里有哪些数据集?
Dataset Search还提供了网上数据的快照。此处有一些亮点。数据集涵盖的最大主题是地球科学、生物学和农业。世界上大多数国家的政府都会发布数据,并使用schema.org对其进行描述。美国可用的开放政府数据集超过200万,在数量上遥遥领先。最受欢迎的数据格式是什么?用户可以在DatasetSearch中找到超过600万张表格。
在Dataset Search中找到的数据集数量持续增加。如果站点上有一个数据集,并使用开放标准schema.org对其进行了描述,其他人可以在DatasetSearch中找到它。如果知道一个数据集存在,但是在DatasetSearch中找不到它,请要求提供者添加schema.org描述,其他人也将了解他们的数据集。
未来何去何从?
DatasetSearch已退出测试版,但无论产品是否有“测试版”,改进都将继续。快下载体验DatasetSearch吧!