译者序

译者序

从2010年8月起,全球最大的图书馆之一——大英图书馆开始通过关联数据规范发布书目信息,并向研究人员免费开放全部馆藏书目。借由英国国家书目关联数据平台(BNB Linked Data Platform),公众可以自由访问采用关联开放数据规范发布的英国国家书目信息。而在大英图书馆之前,瑞典皇家图书馆、匈牙利国家图书馆、德国国家图书馆已相继将书目数据发布为关联数据。

2016年10月,英国教育和研究领域数字解决方案提供商Jisc提出了国家书目知识库(NBK)的设想,旨在满足高等教育社区的学习和研究需求,并对实体资源与数字资源的获取方式进行改进,以实现构建英国国家数字图书馆的愿景。这个为期两年的项目于2017年初正式启动,Jisc、大英图书馆以及其他组织密切合作,共同致力于这一有可能在未来英国信息基础设施中扮演关键角色的国家级项目。在2012年《大英百科全书》停止印刷版发行,全面转向数字化之后,摆脱实体存在的图书馆或许将是未来的趋势。

在图情领域,关联数据和大数据之间也逐渐呈现出一种“你中有我,我中有你”的态势。

随着RDF数据量的迅速增长,不少关联数据应用开始寻求大数据解决方案。由于关系数据库并非存储大规模RDF数据的最佳方式,采用NoSQL这样的非关系数据库逐渐成为当前的研究热点。这种利用大数据解决方案实现的关联数据应用,不妨称之为“大”关联数据应用。

而相当一部分大数据应用也开始采用RDF数据模型对信息进行描述和编码,使数据包含可以被机器识别的语义,不仅能丰富大数据的语义,也让数据具备更好的互操作性。这种引入关联数据技术的大数据应用,不妨称之为“关联的”大数据应用。

无论“大”关联数据应用还是“关联的”大数据应用,都是为了实现数据的有效管理。虽然基于NoSQL 的RDF存储和查询研究目前尚处于初级阶段,但是关联数据与大数据的结合或许将为图情领域带来一场技术变革。

作为第一种可行的语义网实现方式,关联数据在智能化搜索中也得到了应用。从2012年5月Google发布知识图谱(Knowledge Graph)服务以来,各大搜索引擎相继跟进,纷纷推出了自己的知识图谱类产品。借由知识图谱,搜索引擎将围绕搜索请求产生的零散知识内容聚合在一起,以提供条理性更强的信息,以便用户发现意想不到的知识。

以Tim Berners-Lee作为关键字在Google中进行查询,除常规的搜索结果外,页面右侧将显示Tim Berners-Lee的个人信息(见图1)。而对于“特朗普女儿的丈夫的身高”(Trump's daughter’s husband’s height)这种相对复杂的查询,知识图谱同样可以直接给出答案(见图2)。

图片 3

图1

图片 4

图2

百度在2013年推出的知识图谱类产品“知心”,是这家互联网巨擘在构建知识集群方面的一种尝试。如果能在垂直领域提供更为精细的搜索结果,使用户可以在搜索框内一次性完成所有搜索需求,就有助于搜索引擎为广告客户提供定制化服务,驱动在线营销从粗放型向精细型转变。而实现“搜索即答案”,也是下一代搜索引擎追求的目标之一。

在加州长滩举行的TED2009上,万维网之父Tim Berners-Lee表示,关联数据有助于摆脱信息孤岛。他以研究老年痴呆症的科研团队为例,阐述了关联数据在探索跨学科问题中的应用。团队在一个数据库中建立了基因图组,在另一个数据库中建立了蛋白质数据,并将基因图组和蛋白质数据发布为关联数据。科学家们或许希望了解,哪些蛋白质参与了信号转导并与锥体神经元相关?如果在Google上搜索这个问题,返回的22.3万个结果并无太大意义,因为之前没有人问过类似的问题。不过,如果检索关联数据,则可以获得32个精准的结果,每个结果都是与特征相关的蛋白质。Tim Berners-Lee强调,破除信息孤岛对于解决人类面临的重大问题至关重要。

关联数据并非只和大企业有关,它关乎我们每个人的生活,本书对此作了详细论述。这本面向Web开发人员的教程保持了Manning Publications一贯的高水准,有助于初涉该领域的开发人员了解关联数据的前因后果。Manning Publications以出版技术类图书著称,其“服饰书”系列与O’Reilly Media的“动物书”系列备受开发人员的推崇。

非常感谢人民邮电出版社的傅道坤编辑给予译者翻译本书的机会,他为本书中文版面世所作的努力以及专业和严谨的态度,给译者留下了深刻印象。虽然译者尽力而为,但水平有限,疏漏之处在所难免。恳请读者不吝赐教,提出宝贵的意见和建议。译者的联系方式:milesjiang314@gmail.com。

蒋楠

2017年12月

目录

相关技术