关于本书

关于本书

关联数据(Linked Data)是在万维网上表示和连接结构化数据的一系列技术。本书将向读者介绍如何访问、创建并使用关联数据。关联数据的一个神奇之处在于,它很容易就能与其他关联数据进行组合,从而构成新的知识。

关联数据让万维网成为一个全球性数据库,我们称之为数据网(Web of Data)。开发人员可以利用SPARQL查询语言同时查询多个信息源的关联数据,并动态合并查询结果,这是传统数据管理技术很难或根本无法做到的。书中的示例取自公共信息源,不过所介绍的技术很容易就能用于私有数据。读者或许对书中使用的某些资源不太了解,但它们都不难从万维网上找到。如果在实际中遇到这些资源,读者不妨认真研究一下。如果书中的截图和引用的URL与读者在浏览这些网站时所看到的实际内容不一致,我们提前对此表示歉意。万维网始终处于快速变化之中,任何印刷品都无法绝对精确地反映所有变化。但我们承诺,所有截图和URL在本书付印时都是正确的。

藉由关联数据技术,我们更容易和他人共享数据。理论上说,可以采用关联数据描述任何内容。万维网上的关联数据可以被发现、共享并与其他用户的数据进行合并。与传统的数据管理系统不同,关联数据将信息从专有容器(proprietary container)中释放出来,任何人都能使用这些信息。与其他数据一样,关联数据的质量和效用由数据使用者负责评估。人们只信任可靠的数据源。

本书读者对象

对于希望了解、使用和发布关联数据的应用程序开发人员而言,本书值得一读。本书假定读者对HTML、URI、HTTP等基本的Web技术已有所了解。本书将介绍关联数据并在各种背景下讨论其应用,并论述指导关联数据使用的4项原则。此外,本书还将讨论如何在万维网上查找、使用和发布关联数据,并通过复杂性逐步增加的一些实际应用加以说明。

路线图

本书总共11章,分为4个部分,并包括两个附录和一个词汇表。

第1部分“关联数据网”将介绍关联数据的基础知识,论述RDF(资源描述框架)数据模型,并讨论表示关联数据的通用标准序列化格式。这部分内容将引导读者识别并使用万维网上的关联数据。

  • 第1章将介绍关联数据,在各种背景下讨论其应用,论述指导关联数据使用的4个原则,并通过一个应用程序展示关联数据的使用。
  • 第2章将介绍RDF以及它与关联数据的关系。我们将论述RDF数据模型,并讨论实际中可能用到的一些关联数据重要概念。在这一章最后,我们将讨论文件类型和Web服务器遇到的常见问题,并给出解决这些问题的方法。
  • 第3章将讨论万维网的分布式特性,并介绍数据和文档相互连接的方法。读者将了解文档网(Web of Documents)和数据网之间的关系,以及如何在万维网上查找并使用关联数据。

第2部分“关联数据进阶”将重点讨论开发和发布关联数据所用的技术,并介绍聚合数据所用的高级搜索技术。我们利用SPARQL查询语言来搜索相关的关联数据数据集,并将搜索结果加以聚合。

  • 第4章将介绍如何利用FOAF词表和Relationship词表在万维网上创建、链接与发布关联数据。
  • 第5章将介绍RDF所用的SPARQL查询语言,后者可以像查询数据库一样查询数据网——尽管数据网是一个非常庞大的、由大量分布式数据集构成的数据库。

第3部分“关联数据实战”将讨论如何使用RDFa(属性中的资源描述框架)对网页进行SEO(搜索引擎优化)。我们将介绍RDF数据库,并讨论它与传统的关系数据库之间的区别。我们还将介绍在万维网上共享用户数据集和项目的最佳方式,并对语义网搜索结果中包含的项目和数据集进行优化。

  • 第6章将介绍如何利用RDFa强化HTML网页,从而获得更准确的搜索结果。我们将介绍面向业务的GoodRelations词表以及其他使用schema.org的技术。
  • 第7章将介绍RDF数据库,并讨论RDF数据库较之关系数据库的差异和优势。一般来说,集成RDF格式的信息相对不难,但用户所需的信息通常存储在非RDF数据中,需要进行转换以便处理。这一章将介绍如何将非RDF数据转换为RDF格式,以便集成到其他应用程序中。
  • 第8章将介绍如何描述新创建的关联数据,并将其链接到更大的关联数据系统中。我们将讨论并应用DOAP词表(用于描述项目)、VoID(用于描述数据集)以及语义站点地图(用于描述网站中的关联数据产品)。此外,这一章还将介绍在LOD云上发布数据时需要遵循的规则。

第4部分“归纳与整合”将把之前讨论的所有知识点串联在一起。本章将使用开源的关联数据应用服务器开发一个复杂的应用程序,并总结从准备到发布关联数据的全过程。

  • 第9章将介绍Callimachus,这是一个开源的关联数据应用服务器。我们将讨论Callimachus的基本用法以及利用RDF数据生成网页,并展示如何通过Callimachus构建应用程序。
  • 第10章将总结从准备到公开发布关联数据的全过程,并对构建URI、自定义词表等容易忽视的环节进行说明。
  • 第11章将讨论语义网目前的发展状态,以及关联数据在其中所扮演的角色。我们将介绍几个有趣的关联数据应用程序,并尝试对语义网和关联数据今后的发展方向进行预测。

正文后的附录将提供一些补充信息。

  • 附录A将介绍如何设置本书所用工具的开发环境。
  • 附录B将介绍常用的SPARQL查询结果格式。
  • 词汇表将列出并定义本书所用的术语。

本书用法

为充分利用本书,建议读者按顺序阅读每个章节,下载和执行示例应用程序,并尝试修改这些示例以加强对概念的理解。如果程序中需要使用某些软件,我们将提供相应资源的链接。希望本书能为读者了解、使用和发布万维网上的关联数据打下坚实的基础。

目录

相关技术