Survey
* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project
* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project
© Graduate University , Chinese academy of Sciences. 人工智能 Artificial Intelligence Artificial Intelligence Ontology: 1 © Graduate University , Chinese academy of Sciences. 本体知识系统 Artificial Intelligence Ontology: 2 © Graduate University , Chinese academy of Sciences. 主要内容 • 本体的基本概念 • 语义Web • 本体描述语言 • 本体构造 • 本体映射 • 本体知识管理 • 大规模知识系统 Artificial Intelligence Ontology: 3 © Graduate University , Chinese academy of Sciences. 主要内容 • 本体的基本概念 • 语义Web • 本体描述语言 • 本体构造 • 本体映射 • 本体知识管理 • 大规模知识系统 Artificial Intelligence Ontology: 4 © Graduate University , Chinese academy of Sciences. 本体的基本概念(1) • 本体: – 哲学界:最初本体是哲学理论的术语,关于存在及其本质规律的学说 ,是表示对象及其相互关系的理论。 – 信息科学:常用于指层次化的数据结构,其中包含了对象及其关系, 以及相关领域的规则 – 人工智能:被用于知识管理、自然语言处理、电子商务、教育以及语 义WEB等领域。语义WEB需要构造不同的本体,用于不同的表示语 言、查询语言和推理语言。 • 一个本体定义了组成主题领域的词汇的基本术语和关系,以及用 于组合术语和关系以及定义词汇外延的规则[Neches1991]------即 要建立一个本体,首先要识别所面对领域的基本术语和这些术语 的关系,然后要识别组合这些术语和关系的规则,并提供这些术 语和关系的规则 Artificial Intelligence Ontology: 5 © Graduate University , Chinese academy of Sciences. 本体的基本概念(2) •Gruber和Borst1997的定义: 本体是概念化的一个显式的规格说明[Gruber 1993] 本体可定义为被共享的概念化的一个形式的规格说明 [Borst1997] •共同点:都强调了给出形式解释的可能性 •主要缺点:对“概念化”一词并没有给出明确地解释 •概念化涉及通过标示某个现象的相关概念而得到的这个现象的抽象模型。显式地 指出所用的概念的类型,以及定义概念所使用的约束。形式化是指本体应该是机 器可读的。共享反映了这样一个观念,即本体获取了一致的知识,它不是某个个 体私有的,而是可以被一个群体所接受的。[Studer1998] Artificial Intelligence Ontology: 6 © Graduate University , Chinese academy of Sciences. 本体的基本概念(3) • 1. 2. 3. 4. 5. 6. 本体的作用 人与组织之间的信息交流。本体的核心概念是知识共享,通过减少概念和术 语上的歧义,本体描述为某一组织或是工作小组提供了一个统一框架或是规 范模型,使得来自不同背景、持不同观点和目的的人员之间的理解和交流成 为可能,并保持语义上的一致性。 系统之间的互操作。应用程序使用本体论实现异构系统之间的互操作,即不 同系统或工具之间的数据传输。如语义Web服务就属于此类。 需求分析和系统设计的基础。 支持知识重用。 显式地定义对领域的认识。以往在处理领域相关问题时,领域知识往往被隐 含地硬编码到程序中去,这样领域知识既难以发现,又不便于改变。使用本 体可以显式的描述这种领域相关的知识,使得知识能够清晰的从代码中独立 出来。 将领域知识同使用领域知识的操作性知识分离开来。 Artificial Intelligence Ontology: 7 © Graduate University , Chinese academy of Sciences. 本体的基本概念(4) • 本体的种类 Artificial Intelligence Ontology: 8 © Graduate University , Chinese academy of Sciences. 主要内容 • 本体的基本概念 • 语义Web • 本体描述语言 • 本体构造 • 本体映射 • 本体知识管理 • 大规模知识系统 Artificial Intelligence Ontology: 9 © Graduate University , Chinese academy of Sciences. 语义Web (1) • • • • 本体在Web上的应用导致了语义Web的诞生,其目的是解决Web上信 息共享时的语义问题。 语义Web提供了一个通用的框架,允许跨越不同应用程序、企业和团 体的边界共享和重用数据。 语义Web以资源描述框架(RDF)为基础。RDF以XML作为语法、 URI作为命名机制,将各种不同的应用集成在一起,对 Web 上 的 数 据 所进行的一种抽象表示。语义Web所指的“语义”是“机器可处理的 ”语义,而不是自然语言语义和人的推理等目前计算机所不能够处理 的信息。 从技术上讲,语义Web要提供足够而又合适的语义描述机制。然而, 从整个应用构想来看,语义Web要实现的是信息在知识级别上的共享 和语义级别上的互操作性,这需要不同系统间有一个语义上的“共同 理解”才行。于是,本体自然地成为指导语义Web发展的理论基础。 Artificial Intelligence Ontology: 10 © Graduate University , Chinese academy of Sciences. 语义Web (2) • 语义Web的基础架构[Tim Berners-Lee,2000] Artificial Intelligence Ontology: 11 © Graduate University , Chinese academy of Sciences. 语义Web (3) 语义Web的基本构建元素 • URI(Uniform Resource Identifiers)作为资源(任何东 西都可以看作资源)标识机制,提供对资源的标准化的名字 描述; • Unicode提供世界上各种语言的统一的字符编码标准; • XML(Extensible Markup Language)定义了结构化的数据 描述方式,是数据互操作的语法基础; • Namespace提供将名字分类的机制,使得重名但含义不同 的资源能够一起使用。 Artificial Intelligence Ontology: 12 © Graduate University , Chinese academy of Sciences. 语义Web (4) 语义Web的层次模型 (1)RDF+RDF Schema Layer: RDF(Resource Description Framework)是描述数据语义的基础,它 定义了描述资源以及陈述事实的三类对象:资源(resource)、属性( property)和值(value)。资源是指网络上的数据,属性是指用来描述 资源的一个方面、特征、属性以及关系,陈述则用来表示一个特定的资 源,它包括一个命了名的属性和它对应资源的值,因此一个RDF描述实 际上就是一个三元组: (object[resource], attribute[property], value[resource or literal) Artificial Intelligence Ontology: 13 © Graduate University , Chinese academy of Sciences. 语义Web (5) 语义Web的层次模型 (2)本体层:本体给出了数据的语义信息,即元数据。本体 的定义可以直接基于RDF Schema。但是RDF Schema的 词汇集的表达能力有限,因此W3C在参考了DAML+ OIL(DARPA Agent Markup Language with Ontology Inference Layer)之后,又在RDF之上制定了OWL(Web Ontology Language)。 (3)逻辑:逻辑层在本体所描述的知识之上提供逻辑推理能 力(基于规则)。 Artificial Intelligence Ontology: 14 © Graduate University , Chinese academy of Sciences. 语义Web (6) 语义Web的层次模型 (4)证明层:在语义Web的开放环境中进行推理是一个困难的任务,因为任何一个推论 都可能涉及到大量信息的处理。研究者由此提出了语义Web总线(Semantic Web Bus)的设想。 语义Web中充斥着各种信息处理器(图中圆形所示),其中一些仅仅提供本体数据 供其它处理器使用,另外一些则根据这些本体数据构建逻辑规则,启发式引擎则负 责根据本体、数据和逻辑规则进行推理,得到“结论”(Proof),并把这种结论返回 到逻辑规则和本体数据中去。 Artificial Intelligence Ontology: 15 © Graduate University , Chinese academy of Sciences. 语义Web (7) 语义Web的层次模型 (5)可信层:在之前所有层次的基础之上,会形成无数对于 某一事实的陈述,这些陈述合理与否依赖于它们所处的上下 文环境。因此当人或计算机访问这些陈述时,需要根据上下 文和自己的需求自行判定该陈述是否可信(Trust)。采用 加密技术和数字签名技术(渗透到每个层次的规范中去)是 实现判定可信性的一个重要手段,并可以由此形成一个可信 的Web。 Artificial Intelligence Ontology: 16 © Graduate University , Chinese academy of Sciences. 主要内容 • 本体的基本概念 • 语义Web • 本体描述语言 • 本体构造 • 本体映射 • 本体知识管理 • 大规模知识系统 Artificial Intelligence Ontology: 17 © Graduate University , Chinese academy of Sciences. 本体描述语言(1) – 本体描述语言起源于人工智能领域对知识表示的研究。本 体表示语言一般要具有丰富而直观的表达能力,用该语言 表示的本体要能方便地被计算机理解、处理和应用。 – 现在的本体表示语言多数采用了XML语法。 – 本体描述语言还需解决一些重要问题,如对推理的有效支 持(包括计算复杂性和可判定性等),规范和充足的语义 表示机制,以及标准化问题。这将依靠基于描述逻辑的本 体语言的发展。 Artificial Intelligence Ontology: 18 © Graduate University , Chinese academy of Sciences. 本体描述语言(2) – RDF/S : • 在提供了简单的机器可理解语义模型的同时,为领域 化的本休语言提供了建模基础,并使得基于RDF的应 用可以方便地与这些本体语言所生成的本体进行合并 。 • RDF的这一特性使得基于RDF的语义描述结果具备了 可以和更多的领域知识进行交互的能力,也使基于 XML和RDF的Web数据描述具备了良好的生命力。 – OWL: • 目前是本体的标准描述语言。OWL建立在RDF基础上 ,以XML为书写工具。主要用来表达需要计算机应用 程序来处理的文件中的知识信息, Artificial Intelligence Ontology: 19 © Graduate University , Chinese academy of Sciences. 本体描述语言(3) – 都柏林核心元数据集 都柏林核心元数据集(Dublin Core)是由美国OCLC公司发起,国际 性合作项目Dublin Core Metadata Initiative设计的一套描述Web资 源(任何有标识的数据)的元数据的规范,主要用于出版信息的描述, 也被用于描述其他领域的信息,在很多本体描述规范中都有引用。 Dublin Core定义了一组基本元素来描述资源的元数据,很多知识描 述标准和规范如RDF、DAML+OIL里都有对Dublin Core的直接引用 ,用来描述作者、主题等元数据。但另一方面,严格讲Dublin Core 还不是一个真正的本体描述语言,它只是一组“标准词汇集”而已。 – CycL 本质上讲,CycL是一阶逻辑语言。但是为了增强知识表示的灵活性 ,CycL在一阶逻辑的基础上增加缺省知识的表示、二阶谓词等,所 以是一阶谓词逻辑的一种扩展。CycL中有大量的类和类之间的关系 Artificial Intelligence Ontology: 20 © Graduate University , Chinese academy of Sciences. 主要内容 • 本体的基本概念 • 语义Web • 本体描述语言 • 本体构造 • 本体映射 • 本体知识管理 • 大规模知识系统 Artificial Intelligence Ontology: 21 © Graduate University , Chinese academy of Sciences. 本体构造(1) • 本体构建是从某个领域中抽取知识,形成描述该领域数据的 语义概念、实例和其间的关系。 • 本体构建包括本体语言和本体构建方法两个领域的研究。 • 本体构建方法目前大多采用手工方式,即知识工程师借助于 本体编辑器全手工的构建本体。 – TOVE:是多伦多大学的本体研究项目,它重点论述了本体设计和手 工演化过程中遇到的关键问题,包括应用情景收集、术语的抽取和定 义、问题的形式化等。 – METHONTOLOGY:根据进化原型法的思想,提出本体生命周期的 概念来管理整个本体生命过程。它采用了类似于软件工程的开发过程 和方法,将本体生成过程和本体生命周期区分开来,在不同阶段使用 不同的技术予以支持。 Artificial Intelligence Ontology: 22 © Graduate University , Chinese academy of Sciences. 本体构造(2) • 企业建模法:是多伦多大学企业集成实验室的研究人员在 TOVE项目实施时提出来的,通过构建的一个虚拟企业本体 ,用来模拟企业中的生产、管理过程,目标是建立一套为商 业和公共企业建模的集成本体。作为该项目的一部分,他们 设计了一套创建和评价本体的方法。 – 激发场景:给出一个应用领域的场景,即确定目标领域 – 非形式化的能力问题:以应用情景为基础,用问题形式提出本体构 造需求 – 术语的规范化:用一种(本体)形式化语言定义对其进行词汇; – 形式化的能力问题:把能力问题用形式化的术语定义出来; – 形式化公理:将本体中的公理用一阶谓词逻辑表示出来 – 完备性定理:当能力问题被形式化表述之后,定义在什么条件下这 些问题的解决方案是完备的。 Artificial Intelligence Ontology: 23 © Graduate University , Chinese academy of Sciences. 本体构造(3) • METHONTOLOGY框架方法:该方法是在骨架法的基础上 提出的一种更为通用的本体建设方法。本体开发过程包括: – 项目管理活动:主要指本体开发项目的计划、控制和质量保证 – 面向开发的活动:包括规格说明、概念化、形式化和实现等步骤 – 支持活动。与面向开发的活动同时展开,包括知识获取、知识评价、 知识集成、产生文档和配置管理等。 • 该模式根据进化原型法的思想,提出本体生命周期的概念来 管理整个本体的开发过程,使得本体开发过程更接近于软件 工程中的软件开发过程。 Artificial Intelligence Ontology: 24 © Graduate University , Chinese academy of Sciences. 本体构造(4) • 本体构建方法学:本体构建实际上是一个知识获取的过程。 设计本体的基本准则可以归纳为如下五条: 1. 明确性和客观性(Clarity):本体应该有效地传达所定义的术语的内 涵。 2. 一致性(Coherence):一个本体应该是前后一致的,也就是说,由 它推断出来的概念定义应该与本体中的概念定义一致。至少。所有 的公理应该具有逻辑一致性。 3. 可扩展性(Extensibility):一个本体提供一个共享的词汇,它应该在 预期的任务范围内提供概念的基础,同时,它的表示应该使得人们 能够单调地扩展和专门化对这个词汇的说明;也就是说,人们应该 能够在不改变原有定义的前提下,以这组存在的词汇为基础定义新 的术语。 Artificial Intelligence Ontology: 25 © Graduate University , Chinese academy of Sciences. 本体构造(5) • 本体构建方法学:本体构建实际上是一个知识获取的过程。 设计本体的基本准则可以归纳为如下五条: 4. 最小编码偏差(Minimal encoding bias):本体应该处于知识的层次 ,而与特定的符号级编码无关。 5. 最小本体承诺(Minimal commitment):一个本体应该在提供必须的 共享知识的条件下,要求有最小的本体承诺。也就是说,它应该对 所模拟的事物产生尽可能少的推断,而让共享者自由地按照他们的 需要去专门化和实例化这个本体。 Artificial Intelligence Ontology: 26 © Graduate University , Chinese academy of Sciences. 本体构造(6) • 在具体实施一个领域本体的构建时,可以分为8个步骤: 1. 2. 3. 4. 5. 6. 7. 8. 本体需求分析 本体构建规划 获取本体信息 确定本体概念及关系 本体形式化编码 本体的评价 本体的演化 本体的表示等过程。 Artificial Intelligence Ontology: 27 © Graduate University , Chinese academy of Sciences. 本体构造(7) • 基于文本的本体自动构建:对文本集合应用自然语言处理技 术实现构建本体所需要素的抽取: – 基于字典的本体构建——从机器可理解的字典中抽取相关概念以及 概念间的关系; – 基于知识库的本体构建——将现有的知识库作为知识来源实现本体 抽取; – 基于半结构模式的本体构建——从预先定义结构的知识来源(如 XML Schema)中抽取本体; – 基于关系型模式的本体构建——从数据库中抽取相关概念以及概念 间的关系形成本体。 Artificial Intelligence Ontology: 28 © Graduate University , Chinese academy of Sciences. 本体构造(8) • 从基于文本的本体构建方法来看,实现技术和手段可以分为 以下几类: – 基于模式的抽取:通过词语的出现模式刻画词语之间的关系,并匹 配文本中连续词语的出现模式以识别词语之间的关系。 – 关联规则:关联规则可以利用已有的概念层次结构作为背景知识来 发现概念之间的非分类学关系。 – 概念聚类:概念之间因为语义距离的差异而形成概念集合并产生层 次结构 – 本体修剪:目的是基于不同的异构的知识来源生成领域本体。 – 概念学习:从现实世界的文本集合中获取新的概念并添加到已有的 本体中。 Artificial Intelligence Ontology: 29 © Graduate University , Chinese academy of Sciences. 本体构造(9) • 基于结构化数据的本体构建 :从关系数据库中学习本体是 一个半自动化的本体学习过程,它需要通过机器学习和手工 的方法来进行本体学习。手工方法构造的本体一般具有较高 的质量和丰富的语义。但这种本体构建方法枯燥单调、效率 低而且代价高。 – 第一次扫描数据库的模式:用来创建概念,得到最初的一些粗糙的 概念集合。扫描一趟关系数据库每张表,得到每张表的元数据,从 而可以知道这张表是否有主键。如果有主键,我们就创建一个概念 – 第二趟数据库模式的扫描:找到概念与概念之间的对象属性关系。 具体来说就是,对于关系数据库中那些有外键的表,认为至少存在 一个对象属性关系,通过外键找到前面对应的概念,然后再建立概 念之间的属性关系。 Artificial Intelligence Ontology: 30 © Graduate University , Chinese academy of Sciences. 主要内容 • 本体的基本概念 • 语义Web • 本体描述语言 • 本体构造 • 本体映射 • 本体知识管理 • 大规模知识系统 Artificial Intelligence Ontology: 31 © Graduate University , Chinese academy of Sciences. 本体映射(1) • 本体映射问题可以归结为以下三个原因: – 本体之间知识共享的需要:同一领域知识的共同理解。 – 人机交互的需要:解决已有本体的维护和本体重用,以及本体的服务 。 – 本体匹配(ontology matching)的需要:本体间的知识推理。 • 由于通过手工方式去发现和操作这些本体之间的映射是一项 费时、费力、易错的过程,显然是不可取的。因此,研究和 开发本体映射工具、建立本体映射的机制和环境,可以看作 是对大量的已有本体的有效利用,进而达到真正意义上的知 识共享的关键问题。 Artificial Intelligence Ontology: 32 © Graduate University , Chinese academy of Sciences. 本体映射(2) • 本体映射体系结构 :本体映射的基本体系结构有三种: – 单本体结构:一个全局的本体为具体的语义说明提供了一个共享的词 汇表。所有的信息源都联系到这个全局本体上,因而它们在语义上是 一致的。 – 多本体结构:每一个信息源都有自己的本地本体,它们并不一定使用 同样的词汇表。每个本体都是独立发展的,它们之间有松散的联系。 要完成本体之间的互操作,必须建立映射的规则。 – 混合结构:它综合了前两种方法的基本特征以克服它们的不足之处。 像多本体方法一样,每个信息源都有自己的本地本体。但本地本体是 在一个全局共享的词汇表下发展起来的。共享词汇表定义了领域内的 基本术语,在本地本体中这些术语可以组合起来表达复杂的语义。 Artificial Intelligence Ontology: 33 © Graduate University , Chinese academy of Sciences. 本体映射(3) • 本体映射方法分类 :可以将本体映射方法分类如下 Artificial Intelligence Ontology: 34 © Graduate University , Chinese academy of Sciences. 本体映射(4) • 本体映射原型系统 – 斯坦福大学的本体代数 :在此方法中,本体的映射由本体代数来 执行。它包括三个操作符,即集合交、集合并和集合差。本体代数 的目标是提供一种能力用来咨询那些存在大量语义且互斥的知识资 源。 – Cupid:是一种基于元素级匹配和结构级匹配的混合方法。它可用 于数据库、本体论等多种领域的匹配任务。其思想是,如果两个概 念的子概念是相似的,那么这两个概念就趋向于相似; 如果两个概 念具有相似的祖先,那么它们也趋于相似。 – GLUE:用机器学习的方法来完成不同本体之间的匹配任务,其思想 是多策略学习。它代表了一种自动合并不同匹配器(learner)匹配 结果的组合方法,产生的是原子级的1: 1的映射关系。 Artificial Intelligence Ontology: 35 © Graduate University , Chinese academy of Sciences. 主要内容 • 本体的基本概念 • 语义Web • 本体描述语言 • 本体构造 • 本体映射 • 本体知识管理 • 大规模知识系统 Artificial Intelligence Ontology: 36 © Graduate University , Chinese academy of Sciences. 本体知识管理(1) 基于本体的知识管理 : • 基于本体知识管理可实现语义级知识服务,提高知 识利用的深度。还可以支持对隐性知识进行推理, 方便异构知识服务之间实现互操作,方便融入领域 专家知识及经验知识结构化等。 • 基于本体知识管理一般要求满足以下基本功能:①支持本体 多种表示语言和存储形式,具有本体导航功能;②支持本体 的基本操作如本体学习、本体映射、本体合并等; Artificial Intelligence Ontology: 37 © Graduate University , Chinese academy of Sciences. 本体知识管理(2) • 领域本体学习环境OntoSphere,主要功能包括Web语料的获取、文档 分析、本体概念和关系获取,专家交互环境,最终建立满足应用需求的 高质量领域本体。 • 本体管理环境OntoManager。OntoManager提供对已有本体的管理和 修改编辑。 • 基于主体的知识服务OntoService。提供面向语义的多主体知识服务。 文本 OntoSphere OntoManager OntoService Domain Expert 网页 语料库 数据库 Artificial Intelligence Ontology: 38 © Graduate University , Chinese academy of Sciences. 本体知识管理(3) 一些管理工具 1. Protégé • Protégé是一个基于Java的单机软件,它的核心是本体编辑器。 Protégé采用了一种可扩展的体系结构使得它非常容易添加和整合新的 功能。这些新的功能以插件(plug-in)方式加入系统。 • Protégé的知识模型是基于框架和一阶逻辑的。它的主要建模组件为类 、槽、侧面和实例。另外,Protégé的知识模型允许使用PAL(KIF的子 集)语言表示约束(constraints)和允许表示元类(metaclasses)。 Protégé也支持基于OWL语言的本体建模。 • 一旦使用Protégé建立了一个本体,本体应用可以有多种方式访问它。 所有的本体中的词项可以使用Protégé Java API进行访问。Protégé的 本体可以采用多种方式进行导入和导出。标准的Protégé版本提供了对 RDF/S,XML,XML Schema和OWL编辑和管理。 Artificial Intelligence Ontology: 39 © Graduate University , Chinese academy of Sciences. 本体知识管理(4) 一些管理工具 2. 知识管理系统KMSphere :计算所智能科学实验室研制 ` OntoService OntoSphere 文 本 半 结 构 数据库 化数据 映 射 表 翻 译 器 用 户 接 口 基于语义的操作 1 文本分类 2 聚类 DL Reasoner 3 半结构化数 据中挖掘本体 4 从数据库中 OntoManager 学习本体 Artificial Intelligence 领域本体 Ontology: 40 © Graduate University , Chinese academy of Sciences. 本体知识管理(5) 一些管理工具 2. 知识管理系统KMSphere :计算所智能科学实验室研制 • • • OntoSphere:半自动化本体获取环境,主要提供:文档获取、源 文档预处理、相关度计算、种子本体管理和词汇评价等。 OntoManager:可视化本体管理编辑环境,提供对已有本体的修 改编辑等功能。 OntoService:知识服务框架OntoService提供基于多主体(Agent )系统的知识共享服务,包括知识查询、主动知识分发服务和基 于协议的知识共享机制 Artificial Intelligence Ontology: 41