以文本方式查看主题

-  中文XML论坛 - 专业的XML技术讨论区  (http://bbs.xml.org.cn/index.asp)
--  『 Semantic Web(语义Web)/描述逻辑/本体 』  (http://bbs.xml.org.cn/list.asp?boardid=2)
----  贴上一段我中期报告的绪论,关于语义Web=KR+Web  (http://bbs.xml.org.cn/dispbbs.asp?boardid=2&rootid=&id=30454)


--  作者:river_hh
--  发布时间:4/12/2006 8:40:00 PM

--  贴上一段我中期报告的绪论,关于语义Web=KR+Web
\section{引言}

如果简单地将信息系统看成由数据和处理数据的程序两个部分组成,那么信息系统的发展史可以看成是数据与程序在不同的层次上不断分离的过程。早在纸带机时代,数据和程序是紧密结合为一体的。硬盘等存储设备和文件系统的出现,使得数据与程序在物理上分离,即数据可以文件的形式存放在外存设备中,但数据的存储结构是硬编写在程序中。数据库技术的出现,将数据的存储结构从程序中脱离出来。数据库技术允许应用程序在数据的逻辑结构之上操作,而无需了解数据的物理存储方式。数据库中关系模型以及SQL查询的标准化使数据库技术迅速发展成为构建信息系统的核心,并形成了一个巨大的产业。但数据库技术的还存在如下的缺陷:数据的描述比较粗糙,大量的数据语义或领域知识没有明确表达;数据的语义是被硬编码在处理数据的程序代码中等等。基于知识的系统(Knowledge-based System)将数据的语义从程序中分离出来,通过逻辑的方法明确地描述数据的内涵语义,建立了数据描述与世界模型之间的语义关系,并将对数据的一些处理抽象和规约为基于知识的推理。

WWW是人类有史以来构建的最大的信息库,其中URI和HTTP创建一个全球范围内可访问的信息空间,在这个空间中,每个对象都有全球唯一的名字。与数据库技术相比,Web技术放弃全局一致性的约束,在保持局部信息一致性的基础上促使信息空间向全球性发展,消除了信息的获取、传送、存储和处理之间的孤岛现象,成为了众多信息系统的基础。万维网是人类有史以来构建的最大的信息库,它涉及几乎所有可想象的领域,包含这些领域中的文本和多媒体数据,且所有的数据都能通过互联网(Internet)进行访问。Web中信息的急剧增加导致了信息过载——Web中的信息找寻犹如在一个巨大的可滚动屏幕上查看内容非常详细的、并以非常小的字体展示的信息。尽管搜索引擎(例如google、百度、yahoo)在一定程度上能缓解该问题,但其基于关键字的搜索方式具有如下缺陷:
\begin{itemize}
\item   高招回率(recall),低准确率(precision),即在返回的结果中,尽管存在与查询相关的页面,但更多的是与查询不太相关甚至无关的页面;
\item   返回结果是词汇敏感的,即使用同义词作为关键字所得到的结果可能不同;
\item   返回结果是单一的Web页面,当所需的信息可能分散在多个文档中时需要进行多次查询;
\item   搜索引擎只能返回与查询可能相关的页面,不能告知用户查询的结果;
\item   目前搜索引擎大多都是独立的应用程序,搜索结果不易于被其他的软件工具直接访问。
\end{itemize}

产生信息过载的主要原因是网页上文本、图形、图像等都是供人们阅读的,而Internet和计算机只是作为一种简单的中介工具。尽管网页中含有一些链接和特殊的信息使得计算机能定位相应的页面并以特定的方式显示文档,但网页中没有提供任何信息帮助机器理解网页的内容。语义Web的提出就是为了解决该问题。

%=========================================================================================================
\section{语义Web=KR+Web}
%=========================================================================================================

语义Web(Semantic
Web\cite{BernersLee01semanticweb})之于WWW就如基于知识的系统之于数据库系统。什么是“语义”?简单地说,语义Web中"语义"的核心就是知识共享,包括计算机与计算机、人与计算机之间的共享。在计算机与计算机、人与计算机之间以无偏差的方式传递的信息,就是语义。

传统的Web资源中的语义信息或领域知识以机器难以处理的自由文本的方式存在,资源间的语义关系是以一种隐含的方式存在,这些语义信息由于缺乏明确的描述而丢失。如果能明确表达Web资源语义,并把资源之间的关系冠以某种特殊的含义,在这种情况下,信息以语义良定义形式存在,则将大大提高资源的共享能力。这也就是语义Web的研究动机。知识表示技术是描述、建立和针对资源语义关系进行推理的有效途径,它在语义Web中有着重要的地位。从某种意义上,语义Web可以视为KR+Web。

%=========================================================================================================
\subsection{什么是知识表示?}
%=========================================================================================================

知识表示(Knowledge Representation,KR)是人工智能的一个重要分枝,它吸取来自逻辑(Logic),本体(Ontology)和计算(Computation)领域的理论和技术,而成为一门多领域交叉的学科\cite{sowa00knowledge-representation}。其中逻辑为KR提供了形式化结构和推理规则,没有逻辑,知识表示将会是模糊的,将无法提供准则判断冗余的、冲突的声明(Statement);本体定义了与应用领域相关的事物的类型,没有本体,知识表示中所使用的术语和符合将会是非良定义的(ill-defined)、不清晰的(confused)、令人困惑的(confusing);计算则支持具体的应用并将KR与纯粹的哲学区分开,没有计算模型,逻辑和本体都无法在计算机程序中实现。因此,知识表示就是应用逻辑和本体的方法和技术,为具体的应用领域构造可计算的模型。知识表示的5个基本原则以及在人工智能中的5种角色\cite{davis93what-is-kr}:
\begin{itemize}
\item 知识表示最基本的作用是替代品(surrogate):
物理世界中的对象、事件和关系是不能直接存储在计算机中,它们需要用符合来表示或替代。知识表示
能用于替代真实世界中“事物”(Things),使得一个实体(entity)通过思考(thinking)而不是具体的行为(acting)来得到结论,也就说通过对世界的推理而不是具体的行为。任何一个替代物表示了它所替代的实体,这需要以一定的方式描述替代物与实体之间的联系,这个联系也就是知识表示的语义。
%%
%%
\item 知识表示是一组本体约定(ontological commitements):
在逻辑学中符号“$\exists$”能用于断言事物的存在,但逻辑本身没有提供描述存在事物的词汇。本体填补了这一空缺,它研究组成世界的存在、实体的种类——不论是抽象的还是具体的。本体约定
是对“用什么样的词汇对现实世界进行描述和思考?”这一问题的答案,并承诺在使用约定词汇时与其含义保持一致。
在定义词汇,我们需要选择对象实体、实体的哪些属性保留并被明确地表示、哪些属性可以忽略、并以何种方式来表达他们。这个选择也就是本体约定。约定实际上就是确定我们关注的,强调现实世界中某些部分而模糊其他的部分。这些约定以及强调/模糊效果是知识表示的核心,恰当的约定能突出现实世界中我们所关注的方面,避免那些不重要部分所带来的复杂度。
%%
%%
\item 知识表示是一种智能推理(intelligent reasoning)的不完整理论(fragmentary theory),可以用三种组件描述:智能推理中表示的基本概念;表示所允许的推理规则;表示所推荐的推理规则。要支持对领域事物的推理,知识表示需要描述这些事物的行为和相互作用。这便组成了该领域中用明确公理等描述的理论。
%%
%%
\item 知识表示是有效计算(efficient computation)的媒介(medium),即能实现思考(thinking)的计算环境(computational environment)。除了描述之外,知识表示还应支持将知识编码到计算机程序中,能指导信息的组织并促进推理的应用。
%%
%%
\item 知识表示是人类表达(expression)的媒介,即我们用于描述现实世界的语言。一个好的知识表示语言应当能推进知识工程师与领域专家之间的交流。
\end{itemize}

%=========================================================================================================
\subsection{KR披上Web的外衣就能使得语义Web成功吗?}
%=========================================================================================================

语义Web基本出发点是:将机器可读的信息加入Web页面,采用本体(ontology)技术精确定义Web资源中所共享的词汇,利用知识表示技术实现Web资源的自动推理,并应用Agent技术来协同处理Web中的信息。

首先,本体是实现知识共享的重要途径。本体的目标就是结构化领域知识,建立领域相关的统一的术语,给出这些术语之间相互关系的明确定义,促进知识的共享和重用。本体表示强调信息共享性,也就是说本体所表达的信息要为他人所充分接收。它所要表达的一般是共享知识,是一种约定和标准,而不是个人观点。本体的关键特征是:概念的层次性、特殊一般关系、部分整体关系。

其次,KR是实现Web资源推理的重要途径。推理即从已有的表达式中得到新的表达式,从规范表达的数据中获得间接数据,这对许多系统(例如数据检索)都是需要的,Web也不例外。

而且,KR的方法比传统的数据模型更加接近于人对客观世界的认知模型,由于人们对世界的认知模型在某种程度上体现出趋同性,所以基于知识的方法建立的资源描述比传统的方法(例如HTML、数据库等)建立的资源描述更易于集成和共享。

总之,KR能提供明确的、规范化的方法描述信息资源的语义,提高Web资源的可共享度,支持Web资源的自动发现、数据的直接交换和服务的无缝集成;缩短人的认知域与计算机的处理域之间的距离,支持人们用直观的语义对信息资源在概念层次进行操作。具体体现在:
\begin{itemize}
  \item 用逻辑的方法明确地描述数据的内涵语义,增强了数据的通用性和可复用性。数据提供者以语义良定义(semantically well-defined)的方式发布数据,数据的消费者根据自己的需要对数据进行在加工和处理。数据语义的明确表达为这种松耦合工作模式提供了便利;
  \item 资源的知识化为开发通用的处理程序提供了可能,一些领域无关的推理机可直接集成到应用程序中,良定义的资源语义大大提高了领域无关的推理机的可复用性。
  \item 共享的语义本体和资源间的语义映射可在一定程度上消除资源的语义异质性,并实现资源的无缝集成和资源间的直接数据交换,这也是由良定义的资源语义所保证的。
  \item 通过给超链增加语义来增强资源的互联互通性,可以提高资源的可发现性、可获得性,从而大大提高Web资源的利用率。
  \item 基于知识建立面向Web的专家系统,把Web由一个文档搜索系统提升为知识咨询系统,将充分发挥Web的潜能。
\end{itemize}

但语义网不能取代现有的互联网。主要原因是本体的描述能力有限,现在的互联网的内容大部分不能用本体来描述。但是通过应用AI技术(特别是知识表示方法)就算我们只能解决1%的问题,由于Web的普遍使用,也会给社会带来巨大的效益。

抱歉,没有列出参考文献


--  作者:npubird
--  发布时间:4/13/2006 12:11:00 AM

--  
基本都是综述的话。

说说你的创新和Idea吧。


--  作者:baojie
--  发布时间:4/13/2006 1:06:00 AM

--  
写的还挺清楚. 下面一段话不太妥当.

'但语义网不能取代现有的互联网。主要原因是本体的描述能力有限,现在的互联网的内容大部分不能用本体来描述。但是通过应用AI技术(特别是知识表示方法)就算我们只能解决1%的问题,由于Web的普遍使用,也会给社会带来巨大的效益。"

第一, 比较对象应是万维网, 不是互联网. 第二, 这个1%的说法很难被人接受, 最好换一个措辞.


--  作者:river_hh
--  发布时间:4/13/2006 2:19:00 PM

--  
抱歉,说错了,上面是课程报告的绪论,不是中期报告。

我的一个Idea是关于dl和动作结合的混和逻辑系统。

Web服务作为一种自治、开放、平台无关的网络化构件广泛存在于当前的Web中。
语义Web作为下一代的Web,不仅需要支持基于语义内容的推理,还要支持基于服务的过程推理。

描述逻辑是一类基于逻辑的知识表示语言,它在语义Web中起着重要的作用。许多基于DL的本体描述语言(例如DAML+OIL和OWL)都被用于描述Web服务的上位本体,例如DAML-S和OWL-S。

仅DL本身是不足以支持基于服务的过程推理。
DL最初是为静态知识的表示而设计,例如,OWL-S从静态的方面描述了服务的整体结构。
由于没有描述动态变化的符号,DL不能对服务的过程方面进行建模,例如在某些条件下服务的执行对外部世界的影响。

我的一个工作就是如何结合DL和动作理论,结合语义环境的服务过程方面的建模和推理。
这个结合的理由和方式是:

1 从Web服务以改变世界状态的方式影响外部世界的角度来看,
Web服务可以抽象为具有前提条件(Preconditions)和执行效果(Effects)的动作。
因此在AI领域中关于动作的理论可以应用于Web服务的过程特征的建模。

2 在描述服务时,我们通常都假定一个世界模型(World Model)的存在,
描述服务的前提前提条件和执行效果的词汇都来自于这个世界模型。

3 在一些采用AI技术进行服务组合的研究中,有的采用一阶谓词逻辑(First Order Logic,FOL)描述世界模

型,有的中采用ER模型描绘世界模型。
事实上,DL比FOL和ER模型更适合对世界模型的描述,尤其是在语义Web中,
因为DL提供可判定的推理服务且是DAML+OIL和OWL的逻辑基础。

4 TBox描述了世界模型的结构,当前所获得的信息或事实则存放在ABox中。

5 动作和基于DL的世界模型之间的交互主要体现在:
一方面,采用TBox中定义的词汇描述动作的前提条件和执行效果,
另一方面,动作的执行导致了ABox中事实的变动。


这样的好处有:
1 描述逻辑的框架明确地区分了TBox中内涵知识和ABox中外延知识。
TBox和ABox的分离能更好地体现基于TBox的服务描述和服务执行对ABox的影响;

2 能促进服务之间的互操作性。描述逻辑是多个Web本体描述语言的逻辑基础。
采用领域本体词汇描述服务能促进已有本体的重用,并为服务提供共享知识。


--  作者:baojie
--  发布时间:4/13/2006 3:06:00 PM

--  
"DL最初是为静态知识的表示而设计" 这句话不妥. 建议看看时态描述逻辑, 和动态描述逻辑. (手册有介绍). 另外, 描述逻辑ALC_reg 等价于模态逻辑PDL, 而PDL正是为过程建模而设计的.
--  作者:baojie
--  发布时间:4/13/2006 3:11:00 PM

--  
"DL最初是为静态知识的表示而设计" 这句话不妥. 建议看看时态描述逻辑, 和动态描述逻辑. (手册有介绍). 另外, 描述逻辑ALC_reg 等价于模态逻辑PDL, 而PDL正是为过程建模而设计的.
--  作者:river_hh
--  发布时间:4/13/2006 3:36:00 PM

--  
不太同意baojie的观点。我觉得时态dl和动态dl超出了dl,不具有dl本身的特点,善于表达hierarchy同时又
可判定(大多数dl系统)。

时态描述逻辑是对DL进行时态算子(until,since,now等)的扩展,我觉得时态描述逻辑是一种混和系统(hybrid formalism),用于定义一些本身具有时间特点的概念,例如Mortal。但是,我个人觉得时态描述逻辑很难应用起来。

动态dl也一样,是DL+PDL,它将动作视为模态算子,即动作导致状态的改变。但在那篇文章中,概念和动作的定义交织在一起,动作可以参与概念的定义,概念也参与了动作的定义。我认为这模糊了动作和世界模型的不同角色。个人认为这文章不是很persuasive。

还有一些不主流的文章,将一些关系(特别是可传递的关系)视为动作。

其他的还有dl与rule的结合(例如AL-log,CARIN等),国外大多数文章都称它们为混和逻辑系统。

当然dl与PDL和模态逻辑是能建立关系的。因为dl是只允许两个变量的FOL,模态逻辑和命题动态逻辑也有类似的特点。


--  作者:baojie
--  发布时间:4/14/2006 1:15:00 AM

--  
认真领会中

那OWL-S算不算描述动作的OWL本体呢?


--  作者:wason21cn
--  发布时间:4/14/2006 2:13:00 AM

--  
楼主的这个idea很有创新,不过能不能具体说说怎样结合DL和动作理论。 还有关于modal logic 和Description Logic, 现在做他们关系的论文好像还不是很多,毕竟DL是最近这些年才开始搞,但是对于Modal logic已经有很成熟的一些算法, 总的来说DL的一些语言是Modal logic一些语言的不同句法的变体, 所以以后还会有很多关于DL的工作都会通过modal logic 来完成. 而且通过他们相互结合的应用也会越来越多。


--  作者:icebuddy
--  发布时间:4/14/2006 10:43:00 AM

--  
认真学习中
--  作者:river_hh
--  发布时间:4/14/2006 3:22:00 PM

--  
OWL-S是用OWL描述的关于服务的本体。
从本体的角度看OWL-S的功能有两个:
一是规范了服务描述的结构,所以OWL-S也称为上位本体。一个服务一般有三个对象属性:表示(presents)、被描述(describedBy)和支持(supports),这三个对象属性的值域是:服务简档(ServicePro¯le)、
服务模型(ServiceModel)和服务基点(ServiceGrounding)。服务简档描述服务做什么,服务模型描述服务怎么做,而服务基点描述怎么访问服务。同时还给出了属性的约束:一个服务(Service)最多和一个服务模
型(ServiceModel)相关联,一个服务基点(ServiceGrounding)必须和一个服务(Service)
相关联。一个服务可以提供多个服务简档或者服务基点。

另一个功能是提供了描述服务的词汇,也就是说但你想发布一个Web服务时,可以采用这些词汇来标记。如果大家都采用这些词汇的话,这就能体现互操作性。


--  作者:wolfel
--  发布时间:4/18/2006 12:19:00 AM

--  
DL结合动作的工作我没有看到,不过rule layer里面结合动作的,楼主可以参考MIT Sloan的Benjiamin Grosof的Situated Couteous Logic Program,他主要是做semantic web service的。
--  作者:iamwym
--  发布时间:4/18/2006 5:38:00 AM

--  
今天才有时间稍微看了下楼主的文章。
首先KR+web并不是新颖的观点,这是一个常识,至少在欧洲sw是个常识。记得好几年前的文章就有这样的内容,semantic web aims to bring together the strength of knowledge community and web community...而且没有引用,所以楼上有人说这个提法新颖,我不同意。

楼主作为课程的报告应该是没有问题了。


--  作者:iamwym
--  发布时间:4/18/2006 5:50:00 AM

--  
以下是引用river_hh在2006-4-14 15:22:00的发言:
OWL-S是用OWL描述的关于服务的本体。
从本体的角度看OWL-S的功能有两个:
一是规范了服务描述的结构,所以OWL-S也称为上位本体。一个服务一般有三个对象属性:表示(presents)、被描述(describedBy)和支持(supports),这三个对象属性的值域是:服务简档(ServicePro¯le)、
服务模型(ServiceModel)和服务基点(ServiceGrounding)。服务简档描述服务做什么,服务模型描述服务怎么做,而服务基点描述怎么访问服务。同时还给出了属性的约束:一个服务(Service)最多和一个服务模
型(ServiceModel)相关联,一个服务基点(ServiceGrounding)必须和一个服务(Service)
相关联。一个服务可以提供多个服务简档或者服务基点。

另一个功能是提供了描述服务的词汇,也就是说但你想发布一个Web服务时,可以采用这些词汇来标记。如果大家都采用这些词汇的话,这就能体现互操作性。



这两个功能恐怕都不是从本体的角度看得出来的吧……
两个所谓的功能任何web service的标准基本都有基本,你换wsdl也是一样解释得通的。这等于什么都没说,也不是owl-s的特点


--  作者:river_hh
--  发布时间:4/18/2006 10:09:00 AM

--  
谢谢12楼的iamwym。
的确,那只是课程报告中绪论关于什么是semantic web的一段。早在Tim Burners-Lee2001年的the semantic web中就已经提到semantic web就是要重用AI中的知识表示技术将Logic加入Web中,发挥Web的潜能。
那一段只是用自己的话把各种资料翻译组合了一下。没有给引用的原因可能是这个观点太Common了。
--  作者:river_hh
--  发布时间:4/18/2006 10:11:00 AM

--  
哦,错了,不是12楼,是13楼的iamwym,呵呵
--  作者:river_hh
--  发布时间:4/18/2006 11:24:00 AM

--  
re 14楼的iamwym

OWL-S将本体引入Web服务的主要目的是基于本体推理期望实现服务的自动发现、组合、互操作等目标。WSDL只是句法(syntax)级别的描述和互操作,OWL-S可以实现语义级别的。


--  作者:admin
--  发布时间:4/19/2006 12:11:00 AM

--  
同意14楼版主的意见

1)规范了服务描述的结构

2)如果大家都采用这些词汇的话,这就能体现互操作性。
这两点没错,不过这OWL-S采用本体无关,WSDL也具有这种特性。

OWL-S与WSDL不同之处在于OWL-S是一个本体,也就是说OWL-S里所选用的constructs来自OWL,不是乱用的。选用OWL里的constructs,确保了OWL-S可以利用OWL的推理能力。

另外就翻译与楼主交流一下:
服务简档(ServicePro¯le):简档这个词挺好的,目前另一种用得较多的译法是:概貌。
服务基点(ServiceGrounding):我个人将之译为“服务落实(grounding)”。


--  作者:river_hh
--  发布时间:4/19/2006 11:01:00 AM

--  
shy,我在11楼的话的确不太正确。谢谢两位的批评。
这样说可能更恰当一些。
要描述OWL-S的作用是需要与WSDL进行比较。
WSDL用XML Schema描述抽象类型,而OWL-S用OWL类描述抽
象类型。WSDL/XSD表达不了OWL-S的语义,而OWL-S表达不了WSDL的绑定信息。
OWL-S和WSDL是互补的。OWL-S没有定义准确描述消息的抽象结构,工业界广泛采用的消息
描述的标准格式是WSDL,因此OWL-S也是借此作为服务绑定机制。

至于服务简档和服务基点,计算所韩老师是这么提的。


W 3 C h i n a ( since 2003 ) 旗 下 站 点
苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
445.313ms