新书推介:《语义网技术体系》
作者:瞿裕忠,胡伟,程龚
   XML论坛     W3CHINA.ORG讨论区     计算机科学论坛     SOAChina论坛     Blog     开放翻译计划     新浪微博  
 
  • 首页
  • 登录
  • 注册
  • 软件下载
  • 资料下载
  • 核心成员
  • 帮助
  •   Add to Google

    >> 本版讨论Semantic Web(语义Web,语义网或语义万维网, Web 3.0)及相关理论,如:Ontology(本体,本体论), OWL(Web Ontology Langauge,Web本体语言), Description Logic(DL, 描述逻辑),RDFa,Ontology Engineering等。
    [返回] 中文XML论坛 - 专业的XML技术讨论区W3CHINA.ORG讨论区 - Web新技术讨论『 Semantic Web(语义Web)/描述逻辑/本体 』 → 语义网本体论:可以做什么,不能做什么 查看新帖用户列表

      发表一个新主题  发表一个新投票  回复主题  (订阅本版) 您是本帖的第 5739 个阅读者浏览上一篇主题  刷新本主题   树形显示贴子 浏览下一篇主题
     * 贴子主题: 语义网本体论:可以做什么,不能做什么 举报  打印  推荐  IE收藏夹 
       本主题类别:     
     tsingbin 帅哥哟,离线,有人找我吗?
      
      
      等级:大一(猛啃高等数学)
      文章:15
      积分:137
      门派:XML.ORG.CN
      注册:2005/6/28

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给tsingbin发送一个短消息 把tsingbin加入好友 查看tsingbin的个人资料 搜索tsingbin在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看tsingbin的博客楼主
    发贴心情 语义网本体论:可以做什么,不能做什么


    语义网本体论:可以做什么,不能做什么
    October 30th, 2005

    Semantic Web Ontologies: What Works and What Doesn’t
    by Peter Norvig 01.12.05

    这分别有四个挑战。首先是鸡和鸡蛋问题:我们怎样建立这些信息, 因为除非一方面是你获得了信息你才能建立工具, 另一方面是除非你有工具你才能把信息放入其中。我的朋友刚刚问我,能否把网络上所有的URLs(包括dot-RDF, dot-OWL和两者的附加部分)都寄给他,因为他不能发现全部的部分。我看了一下, 并且结果显示那里只有20万上下,这大概是网络的0.005%。我们需要有一种方式去解决它。

    下一个问题是有关本体论的竞争 。每个人都用不同的方式看待它。如果你有一些工具来测量它,我们将看见它的范围有多广。 然后是Cyc 问题, 这是背景知识和垃圾的问题。这是我每天必须面对的问题。如同你离开了实验室,进入现实的世界,有金钱利益的人会设法打败你。

    所以鸡和鸡蛋的问题,那就是“在这类语义技术里有什么令人感兴趣的信息, 并且其他信息在哪里?”它结果显示,大多数有用的信息仍然是在文本里。我们关注的是你是怎样把它从文本中提取出来的。这里有一个小的演示叫IO 结。你可以键入一个自然语言问题,然后它会从文本中取出文档,并取出语义实体。并且你会看见, 这并不是相当完善的——比如不能解决好拼写问题。但这一切都是自动完成的,所以没有做把信息放到正确的位置上这样的工作。

    总之,语义技术看起来对定义图解似乎有好处, 但另一方面什么应该进入图解呢。为了做到它,还需要加倍努力。

    这是另一个例子。 这是昨晚的Google 新闻页, 我们在这里应用了汇集(clustering)技术,把新闻分门别类地集合在一起, 所以你看到首条新闻是关于布莱尔的,并且有658个相关新闻我们把它们汇集到了一起。

    现在想象一下,如果不使用我们的算法(这些新闻是从新闻提供商那里获得的),而是按照他们想要的方式放置所有的元数据(metadata)和标签。“我的故事会被埋没在20页呢,还是头条新闻?我将放入自己的元数据。我谈论的那些人是恐怖分子还是自由战士? 什么是爱国者的定义? 什么是婚姻的定义?”

    当你谈论这些政治问题而不是关于部分的数字时,你正是在为这类的本体论下定义; 这会成为一个政治声明。人们也许会惹来杀身之祸。这些是本体论不被运作的地方,会在它们的身上产生争议。并且你不得不转而依靠其它的方法。

    本体论运作的最佳地点是,当你具有消费者的特权时,比如可以迫使服务提供者为你服务。比如汽车零件产业,汽车制造厂在那儿聚会说, “每一个想要卖给我们的人就做这个。”他们能做到如此,因为他们的数量很少。在其它产业, 如果有一个主要“运动员”,因为他们不想被其他人赶上,然后就想不参与比赛了。如果有许多个较小“运动员”, 就很难将它们组织到一起了。

    语义技术为根本上打碎信息成为分散状态是有好处的。但根本上你仔细考虑的只是在尖括号(注:指代<>)之间的一部分。并且我们的创建者之一Sergey Brin,曾说过这样的话, “把东西放入尖括号的不是技术本身。”问题是什么应该进入尖括号。你能说, “很好, 我的数据库有一个人名字的字段,而你的数据库有一个姓字段和一个名字段,我们就将有在它们之间找到匹配的一种联系了。”但这并不总那么有效。

    这有一个近几天在google公司值得思考的问题的例子,就是我们的“拼写改正”功能都是按照一种规范形式建立的。这是我们被询问最多的问题之一, 并且一个星期中有4,000 种不同的拼写变异在发展。某人想做这种规范。所以理解文本的问题就消失了,它在尖括号之间被强迫分解成更小的片断。因此这就是拼写改正的问题;有翻译问题,譬如把阿拉伯语翻译成一个罗马字母;有简称的问题:HP和Hewlett Packard 、惠普, 等等;还有同名的问题:迈克尔・乔丹是篮球运动员,CEO,还是伯克利教授。

    让我们现在考虑背景知识的问题。Cyc 项目试图在一个字典里定义所有知识, 一种 Dublin Core类型的事,然后找到在字典或百科全书中没有的、但我们依旧需要的材料。Lenat 和Guha说那里是浩瀚知识的仓库,你很少会谈论, 比如“水向下流动”和“生命物质得了疾病”。

    我认为我们能设法做如此大的一个项目。然后我决定把它简化一点——仅仅在它附近放入引用标签和键入它。所以当我键入“水向下流动”,我得到了1,200条结果。第一条结果说, “这是幼儿园老师Emily的教学计划。”它实际上解释了水为什么会流下来, 并且这是你在百科全书中找不到的。这里的结论是Lenat99.999993%正确, 因为43亿个案例中只有1200个实际上讨论了水向下流动。但那足够了, 并且你能从中继续进行查找。你能使用网络投票,你还可以说水泵可以提升水流,但那只发生了275次, 因此向下流动胜利了——1200次对275次。

    实际上,我们在这儿做的,就是使用未受训练的大量的人力,你不必支付就可以完成所有的工作, 与其相对的是,经过训练的人使用明确定义的形式和以那种形式书写文本, 让我们就去使用已经是那里的材料吧。我尽力思考“非熟练劳动”的成果,设法把它用于对大量大数据的用途使用统计技术,并且通过在你自己那里过滤, 而不是完全遵从你的定义。

    最后一个问题是垃圾信息。当你在实验室里并且定义了你的本体论, 一切看起来是好而整洁的。 但你一旦把它释放在网络世界中, 你会发现怎么有那么多不正直的人呢。这是例子:它看起来象两页。这实际上是一页。在左边的页面是Googlebot(Google 的网页检索漫游器)看见的, 右面的页面是通过其他用户代理看见的。这网站当它一旦看见Googlebot.com, 它显示的页面使得我们更匹配它,而当一名普通用户来浏览时, 它就显示想显示的页面。

    这表明:第一, 我们有很多工作要做,来应付这种事, 而且你无法信任元数据。你无法确信人们将要说什么。总之, 搜索引擎摆脱了元数据的桎梏, 它们设法更多在对用户的感受上努力。很大程度上我们丢弃了元标记, 除非有一个真正相信他们的理由, 因为它们比有用更倾向于欺骗。并且如果那里是人们可能利用欺骗赚钱的市场, 它就更可能发生。人是非常擅长于发现这类垃圾信息的, 但机器不一定那样好。所以如果更多信息在机器之间流动, 这就是你所越来越多看到的。


       收藏   分享  
    顶(0)
      




    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2006/1/26 15:10:00
     
     iamwym 帅哥哟,离线,有人找我吗?
      
      
      
      威望:9
      等级:计算机硕士学位(版主)
      文章:2454
      积分:17456
      门派:XML.ORG.CN
      注册:2004/11/14

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给iamwym发送一个短消息 把iamwym加入好友 查看iamwym的个人资料 搜索iamwym在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 访问iamwym的主页 引用回复这个贴子 回复这个贴子 查看iamwym的博客2
    发贴心情 
    很高兴google的人开始关心sw了,但是这个翻译是何出处?
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2006/1/26 19:48:00
     
     admin 帅哥哟,离线,有人找我吗?
      
      
      
      威望:9
      头衔:W3China站长
      等级:计算机硕士学位(管理员)
      文章:5255
      积分:18407
      门派:W3CHINA.ORG
      注册:2003/10/5

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给admin发送一个短消息 把admin加入好友 查看admin的个人资料 搜索admin在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 点击这里发送电邮给admin  访问admin的主页 引用回复这个贴子 回复这个贴子 查看admin的博客3
    发贴心情 
    Google到了出处

    http://www.alwayson-network.com/comments.php?id=P7480_0_3_0_C

    Google's director of search quality discusses challenges of automation, knowledge, spam, and even politics.

    This text is excerpted from SDForum's Semantic Technologies Seminar, cohosted by AlwaysOn, TopQuadrant, and Enterprise Architect. Part Two of three in Series Four of four.

    ----------------------------------------------

    -----------------------------------------------

    第十二章第一节《用ROR创建面向资源的服务》
    第十二章第二节《用Restlet创建面向资源的服务》
    第三章《REST式服务有什么不同》
    InfoQ SOA首席编辑胡键评《RESTful Web Services中文版》
    [InfoQ文章]解答有关REST的十点疑惑

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2006/1/26 20:33:00
     
     GoogleAdSense
      
      
      等级:大一新生
      文章:1
      积分:50
      门派:无门无派
      院校:未填写
      注册:2007-01-01
    给Google AdSense发送一个短消息 把Google AdSense加入好友 查看Google AdSense的个人资料 搜索Google AdSense在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 点击这里发送电邮给Google AdSense  访问Google AdSense的主页 引用回复这个贴子 回复这个贴子 查看Google AdSense的博客广告
    2025/8/26 22:32:51

    本主题贴数3,分页: [1]

    管理选项修改tag | 锁定 | 解锁 | 提升 | 删除 | 移动 | 固顶 | 总固顶 | 奖励 | 惩罚 | 发布公告
    W3C Contributing Supporter! W 3 C h i n a ( since 2003 ) 旗 下 站 点
    苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
    93.750ms