Powerset初试 4

Posted by livepine on 12月 07, 2007

Powerset是一个自然语言搜索引擎。它是一家位于美国旧金山的创业公司,今年早些时候获得了施乐帕洛阿尔托研究中心(PARC)所研发的自然语言处理技术,标榜能够理解人类所使用的自然语言。这同Google、百度、雅虎之类的搜索引擎有极大的不同。后者利用关键字搜索,因而检出的结果同使用者原本的意图可能有很大差别,而且也很难判断自然语言中大量存在的同字不同意等模糊情况。一个自然语言搜索引擎,如果真像其名称所指的那样,就可以克服这些困难,更加准确地达到使用者想要的信息。

然而我总是对这样的宣称持怀疑态度。事实上人工智能发展了半个多世纪,自然语言处理一直是研究热点之一──但主要成果都集中在语音识别上,即将输入的自然语言语音解读成准确的文字。据我所知,还没有任何技术进展能够完整地识别一门自然语言,例如英语。不过,简单的理解并没有不可逾越的困难,例如基于特定句式的单句理解已经有了颇多的成果,人们可以把不太复杂的单句用逐字分析的方法纳入特定的语法结构,然后根据解析出的语法结构来判断单字的意义,并转化成计算机所能够识别的查询条件。

Powerset的搜索技术应该大致基于此。你不可能指望输入──不要说长篇大论──即使是一个小片段,该引擎也能理解并返回相关的结果。这种输入即使能够被允许,目前“智能”的自然语言理解恐怕远没有聪明点的关键字匹配来的有效甚至准确。

Powerset公布已经很久了,可是到目前未知仍然没有开放(说是要到2008年初)。前两天收到了他们的实验网站Powerlabs的邀请(你可以到这里来注册),于是来体验一把。Powerlabs的页面做得不错,充分使用了AJAX(没有Flash!),用户体验很好。网站的功能之一是用户社区,你可以提出改进意见,并且有类似Slashdot的业值(Karma)系统来评价你的贡献。业值高了能够试用更多的功能作为奖励。看样子目前Powerset正处于集思广益阶段,非常倚重社区,希望通过用户的反馈来不断改进服务。

另一个重点就是自然语言搜索演示。与我原本期待的不同,这里你不能随意输入任意的句子,而只能在一大组提供的句式中填空,例如A说了B什么,X画了什么,之类。演示所采用的索引数据库不是整个互联网,而是英文wikipedia。这大概也是因为相对整个互联网散漫的语言而言,wikipedia更有组织,更能够正确建模的缘故。演示将句式分成引用、商业、艺术和体育四大类,这一来方便用户,二来我想wikipedia的内容也可以根据分类优化,从而结果更准确。我测试了下面几个例子:

1、商业。句式 Who works for ___ (谁为___工作?)填入 chinese government (中国政府)

结果(点击放大)
谁为中国政府工作?
结果看上去不错。黄色高亮标出的是搜索引擎认为相关的结果。第一条来自漫画“Supreme Power”,第一段高亮不太相关,第二段很正确。第二条结果也是第二段正确。

2、引用。句式 What did ___ say about ___ ? (___说___了什么?) 填入 google 和 microsoft(微软)

结果(点击放大)
Google说微软了什么?
没有返回搜索引擎认为相关的结果。在我看来列出的结果确实不太好。也许wikipedia里目前没有相关内容?Powerset大概还没智能到联想的地步,比如不能理解Google和Microsoft高官之间的唇枪舌剑就是高度相关的。看来句式复杂一点就会出问题。

3、引用。句式 What did ___ say? (___说了什么?) 填入 steve ballmer(微软CEO)

结果(点击放大)
Steve Ballmer说了什么?
句式简化一点结果就好多了。不过此公确实经常大放厥词。

此外演示还提供了一个powermouse功能,用图示的方法列出两个名词和一个关系(动词)的结构。例如你可以填写man和woman,然后引擎列出男人和女人之间所有可能的关系和动作。不过还不能智能到归纳所有男人和所有女人,例如结果里就不会田亮和郭晶晶的故事。我试了查询colonize(殖民)关系,其中一方是mars(火星)。结果(点击放大):

什么/谁殖民火星?
结果大致靠谱。也许这是个科幻的话题,结果所列出的关系多出自于科幻小说。有趣的是其中关于中国人殖民火星的结果很多啊 :)

总得来说Powerset初用感觉还行。总结下来优点如下:
1、对于英语能处理动词的变位,名字单复数,不过这应该是基本能力了吧。
2、界面体验不错,很漂亮。这年头这个很重要。
3、集思广益,充分利用网络的力量。而且自然语言毕竟是人类语言,不范式化的地方很多,所以要理出合理的关系,还要靠大量人工。

缺点:
1、最核心的,这只是自然句式处理。当然人工智能没有重大突破前真正的自然语言理解不可能实现。
2、虽然是这样,还是希望最后的产品能够允许用户自由地输入句子,而不是像现在这样选择并填空。
3、演示中没有更复杂的句式,例如三个以上空的。也许他们已经有了更强大的功能,我业值不高还不能试用?
4、不能联想啊……不过这是不是要求太高了。
5、目前速度很慢。尽管索引限于wikipedia,用户也很少,速度跟Google比还是差了一大截。这样会带来很不好的用户体验──现在人们已经被惯坏了,谁会愿意等半天只看到一堆无用的结果?

Powerset去年底得到默多克新闻集团和几个硅谷投资公司1250万美元的风险投资,风头正盛。它所标榜的技术是非常能够吸引人的,想要超过或者成为另一个Google,也许只需要做的稍好一点。不管怎样,这将是第一个“传统”的人工智能课题得到大规模应用的例子,如果能够顺利开展,一定会为这方面的研究带来巨大促动。

“许三多”上了CCTV的征兵广告 2

Posted by livepine on 12月 05, 2007

CCTV-7的一个广告播出了一则征兵广告──《参军光荣》宣传片。《士兵突击》的许多片段被剪辑在其中,末了一句:“你想成为像许三多这样的士兵吗?”。第一次看到国内的电视征兵广告,挺新鲜。因为似乎国内不愁兵源的问题,不过还是没有新加坡的征兵广告酷。不过千万别把电视剧当成真实生活才是。来自DANWEI(“单位”,老外在中国用英语宣传中国的媒体)。