腾讯科技讯 2008年11月28日重点新闻网站技术建设研讨会在深圳麒麟山庄贵宾楼二层多功能厅隆重开幕。海量信息首席科学家周富秋在本次大会发言进行有关新闻网站内容挖掘的智能技术应用的主题演讲。具体实录如下:

我准备从核心技术侧面谈一谈所谓的智能技术能够给新闻网站和互联网站的数据采集、加工、制造、挖掘起到的作用。我们都谈到了互联网网民数量迅速增长,这时候大家面临的不是几十年或十几年以前面临的信息匮乏,而现在是信息过剩,我们怎么在信息过剩的环境当中迅速找到我们所需要的信息,让互联网信息的有效利用率提高,这是每一个网站面临的很大挑战。

我先讲一讲我们的观点,根据权威数据表明当前最好的互联网搜索引擎GOOGLE只能解决网民对信息精确度的20%,你听到这个数字很吃惊,但实践中就是这样,很多有用、有价值的信息被埋藏在信息堆里,我们认为要解决这个问题一定采用必要的创新技术型手段。我们海量公司是一家从事中文智能计算和信息数据挖掘的理论研究和技术开发的知识型创新企业,创立十年以来致力于两个方面:一个是针对互联网的海量信息怎么从字符到语义,这是一个漫长的任务,但必须要走。二是怎么把互联网上非结构化的数据转化为结构化的信息和知识。在这个基础之上引申出一系列针对互联网的基础产品和互联网技术挖掘服务。 我们创立初期是在天津,现在基本是在北京。由于历年的积累我们在核心技术的基础上创立了比较完整的商业模式,客户群也迅速增加,在座的有很多媒体网站、新闻网站用我们的产品和服务。

我们创立初期是在天津,现在基本是在北京。由于历年的积累我们在核心技术的基础上创立了比较完整的商业模式,客户群也迅速增加,在座的有很多媒体网站、新闻网站用我们的产品和服务。

我重点讲讲这两个方面,第一条技术路线是从字符到语义。互联网的信息载体千差万别,但真正从中文网站来看90%还是语言,这是中国权威数据的统计,如果要从语言当中挖掘到有价值的信息,我们必须从语言的结构开始入手,从语言的结构来讲王选最早是从激光照排开始,我们现在是不是要从词的方面下工夫,中文便利解决语义上的问题首先要突破的是分词,英文有空格,是天然有标志性的字符,可是中国没有,所以从这点讲语义的抽取就出现问题。在词的层面、实体层面、管理层面形成句法上的离分型,最终达到语义层面的理解。这条路是漫长的,就像由猿形成人一样过程是漫长的。但形成互联网的自动抽取、自动搜索和满足客户需求、客户体验是必须要走的路。

第二、互联网的数据是按照超文本的标识语言来定义的,它并不是供计算机进行处理的,是只供人浏览,在这种状态下你必须要把互联网上存在的异构的非结构化数据转化成结构化数据,这是我们的第二条技术路线。在这两条技术路线的基础上形成了两套技术体系。在互联网网页内部怎么从分词到关键字的提取,这种技术怎么建立起来。在网页和网站之间怎么建立语义之间的联系,然后延伸到领域和领域之间。

模式识别技术体系,达到从数据到信息,然后从信息到知识层面。通过这样的技术已经有一系列的产品和服务,有一个海纳服务平台,有些媒体网站和新闻网站在应用我们的平台,这个平台就是把互联网上不同载体的媒体结构通过格式分析、版式分析转化成结构化的信息帮助新闻网站解决新闻编辑编发的自动化过程,这样节省成本,提高效率,让资讯及时性、全面性。

再谈谈这两条技术里的核心模块。命名实体是指互联网很多数据当中具有特殊意义的实体,比如说人名、地名、机构名、专有名词等等,而且这些实体本身含有很深刻、很丰富的语义信息,你怎么把它提取出来。如果博客上写“现代很牛”,有人说我买了一部现代,现代本身是一个普通词,但在特别语义中是产品,这些东西都属于命名实体范畴,如果我们能在浩瀚的系统中找出来或者相关联,就建立一个强大的技术库支撑,解决网站内容加工中的语义相歧、优化检索,而且能够得到情报检索和舆情分析。

我举几个例子。这是我们在新华网上拿的两篇文章,如果我们对命名实体有明确的技术体系,那么我们很快可以找到丁磊这个人名,它代表两个在互联网上很有影响的人物,一个是网易的董事长,一个是上海通用汽车的总经理,通过命名实体之间的关系很快找到他们之间的区别以及相互有关联的其他实体之间的关系。我找到丁磊以后知道网易的产品名、游戏名称,而上海通用是和别克一系列汽车产品相连的。通过命名实体的识别可以建立强大的知识库智能体系,这样我对舆情的分析和跟踪,刚才我听到方正的嘉宾也谈了舆情的跟踪,我认为热点发现只是一部分,第二部分是如何跟踪、如何分析,尤其在博客、论坛这些媒体当中民间的评价非常重要,你怎么很快识别出褒贬、评价,因为这些数据当中存在歧意,如果你错误的提取了产品名就会导致以后分析出错。这个地方谈到“经过几个月时间的推移,大家对别克这款产品在性能、价格、款式上的波动”,很快得出这一点。通过命名实体的识别还可以进化引擎,在命名实体的基础上建立有层次的知识库,这样我们可以很快通过用户的体验、行为模式延伸它对信心需求的方向,也就是找到信息的意图,从这个意义上推送出它需要关心的信息来源。举个例子很简单,我们看到用户的潜在需求,如果我们看到了它的效率等方面比较活跃的话,我们会推出有名望的SNS网站。

从经济学、社会学经常谈结构动力,我们说互联网的信息实际上是一个一个的孤岛,因为信息分布在不同的服务器上,信息是由不同网站发布的,如果你要寻找有价值的信息,可能你需要很大的功夫,如果我们通过命名实体这样的技术识别,举个事例,我们一提姚明可能会想到篮球明星,他跟NBM和CBA的明星是有牵连的,但把CBA拿出来只是这一个孤岛,如果我们把互联网上分布的不同信息有机串联出来就形成逻辑载体,这样对信息共享、信息抽取都有很大的帮助。

我只是举了一些简单的实例,我们海量有一个实例,我们希望把互联网上浩如烟海的数据怎么上升到信息,最终上升到知识情报供大家做出商业的抉择、生活的抉择。我们经常说互联网集天下之数据,但有一点是怎么集天下之数据而用之,在“用之”上很多网站尤其是重点新闻网站必须要考虑的。数据在哪儿?怎么用?我们海量可以帮助大家在技术上提供这样的支持。外面有一个展台,其中有一些展示,我们知道这个路很漫长,要爬到金字塔的顶尖可能需要很多人的努力,也需要很多人的实验,但我们必须走,这样我们的互联网才能真正在信息社会中发挥作用。谢谢大家。