频道直达 - 专题 - 新闻 - 技巧 - 组网 - 开发 - 安全 - web编程 - 图像 - 操作系统 - 数据库 - 教育 - 旅游 - 健康 - 时尚 - 驱动 - 软件 - 游戏 - 多媒体 - ERP - 讨论组

新华社多媒体数据库搜索引擎应用案例

来源: 作者: 出处:巧巧读书 2006-02-18 进入讨论组

    组织机构(以下统称企业)信息化建设浪潮,催生了大量的内部信息资源。据统计,企业数据每年以200%的速度增长,其中80%的数据以文件、邮件、图片等非结构化数据形式存放在企业内计算机系统中的各个角落,而这些数据总量远远超过了互联网信息的总量。

整合企业信息资源,构建企业搜索引擎,为组织内外部用户提供检索和个性化信息服务,已经成为企业信息化的一大热点。

  新华社多媒体数据库搜索引擎功能结构图

  “新华社多媒体数据库搜索引擎”整合新华社海量多媒体数据,为内部工作人员和外部会员提供个性化综合信息检索、发布和推送订阅服务。

  新华社拥有国内新闻、对外新闻、国际新闻、新闻摄影等多个编辑部和分社,每个编辑部都有一套独立的新闻采编系统,由不同系统负责不同种类新闻信息的存储和管理工作,从而造成了不同部门的信息资源壁垒,形成了信息孤岛,影响信息的共享和有效利用。新华社迫切需要整合这些有价值的信息资源,建立开放的、共享的信息资源搜索平台,为广大编辑、记者等的采编工作提供服务。

  同时,新华社作为有着70多年历史的国家通讯社,是中国最大、最权威的新闻信息采集和发布中心,党政机关、群众团体、科研教育机构、大中企业等都是新华社的用户,所以该信息资源搜索平台还应考虑外部用户的不同需求,提供不同层次,具有不同针对性的信息服务。

  概括起来新华社多媒体数据库搜索引擎的需求有以下几个方面的特点:

  第一,信息量大,需要对海量信息进行搜索、存储和智能管理。文字信息,从1948年以来新华社播发的所有中文电讯稿3000余万篇,每天新增各种精选稿件10000多篇。200多万张图片涉及国内外政治、经济、文化、体育、教育及风土人情等,而且每日增加1600多张。国内外多个领域,集新闻性与艺术性于一体的图表近万张,每天递增最新的国内国际图表新闻10多张。音、视频信息近万小时。

  第二,信息形式多,需要提供统一、跨媒体检索。不但包括文字、图片、图表和视频等多种形式的信息资源,而且涵盖了中文、英文、法文、西文、俄文等10多种语言信息资源。

  第三,服务人群多,需提供个性化服务。新华社多媒体数据库搜索引擎不仅面向内部用户,还面向许多类型外部用户,例如为媒体用户提供大量丰富、前沿、精彩的各类新闻,作为编写稿件的权威参考等。

  统一检索个性服务

  通过仔细考虑和对比,新华社采用了TRS的系列产品搭建了多媒体数据搜索引擎,整合了各个系统和互联网上有价值的新闻资源,实现了海量信息的分布存储和管理,实现了跨媒体统一检索和个性化服务功能。

  1.信息资源的采集、整合、管理。新华社多媒体数据库系统通过TRS Gateway(关系数据库网关)将原有各个部门系统中的信息采集到TRS Database Server(全文数据库服务器)中进行统一分类存储,采集不会影响到原有系统业务逻辑的正常运行,同时保证了信息同步采集的实效性。

  对于互联网上有价值的新闻信息,则通过TRS InfoRadar(网络信息雷达)定制网站进行采集,进入TRS Database Server中进行统一分类存储,同时采集工具采用TRS文本挖掘技术实现了自动过滤、自动排重、自动文摘和分类等功能,大大提高了信息的加工效率。

  为了保证海量信息的存储,保证海量信息检索的效率、稳定性和可靠性,系统采用TRS Database Server分布式集群结构作为系统的存储和检索支持,如图。

  图中,“TRS数据库服务器组”内的数据库服务器之间采用负载均衡模式,由集群服务器统一调度,一个服务请求只需发往其中的一个数据库服务器。同时,“TRS数据库服务器组”之间则采用分布式检索模式,一个检索请求根据其所包含的目标对象的分布情况,发往部分或全部的数据库服务器组。

  通过TRS集群服务器可以实现以下目标:通过增加“TRS数据库服务器组”来解决海量数据的分布式存储问题,实现海量数据的无限扩展;在多用户并发检索的条件下,保证海量信息检索的效率;通过实现信息资源的冗余存储,提供检索服务;通过实现不同的索引策略,满足更加个性化的检索需求。

  2.海量信息个性化服务和多种组合检索。新华社多媒体数据库在TRS CDS(内容分发服务器)的基础上构建了多媒体数据库的发布服务,实现了统一检索和个性化服务,包括多种检索方式有机组合,使用户获得完美检索体验。在分类检索、全文检索及高级检索等基础上,还提供检索词提示、拼音提示等智能检索方式。并依靠TRS Database Server分布式集群结构的支持获得满意的检索速度。

  提供丰富的个性化定制功能。用户可以根据个人需要,分别对内容分类、内容表现方式等进行个人定制。同时提供个人检索收藏功能,用户可以将自己习惯使用的检索条件保存起来,方便快速地进行内容的检索。在Web内容分发的基础上,提供了邮件订阅的服务方式,为用户提供了主动获取信息的方式。

  大客户信息推送,实现信息推送服务器及客户端,为大型企业、政府部门和高校等集团和专供用户提供个性化的特供产品服务。信息推送服务器可以按分类、时间等条件,自动生成数据库数据的同步数据文件,并通过卫星、专线等方式将这些数据同步文件发送到各个推送客户端。

  赢得客户

  通过TRS系列产品搭建的新华社多媒体数据库搜索引擎,提高信息资源的使用效率,带来了良好的社会效益和经济效益,客户如此评价该系统:新华社是我国国家通讯社,是全球新闻信息总汇,TRS在新华社有广泛应用,已经成为新华社业务的核心支撑技术之一,仅一个新华社多媒体数据库,TRS管理的数据量已经超过3500万记录,TRS全文数据库5.0的集群功能是率先在新华社得到使用的,同时TRS良好的多语言支持能力,是一个国际化企业搜索引擎。新华社的业务特点是数据在不断的增加和变化,普通互联网搜索引擎无法处理这类事务型需求,TRS全文数据库能够满足这方面的需求。”

  TRS企业搜索引擎产品和技术占有国内市场的80%,一方面因为TRS公司10多年来专注此领域,更主要的是通过努力,TRS企业搜索引擎已经具备了其核心竞争能力,可以在众多大型企业搜索引擎应用项目中和国际巨头竞争角逐。

  链接·

  TRS相关系列产品

  TRS网络信息雷达系统(TRS InfoRadar)对互联网网站的信息进行收集,作为企业搜索引擎的重要信息来源。

  TRS关系数据库网关(TRS Gateway for RDBMS)针对系列的主流关系型数据库和NOTES的检索网关模块,将应用中的数据实时地反映到企业搜索引擎平台服务器中(TRS Database Server)。

  TRS企业搜索引擎平台服务器(TRS Database Server)除了采用得到业界广泛使用全文检索的全部功能和性能,针对企业信息内容搜索引擎服务的管理和资源建设的新需求,发展了包括Native XML集群,Unicode自然语言处理及智能检索等众多新功能,结合TRS领先的结构化和非结构化联合查询技术,从而满足了用户对企业搜索引擎的广泛需求。Native XML能够为更精确的检索提供存储和检索手段。集群满足海量信息处理和负载均衡的苛刻需求。Unicode以中文为主,提供多语言支持,实现了国际化。自然语言及智能检索更加人性化,达到更好的检索效果。异构实现结构化和非结构化异构信息联合查询。

  TRS内容分发服务器(TRS CDS)从应用角度看,它是当今网络环境下,构建新型信息服务模式、整合信息资源内容、提供以人为本信息服务方式的支持平台。TRS CDS可以广泛的应用于组织内外部信息资源服务平台的建设。TRS CDS整合异构信息资源,实现信息内容服务的工程化管理;有完善的内容发布功能,提供全方位的内容服务方式;统一用户访问权限控制构建安全的内容商务平台;评估反馈机制,实现内容增值服务。

打开: http://www.qqread.com/erp/31/a387141004.html 更多文章 更多内容请看SQL Server 索引和查询专题多媒体应用解决方案数据库专栏专题,或进入讨论组讨论。
收藏此文】【 】【打印】【关闭
相关图文阅读
频道图文推荐
健 康 咨 询
时 尚 咨 询
巧巧读书宗旨
相关专题
讨论组问题推荐
站内各频道最新更新文档
站内最新制作专题
热门关键字导读
Photoshop教 程照片处理 照片制作 PS快捷键 抠图
计 算 机 故 障XP系统修复
艺 术 与 设 计设计 流媒体 设计欣赏 边框
计 算 机 安 全ARP
站内频道文章精选
巧巧电脑频道编辑信箱  告诉我们您想看的专题或文章