频道直达 - 专题 - 新闻 - 技巧 - 组网 - 开发 - 安全 - web编程 - 图像 - 操作系统 - 数据库 - 教育 - 旅游 - 健康 - 时尚 - 驱动 - 软件 - 游戏 - 多媒体 - ERP - 讨论组

详细介绍常用的几类搜索引擎技术

来源: 作者:赢政天下 出处:巧巧读书 2006-06-03 进入讨论组
谢 谢 收 藏 http://www.qqread.com/netbase/z793115051.html机器人搜索引擎

机器人搜索引擎通常有三大模块:信息采集、信息处理、信息查询。信息采集一般指爬行器或网络蜘蛛,是通过一个URL列表进行网页的自动分析与采集。
起初的URL并不多,随着信息采集量的增加,也就是分析到网页有新的链接,就会把新的URL添加到URL列表,以便采集。

机器人搜索引擎使用多线程并发搜索技术,主要完成文档访问代理、路径选择引擎和访问控制引擎。基于机器人搜索引擎的Web页搜索模块主要由URL服务器、爬行器、存储器、URL解析器四大功能部件和资源库、锚库、链接库三大数据资源构成,另外还要借助标引器的一个辅助功能。

具体过程是,URL服务器发送要去抓取的URL,爬行器根据URL抓取WEB页并送给存储器,存储器压缩Web页并存入数据资源库,然后由标引器分析每个WEB页的所有链接并把相关的重要信息存储在锚库文件中。URL解析器读锚库文件并解析URL,然后依次转成docID。再把锚库中文本变成顺排索引,送入索引库。具体过程如图1所示。

详细介绍常用的几类搜索引擎技术(图一)
更多文章 更多内容请看SQL Server 索引和查询专题搜索引擎专题,或进入讨论组讨论。
收藏此文】【 】【打印】【关闭
相关图文阅读
频道图文推荐
健 康 咨 询
时 尚 咨 询
巧巧读书宗旨
相关专题
讨论组问题推荐
站内各频道最新更新文档
站内最新制作专题
热门关键字导读
Photoshop教 程照片处理 照片制作 PS快捷键 抠图
计 算 机 故 障XP系统修复
艺 术 与 设 计设计 流媒体 设计欣赏 边框
计 算 机 安 全ARP
站内频道文章精选
巧巧电脑频道编辑信箱  告诉我们您想看的专题或文章