谢 谢 收 藏 http://www.qqread.com/netbase/z793115051.html机器人搜索引擎
机器人搜索引擎通常有三大模块:信息采集、信息处理、信息查询。信息采集一般指爬行器或网络蜘蛛,是通过一个URL列表进行网页的自动分析与采集。起初的URL并不多,随着信息采集量的增加,也就是分析到网页有新的链接,就会把新的URL添加到URL列表,以便采集。
机器人搜索引擎使用多线程并发搜索技术,主要完成文档访问代理、路径选择引擎和访问控制引擎。基于机器人搜索引擎的Web页搜索模块主要由URL服务器、爬行器、存储器、URL解析器四大功能部件和资源库、锚库、链接库三大数据资源构成,另外还要借助标引器的一个辅助功能。
具体过程是,URL服务器发送要去抓取的URL,爬行器根据URL抓取WEB页并送给存储器,存储器压缩Web页并存入数据资源库,然后由标引器分析每个WEB页的所有链接并把相关的重要信息存储在锚库文件中。URL解析器读锚库文件并解析URL,然后依次转成docID。再把锚库中文本变成顺排索引,送入索引库。具体过程如图1所示。

更多内容请看SQL Server 索引和查询专题、搜索引擎专题,或进入讨论组讨论。
机器人搜索引擎通常有三大模块:信息采集、信息处理、信息查询。信息采集一般指爬行器或网络蜘蛛,是通过一个URL列表进行网页的自动分析与采集。起初的URL并不多,随着信息采集量的增加,也就是分析到网页有新的链接,就会把新的URL添加到URL列表,以便采集。
机器人搜索引擎使用多线程并发搜索技术,主要完成文档访问代理、路径选择引擎和访问控制引擎。基于机器人搜索引擎的Web页搜索模块主要由URL服务器、爬行器、存储器、URL解析器四大功能部件和资源库、锚库、链接库三大数据资源构成,另外还要借助标引器的一个辅助功能。
具体过程是,URL服务器发送要去抓取的URL,爬行器根据URL抓取WEB页并送给存储器,存储器压缩Web页并存入数据资源库,然后由标引器分析每个WEB页的所有链接并把相关的重要信息存储在锚库文件中。URL解析器读锚库文件并解析URL,然后依次转成docID。再把锚库中文本变成顺排索引,送入索引库。具体过程如图1所示。

相关图文阅读
频道图文推荐
健 康 咨 询
时 尚 咨 询
相关专题
- SQL Server 索引和查询专题 (3320篇文章)
- 搜索引擎 (546篇文章)
- IE右下角图标有何用 (56次浏览)
- Google的特殊服务:术语搜索 (35次浏览)
- 搜索引擎使用指南 (35次浏览)
- Google最新搜索技巧 (34次浏览)
- 小事不求人 阻碍共享上网小问题自己解决 (0次浏览)
- 解决ADSL宽带拨号开机后慢的问题 (0次浏览)
- 快速破解电信星空急速 (0次浏览)
- 如何让你系统里的IE6和IE7和谐共存 (0次浏览)



