本文将介绍如何实现一个离线浏览器,以下载并浏览网上资源。
镜像目录结构
离线浏览下载到本地的网页时,需要解决的一个关键性问题就是“如何通过某一网页中的超级链接正确地定位其他网页”。比较简便的方法是在用户指定的本地目录下建立一个目标网站的完整或部分镜像。也就是按照文件在服务器端的目录结构保存下载的文件(参见下图)。这样一来,如果网页中的超级链接是以相对路径形式给出的,那么浏览程序就可以直接通过此相对路径访问到本地文件系统中的网页;如果网页中的超级链接是以绝对的URL形式给出的,那么必须在保存网页之前将这些URL转换为本地绝对路径。
在网络中,一个有效的URL应该只有唯一的网络文件与之对应。因此,只要将网络上由URL所确定的层次关系,转化为本地文件系统中由目录路径所确定的层次关系,就可以建立网站在本地的完全或部分镜像。下面讨论建立镜像的具体方法。
镜像路径算法
首先,将下载网页时生成的URL拆分成协议类名(protocol)、IP地址(ipaddr)、目录名(directory)和文件名(file)。
KDE环境提供了一个用于解析URL的类KURL,只需要定义一个对象KURL u((const char*)URL),就可以利用该类提供的成员函数将URL拆解为所需的部分。但是,此类未提供对ASP定位语句的支持,所以读者可以在KURL的基础上编写自己的拆解函数,以完善程序功能。
需要注意的是,在同一网络文件的URL中,网址部分可能是以域名地址形式给出的,也可能是以IP 地址形式给出的。为了避免将同一文件镜像到不同目录下,如果网址是域名形式的,应该使用socket函数gethostbyname ()将其转换为IP地址。
其次,确定网络文件在本地的镜像路径。假设用户指定的本地目录存放在字符数组LDir中,则代码如下:
|
这样一来,如果一个网络文件的URL是http://11.171.38.32/webfile/relax/index.html,而用户指定的本地目录是/home/yangjx/web,则此网页文件对应的镜像路径为/home/yangjx/web/http_11.171.38.32/webfile/relax/index.html。
处理下载文件
有了镜像路径生成算法,接下来要对下载的文件做如下处理:
● 如果是网页文件,必须扫描文件,并将其中以绝对URL形式给出的超级链接替换成用镜像路径生成算法产生的本地绝对路径,而那些以相对路径形式给出的超级链接则保持不变;
● 建立相应的目录,并保存文件到绝对路径所指定的位置。
在建立目录时,由于Linux提供的目录创建函数int mkdir(char * dir, int mode)只能在已存在的目录下建立一级子目录,所以要用“递归”方式构造一个目录创建函数:
|
相关专题
- Windows操作系统安装 (15328篇文章)
- 系统优化大全 (17807篇文章)
- 系统安全设置 (23149篇文章)
- 操作系统常见故障解析 (4371篇文章)
- 配置安全的操作系统 (9658篇文章)
- 系统安装手册 (20515篇文章)
- 系统备份专题 (17269篇文章)
- Linux集群技术 (8137篇文章)
- 体验Linux的音影世界 (7818篇文章)
- Linux驱动大全 (8611篇文章)
- Linux常用基本命令及应用技巧 (44691次浏览)
- 学Linux如此轻松-Linux入门教程 (21805次浏览)
- 扮酷你的桌面 Linux超靓壁纸下载(多图) (20455次浏览)
- 图解红旗Linux 4.0桌面系统的安装 (17365次浏览)
- vmware的vmware tools安装 (13102次浏览)
- Linux系统常见的日志文件和常用命令 (753次浏览)
- TCP/IP基础----为Linux网络做准备 (671次浏览)
- 安装Linux之前 (600次浏览)
- 初学者如何熟悉Linux内存管理机制 (593次浏览)
- Linux Apache+MySQL+PHP简明指南v2 (573次浏览)



