当前位置:380元网站建设 虎网站 > 建站知识 > 正文

局域网FTP搜索引擎的建立分析

发布日期:2010-02-09

  摘 要 FTP服务是网络服务的一种应用广泛的文件传输形式,本文拟构建一个基于Web的FTP主机的文件搜索系统,能够以Web形式轻松的检索FTP上的文件,并且可以直观的以Web模式模拟FTP主机的文件结构。

  关键词 搜索引擎;FTP;Web

  1 背景

  当前,计算机网络已经越来越普及,各个单位也已经逐步建立自己的FTP服务器,用来管理存储对于自己单位内部共享的一些文件或者对外共享的一些文件。随着被FTP管理的文件数量的不断增长,达到上万、上百万,甚至更多的时候,如何在如此庞大数据里边更快捷的找到自己所需的文件,将成为一个很重要的问题。

  目前出现了一些FTP搜索引擎,可以用来搜索整个互联网内处于匿名访问的FTP上的文件信息,而需要权限才能访问的FTP则无法直接建立索引,因此不能达到搜索效果。本文拟构建的FTP搜索引擎是针对单位内部,局域网内的一个或者几个FTP服务器建立的;使内部用户直接可以看到FTP上的目录结构,并可以准确的搜索文件位置,然后下载浏览,达到检索高效、准确。2 拟构建系统之模型

  根据拓扑结构,内部网络部署若干台FTP服务器,根据需要,在每台需要被查询的FTP服务器上,建立扫描文件结构发生变化的爬虫程序,并在内部网络建立FTP文件索引数据库服务器,用来存放FTP服务器上爬虫程序获取的索引数据,另外还要建立Web服务器,用来做Web查询。3系统模式分析

  本系统采用两个模块构建,分别是部署于FTP服务器的爬虫程序和部署于Web服务器的索引查询引擎。

  部署于FTP服务器的爬虫是一用来监控FTP文件结构变化的程序,它用来监视FTP服务器的变化,当FTP服务器有新的文件上传或者有文件被删除或者文件位置发生变化的时候,爬虫程序会立即捕捉到此变化,然后将变化信息响应到建立索引的数据库服务器。

  部署于Web服务器的查询引擎是主要用来做查询服务,以及针对用户输入的查询关键字做模糊处理,直接以模糊方式查询,当搜索到结果以后,显示时候将文件所处FTP位置显示,同时将对应的超级连接做在上边,可以方便直接下载。

  在访问范围上,拟构建的搜索系统可以供内网和外网同时检索,访问方式

  如图一所示,将Web服务器发布在内部网络,同时开放到Internet,可提供到Internet访问。通过Web服务器来对内和对外提供检索服务。内部用户通过内部网络直接访问Web服务器来访问搜索引擎,外部用户通过Internet来访问Web搜索引擎。4 系统的实现

  FTP服务器爬虫程序主要用来建立FTP文件的树形结构,如图2所表示,每获得一个服务器就建立一个FTP根节点,然后在遍历根节点下边的子节点,直到将子节点遍历完毕。FTP服务器爬虫程序可以采用Java或者C++等程序来实现,可以作为操作系统的一个服务来加载。此种爬虫程序可以根据需求分为两类,一类是实时记载服务器文件结构变化的,一类是分周期的记载数据库变化的。

  实时记载的爬虫程序运行过程是:当初始加载到一个新的FTP服务器,爬虫程序首先遍历该服务器,获得该服务器的文件结构,同时将此结构记载到数据库服务器,当遍历完整个服务器后,然后就进入监控状态,实时记载服务器变化,当文件增加时在原数据基础上追加数据,当文件更改位置后,修改对应记录的数据,当文件被删除时清除数据库中的对应记录。

  分周期记载的爬虫程序的运行过程是:当加载到一个新的FTP服务器,程序遍历该服务器,获得服务器的文件结构,同时也将此结构记载到数据库服务器,当过一定周期后,重新遍历服务器文件结构,将结果再记载到数据库,并删除原有的遍历结果,如此反复。

  两类程序有各自的优缺点,第一类实时性比较强,当服务器文件结构发生变化后,立即可以体现到检索结构中,但缺点是占用FTP系统资源太多,可能会影响FTP服务性能;第二类正好与相反,因为它是周期性的遍历,因此可选择FTP比较空闲的时候来遍历,不会太多影响FTP服务性能,但实时性就比较差,不能将FTP的文件变化立刻体现到检索结果中去。两类程序可根据服务器性能来选择合适的类型。[Page]

  搜索引擎Web端可以采用J2EE+AJAX来实现,用户检索时可选择精确检索和模糊检索,精确检索查询完全匹配的,模糊查询检索可以用相似性来检索。此外,针对每个独立的FTP主机,遍历其上爬虫程序建立于数据库的索引树结构,就可以建立起虚拟的FTP文件结构,从而可以在WEB程序上显示FTP的文件结构。

     5 结束语

  本文讨论建立基于局域网的单个FTP和多个FTP的搜索,根据FTP服务器的实际情况,选择适合的爬虫程序类型,建立索引树。对于本文设计构建的结果,可以将本系统推广于Internet,将爬虫程序置入需要索引的FTP上,或者通过外部间接获取索引,从而达到FTP的文件搜索效果,使得用户更加高效的找到所需要的文件。

    参考文献

     [1]陈华,王继民,韩近强,谢欣.《互联网上FTP文件的分布特征与启示》

    [2]陈华,李晓明.高级文件搜索引擎核心功能的实现技术.《搜索引擎与Web挖掘进展》,高等教育出版社,2003

 

从崇左到越南芽庄旅游攻略最全攻略指南

    越南芽庄是越南南部的一个沿海城市,被誉为“越南的海上明珠”。它有着优美的海滩、丰富的文化遗产和美食,成为了越南旅游的热门目的地之一。如果你正在计划一次从崇左到越南芽庄的旅行,那么这篇攻略将为你提供最全面的指南,帮助你更好地了解这个城市。 部分前往芽庄的交通方式 从崇左到芽庄有多种交通方式可供选择。下面是其中几种 1. 自驾车 如果你有一辆车,自驾车是一种很好的选择。从崇左到芽庄的距离大约是400...

       企业建设网站之前要弄明白哪些问题? 很多企业随着互联网络的发展,纷纷开始了自己的 企业网站建设 ,但是由于对于网站建设知识的缺乏,不少企业选择盲目的随从网站建设企业,如果网站服务企业不靠谱的话,就会对企业造成时间跟金钱的浪费,那么企业建设网站前要了解明白哪些问题,才能让自己的网站建设更完美呢? 网站的性质 一般企业建设自己的网站最为重要的目的便是宣传,长春星宿科技认为通过互联网的传播能力为自己宣传,然更多的用户知道企业的存在,...

       西安企业网站建设中target的用法 在西安网站建设的过程中经常会遇到需要使用target的地方,target 一般的目标是 slef parent top等,下面我们介绍几个关于target的用法: _blank 在一个新窗口打开, _media 可能是在打开的新页面是处理一个播放器的吧 _search 就是把搜索页面打开来,等于你按了一下游览器上的搜索按钮。 在网站制作中常用的是target=_blank,但是我们一定要了解频繁的...

       虎网网络网站开发的流程是怎样的? 一、了解需求与合作意想:   01、双方进行初步业务洽谈;   02、客户提出网站开发基本要求;   03、客户提供相关资料:如公司介绍、栏目设置等。 二、制定网站建设方案:   01、制定网站建设初步方案;   02、客户对初步方案具体了解后,并提出相关看法及意见、建议等;   03、双方进一步进行协商、修改、补充,以达成共识;   04、双方确定方案具体细节及费用。 三、签署合同:   01、...

       花了钱就能保证网站关键词排名吗? 为什么这个关键词怎么还没在第一页?这里,我很明确的告诉大家,SEO优化不可能保证关键词排名第一;如果有个SEO优化企业向你保证关键词排名做到第一,那你就要小心了,所有SEOer都不能保证能将某个关键词做排名到第一,最多就是可能做到第一或有机会做到第一。   诚然,排名第一是非常诱人的商业口号,意味着源源不断的商机和知名度,许多商家为了提高客户的信任度,会刻意的说企业网站在搜索引擎中排名怎样的好。但...

       外贸网站应该怎么做网络推广 网络推广的路上,都说外贸赚钱,所以就有很多人都去做外贸,但是做了一段时间后,就又都抱怨外贸真难做啊,没有钱做推广啊。其实,做外贸和其他营销是一样的,要利用自身资源,做好网络推广就OK了,不是一定要花钱的。下面来看几种外贸推广的方法。   1、选用国外空间及域名:目标客户要是集中在哪里,就尽量的选用让你的目标客户能更快访问的服务器,欧美外贸商,可以选择美国知名的 IXWebHosting虚拟主机提供...

最新模板
少儿英语培训机构网站建设 培训公司网站建设
成人自考网站建设 成人培训网站制作设计版面
智能家居摆设设计网站建设 智能家居装修企业网站建设
铜螺母,铜螺丝,螺栓,螺钉工厂网站建设
废气处理设备,如活性炭吸附箱、RTO蓄热式氧化处理设备、光氧等离子复合设备 低温等离子设备 光氧催化设备等网企业网站建设
图文阅读