二、搜索器
“网络蜘蛛——Spider”,是自动程序,能够自动地在互联网中搜索信息。一个典型的网络蜘蛛工作的方式,是查看一个页面,并从中找到相关信息,然后它再从该页面的所有链接中出发,继续寻找相关的信息,以此类推,直至穷尽。对网络蜘蛛的要求是能够快速、全面。
凡是需要积累信息的都需要蜘蛛,比如搜索引擎、情报的搜集、资料的收集、信息的收集。
互联网的迅速发展,导致了网上信息的爆炸性增长。要在如此浩瀚的信息海洋里快速、全面的收集信息,就不得不依靠网络蜘蛛的威力。
功能要求:
基本功能
1、给定网址,列出站内静态链接(包括各种资源)及文件相对路径;
2、直接取得URL的动态网页(CGI,ASP,PHP,JSP,ASP.net等);
3、爬行到给定网址所连接的站外网站,执行基本功能1、2;
4、给定网址,根据关键字进行搜索并输出结果。
高级功能
1、能够处理经过简单编码的网站(URL编码);
2、能够识别错误页,空页,转向页等;
3、对重复(网页的内容相同)的网页不会反复下载。
性能要求:
占用资源少、执行速度快。
完成时间:
2007年8月31日前
奖励措施:
1、根据完成的情况,公司设立两个等级奖项,一等奖一名,奖品为数码相机一部,二等奖两名,奖品为MP3一部,三等奖三名,奖品为优盘一部。
2、同时,公司可以考虑给予获奖者提供实习机会,并根据实习情况给予就业机会。
|