如何提高网络蜘蛛抓取的效率

网站地图,即Site Map是网站内部所有网页的链接聚合。网站管理员可以把所有网页的链接放在这个sitemap.htm文件里面。

网络蜘蛛进入一个网站会访问一个特殊的文本文Robots.txt,这个文件一般放在网站服务器的根目录下。网站管理员可以修改robots.txt文件来定义网络蜘蛛对网站目录的访问权限,可以定义那些目录允许访问,那些不能访问,或那些目录对于某些特定的网络蜘蛛(不)能访问。例如网站的可执行文件目录不希望被搜索引擎搜索到,那么网站管理员就可以把这些目录定义为拒绝访问目录。

现在一般的网站都希望搜索引擎能更全面地抓取自己网站中的网页,因为这样可以让更多的访问者能通过搜索引擎访问此网站,因此提高流量和知名度。为了让自己的网站的网页能被网络蜘蛛更全面地抓取到,最好的办法就是建立一个网站地图。网络蜘蛛会把sitemap.htm文件作为一个网站网页爬取的入口,依据sitemap.htm网络蜘蛛很方便地把整个网站抓取下来,避免遗漏某些网页,同时会减小对网站服务器的负担。

每一个搜索引擎都有自己网络蜘蛛。每个网络蜘蛛都有自己的名字,例如Baidu的网络蜘蛛标识为BaiDuSpiderGoogle的网络蜘蛛标识为GoogleBotYahoo的网络蜘蛛标识为Inktomi Slurp。网络蜘蛛在抓取网页的时候会发送一个请求,用于标识此网络蜘蛛的身份。如果你的网站上设置有访问日志记录,网站管理员就能能查阅访问日志记录,知道那些网络蜘蛛来过,什么时候过来的,以及读了多少数据等等。

网络蜘蛛抓取网页,不同于一般性浏览访问,如果控制不好,可能会引起网站服务器负担过重。如果网站管理员发现某个蜘蛛爬行引起网站不稳定问题,可以通过其蜘蛛标识来与其所有者联系,解决问题。

 

 

引用通告: 我要引用此文章
Tags: 网络  网站服务  网络蜘蛛  
相关日志:
  • 网络品牌――网络营销的目的   (2010-1-21 17:37:36)
  • 网络营销的常用方法  (2010-1-19 11:18:54)
  • 网络策划的发展前景  (2010-1-16 11:17:5)
  • 评论: 0 | 引用: 0 | 查看次数:
    发表评论
    昵 称:
    邮 箱:
    主 页:
    验证码:
    内 容: