当一个搜索蜘蛛访问网站时,首先访问根目录WWW下是否存在robots.txt,若存在,搜索机器人就会按照该文件中的内容来确定访问的范围。
(1)robots.txt是搜索引擎访问网站时查看的第一个文件,决定着蜘蛛能或不能访问。
(2)若存在robots.txt文件,蜘蛛会按照该文件来确定访问的范围;若不存在,所有的搜索蜘蛛将能够访问网站上所有页面。
(3)robots.txt必须放在一个站点的根目录下,且文件名必须全部小写(真实的服务器就使用ftp上传)。
(4)建议就算允许所抓取所有内容,也要建一个空的robots.txt文件。
(5)可将sitemap网站地图放置robots.txt文件(地图写法:)。
(1)允许所有搜索引擎访问网站所有内容
User-agent: *
Disallow:
(2)禁止所有搜索引擎访问网站所有内容
User-agent: *
Disallow: /
(3)只允许百度搜索引擎抓取
User-agent: Baiduspider
Disallow: /
(4)如果我们禁止除百度外的一切搜索引擎索引
User-agent: Baiduspider
Disallow:
robots.txt文件其实就是告诉蜘蛛哪些页面可以抓取,哪些页面不能访问。
1、网站开放给所有搜索引擎爬虫抓取(User-agent: *)
2、禁止所有爬虫程序抓取根目录下的caches目录(Disallow: /caches)
新站收录本身没有那么快,可尝试加入百度站长平台,利用官方工具提交网站Sitemap文件。可在一定程度上加快收录速度。
检测网站是否存在影响爬虫程序抓取的“陷进”,比如框架结构、JS文件等,培养良好的内容更新习惯,让爬虫程序每次来的时候都有新的内容产生。