百度蜘蛛叫Baiduspider不是baidubot

【百度蜘蛛叫Baiduspider不是baidubot】【baiduspider】百度蜘蛛叫Baiduspider不是baidubot

百度蜘蛛叫Baiduspider不是baidubot

文章插图
今天又遇到有同学问我关于ROBOTS该如何去写的问题 , 这里整理下给大家 , 其实也都是来源于网路上 , 注意百度的蜘蛛叫做Baiduspider而不是baidubot , 谷歌的叫做googlebot 。 1、禁止所有搜索引擎访问网站的任何部分 User-agent:* Disallow:/ 2、允许所有的robot访问(或者也可以建一个空文件"/robots.txt") User-agent:* Allow:/ 另一种写法是 User-agent:* Disallow: 3、仅禁止Baiduspider访问您的网站 User-agent:Baiduspider Disallow:/ 4、仅允许Baiduspider访问您的网站 User-agent:Baiduspider Allow:/ 5、禁止spider访问特定目录 在这个例子中 , 该网站有三个目录对搜索引擎的访问做了限制 , 即robot不会访问这三个目录 。 需要注意的是对每一个目录必须 分开声明 , 而不能写成"Disallow:/cgi-bin//tmp/" 。 User-agent:* Disallow:/cgi-bin/ Disallow:/tmp/ Disallow:/~joe/ 6、允许访问特定目录中的部分url User-agent:* Allow:/cgi-bin/see Allow:/tmp/hi Allow:/~joe/look 7、使用"*"限制访问url 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录) 。 User-agent:* Disallow:/cgi-bin/*.htm 8、使用"$"限制访问url 仅允许访问以".htm"为后缀的URL 。 User-agent:* Allow:/.htm$ 9、禁止访问网站中所有的动态页面 User-agent:* Disallow:/*?* 10、禁止Baiduspider抓取网站上所有图片 仅允许抓取网页 , 禁止抓取任何图片 。 User-agent:Baiduspider Disallow:/*.jpg$ Disallow:/*.jpeg$ Disallow:/*.gif$ Disallow:/*.png$ Disallow:/*.bmp$ 11、仅允许Baiduspider抓取网页和gif格式图片 允许抓取网页和gif格式图片 , 不允许抓取其他格式图片 User-agent:Baiduspider Allow:.gif$ Disallow:/.jpg$ Disallow:/.jpeg$ Disallow:/.png$ Disallow:/.bmp$ 12、仅禁止Baiduspider抓取jpg格式图片 User-agent:Baiduspider Disallow:/.jpg$

    推荐阅读