Discuz教程网

ROBOTS.TXT的写法及注意事项

[复制链接]
authicon dly 发表于 2011-8-10 20:16:29 | 显示全部楼层 |阅读模式
记得很早以前,那个时间新浪屏蔽百度蜘蛛的事件传得很大,其实你主要是学会了ROBOTS.TXT的写法,那就简单的了,两下就认出了这事的真假。所以说学好技术,可以更好的知道真相。
首先,我们先来认识我们亲爱的蜘蛛们吧:
国内的搜索引擎蜘蛛
  1. 百度蜘蛛:baiduspider
  2. 搜狗蜘蛛:sogou spider
  3. 有道蜘蛛:YodaoBot和OutfoxBot
  4. 搜搜蜘蛛: Sosospider
复制代码

国外的搜索引擎蜘蛛
  1. google蜘蛛: googlebot
  2. yahoo蜘蛛:Yahoo! Slurp
  3. alexa蜘蛛:ia_archiver
  4. bing蜘蛛(MSN):msnbot
复制代码

Robots.txt的几个常用英文意思
  1. • User-Agent: 适用下列规则的漫游器
  2. • Allow: 充许被抓取的网页
  3. • Disallow: 要拦截的网页
复制代码

Robots.txt的两个常用符号
  1. “*”: 匹配0或多个任意字符(也有所有的意思)
  2. “$”:匹配行结束符。
复制代码

介绍得差不多了,下面来进入正题,Robots.txt:
一、充许所有的蜘蛛抓取:
  1. User-agent: *
  2. Disallow:
  3. 或者
  4. User-agent: *
  5. Allow: /
复制代码

(*号可以理解为所以的意思)
二、禁止所有的robot抓取
  1. User-agent: *
  2. Disallow: /
复制代码

三、禁止某一蜘蛛抓取:
  1. User-agent: 蜘蛛名(上面介绍得有)
  2. Disallow: /
复制代码

四、只充许某一蜘蛛抓取:
  1. User-agent: 蜘蛛名(上面介绍得有)
  2. Disallow:/
  3. User-agent: *
  4. Disallow:
复制代码

上半部分是禁止该蜘蛛抓取,下半部分是充许所有,总体意思就是禁止此蜘蛛,充许其它蜘蛛。
五、禁止蜘蛛抓取某些目录
如禁止抓取admin和manage目录
  1. User-agent: *
  2. Disallow: /admin/
  3. Disallow: /manage/
复制代码

六、禁止蜘蛛特定后缀文件,这个用“*”号
如禁止抓取.htm的文件
  1. User-agent: *
  2. Disallow: *.htm(*号后面然后是点文件名,如.asp,.php)
复制代码

七、仅充许抓取特定后缀文件,这个用“$”号
如仅充许.htm的文件
  1. User-agent: *
  2. Allow: .htm$
  3. Disallow: /
复制代码

(图片也可以参考第六条和第七条这个样子)
八、禁止抓取动态网页
  1. User-agent: *
  2. Disallow: /*?*
复制代码

这个在论坛很有用,一般伪静态后,就不需要搜索引擎再收录其动态地址了。做论坛的朋友们注意了。
九、声明网站地图sitemap
这个告诉搜索引擎你的sitemap在哪
  1. Sitemap: http://你的域名/sitemap.xml
复制代码

做完这些我们如何检查我们的robots.txt这个文件的有效性呢?推荐使用 Google管理员工具,登录后访问“工具 ->分析 robots.txt”,检查文件有效性。






上一篇:首页N格问题
下一篇:免费分享20个漂亮的等级图标!
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

1314学习网 ( 浙ICP备10214163号 )

GMT+8, 2025-5-2 03:20

Powered by Discuz! X3.4

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表