返回列表 回复 发帖

discuz论坛的robots.txt文件设置

*注意:一般情况下,您使用disucz默认的robots.txt文件就可以了。
新站可用二楼简单方法

下面设置主要是为了测试各搜索引擎对robots.txt文件扩展协议的支持和兼容情况。
  1. User-agent: *

  2. #先禁直所有内容
  3. Disallow: /

  4. #开放主页。不支持Allow将不能收录主页;如果不支持$,大概会全部开放
  5. Allow: /$

  6. #开放所有.html页,对DZ来说有 列表面、帖子、archiver
  7. #将来TAG内容丰富后,后台设置将TAG页面静态化自然也就允许收录TAG了
  8. Allow: /*.html

  9. Allow: /viewthread.php #开放帖子的各种动态形式
  10. Allow: /redirect.php #开放帖子的跳转形式
  11. Allow: /forumdisplay.php #开放列表面的各种动态形式
  12. Allow: /archiver/ #只有放开这个目录,robots开能进入抓取*.html的东西
复制代码
#用先禁止后开放的方法,主要是清晰,容易理解,不会落下要禁止的URL。对于Discuz这样URL情况复杂的程序来说还是很方便的,如果只使用Disallow,规则会写得很长。具体使用参考:robots.txt文件语法

#允许一些动态内容的收录,是因为google,live,yahoo和ask.com支持一个新的标签属性,可以通过它将链接和权重转移到静态形式的URL上。见:让discuz支持canonical URL tag

#这样设置robots.txt主要还是为了测试一下,看各搜索引擎对扩展协议的支持情况如何:
1.测试各SE对allow的支持情况
2.测试对 $ * 这些符号的兼容情况
3.测试各SE的匹配规则是否相同

目录:dz 7.2 SEO(Discuz优化)手记
交流QQ群:13519368
近两个月测试,发现yahoo,youdao,live完全没有收录,也没注意看蜘蛛爬行日志。也许他们对allow和disallow的优先级定义是一样的,所以只和先后顺序有关。

修改:将allow放在前面,disallow放在最下面,再继续测试它们对 $ * 的支持。
*经过一天发现yahoo和live search收录。看来他们将allow和disallow定义是同等的。
*经过近二十天,yahoo收录增加,有道还是没有收录,不测试了。


最终使用的robots.txt文件
  1. User-agent: *

  2. # 下面三行允许动态形式收录。只为测试,新站可禁止
  3. Allow: /redirect.php
  4. Allow: /viewthread.php
  5. Allow: /forumdisplay.php

  6. Allow: /archiver/ #允许archiver目录下收录,新站可不用

  7. Disallow: /*.php #禁止所以动态URL收录
  8. Disallow: /*/$ #禁止所有目录形式(所以上面要单开archiver收录)
  9. Disallow: /? #禁止首面的分区收录
复制代码
dz论坛的优化,好多都是测试性质,因为老站好多形式不能改变了,只有采用稳妥的方式,如最新回复redirect.php的301跳转帖子页和archiver的canonicalf规范化列表页规范化等。
对于新站,完全可以禁止archiver,robots可以只要最后三行,其它都禁止。
交流QQ群:13519368

搜索引擎对robots.txt的支持情况

1. 对于allow 及 * $ 通佩符都支持,定义是一样的。

2.对于同一个User-agent 段内的 allow 和 disallow,匹配规则是不一样的。
google,baidu,sogou对于allow的优先级高,只要有allow允许,不管在段内什么位置,不管之前disallow设置如何,蜘蛛就会索引;
而live serch, yahoo对于allow和disallow的定义是平级的,按照从下到下的顺序只要匹配成功就退出。youdao不清楚,呵
交流QQ群:13519368
返回列表