百度不遵循robots

2022-07-13 10:27:00 来源：权重SEO优化网点击：

作者：admin

一般来说，网站或多或少都有一些对排名毫无意义甚至有害的页面。站长不想被搜索引擎搜索。robots.txt承担文件
站长表达这个意愿的功能。蜘蛛访问网站时，会优先抓取robots.txt，不再遵循站长配置规则不利于seo的内容。

robots.txt

robots.txt文件位置

robots文件通常放在根目录下

robots.txt文件格式

Disallow:该项的值用于描述不希望被访问的一组URL

Allow:该值用于描述一组希望被访问的值URL

User-agent:该项的值用于描述搜索引擎robot的名字

例如：

User-Agent:YisouSpider // 配置YisouSpider

Disallow: / // 不允许YisouSpider抓取网站的任何内容

User-Agent:* // 配置所有搜索引擎

Allow: / // 允许捕获网站的任何内容

Disallow: /abc //禁止抓取含量abc所有页面的目录和子目录

注：有的地方注释为禁止抓取abc百度官方举例说明了目录和子目录的内容，"Disallow:/help"禁止robot访问/help.html、/helpabc.html、/help/index.html

Disallow: /abc/ //禁止抓取含量abc所有页面的目录

百度官方有例子，"Disallow:/help/"则允许robot访问/help.html、/helpabc.html，不能访问/help/index.html。

robots.txt使用通配符

"*" 匹配0或多个任意字符

"$" 匹配行结束符。

举例：

Disallow: /*?* ///禁止在网站上捕获所有动态页面

Disallow: /*.htm$ // 禁止抓取一切.htm为后缀的URL页面 /abc.htm/index 不匹配

区别于Disallow: /*.htm // /abc.htm/index 也匹配

更多robots.txt，可参考百度站长站长平台robots.txt

哪些网站内容不建议被抓获？

小白对这个想法了解不多，一般取决于内容是否有利seo原则。例如，我的博客搜索结果页面没有优化tags禁止捕获所有页面。对于企业站，如果不打算优化公司名称的关键词，可以考虑禁止关于、联系、企业新闻等内容

还有一点值得注意。很多站长反馈百度不遵循robots.txt协议，抓取不应该抓取的内容。思享也觉得不太靠谱，也可以考虑在一些页面设置meta name="robots"

百度的解释可能会有偏差。如果有错误，你可以纠正交流

以上就是百度不遵循robots的全部内容，

www.pr-seo.cn

您好，请关注上方二维码

回复关键词“SEO诊断”，

即可诊断出网站目前实际优化情况！

并根据您的网站情况为您制定最

佳的SEO优化方案！