欢迎来到权重SEO优化网
首页 > SEO教程内容

百度不遵循robots

2022-07-13 10:27:00   来源:权重SEO优化网    点击:
作者:admin

一般来说,网站或多或少都有一些对排名毫无意义甚至有害的页面。站长不想被搜索引擎搜索。robots.txt承担文件
站长表达这个意愿的功能。蜘蛛访问网站时,会优先抓取robots.txt,不再遵循站长配置规则不利于seo内容

robots.txt

 

robots.txt文件位置

robots文件通常放在根目录下

robots.txt文件格式

Disallow:该项的值用于描述不希望被访问的一组URL

Allow:该值用于描述一组希望被访问的值URL

User-agent:该项的值用于描述搜索引擎robot的名字

例如:

User-Agent:YisouSpider // 配置YisouSpider

Disallow: / // 不允许YisouSpider抓取网站的任何内容

User-Agent:* // 配置所有搜索引擎

Allow: / // 允许捕获网站的任何内容

更多

Disallow: /abc //禁止抓取含量abc所有页面的目录和子目录

注:有的地方注释为禁止抓取abc百度官方举例说明了目录和子目录的内容,"Disallow:/help"禁止robot访问/help.html、/helpabc.html、/help/index.html

Disallow: /abc/ //禁止抓取含量abc所有页面的目录

百度官方有例子,"Disallow:/help/"则允许robot访问/help.html、/helpabc.html,不能访问/help/index.html。

robots.txt使用通配符

"*" 匹配0或多个任意字符

"$" 匹配行结束符。

举例:

Disallow: /*?* ///禁止在网站上捕获所有动态页面

Disallow: /*.htm$ // 禁止抓取一切.htm为后缀的URL页面 /abc.htm/index 不匹配

区别于Disallow: /*.htm // /abc.htm/index 也匹配

更多robots.txt,可参考百度站长站长平台robots.txt

哪些网站内容不建议被抓获?

小白对这个想法了解不多,一般取决于内容是否有利seo原则。例如,我的博客搜索结果页面没有优化tags禁止捕获所有页面。对于企业站,如果不打算优化公司名称的关键词,可以考虑禁止关于、联系、企业新闻等内容

还有一点值得注意。很多站长反馈百度不遵循robots.txt协议,抓取不应该抓取的内容。思享也觉得不太靠谱,也可以考虑在一些页面设置meta name="robots"

百度的解释可能会有偏差。如果有错误,你可以纠正交流

以上就是百度不遵循robots的全部内容,

www.pr-seo.cn

权重SEO优化网

您好,请关注上方二维码

回复关键词“SEO诊断”

即可诊断出网站目前实际优化情况!

并根据您的网站情况为您制定最

佳的SEO优化方案!