百度不遵循robots
一般来说,网站或多或少都有一些对排名毫无意义甚至有害的页面。站长不想被搜索引擎搜索。robots.txt承担文件
站长表达这个意愿的功能。蜘蛛访问网站时,会优先抓取robots.txt,不再遵循站长配置规则不利于seo的内容。
robots.txt文件位置
robots文件通常放在根目录下
robots.txt文件格式
Disallow:该项的值用于描述不希望被访问的一组URL
Allow:该值用于描述一组希望被访问的值URL
User-agent:该项的值用于描述搜索引擎robot的名字
例如:
User-Agent:YisouSpider // 配置YisouSpider
Disallow: / // 不允许YisouSpider抓取网站的任何内容
User-Agent:* // 配置所有搜索引擎
更多
Disallow: /abc //禁止抓取含量abc所有页面的目录和子目录
注:有的地方注释为禁止抓取abc百度官方举例说明了目录和子目录的内容,"Disallow:/help"禁止robot访问/help.html、/helpabc.html、/help/index.html
Disallow: /abc/ //禁止抓取含量abc所有页面的目录
百度官方有例子,"Disallow:/help/"则允许robot访问/help.html、/helpabc.html,不能访问/help/index.html。
robots.txt使用通配符
"*" 匹配0或多个任意字符
"$" 匹配行结束符。
举例:
Disallow: /*?* ///禁止在网站上捕获所有动态页面
Disallow: /*.htm$ // 禁止抓取一切.htm为后缀的URL页面 /abc.htm/index 不匹配
区别于Disallow: /*.htm // /abc.htm/index 也匹配
更多robots.txt,可参考百度站长站长平台robots.txt
小白对这个想法了解不多,一般取决于内容是否有利seo原则。例如,我的博客搜索结果页面没有优化tags禁止捕获所有页面。对于企业站,如果不打算优化公司名称的关键词,可以考虑禁止关于、联系、企业新闻等内容
还有一点值得注意。很多站长反馈百度不遵循robots.txt协议,抓取不应该抓取的内容。思享也觉得不太靠谱,也可以考虑在一些页面设置meta name="robots"
百度的解释可能会有偏差。如果有错误,你可以纠正交流
以上就是百度不遵循robots的全部内容,