随着越来越多网站运营者重视robots文件,所以关于七赚网七哥收到的关于这方面的咨询也多了起来。网站seo经常说设置robots协议,百度站长平台也有个robots检测,那么robots到底是什么,有什么用呢?这期我们看看整理自 定云止水营销日记、猎者营、冯耀宗博客分享的关于网站robots.txt怎么写,掌握搜索引擎蜘蛛的秘密,以及robots是什么?robots.txt协议怎么写?以及用高端的思维来做低端的SEO你会发现很简单!相关内容分享。
一、robots是什么意思?
1、robots是什么?
robots是一个文本文件,用来指引搜索引擎蜘蛛抓取网站页面,在robots里面你可以写入规则,告诉搜索引擎蜘蛛哪些内容是可以抓取的,哪些内容是不能抓取的。这对于很多站长在seo优化过程中非常重视。
2、蜘蛛ua怎么用
蜘蛛ua还是有很多用处的,我们可以用来禁止别人采集我们网站内容,比如我们可以设置某个目录打不开,但是允许蜘蛛抓取,这样别人就采集不了我们文章了。(这玩意宝塔防火墙可以设置)
同时还可以让用户和蜘蛛在我们网站看到不一样的内容,意思是说用户打开网页是一篇正常的文章,而蜘蛛抓取的时候确实另外的内容,这种跳转方式黑猫用的比较大,白帽也可以用来做站群推广产品。
3、robots协议含义
Robots协议全称Robots Exclusion Protocol,也称为爬虫协议,机器人协议。Robots协议诞生于1994年2月,由荷兰软件工程师Martijn Koster创建,据称起因是Koster的服务器遭受到了不良爬虫的爬取而致使服务堵塞。不久该协议即成为了现存及未来的网络爬虫都被期望遵守的行业惯例。爬虫可以在网站的根目录下(例如:www.AAA.com/robots.txt)中看到其内容。网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。
然而Robots协议虽广受遵守,但其未经任何标准组织备案、也不属于任何商业组织。因此,Robots协议是非强制性的,并非所有爬虫均会遵守该标准。早期Robots协议是主要为网站运营者及搜索引擎公司的技术人员之间达成共识的一个机制,用于平衡搜索引擎与网站之间的关系。
二、robots.txt协议怎么写?
robots正常来说如果你的网站不写也没有什么太大的问题,不写的话就默认搜索引擎可以抓取网站里面所有页面的,如果没有设置好,可能影响网站SEO优化推广。
一般在写robots协议的时候,只要在里面加上哪些网站url或者目录是不允许搜索引擎蜘蛛抓取的就OK了,还是非常简单的。
1、一般格式如下:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://www.xxx.com/sitemap.xml
User-agent: 这个设置的是允许哪些蜘蛛抓取我们网站,*代表全部。(蜘蛛ua问题下文再说)
Disallow:指的是禁止抓取的内容,比如禁止抓取某个目录。
Allow: 允许抓取的内容(这个默认可不写)
sitemap:设置网站地图的路径。
基本上robots设置的内容就这些,我们可以根据需求设置,比如禁止蜘蛛抓取某些内容,允许蜘蛛抓取某些内容。
robots.txt文件,是每个网站都可以用来跟,遵循robots协议的搜索引擎蜘蛛,进行对话的一段代码。
2、如何屏蔽蜘蛛抓取
1)屏蔽代码如下
我们先来看一个列子,让搜索引擎抓取所有的内容,代码如下:
User-agent: *
Allow: /
其中User-agent后面跟的是蜘蛛的名字,如果是所有的蜘蛛都遵守的话,那么就可以用*来代替所有的蜘蛛,如果只是针对某一蜘蛛的话,
那么只需要列出来这个蜘蛛的名字即可。如果不想让蜘蛛来爬取,那么只需要将Allow修改为Disallow,禁止爬取即可,/后面跟的内容就是
禁止或允许爬取的内容。
而有时候蜘蛛爬取过于频繁,那么我们需要添加Crawl-delay这个代码,他的意思是告诉蜘蛛延时多少秒以后再来爬取,我们可以看下实例:
User-agent: *
Crawl-delay: 500
前面的内容都一样,不同的是Crawl-delay后面只能跟数字,而且只能是正整数。
我们常用的代码还包括:User-agent、Disallow、Allow以及Crawl-delay等。
其实最好的办法你还是尝试下robots.txt文件的设置,在网站的robots.txt文件中加上如下内容:
2)以百度蜘蛛为例
User-agent: Baiduspider
Disallow: /
这种方法如果不能完全屏蔽百度的爬虫,也就是蜘蛛要是不遵守robots协议,我们才要想完全屏蔽百度的爬虫,需要在.htaccess中加入一些语句才可以,下面介绍两种方法。
方法1:
RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^Baiduspider [NC]
RewriteRule .* - [F]
方法2:
SetEnvIfNoCase User-Agent "^Baiduspider" bad_bot
Order Allow,Deny
Allow from all
三、robots文件和seo有什么关系?
对于这个问题,我们分享一篇来自冯耀宗老师的分享,看看:
很多人从技术角度考虑,绝对做SEO需要设置robots文件,并且还详细的说了,哪些页面可以抓取,哪些页面需要设置不抓取,甚至还有把地图文件放到robots文件里面的。实际上这些都是错误的做法。
首先我来告诉大家,robots文件是什么,robots文件是搜索引擎必须要遵守的协议,如果不遵守,那么搜索引擎就违法了,因为明确的禁止你抓取,你还要强制性抓取收录,那么很明显,你有侵权的行为。所以站在搜索引擎的角度,搜索引擎是不喜欢robots文件的,因为搜索引擎希望所有的网站都能够被他们抓取,最终收录不收录的决定权在他们手里。所以一般情况下是不建议设置robots文件的。既然不需要设置robots文件,很多人一股劲的研究robots文件的意义在哪里?
还有人可能觉得,必要的情况下会使用robots文件,比如利用robots来屏蔽一些对于搜索引擎来讲非必要的页面(关于我们、联系我们)。实际上我个人认为也完全没必要屏蔽这些看起来非必要的页面,因为搜索引擎希望他看到的网站和用户看到的网站一模一样,这样才能精准的分辨出用户对你网站的喜好程度,而不是针对搜索引擎来做网站,很容易出现过度优化,所以站在这个角度,也完全没有必要设置robots文件。既然没有必要设置,研究的意义又何在?
还有一部分人,在开发网站的时候,选择线上开发,而开发者都知道,线上开发可能会导致搜索引擎一边在抓取,而你一边又在开发,很容易导致网站进入考核期,因此利用robots的文件来屏蔽,实际上这种操作也是不理想的。
Robots文件生效快都要1-3天时间,生效慢可能要1个月,也就是说,你现在写了robots文件,可能要三天后才生效,也就意味着现在你一边改网站,搜索引擎一样一边可以抓取你的网站,丝毫不影响你的网站进入考核期,用这个方法丝毫也不影响拉长你的优化时间,所以从这个点,robots的意义又何在?
那么什么情况下才能够使用robots文件呢,如果说你做了一个特别不希望被搜索引擎知道的网站,不希望被更多人知道的网站,那么这个时候可以使用robots文件来屏蔽,比如说:内部管理系统(不对外开放)、网站后台的URL(不希望被搜索引擎收录然后被扫描)。那么这种情况下才使用协议来“命令”搜索引擎禁止抓取。实际上和SEO优化的关系是不大的。
上面这篇就是本期七赚网七哥分享的关于robots是什么意识?(robots文件怎么写利于seo优化)的全部内容。虽然现在很多时候对于网站robots文件每个站长或者seoer都有自己不同的理解,不过可以学习借鉴。
- 1、robots是什么?
- 2、蜘蛛ua怎么用
- 3、robots协议含义
- 1、一般格式如下:
- 2、如何屏蔽蜘蛛抓取
- 1)屏蔽代码如下
- 2)以百度蜘蛛为例