至于robots.txt文件是什么,格式写法与作用,这里斑竹就不一一介绍了,我想各位站长及SEO优化人员肯定都知道这是seo基础的知识了。如真有不了解的,请移步百度自行搜索脑补。今天斑竹要分享的是robots文件的另类用法。
提问一:新站如何才能更快的被收录?
提问二:如何让久久未被收录的内页快速收录?这里可以先参考《为什么内页不收录》。
提问三:网站被黑客挂了大量垃圾信息页面,如何快速的清除?
众所周知,当搜索引擎蜘蛛访问一个网站的时候,它会首先访问网站根目录下的robots.txt文件,如果该文件存在,蜘蛛会按照该文件中限定的访问范围来访问网站;如果该文件不存在,那么蜘蛛会收到一个404的返回值,之后会返回网站进行抓取。在这里,斑竹建议各位没有做robots文件的站长们,还是做一下robots文件,哪怕是一个空文件也比给蜘蛛返回一个404来得好,因为从微观上来讲,蜘蛛寻找robots文件也是需要消耗资源的,而我们却很有必要为蜘蛛节省资源。
搜索引擎派出每个访问你网站的蜘蛛都是有抓取时长限制的,有的蜘蛛在你网站上停留的时间只有1-2秒钟,那么我们做优化如何充分利用蜘蛛爬行的这1-2秒钟的时间呢?
回到问题一,如果是新站,我们可以把网站重要的目录用Allow命令在robots文件中罗列出来,这样蜘蛛就会优先抓取那些目录,而不用进入你网站去根据链接关系爬取了,因为蜘蛛的时间很宝贵,我们必须把我们最好的东西优先拿出来给蜘蛛看,正所谓有朋自远方来,不亦说乎?
再看问题二,在页面质量没有问题的前提下,内页不被收录的原因只有一个:蜘蛛没来抓取!此时,我们就可以把未收录的页面同样用Allow命令写进robots文件,蜘蛛不就来了吗!
问题三,一般被黑客挂大量垃圾信息的网站,垃圾信息收录是非常快的,此时为了网站不被降权或者已经被降权想快速恢复的话,最快的方法如下:1、将垃圾页面全部清除,并设置404;2、将被收录的垃圾页面用规则及Disallow命令写进robots文件。这样就可以快速地从搜索引擎中删除那些收录的垃圾信息页面了。当然保险起见,还可以去站长平台提交死链。
以上便是斑竹对robots文件用法的一些另类想法,之前你知道吗?斑竹这里抛砖引玉,希望对各位执着于SEO的朋友有所启发!
转载请注明:斑竹seo博客 » 你所不知道的robots文件另类用法