13
2014
08

也谈网站robots文件,小文件有大作用

    最近这两天闹得沸沸扬扬的侵权案,360的蜘蛛无视百度网站的robots文件继续抓取百度的内容,百度认为360违规跳过了行业内应该遵守的潜规则而继续抓取是错误的,继而引起的官司。别看robots.txt是一个小小的记事本文件,但是在互联网中起到的作用是巨大的。

    我们可以从网上的内容了解到,robots文件的目的就是可以设置允许搜索引擎搜索的内容和选择一部分不允许搜索引擎抓取的内容,比较明显的例子就是淘宝,我们进入到淘宝的robots文件就可以看到如下两行代码,一眼就看到了User-agent: Baiduspider;Disallow: /这句话…如果这个是普通网站,这样的标识几乎是作死的行为,因为代码的意义是针对百度蜘蛛禁止爬行,但是针对其他的搜索引擎来说,却没有限制,很明显的例子就是我们可以通过360搜索和谷歌搜索到淘宝内部的商品。当然这个文件的主要朱勇并不在这里,而是针对网站内容保护需要做的,比如我们做的网站有登录页面/后台页面/支付页面等等,为了保证用户资料的安全,这些页面可以单独设置对搜索引擎禁止抓取,以防止资料泄露;或是网站某个页面是个大flash制作的用于宣传的视频,没有可爬取的内容,也可以通过这样的禁止方式以增加网站的“信噪比”,因为网站本身肯定会有一些永远不会动或是固定的页面。

    这样的小文件作用其实按照正常的方式是网站内部用于整洁规制的规则,但是马超觉得不可思议的是国内的常常往往用过这种行业规则去做一些涉及到利益方面的事儿,百度屏蔽360,淘宝屏蔽百度,这样真的有利于资源的拓展和用户的体验吗?难道某个搜索引擎因为拥有巨大的数据库就一定要自己建立自己的强大帝国而完全闭关锁国么…真正的心思本身不该用在这里,或许更多的该放在本身的用户体验度优化上面来才对,不要把规则变成了“潜规则”。

转载请注明如下两项
出处:也谈网站robots文件,小文件有大作用-马超超网
本页网址:http://www.machaochao.com/index.php/post/102.html
« 上一篇 下一篇 »

评论列表

    尊敬的访客,谢谢您的来访并请您留下珍贵的评论,作为我改进的发展的方向,谢谢!
1.我要哈哈笑  2014-08-18 10:06:26 回复该评论
Windows XPWindows XP Firefox 30.0Firefox 30.0
学习膜拜中
2.网上购物  2014-08-15 01:39:48 回复该评论
Windows XPWindows XP Internet Explorer 8.0Internet Explorer 8.0
不错的分享支持一下吧
3.草根  2014-08-14 20:54:27 回复该评论
Windows 7Windows 7 Firefox 31.0Firefox 31.0
学习了。
4.王小乖  2014-08-14 09:58:31 回复该评论
Windows XPWindows XP Google Chrome 30.0.1599.101Google Chrome 30.0.1599.101
如果robots文件是空的,会怎么样?
4.马超超  2014-08-14 21:13:17 回复该评论
Windows 7Windows 7 TheWorld BrowserTheWorld Browser
在我的理解,robots文件是为了告诉搜索引擎“不要抓什么”,sitemap是告诉搜索引擎“尽量抓什么”,所以没有的话是正确的,因为你不需要屏蔽蜘蛛。

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

分享:

支付宝

微信


TiPs

2014

2015

2016

2017

2018

20XX