Robots协议到底要不要写
发布时间:2018-05-20 10:19:37
来源:
Robots是各大搜索引擎公认的隐私网页保护权益,深圳网站制作公司认为,如果你的站点有某些页面不想让搜索引擎抓取到,可以选择屏蔽该类URL这也是最基本网站建设知识,搜索引擎就不会将屏蔽的页面进行开放。Robots协议写到禁止不要搜索引擎抓取但是搜索引擎的蜘蛛可能还会抓取,但是不一定会将内容放出来。
博客或者企业站点到底要不要写robots协议呢?
对于站点内容页面较少其实可以选择不屏蔽抓取,屏蔽抓取的目的大致分为两个,1.该类数据不能对外公布 2.节省网站自身抓取配额。
如果是出于隐私角度完全可以将内容设置加密,比如用户需要登录后才能看到完整的内容,像这些内容搜索引擎就无法完整的抓取到,通过这个原理只要不想被搜索引擎抓取到可以选择登录后才能看到内容,这样就能轻易的避免搜索引擎的蜘蛛进行抓取。
节省网站的抓取配额,对于小站来说配额是充足的。也不会出现大量的无效页面或者广告以及低俗的内容。
robots.txt写法
如果需要屏蔽一些页面不能让搜索引擎抓取到的内容,还是可以通过robots来解决。但是有个重点需要注意,屏蔽的这些页面URL结构如果完整的写robots里面就非常容易暴露给竞争对手,相信很多的中大型站点是有很多的页面没有在网站首页或者其他页面给予链接入口。但是为了测试或者其他原因选择了暂时屏蔽就会给予竞争对手更多研究的方向。所以在robots里面还存在一个非常大安全隐患,如果将所有不必要的页面都选择屏蔽那为什么还要进行建立,屏蔽写作robots文件里面未必是件好事。
也可以使用另外一种方式进行屏蔽,比如写作meta信息里面;
也可以进行屏蔽。
也能有效的进行屏蔽抓取
常见的robots.txt文件协议都是这样的;
User-agent: *
Disallow: /admin
Disallow: /images
sitemap: http://www.*****.com/sitemap.html
1.告知所有的搜索引擎蜘蛛,这里的*代表的所有的搜索引擎种类
2.但不允许抓取带“?”的URL
3.不允许抓取”/PIC”该文件下的内容
4.这个站点网站地图抓取地址
告诉搜索引擎不愿意被抓取到的页面URL结构填写在robots文件中,允许收录的就可以不写。