深圳网站制作电话深圳建站电话:

网站收录技巧 SEO优化技术 SEO优化策略 百度SEO 关键词定义 SEO技术知识

深圳网站优化客服

客服①:SEO优化客服 客服②:建站客服 客服③:APP开发客服

深圳SEO公司

行业新闻

你当前的位首页 > 新闻中心 > 行业新闻

网站优化中什么是robots协议?
作者: 发布时间:2018-01-17 16:48:36 浏览次数:

网站优化中什么是robots协议?

  robots协议是一个互联网行业的专业术语,其英文全称为Robots Exclusion Protocol,直译为机器人排除协议,又可称为爬虫协议、机器人协议,是指网站所有者通过一个置于网站根目录下的文本文件,即robots.txt,提示搜索引擎的网络机器人哪些网页不应被抓取,哪些网页可以抓取。robots是站点与spider沟通的重要渠道,站点通过robots文件声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。

  在设置robots协议的时候需要注意,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。

   robots协议是互联网快速发展的产物。在互联网发展初期,网络用户为了获取信息,需要直接进入相关网页查找,效率较低。随着互联网的迅猛发展,网络用户面对海量信息已不可能再继续沿用原有的方式获取信息,搜索引擎便应运而生。通过搜索引擎,网络用户能在较短时间内从互联网的海量信息中检索到所需信息,而搜索引擎的工作原理就是使用网络机器人程序(又称网络游客、爬虫程序、蜘蛛程序)自动抓取相关网站内容并建立索引。搜索引擎可分为两大类,即通用搜索引擎和垂直搜索引擎。通用搜索引擎可根据网络用户提供的关键词,将所有网站上的相关信息检索出来提供给网络用户,百度、谷歌及360搜索等均属于通用搜索引擎。垂直搜索引擎指的是专门针对某一领域的专业搜索引擎,其搜索结果仅限于某一领域范围内,一些专业网站,如购物网站、视频分享网站等均提供垂直搜索服务。

   User-agent:该项的值用于描述搜索引擎robot的名字。在"robots.txt"文件中,如果有多条User-agent记录说明有多个robot会受到"robots.txt"的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则对任何robot均有效,在"robots.txt"文件中,"User-agent:*"这样的记录只能有一条。如果在"robots.txt"文件中,加入"User-agent:SomeBot"和若干Disallow、Allow行,那么名为"SomeBot"只受到"User-agent:SomeBot"后面的 Disallow和Allow行的限制。

   Disallow:该项的值用于描述不希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的非空前缀,以Disallow项的值开头的URL不会被 robot访问。例如"Disallow:/help"禁止robot访问/help.html、/helpabc.html、/help/index.html,而"Disallow:/help/"则允许robot访问/help.html、/helpabc.html,不能访问/help/index.html。"Disallow:"说明允许robot访问该网站的所有url,在"/robots.txt"文件中,至少要有一条Disallow记录。如果"/robots.txt"不存在或者为空文件,则对于所有的搜索引擎robot,该网站都是开放的。

   Allow:该项的值用于描述希望被访问的一组URL,与Disallow项相似,这个值可以是一条完整的路径,也可以是路径的前缀,以Allow项的值开头的URL 是允许robot访问的。例如"Allow:/hibaidu"允许robot访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。一个网站的所有URL默认是Allow的,所以Allow通常与Disallow搭配使用,实现允许访问一部分网页同时禁止访问其它所有URL的功能。

   使用"*"and"$":Baiduspider支持使用通配符"*"和"$"来模糊匹配url。

  深圳SEO优化提醒您:百度会严格遵守robots的相关协议,请注意区分您不想被抓取或收录的目录的大小写,百度会对robots中所写的文件和您不想被抓取和收录的目录做精确匹配,否则robots协议无法生效。

云优化公司:专注企业网站建设及百度优化排名服务,快速提升目标客户转化率。建网站、做百度排名就找云优化!
咨询电话:
云优化总部地址:北京市朝阳区东四环中路39号,华业国际中心B座320室 京公网安备 11010502031268号