SEO基础之什么是robots.txt?

来源:阿瑶SEO顾问博客 责任编辑:栏目编辑 发表时间:2013-07-01 07:13 点击:

robots.txt是搜索引擎访问你的网站时要查看的第一个文件。Robots.txt文件可以告诉蜘蛛程序或者爬虫程序(下简称搜索机器人)在你的服务器上什么文件是可以被查看的什么文件是不可以被查看的。

当一个搜索机器人访问一个站点时,它会首先检查该站点根目录下是否有robots.txt,如果有,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索机器人将能够访问网站上所有没有被口令保护的页面。

robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。

语法:最简单的 robots.txt 文件使用规则:

· User-Agent: 适用下列规则的漫游器

· Disallow: 要拦截的网页

·Allow:允许爬取的网页

robots.txt文件用法举例

例1.禁止所有搜索引擎访问网站的任何部分 User-agent: * Disallow: /
例2.允许所有的robot访问 (或者也可以建一个空文件 "/robots.txt") User-agent: * Allow: / 另一种写法是 User-agent: * Disallow:
例3. 仅禁止Baiduspider访问您的网站 User-agent: Baiduspider Disallow: /
例4. 仅允许Baiduspider访问您的网站 User-agent: Baiduspider Allow: /
例5. 禁止spider访问特定目录 在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即robot不会访问这三个目录。需要注意的是对每一个目录必须分开声明,而不能写成 "Disallow: /cgi-bin/ /tmp/"。 User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /~joe/
例6. 允许访问特定目录中的部分url User-agent: * Allow: /cgi-bin/see Allow: /tmp/hi Allow: /~joe/look
例7. 使用"*"限制访问url 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。 User-agent: * Disallow: /cgi-bin/*.htm
例8. 使用"$"限制访问url 仅允许访问以".htm"为后缀的URL。 User-agent: * Allow:/ .htm$
例9. 禁止访问网站中所有的动态页面 User-agent: * Disallow: /*?*
例10. 禁止Baiduspider抓取网站上所有图片 仅允许抓取网页,禁止抓取任何图片。 User-agent: Baiduspider Disallow: /.jpg$ Disallow: / .jpeg$ Disallow:/ .gif$ Disallow:/ .png$ Disallow: /.bmp$
例11. 仅允许Baiduspider抓取网页和。gif格式图片 允许抓取网页和gif格式图片,不允许抓取其他格式图片 Use

    相关新闻>>

      发表评论
      请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
      用户名: 验证码:点击我更换图片
      最新评论 更多>>

      推荐热点

      • 12个影响SEO价格的常见因素
      • 从市场的角度思考网站建设
      • 网站优化之黑帽SEO
      • 行业站站长必备:如何提升行业网站影响力
      • 星际争霸运营与网站运营的思考
      • 乐讯刷机网全新改版 在线刷机更方便更放心
      • 网站优化:如何模拟不同带宽测试网页打开速度
      • 全站301重定性 避免带与不带www域名权重分散的几种方法
      • webkaka新增了几个网页优化工具:图片/CSS/JS压缩
      网站首页 - 友情链接 - 网站地图 - TAG标签 - RSS订阅 - 内容搜索
      Copyright © 2008-2015 计算机技术学习交流网. 版权所有

      豫ICP备11007008号-1