SEO基础之什么是robots.txt?
来源:阿瑶SEO顾问博客 责任编辑:栏目编辑 发表时间:2013-07-01 07:13 点击:次
robots.txt是搜索引擎访问你的网站时要查看的第一个文件。Robots.txt文件可以告诉蜘蛛程序或者爬虫程序(下简称搜索机器人)在你的服务器上什么文件是可以被查看的什么文件是不可以被查看的。
当一个搜索机器人访问一个站点时,它会首先检查该站点根目录下是否有robots.txt,如果有,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索机器人将能够访问网站上所有没有被口令保护的页面。
robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。
语法:最简单的 robots.txt 文件使用规则:
· User-Agent: 适用下列规则的漫游器
· Disallow: 要拦截的网页
·Allow:允许爬取的网页
robots.txt文件用法举例
例1.禁止所有搜索引擎访问网站的任何部分 | User-agent: * Disallow: / |
例2.允许所有的robot访问 (或者也可以建一个空文件 "/robots.txt") | User-agent: * Allow: / 另一种写法是 User-agent: * Disallow: |
例3. 仅禁止Baiduspider访问您的网站 | User-agent: Baiduspider Disallow: / |
例4. 仅允许Baiduspider访问您的网站 | User-agent: Baiduspider Allow: / |
例5. 禁止spider访问特定目录 在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即robot不会访问这三个目录。需要注意的是对每一个目录必须分开声明,而不能写成 "Disallow: /cgi-bin/ /tmp/"。 | User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /~joe/ |
例6. 允许访问特定目录中的部分url | User-agent: * Allow: /cgi-bin/see Allow: /tmp/hi Allow: /~joe/look |
例7. 使用"*"限制访问url 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。 | User-agent: * Disallow: /cgi-bin/*.htm |
例8. 使用"$"限制访问url 仅允许访问以".htm"为后缀的URL。 | User-agent: * Allow:/ .htm$ |
例9. 禁止访问网站中所有的动态页面 | User-agent: * Disallow: /*?* |
例10. 禁止Baiduspider抓取网站上所有图片 仅允许抓取网页,禁止抓取任何图片。 | User-agent: Baiduspider Disallow: /.jpg$ Disallow: / .jpeg$ Disallow:/ .gif$ Disallow:/ .png$ Disallow: /.bmp$ |
例11. 仅允许Baiduspider抓取网页和。gif格式图片 允许抓取网页和gif格式图片,不允许抓取其他格式图片 | Use
相关新闻>>最新推荐更多>>>
|