A-A+

robots.txt文件

2013年03月28日 SEO 暂无评论 阅读 2,141 views 次

搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。spider在访问一个网站时,会首先会检查该网站的根域下是否有一个叫做 robots.txt的纯文本文件,这个文件用于指定spider在您网站上的抓取范围。您可以在您的网站中创建一个robots.txt,在文件中声明 该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。

 

百度:Baiduspider

Google:Googlebot

360:360Spider

Baiduspider支持使用通配符"*"和"$"来模糊匹配url。
$ 匹配行结束符。
* 匹配0或多个任意字符。

1、禁止所有搜索引擎抓取任何内容

User-agent: *
Disallow: /

2、允许所有搜索引擎抓取

User-agent: *
Allow: /

或者

User-agent: *

Disallow:

3、仅允许百度抓取

User-agent: Baiduspider
Allow: /
User-agent: *
Disallow: /

4、360加入搜索行业,允许360搜索抓取

User-agent: 360Spider

Allow: /

5、仅允许访问以".htm"为后缀的URL

User-agent: *
Allow: /*.htm$
Disallow: /

6、禁止Baiduspider抓取网站上所有图片

User-agent: Baiduspider
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$

标签:

给我留言

Copyright © 严佳冬 保留所有权利.   Theme  Ality 百度地图 苏ICP备19045515号-2

用户登录

分享到: