A-A+
robots.txt文件
搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。spider在访问一个网站时,会首先会检查该网站的根域下是否有一个叫做 robots.txt的纯文本文件,这个文件用于指定spider在您网站上的抓取范围。您可以在您的网站中创建一个robots.txt,在文件中声明 该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。
百度:Baiduspider
Google:Googlebot
360:360Spider
Baiduspider支持使用通配符"*"和"$"来模糊匹配url。
$ 匹配行结束符。
* 匹配0或多个任意字符。
1、禁止所有搜索引擎抓取任何内容
User-agent: *
Disallow: /
2、允许所有搜索引擎抓取
User-agent: *
Allow: /
或者
User-agent: *
Disallow:
3、仅允许百度抓取
User-agent: Baiduspider
Allow: /
User-agent: *
Disallow: /
4、360加入搜索行业,允许360搜索抓取
User-agent: 360Spider
Allow: /
5、仅允许访问以".htm"为后缀的URL
User-agent: *
Allow: /*.htm$
Disallow: /
6、禁止Baiduspider抓取网站上所有图片
User-agent: Baiduspider
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$