打印

[建站指南] robots.txt和Robots META标签

robots.txt和Robots META标签

  对于网站管理者和内容提供者来说,有时候会有一些站点内容,不希望被ROBOTS抓取而公开。为了解决这个问题,ROBOTS开发界提供了两个办法:一个是robots.txt,另一个是The Robots META标签。 团购网站系统,团购网程序9 o" T% s% l# f5 U( |
团购网站系统,团购网程序% M, g% J! p9 d- o) z# M& M3 U
  一、 robots.txt团购网站系统,团购网程序  Y/ ?  V- u8 O7 {) W# T" X$ n
  1、 什么是robots.txt?bbs.163k.com2 [7 N* M  g- O6 p% {
  robots.txt是一个纯文本文件,通过在这个文件中声明该网站中不想被robots访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。
) k( Q! v# p0 O6 J  W7 f. U团购网站系统,团购网程序为互联网事业发展提供源动力!. n- y' J  n2 |: i. m* p: D* N, V
当一个搜索机器人访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果找到,搜索机器人就会按照该文件中的内容来确定访问的范围,如果该文件不存在,那么搜索机器人就沿着链接抓取。
, s4 B4 g1 _7 o& }7 G5 j  n
; b5 Z5 V6 n" V- C163k团购网站系统官方服务论坛robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。
. a' `- T0 B$ R; @, Z6 G) h为互联网事业发展提供源动力!网站 URL团购网站系统,团购网程序% A/ \9 g1 E) l2 X% m8 Q
相应的 robots.txt的 URL为互联网事业发展提供源动力!6 L( C( V5 o8 V0 u) K# Q
http://www.w3.org/" g6 V) e4 D2 ?
http://www.w3.org/robots.txt
6 F1 ?, h; Z4 |" O! o163k团购网站系统官方服务论坛http://www.w3.org:80/163k团购网站系统官方服务论坛7 o) A% {: V3 r/ p$ b
http://www.w3.org:80/robots.txt
. @6 D; H$ m- g团购网站系统,团购网程序http://www.w3.org:1234/
% H" |4 `( [/ E7 [$ P6 Tbbs.163k.comhttp://www.w3.org:1234/robots.txt
% C# O! d; o- m为互联网事业发展提供源动力!http://w3.org/4 H  M  K7 ]4 J4 {
http://w3.org/robots.txt为互联网事业发展提供源动力!$ }5 F9 |5 u( d$ f/ ~1 _5 L

* j% _7 p# z0 z+ }: g' v; |' k+ r; Bbbs.163k.com2、 robots.txt的语法团购网站系统,团购网程序  K- k* `9 Z& A( c& o& G7 i$ g
$ j2 l" m) }4 b+ B
"robots.txt"文件包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符),每一条记录的格式如下所示:
/ V: r9 l8 {! V( b& B163k团购网站系统官方服务论坛    "<field>:<optionalspace><value><optionalspace>"。bbs.163k.com$ X  t% t" ]+ c
为互联网事业发展提供源动力!4 q5 C) K3 S3 ^$ q; T& R0 s2 X/ Z/ u
在该文件中可以使用#进行注解,具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow行,详细情况如下:
" @9 R. `) e! ~# j, Kbbs.163k.com
- Z$ Z8 ~  G9 X" d% X4 }! ?User-agent:
8 w- D0 Z; v) X; b3 [7 @bbs.163k.com团购网站系统,团购网程序* O$ e! E, E& _
该项的值用于描述搜索引擎robot的名字,在"robots.txt"文件中,如果有多条User-agent记录说明有多个robot会受到该协议的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则该协议对任何机器人均有效,在"robots.txt"文件中, "User-agent:*"这样的记录只能有一条。为互联网事业发展提供源动力!# L/ b8 S; i: \' A# A( h9 R9 H

; s& j  k8 h/ v9 C0 r, Q163k团购网站系统官方服务论坛Disallow :
- Y/ ]$ q  q5 E2 M163k团购网站系统官方服务论坛  e/ E0 H  ?2 b- e; c0 G% x
该项的值用于描述不希望被访问到的一个URL,这个URL可以是一条完整的路径,也可以是部分的,任何以Disallow 开头的URL均不会被robot访问到。例如"Disallow: /help"对/help.html 和/help/index.html都不允许搜索引擎访问,而"Disallow: /help/"则允许robot访问/help.html,而不能访问/help/index.html。+ a3 o: X- g" R% E
任何一条Disallow记录为空,说明该网站的所有部分都允许被访问,在"/robots.txt"文件中,至少要有一条Disallow记录。如果 "/robots.txt"是一个空文件,则对于所有的搜索引擎robot,该网站都是开放的。
* m, @+ p4 t; r+ }: P. f3 }为互联网事业发展提供源动力!9 b7 j& f' S! W# F$ b- f+ r
下面是一些robots.txt基本的用法:团购网站系统,团购网程序- U  y+ s3 {5 m9 j9 B1 f. P8 F
l 禁止所有搜索引擎访问网站的任何部分:163k团购网站系统官方服务论坛+ d/ ?4 a' C) Q) Q
User-agent: *
0 e$ d1 E7 M" ?; T. \, s为互联网事业发展提供源动力!Disallow: /; t" W1 M* S( b; o3 Z& v7 O6 `
l 允许所有的robot访问163k团购网站系统官方服务论坛- d, ^; e) ~  j- v# V/ i( C
User-agent: *163K网站系统官方论坛4 i7 [5 f: @  c9 P! R- G
Disallow:团购网站系统,团购网程序1 b# [8 b3 k. P5 F6 w! f# b& k  t
或者也可以建一个空文件 "/robots.txt" file163k团购网站系统官方服务论坛, f* K, j+ ~* E, I2 D$ p8 W9 n) t
l 禁止所有搜索引擎访问网站的几个部分(下例中的cgi-bin、tmp、private目录)
4 E" W5 {2 Z# qbbs.163k.comUser-agent: *团购网站系统,团购网程序; F9 u) z* U$ G) r* f2 k
Disallow: /cgi-bin/团购网站系统,团购网程序$ e& Q2 N( u: K/ ^' ?
Disallow: /tmp/
* }% F8 |, c. ]3 g0 p: _) Cbbs.163k.comDisallow: /private/bbs.163k.com3 X8 w, ~1 }0 e& L
l 禁止某个搜索引擎的访问(下例中的BadBot)bbs.163k.com, I$ @8 |8 X4 B7 p. w
User-agent: BadBotbbs.163k.com# Q# I. Y; m2 f) R8 I  o  c
Disallow: /
; N2 H! v( l9 s* Q. ^8 m为互联网事业发展提供源动力!l 只允许某个搜索引擎的访问(下例中的WebCrawler)163K网站系统官方论坛6 `& \& I" x. |
User-agent: WebCrawler
# n: l% g) v9 ?! J+ @2 F为互联网事业发展提供源动力!
' `4 _* r- B) `0 Q163k团购网站系统官方服务论坛Disallow:
+ d% _& x6 e, G7 @; n团购网站系统,团购网程序User-agent: *团购网站系统,团购网程序3 B: n9 y8 q- p+ W2 T& m! t1 {( k6 |4 a
Disallow: /
4 T3 F$ G, Y. k+ J/ E" S& E6 ?+ e2 s4 u
3、 常见搜索引擎机器人Robots名字
& X" y& F3 q' }/ `( S7 t163k团购网站系统官方服务论坛bbs.163k.com! }8 _3 W) q7 m9 @# J0 V7 o
名称 搜索引擎为互联网事业发展提供源动力!$ p5 Y, I; Q9 K* z% M
Baiduspider http://www.baidu.com
: T6 a' r; R' ]' T8 {163k团购网站系统官方服务论坛Scooter http://www.altavista.com 163k团购网站系统官方服务论坛7 o) d' r* q0 w, y5 I' Y
ia_archiver http://www.alexa.com
9 Y( u) W. w/ p( g$ O! h4 w* r9 v团购网站系统,团购网程序Googlebot http://www.google.com
* C# H" O- J8 t" P! G' Ibbs.163k.comFAST-WebCrawler http://www.alltheweb.com
- f. k' B" {( m: u' lSlurp http://www.inktomi.com $ E) c! U8 m% h% E
MSNBOT http://search.msn.com
9 t6 L: l: T; a/ h163k团购网站系统官方服务论坛团购网站系统,团购网程序  i0 [4 u' D7 N+ |, @# W2 X
4、 robots.txt举例为互联网事业发展提供源动力!# y, l% p; X7 {9 t% t* |; z' O
下面是一些著名站点的robots.txt:
7 S5 F- o* @; k& b! I/ x- Z团购网站系统,团购网程序http://www.cnn.com/robots.txtbbs.163k.com0 i* x' u+ ?1 K
http://www.google.com/robots.txt为互联网事业发展提供源动力!( @8 i& X) M* a
http://www.ibm.com/robots.txt
3 ~3 F+ @' d( Fbbs.163k.comhttp://www.sun.com/robots.txt 163K网站系统官方论坛; r4 y# i7 b7 K
http://www.eachnet.com/robots.txt为互联网事业发展提供源动力!! a# M7 M9 Z$ Y) j9 X

2 P' ~5 [3 m$ z0 i/ S为互联网事业发展提供源动力!5、 常见robots.txt错误
! Z9 N! c* e6 w4 i# g163k团购网站系统官方服务论坛
3 T5 i7 Q$ K( c! D163K网站系统官方论坛l 颠倒了顺序:
+ u( H: B1 J/ ?$ c163K网站系统官方论坛错误写成
- y+ |8 O' J  Z& u为互联网事业发展提供源动力!User-agent: *团购网站系统,团购网程序# P( h( l) F1 V6 M& Y
Disallow: GoogleBot
! s: S. ]2 F, u! W: M! z: e4 u团购网站系统,团购网程序正确的应该是:为互联网事业发展提供源动力!' m( C' L4 p  B* s
User-agent: GoogleBot163k团购网站系统官方服务论坛5 }  u) m7 G, i* G( Q. l
Disallow: *
- V+ N$ b6 X4 ?) U163k团购网站系统官方服务论坛l 把多个禁止命令放在一行中:
8 n4 {- U4 V! d! `( ?例如,错误地写成
: |/ Z  y  ?! K1 p# n163k团购网站系统官方服务论坛Disallow: /css/ /cgi-bin/ /images/
( x( r( H! W7 W, w2 B) ^* b; y正确的应该是
7 M) x6 }) e5 p4 l1 U+ F团购网站系统,团购网程序Disallow: /css/
; a, l7 l7 _+ R$ U8 h# x0 F5 F% @0 o4 U163k团购网站系统官方服务论坛Disallow: /cgi-bin/
* a  A0 D2 n# W+ G, I团购网站系统,团购网程序Disallow: /images/
9 b( |# f0 {, W. w1 _. s& S* Tl 行前有大量空格
4 _7 K$ m1 F, _+ Y团购网站系统,团购网程序例如写成
: ?* @' u3 F: O  {- `团购网站系统,团购网程序Disallow: /cgi-bin/
0 ^0 Y8 B$ `4 q9 C尽管在标准没有谈到这个,但是这种方式很容易出问题。
. ?1 O; X8 u' `, }; U2 Z1 G为互联网事业发展提供源动力!l 404重定向到另外一个页面:bbs.163k.com. t8 M6 D+ O! L" l- C( U
当Robot访问很多没有设置robots.txt文件的站点时,会被自动404重定向到另外一个Html页面。这时Robot常常会以处理robots.txt文件的方式处理这个Html页面文件。虽然一般这样没有什么问题,但是最好能放一个空白的robots.txt文件在站点根目录下。bbs.163k.com* ]: g; F, _# r# C% N# }# H
l 采用大写。例如163K网站系统官方论坛  R  c% T7 ]1 _8 i3 f
USER-AGENT: EXCITE
4 A# O1 Q% X8 `) nDISALLOW: 团购网站系统,团购网程序3 q& h# c$ n: i  P
虽然标准是没有大小写的,但是目录和文件名应该小写:163k团购网站系统官方服务论坛9 e) |9 Z# \4 G0 t
user-agent:GoogleBot
: X& ~6 E2 B" R* N; s163k团购网站系统官方服务论坛disallow: 163K网站系统官方论坛! `: N. ^# @+ b9 o
l 语法中只有Disallow,没有Allow!为互联网事业发展提供源动力!, D3 s7 e% @( u2 X' H, m. q+ \
错误的写法是:163k团购网站系统官方服务论坛9 U. A  I* D3 S& g5 i# t
User-agent: Baiduspider 163K网站系统官方论坛! O/ o$ [4 p0 ^: l
Disallow: /john/163k团购网站系统官方服务论坛5 f+ R9 X; ~  Q- |) l! U7 g
allow: /jane/
+ F2 Y" Z* d' P7 t0 \" \为互联网事业发展提供源动力!l 忘记了斜杠/
( _) T4 R. y7 {0 t  y7 x163K网站系统官方论坛错误的写做:
# U! j; s. j7 g+ t163K网站系统官方论坛User-agent: Baiduspider
; ?+ ]/ _0 Q( `! @为互联网事业发展提供源动力!Disallow: css
2 z, n8 {  c! J2 x. f- Z) L4 H7 W163k团购网站系统官方服务论坛正确的应该是
- @5 P: Y9 p( Obbs.163k.comUser-agent: Baiduspider
$ W9 X$ r5 e4 c: ^, E6 u( nDisallow: /css/
# n/ l1 m' R* Y8 r5 j. F$ ^163k团购网站系统官方服务论坛下面一个小工具专门检查robots.txt文件的有效性:bbs.163k.com& H8 V  u; v1 _8 O8 D) E2 k+ M8 ^! j
http://www.searchengineworld.com/cgi-bin/robotcheck.cgi
/ l0 {2 X0 Y) k9 y, X* ~. R, _ 为互联网事业发展提供源动力!& P+ h3 R2 ?3 ?% Z
  二、 Robots META标签
& K" b+ O7 C8 N+ {' g" Jbbs.163k.com  1、什么是Robots META标签
+ m- I9 ^' R% \! D* I163K网站系统官方论坛  Robots.txt文件主要是限制整个站点或者目录的搜索引擎访问情况,而Robots META标签则主要是针对一个个具体的页面。和其他的META标签(如使用的语言、页面的描述、关键词等)一样,Robots META标签也是放在页面的<head></head>中,专门用来告诉搜索引擎ROBOTS如何抓取该页的内容。具体的形式类似(见黑体部分):0 f- k. M% Y7 K  Z; S3 Q
<html>为互联网事业发展提供源动力!; b+ r$ P2 _( p) \# Q; H8 K
<head>为互联网事业发展提供源动力!7 H+ {  f, T# @& E8 p* U9 D& k
<title>时代营销--网络营销专业门户</title>163k团购网站系统官方服务论坛2 G0 R' y- V) ]
<meta name="Robots" content="index,follow">163K网站系统官方论坛: J/ D' [% Y) c& ^* F- I
<meta http-equiv="Content-Type" CONTENT="text/html; charset=gb2312">
$ [8 [7 e; F6 T! E' r1 g# p) @4 ]<meta name="keywords" content="营销… ">; ~# m' L( `  g( d3 p
<meta name="description" content="时代营销网是…">为互联网事业发展提供源动力!8 S- S6 \& n$ B% H# v  r
<link rel="stylesheet" href="/public/css.css" type="text/css">团购网站系统,团购网程序; i0 f, J3 M$ j7 K2 h) l$ ?
</head>3 V' m5 ~! O7 N4 i/ [
<body>
5 X# V) T5 L0 A, a163K网站系统官方论坛bbs.163k.com8 B4 g+ y( ^, s
</body>: F1 E4 Z0 \- |  y
</html>为互联网事业发展提供源动力!3 v! x. P4 o9 B# D
bbs.163k.com2 E3 v/ q- B. d5 F/ m, L0 f$ R% f
  2、Robots META标签的写法:
3 Y% t) Y8 I5 l- G( k$ a0 N3 _6 f) g为互联网事业发展提供源动力!  Robots META标签中没有大小写之分,name=”Robots”表示所有的搜索引擎,可以针对某个具体搜索引擎写为name=”BaiduSpider”。content部分有四个指令选项:index、noindex、follow、nofollow,指令间以“,”分隔。为互联网事业发展提供源动力!$ J! M0 k4 L  A/ B
INDEX 指令告诉搜索机器人抓取该页面;# {! W8 a2 U8 q& I1 P9 J6 W
FOLLOW 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去;163K网站系统官方论坛$ q- _8 o. ]; c6 ]4 b
Robots Meta标签的缺省值是INDEX和FOLLOW,只有inktomi除外,对于它,缺省值是INDEX,NOFOLLOW。
' e, c7 f# h2 K163K网站系统官方论坛
! `( W3 G& N2 j+ `8 `& c0 A这样,一共有四种组合:
6 ~2 h4 {, [: a" |bbs.163k.com<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">163K网站系统官方论坛; y" H9 V' m# d- W4 ]
<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">
% p( h* n5 l4 w! w% Vbbs.163k.com<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">bbs.163k.com8 h8 c# U8 e8 J) O. \8 \3 z- B
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">! q* `2 S) h: s% p/ @9 u6 ~3 O3 W" O
( S. f; }) a' I
其中
: ]. q6 Y# M1 c3 k* B7 D163k团购网站系统官方服务论坛<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">可以写成
' F6 B, D3 K1 C( q9 v4 W为互联网事业发展提供源动力!<META NAME="ROBOTS" CONTENT="ALL">;163K网站系统官方论坛: p0 x! a7 K/ S5 ~8 b
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">可以写成( G) c0 G& D$ f5 o$ p+ [
<META NAME="ROBOTS" CONTENT="NONE">
  y7 z1 V5 p  n  m为互联网事业发展提供源动力!需要注意的是:上述的robots.txt和Robots META标签限制搜索引擎机器人(ROBOTS)抓取站点内容的办法只是一种规则,需要搜索引擎机器人的配合才行,并不是每个ROBOTS都遵守的。团购网站系统,团购网程序# ?, v4 z# S4 {- H  ]/ u5 H* u
0 O1 |, R' E# }  n: o
目前看来,绝大多数的搜索引擎机器人都遵守robots.txt的规则,而对于Robots META标签,目前支持的并不多,但是正在逐渐增加,如著名搜索引擎GOOGLE就完全支持,而且GOOGLE还增加了一个指令“archive”,可以限制GOOGLE是否保留网页快照。例如:
3 Q! r) x/ k: [: ^5 Q163k团购网站系统官方服务论坛<META NAME="googlebot" CONTENT="index,follow,noarchive">
4 g+ \0 _: F/ J4 ]163k团购网站系统官方服务论坛表示抓取该站点中页面并沿着页面中链接抓取,但是不在GOOLGE上保留该页面的网页快照。

TOP

返回顶部
AYBlue

Processed in 0.076635 second(s), 6 queries.

当前时区 GMT+8, 现在时间是 2009-1-9 17:34 京ICP备06054220号

清除 Cookies - 联系我们 - 163K.com - Archiver - WAP