http://www.robotstxt.org/



▶ robots.txt 란?

robots.txt 파일은 사이트를 방문하는 검색엔진의 로봇들에게 해당 사이트의 내용공개에 대한 정책을 담고 있는 파일입니다.

사이트에 검색엔진의 로봇이 방문을 하게되면, 로봇이 하는 첫번째 행동이 바로 최상위 디렉토리에 robots.txt 파일이 있는지 확인을 합니다.
robots.txt 파일이 있다면 파일에 명시되어 있는 로봇의 허용범위 안에서만 활동을 하고,
robots.txt 파일이 없다면 말 그대로 지맘대로 활동을 하는 거죠.

예를 들어
개인으로 보자면 일기장이라든지, 개인적인 사진들 같은
업체로 보자면 내부문서라든지, 거래처정보 같은
공개하고 싶지 않은 것들이 혹시라도 검색엔진에 노출되지 않도록 미리 막는 거죠.


▶ robots.txt 작성법

- 위치
계정의 최상위 디렉토리 예) http://www.aaa.com/robots.txt

- 내용
User-agent: 로봇의 이름
Disallow: 제한할 디렉토리
Crawl-delay: 다음 방문까지의 딜레이(초)

사용예)
모든 로봇에게 모든 디렉토리를 제한할 경우
User-agent: *
Disallow: /

모든 로봇에게 aaa라는 디렉토리를 제한할 경우
User-agent: *
Disallow:/aaa

구글의 로봇에게만 허용하고 다른 로봇들에게는 모든 디렉토리를 제한할 경우
User-agent: Googlebot
Disallow:

User-agent: *
Disallow: /

구글 이미지의 로봇에게 JPG 파일을 제한할 경우
User-agent: Googlebot-Image
Disallow: /*.jpg$

모든 로봇에게 모든 디렉토리를 허용하지만 1분에 한번만 방문허용
User-agent: *
Disallow:
Crawl-delay: 60

#으로 주석문을 만들 수 있습니다.


▶ 주요 검색엔진의 로봇이름

Google : googlebot
MSN Search : msnbot
Yahoo : yahoo-slurp
Ask/Teoma : teoma
Cuil : twiceler
GigaBlast : gigabot
Scrub The Web : scrubby
DMOZ Checker : robozilla
Nutch : nutch
Alexa/Wayback : ia_archiver
Baidu : baiduspider
Naver : naverbot, yeti

Google Image : googlebot-image
Google Mobile : googlebot-mobile
Yahoo MM : yahoo-mmcrawler
MSN PicSearch : psbot
SingingFish : asterias
Yahoo Blogs : yahoo-blogs/v3.9


▶ robots.txt 파일 대신 사용할 수 있는 메타태그


단! 제한하고 싶은 모든 페이지에 삽입필요


▶ 작성한 robots.txt 이 잘 작성되었는지 확인할 수 있는 사이트
http://tool.motoricerca.info/robots-checker.phtml

크리에이티브 커먼즈 라이센스
Creative Commons License
이올린에 북마크하기

Posted by 홍반장

2009/06/09 17:31 2009/06/09 17:31
,
Response
No Trackback , No Comment
RSS :
http://tcbs17.cafe24.com/tc/rss/response/4337


블로그 이미지

- 홍반장

Archives

Recent Trackbacks

Calendar

«   2024/04   »
  1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30        
Statistics Graph

Site Stats

Total hits:
183666
Today:
94
Yesterday:
394