MEMBER LOGIN

MEMBER LOGIN

About /robots.txt   11-11-10
레오날도   1,885
 

About /robots.txt

In a nutshell

Web site owners use the /robots.txt file to give instructions about their site to web robots; this is called The Robots Exclusion Protocol.

It works likes this: a robot wants to vists a Web site URL, say http://www.example.com/welcome.html. Before it does so, it firsts checks for http://www.example.com/robots.txt, and finds:

User-agent: *
Disallow: /

The "User-agent: *" means this section applies to all robots. The "Disallow: /" tells the robot that it should not visit any pages on the site.

There are two important considerations when using /robots.txt:

  • robots can ignore your /robots.txt. Especially malware robots that scan the web for security vulnerabilities, and email address harvesters used by spammers will pay no attention.
  • the /robots.txt file is a publicly available file. Anyone can see what sections of your server you don't want robots to use.

So don't try to use /robots.txt to hide information.

See also:

The details

The /robots.txt is a de-facto standard, and is not owned by any standards body. There are two historical descriptions:

In addition there are external resources:

The /robots.txt standard is not actively developed. See What about further development of /robots.txt? for more discussion.

The rest of this page gives an overview of how to use /robots.txt on your server, with some simple recipes. To learn more see also the FAQ.

How to create a /robots.txt file

Where to put it

The short answer: in the top-level directory of your web server.

The longer answer:

When a robot looks for the "/robots.txt" file for URL, it strips the path component from the URL (everything from the first single slash), and puts "/robots.txt" in its place.

For example, for "http://www.example.com/shop/index.html, it will remove the "/shop/index.html", and replace it with "/robots.txt", and will end up with "http://www.example.com/robots.txt".

So, as a web site owner you need to put it in the right place on your web server for that resulting URL to work. Usually that is the same place where you put your web site's main "index.html" welcome page. Where exactly that is, and how to put the file there, depends on your web server software.

Remember to use all lower case for the filename: "robots.txt", not "Robots.TXT.

See also:

What to put in it

The "/robots.txt" file is a text file, with one or more records. Usually contains a single record looking like this:
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/

In this example, three directories are excluded.

Note that you need a separate "Disallow" line for every URL prefix you want to exclude -- you cannot say "Disallow: /cgi-bin/ /tmp/" on a single line. Also, you may not have blank lines in a record, as they are used to delimit multiple records.

Note also that globbing and regular expression are not supported in either the User-agent or Disallow lines. The '*' in the User-agent field is a special value meaning "any robot". Specifically, you cannot have lines like "User-agent: *bot*", "Disallow: /tmp/*" or "Disallow: *.gif".

What you want to exclude depends on your server. Everything not explicitly disallowed is considered fair game to retrieve. Here follow some examples:

To exclude all robots from the entire server
User-agent: *
Disallow: /

To allow all robots complete access
User-agent: *
Disallow:

(or just create an empty "/robots.txt" file, or don't use one at all)

To exclude all robots from part of the server
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/
To exclude a single robot
User-agent: BadBot
Disallow: /
To allow a single robot
User-agent: Google
Disallow:

User-agent: *
Disallow: /
To exclude all files except one
This is currently a bit awkward, as there is no "Allow" field. The easy way is to put all files to be disallowed into a separate directory, say "stuff", and leave the one file in the level above this directory:
User-agent: *
Disallow: /~joe/stuff/
Alternatively you can explicitly disallow all disallowed pages:
User-agent: *
Disallow: /~joe/junk.html
Disallow: /~joe/foo.html
Disallow: /~joe/bar.html



robots.txt를 설치하지 않았을 경우 동호회 명단, 직장 전화번호 등 원치 않은 정보가 검색엔진에 노출되는 결과가 생길 수도 있습니다.
이를 해결하기 위한 방법은 다음과 같습니다.

  1. 1. ID와 비밀번호가 필요하도록 만드는 방법입니다.
  2. 2. 해당 페이지를 서버에서 삭제하거나 로봇 배제 장치인 robots.txt를 서버에 저장해 주시기 바랍니다.
  3. 3. 삭제 요청을 보내주세요.

1. ID와 비밀번호가 필요하도록 만드는 방법입니다.

이 경우 로봇은 해당 사이트의 ID와 비밀번호를 가지고 있지 않기 때문에 접근할 수가 없게 됩니다.
이 방법은 로봇의 접근을 직접적으로 배제하는 강력한 수단이지만 사이트를 사용하는 사람들도 ID와 비밀번호를 입력해야 하는 불편함이 있습니다.
간혹 ID와 비밀번호로 막아놓은 페이지가 네이버의 웹 문서 검색에 노출된다는 문의가 들어오기도 합니다.
하지만 링크로 연결되지 않는 한 네이버의 로봇은 비밀번호로 보안을 걸어놓은 문서에 접근하지 못합니다.
비밀번호로 보안을 걸어놓았는데도 웹 검색에 노출이 되는 경우는 어떤 사람(주로 내부인)이 해당 문서의 URL을 다른 웹 페이지에 적어놓았기 때문일 가능성이 큽니다.
만일, 이 경우에도 노출을 원하지 않는 경우에도 역시 아래의 삭제 문의 창구로 연락 주시기 바랍니다.

2. 해당 페이지를 서버에서 삭제하거나 로봇 배제 장치인 robots.txt를 서버에 저장해 주시기 바랍니다.

로봇 배제 표준이란 말 그대로 웹 문서를 수집해 가는 로봇을 배제한다는 뜻입니다.
로봇의 배제와 관련된 내용을 적어 놓은 robots.txt 파일을 사이트의 최상위 주소(서버 루트 디렉토리 예:www.naver.com/robots.txt)에 저장하면 됩니다.
이때 robots.txt를 서브 디렉토리에 저장할 경우에는 효력이 없습니다.
(robots.txt를 서브디렉토리에 저장할 경우에는 효력이 없다는 사실에 주의하세요.)
예를 들어, www.yourhost/~mypage 밑에 robots.txt가 있어도 이는 아무런 효력을 갖지 못합니다.
웹 문서 수집 로봇은 오직 루트 디렉토리의 robots.txt만을 참조할 뿐입니다. 로봇의 접근을 어디까지 허용할 것이냐에 따라
robots.txt에 들어가는 내용은 달라집니다. (robot.txt가 아닌 복수형인 robots.txt 임에 주의해주세요.)

robots.txt를 서버에 저장하신 후 NAVER 검색이 해당 변경 상태를 재확인하는 데는 다소의 시간이 걸릴 수 있으므로, NAVER 검색
결과에서 해당 웹 문서가 즉시 제거되지 않을 수 있습니다. 만일, 즉시 삭제가 되어야 하거나 부득이한 상황이 있는 경우 아래의
삭제 문의 창구를 이용해 연락 주시기 바랍니다.

네이버에서 사용하고 있은 웹문서 수집 로봇(NaverBot, Yeti)을 비롯한 일반적인 웹로봇의 방문 및 배제와 관련한 robots.txt 저장방법은 아래와 같습니다.

robots.txt 저장 방법 안내

1. 홈페이지 전체가 모든 검색엔진에 노출되는 것을 원하지 않을 때
User-agent: *
Disallow: /
2. 홈페이지 전체가 모든 검색엔진에 노출되기를 원할 때
User-agent: *
Disallow:

(Ex1과 비교했을 때 "/"가 빠져 있습니다. robots.txt를 작성하지 않으면 모두 검색허용으로 간주됩니다.)

3. 홈페이지 디렉토리의 일부만 검색엔진에 노출하고 싶을 때
User-agent: *
Disallow: /my_photo/
Disallow: /my_diary/

(이렇게 작성하면 로봇은 my_photo, my_diary라는 폴더에 속한 웹문서에 접근할 수 없습니다.)

4. 홈페이지 전체가 수집되길 원하지만 특정 검색엔진을 거부하고 싶을 때
User-agent: EvilRobot
Disallow: /

위의 예에서는 "EvilRobot"이라는 이름을 가진 로봇만을 배제하게 됩니다.
('네이버'에 대해서 막고 싶다면 NaverBot을 User-agent로 설정해주시면 됩니다. Naverbot은 네이버 로봇의 이름입니다.)

5. 홈페이지 전체가 수집되길 원하지만 특정 검색엔진에게만 노출되기를 원할 때
User-agent: *
Disallow: /
User-agent: NaverBot
Allow: /
User-agent: Yeti
Allow: /

(이 경우 NaverBot, Yeti 만이 웹문서를 수집해갈 수 있습니다.)

6. 웹로봇의 방문 주기를 지정(초 단위)하고 싶을 때
User-agent: NaverBot
Crawl-delay: 30
User-agent: Yeti
Crawl-delay: 30

이 경우 NaverBot, Yeti는 홈페이지에 포함된 웹문서를 30초 간격으로 수집하게 됩니다.
해당 옵션을 지정하지 않으면 일반적으로 약 10 ~ 20초 간격으로 1페이지씩 수집을 진행합니다.
다만, 해당 기능은 웹로봇을 운용하는 업체별로 기능상의 차이가 있을 수 있기 때문에 각 업체별 로봇 운용 현황을 확인하신 후 사용하시기 바랍니다.

"robots.txt"를 작성하는 것과 유사한 방법으로 HTML문서의 (HEAD)와 (/HEAD)태그 사이에
(META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW, NOARCHIVE")라는 메타태그를 추가하면 로봇은 웹 문서를 색인하거나 저장할 수 없습니다.
이 방법은 다소 번거롭기는 하지만 문서 하나하나에 대해 정확하게 명시를 해주기 때문에 가장 확실하게 로봇의 접근을 막을 수 있는 방법입니다.
로봇 배제에 대한 보다 자세한 내용은 http://www.robotstxt.org에서 확인할 수 있습니다.
robots.txt를 서버에 저장하고 로봇이 직접 방문하지 않는 경우라고 하더라도 본인의 홈페이지 중 일부 내용 혹은 링크 값이 NAVER 웹 문서 검색 결과에 나타나는 경우가
있을 수 있습니다. 이는 다른 웹 문서들이나 사이트들이 해당 웹 문서를 링크한 경우, 그 링크에 제시된 설명에 의해서 자동적으로 생성되는 것으로, 해당 웹 사이트의
robots.txt의 존재유무나 로봇의 동작과는 무관할 수 있습니다.
만일 이 경우에도 노출을 원하지 않는 경우에도 역시 아래의 삭제 문의 창구로 연락 주시기 바랍니다.

3. 삭제 요청을 보내주세요.

NAVER 웹문서 수집을 통해 수록된 내용이나 NAVER 로봇의 작동으로 인해 불편을 느끼시거나 운영에 의견이 있으신 경우, 아래의 "삭제 요청 및 문의"를 이용해
주시기 바랍니다. 통상적인 경우 접수 및 페이지 확인 후 빠르면 1~2 영업일 이내에 처리가 완료됩니다.

어떤 경우에 삭제 요청을 할 수 있나요?

1. 본인이 직접 올리신 게시물을 검색에서 제외하고 싶으신 경우
  • robots.txt 를 설치하셨다면 본인확인 절차 혹은 원본 삭제 없이 곧바로 검색에서 제외처리를 해드릴 수 있습니다. (삭제요청 시 robots.txt의 설치여부를 알려주세요.)
    그러나 로봇텍스트를 설치할 수 없는 상황일 경우, 예를 들어게시판 등 타 웹페이지에 본인이 올렸던 게시글이 검색되는 것을 원치 않으실 경우 가장 확실한 방법은
    해당 게시물을 올렸을 때 접속하신 경로 (FTP 혹은 게시판 로그인)로 재접속하셔서 해당 게시물을 삭제하신 후, 삭제하신 문서의 URL을 (삭제 대상 URL) 네이버 고객
    센터로 접수하시는 경우입니다. 삭제 문의 창구를 통해서 URL 접수를 해주시면 빠른 처리를 도와드립니다.
  • 본인이 올린 게시글을 비밀번호가 생각나지 않는 등의 기타 이유로 직접 삭제 할 수 없을 시, 먼저 사이트 운영자에게 게시글 삭제를 요청하는 것이 좋습니다.
    게시글이 삭제된 후, 삭제 요청 및 문의를 통해서 URL 접수를 하시면 검색에서 해당 게시글이 제외처리 될 수 있도록 빠르게 도와드리겠습니다.
  • 주민등록번호, 계좌번호, 운전면허증번호 등 치명적인 개인정보가 노출되는 페이지로 개인정보 노출에 대한 피해, 혹은 심각한 명예훼손이 우려되는 경우 원본삭제
    과정 없이 검색에서 제외처리가 가능합니다. 그러나 신고 후 해당 글에 대한 권리 증빙을 추가로 요구할 수 있으니 이 점 양해 부탁 드립니다.
2. 운영자가 운영 중인 웹 페이지를 검색에서 제외하고 싶으신 경우

게시판, 혹은 기타 웹 페이지를 검색에서 제외하고 싶으신 운영자의 경우 로그인, 혹은 robots.txt 설치처럼, 검색 제외 요청의사를 수집 당시에 확실히 표현하시는 것이
가장 정확한 방법입니다. 예외적으로 이미 검색 수집을 한 후 robots.txt를 설치하신 경우에도, 요청해주시면 최대한 빠른 시간 안에 문서를 검색에서 제외시켜드립니다.
(삭제요청 시 robots.txt의 설치여부를 알려주세요.)
그러나 일부 회원이 삭제를 요청했는데 운영 사정상 불가능한 경우, 일정한 권리증빙 과정을 거쳐 네이버 검색에서 제외될 수 있도록 도와드립니다.
아래의 삭제 문의 창구를 통해 접수해 주세요.

3. 제 3자의 게시물을 검색에서 제외하고 싶으신 경우

본인과 관련 없는 글이라도 웹서핑을 하다가 접속이 되지 않는 페이지를 발견하셨거나 성인물, 악성코드 등 적합하지 않은 페이지들을 발견하면, “삭제 문의 창구”를
이용해 신고해주세요. 여러분의 참여가 더 좋은 네이버 검색을 만들어 갑니다.
다만, 특별히 이상 없는 페이지를 삭제요청 하실 경우에는, 그에 따른 합당한 근거 및 권리관계 증명이 필요하실 수 있습니다.
삭제 요청을 접수하실 때에는 꼭 아래 사항을 기재해주셔야 원활한 처리가 가능합니다.

  1. ① 본인의 성명 / 연락처 / 해당 페이지가 나오는 키워드 / 문제가 되는 게시물의 URL주소
    (여기에서 게시물의 URL은 네이버 검색결과의 URL이 아닌 삭제 대상이 되는 URL을 뜻합니다)
  2. ② 본인과 관련된 글, 혹은 운영자의 경우 문제가 되는 게시물의 권리자임을 표시하는 문서(신분증 등)의 사본 또는 그에 상당하는 자료
 
 
 
Total 24
번호 제   목 글쓴이 날짜 조회 추천
24 소액투자로 고수익가능 * 헬로우드림… 03-14 1089 0
23 앞날을 위해 무료가입 이라도 하세요 (1) 쿤타 07-20 528 0
22 무료설문하고서요 매달월급을 타가세요 yangjunhee 03-14 456 0
21 당일지급 아르바이트 eskk513 02-03 377 0
20 고수익 가능한 재택알바(당일지급/초보가능) 솔나무 11-06 456 0
19 일주일만에 수당이 백만원? 누구나 돈되는 부업 수당자랑 둥근마음 10-23 693 0
18 ★틈틈이 집에서 부업하실분(시간자유/업계최고) (1) 라일락 11-05 3031 0
17 스마트러쉬 활용하기 (1) 따스함 05-11 1304 0
16 어머나~ 1%의 극비정보네!!! (2) 백만장 05-04 1800 0
15 1건당 52만원 5건만해도 260만원 !! 무료회원가입부터 해놓으세요~ (1) 애플딜러 04-18 2211 0
14 스마트러쉬는 정직하게 1:1구조로 벌어가실수있으세요!! 애플딜러 04-17 1707 0
13 알바 나라면 얼마나할수있을까요? 삐꾸 03-28 1609 0
12 인터넷부업 정보 무료가입후 살펴보세요 (1) 로거아 03-28 1784 0
11 빨리 시작해야 유리 합니다 (1) 쿤타 03-23 1720 0
10 인터넷만 있으면 언제어디든 일을 할수있다 (1) 삐꾸 03-16 1539 0
9 ☆STP공평한 라인배정! STP공동마케팅 추천,홍보,부담걱정없이 시작하세요☆ 최고의부업 03-09 1282 0
8 주)퍼스트 드림 대박이 02-17 1233 0
7 온라인 재택알바 양동규 02-12 1213 0
6 검색엔진 등록시 문구작성 방법 (1) 레오날도 11-10 1463 0
5 2011년 구글 검색 알고리즘의 특이사항 (1) 최고관리자 11-10 1116 0
4 2010년 검색엔진 점유율 순위 (1) 최고관리자 11-10 1226 0
3 최근 검색엔진 점유율 변화 (1) 최고관리자 11-10 982 0
2 검색엔진 상위노출 방법 (1) 최고관리자 11-09 1140 0
1 About /robots.txt 레오날도 11-10 1886 0
 

영화 무료다운로드  최신영화무료다운로드  웹툰 무료다운 가입  무료 애니 다운로드  무료가입시 포인트지급

미개봉영화 무료다운로드 가입

 

하루 5분 투자하여 스마트폰으로 돈벌기

알바투잡닷컴은 무료가입후 이용가능하나 카지노, 화투 등 도박사이트와 불법 광고는 금지합니다.

1:1화상영어  스트로베리넷  컴퓨터싸게파는곳  무료게시판  무료홍보게시판   돈버는방법카페  인터넷부업카페

 

물파스넷 무료게시판  |  무료채팅방  |  이용약관  |  개인정보취급방침  |  이메일주소 수집거부  |  포인트정책  |  사이트맵  |  온라인문의

alba2job.com 은 게시판을 제공할 뿐, 게시 내용에 대한 진위 또는 위법 여부에 대해서 법적 책임을 지지 않습니다.