본문 바로가기

홈페이지 로봇 설정 방법

반응형

robots.txt를 설치하지 않았을 경우 동호회 명단, 직장 전화번호 등 원치 않은 정보가 검색엔진에 노출되는 결과가 생길 수도 있습니다.
이를 해결하기 위한 방법은 다음과 같습니다.

1. ID와 비밀번호가 필요하도록 만드는 방법입니다.
2. 해당 페이지를 서버에서 삭제하거나 로봇 배제 장치인 robots.txt를 서버에 저장해 주시기 바랍니다.
3. 삭제 요청을 보내주세요.
1. ID와 비밀번호가 필요하도록 만드는 방법입니다.
이 경우 로봇은 해당 사이트의 ID와 비밀번호를 가지고 있지 않기 때문에 접근할 수가 없게 됩니다.
이 방법은 로봇의 접근을 직접적으로 배제하는 강력한 수단이지만 사이트를 사용하는 사람들도 ID와 비밀번호를 입력해야 하는 불편함이 있습니다.
간혹 ID와 비밀번호로 막아놓은 페이지가 네이버의 웹 문서 검색에 노출된다는 문의가 들어오기도 합니다.
하지만 링크로 연결되지 않는 한 네이버의 로봇은 비밀번호로 보안을 걸어놓은 문서에 접근하지 못합니다.
비밀번호로 보안을 걸어놓았는데도 웹 검색에 노출이 되는 경우는 어떤 사람(주로 내부인)이 해당 문서의 URL을 다른 웹 페이지에 적어놓았기 때문일 가능성이 큽니다.
만일, 이 경우에도 노출을 원하지 않는 경우에도 역시 아래의 삭제 문의 창구로 연락 주시기 바랍니다.

2. 해당 페이지를 서버에서 삭제하거나 로봇 배제 장치인 robots.txt를 서버에 저장해 주시기 바랍니다.
로봇 배제 표준이란 말 그대로 웹 문서를 수집해 가는 로봇을 배제한다는 뜻입니다.
로봇의 배제와 관련된 내용을 적어 놓은 robots.txt 파일을 사이트의 최상위 주소(서버 루트 디렉토리 예:www.naver.com/robots.txt)에 저장하면 됩니다.
이때 robots.txt를 서브 디렉토리에 저장할 경우에는 효력이 없습니다.
(robots.txt를 서브디렉토리에 저장할 경우에는 효력이 없다는 사실에 주의하세요.)
예를 들어, www.yourhost/~mypage 밑에 robots.txt가 있어도 이는 아무런 효력을 갖지 못합니다.
웹 문서 수집 로봇은 오직 루트 디렉토리의 robots.txt만을 참조할 뿐입니다. 로봇의 접근을 어디까지 허용할 것이냐에 따라
robots.txt에 들어가는 내용은 달라집니다. (robot.txt가 아닌 복수형인 robots.txt 임에 주의해주세요.)

robots.txt를 서버에 저장하신 후 NAVER 검색이 해당 변경 상태를 재확인하는 데는 다소의 시간이 걸릴 수 있으므로, NAVER 검색
결과에서 해당 웹 문서가 즉시 제거되지 않을 수 있습니다. 만일, 즉시 삭제가 되어야 하거나 부득이한 상황이 있는 경우 아래의
삭제 문의 창구를 이용해 연락 주시기 바랍니다.

네이버에서 사용하고 있은 웹문서 수집 로봇(NaverBot, Yeti)을 비롯한 일반적인 웹로봇의 방문 및 배제와 관련한 robots.txt 저장 방법은 아래와 같습니다.

robots.txt 저장 방법 안내
1. 홈페이지 전체가 모든 검색엔진에 노출되는 것을 원하지 않을 때
User-agent: *
Disallow: /
2. 홈페이지 전체가 모든 검색엔진에 노출되기를 원할 때
User-agent: *
Disallow:
(Ex1과 비교했을 때 "/"가 빠져 있습니다. robots.txt를 작성하지 않으면 모두 검색허용으로 간주됩니다.)

3. 홈페이지 디렉토리의 일부만 검색엔진에 노출하고 싶을 때
User-agent: *
Disallow: /my_photo/
Disallow: /my_diary/
(이렇게 작성하면 로봇은 my_photo, my_diary라는 폴더에 속한 웹문서에 접근할 수 없습니다.)

4. 홈페이지 전체가 수집되길 원하지만 특정 검색엔진을 거부하고 싶을 때
User-agent: EvilRobot
Disallow: /
위의 예에서는 "EvilRobot"이라는 이름을 가진 로봇만을 배제하게 됩니다.
('네이버'에 대해서 막고 싶다면 NaverBot을 User-agent로 설정해주시면 됩니다. Naverbot은 네이버 로봇의 이름입니다.)

5. 홈페이지 전체가 수집되길 원하지만 특정 검색엔진에게만 노출되기를 원할 때
User-agent: *
Disallow: /
User-agent: NaverBot
Allow: /
User-agent: Yeti
Allow: /
(이 경우 NaverBot, Yeti 만이 웹문서를 수집해갈 수 있습니다.)

6. 웹로봇의 방문 주기를 지정(초 단위)하고 싶을 때
User-agent: NaverBot
Crawl-delay: 30
User-agent: Yeti
Crawl-delay: 30
이 경우 NaverBot, Yeti는 홈페이지에 포함된 웹문서를 30초 간격으로 수집하게 됩니다.
해당 옵션을 지정하지 않으면 일반적으로 약 10 ~ 20초 간격으로 1페이지씩 수집을 진행합니다.
다만, 해당 기능은 웹로봇을 운용하는 업체별로 기능상의 차이가 있을 수 있기 때문에 각 업체별 로봇 운용 현황을 확인하신 후 사용하시기 바랍니다.

"robots.txt"를 작성하는 것과 유사한 방법으로 HTML문서의 (HEAD)와 (/HEAD)태그 사이에 (META NAME="ROBOTS" ConTENT="NOINDEX, NOFOLLOW")라는
메타태그를 추가하면 로봇은 웹 문서를 가져갈 수 없습니다.
이 방법은 다소 번거롭기는 하지만 문서 하나하나에 대해 정확하게 명시를 해주기 때문에 가장 확실하게 로봇의 접근을 막을 수 있는 방법입니다.
로봇 배제에 대한 보다 자세한 내용은 http://www.robotstxt.org에서 확인할 수 있습니다.
robots.txt를 서버에 저장하고 로봇이 직접 방문하지 않는 경우라고 하더라도 본인의 홈페이지 중 일부 내용 혹은 링크 값이 NAVER 웹 문서 검색 결과에 나타나는 경우가
있을 수 있습니다. 이는 다른 웹 문서들이나 사이트들이 해당 웹 문서를 링크한 경우, 그 링크에 제시된 설명에 의해서 자동적으로 생성되는 것으로, 해당 웹 사이트의
robots.txt의 존재유무나 로봇의 동작과는 무관할 수 있습니다.
만일 이 경우에도 노출을 원하지 않는 경우에도 역시 아래의 삭제 문의 창구로 연락 주시기 바랍니다.

3. 삭제 요청을 보내주세요.
NAVER 웹문서 수집을 통해 수록된 내용이나 NAVER 로봇의 작동으로 인해 불편을 느끼시거나 운영에 의견이 있으신 경우, 아래의 "삭제 요청 및 문의"를 이용해
주시기 바랍니다. 통상적인 경우 접수 및 페이지 확인 후 빠르면 1~2 영업일 이내에 처리가 완료됩니다.

어떤 경우에 삭제 요청을 할 수 있나요?
1. 본인이 직접 올리신 게시물을 검색에서 제외하고 싶으신 경우
robots.txt 를 설치하셨다면 본인확인 절차 혹은 원본 삭제 없이 곧바로 검색에서 제외처리를 해드릴 수 있습니다. (삭제요청 시 robots.txt의 설치여부를 알려주세요.)
그러나 로봇텍스트를 설치할 수 없는 상황일 경우, 예를 들어게시판 등 타 웹페이지에 본인이 올렸던 게시글이 검색되는 것을 원치 않으실 경우 가장 확실한 방법은
해당 게시물을 올렸을 때 접속하신 경로 (FTP 혹은 게시판 로그인)로 재접속하셔서 해당 게시물을 삭제하신 후, 삭제하신 문서의 URL을 (삭제 대상 URL) 네이버 고객
센터로 접수하시는 경우입니다. 삭제 문의 창구를 통해서 URL 접수를 해주시면 빠른 처리를 도와드립니다.
본인이 올린 게시글을 비밀번호가 생각나지 않는 등의 기타 이유로 직접 삭제 할 수 없을 시, 먼저 사이트 운영자에게 게시글 삭제를 요청하는 것이 좋습니다.
게시글이 삭제된 후, 삭제 요청 및 문의를 통해서 URL 접수를 하시면 검색에서 해당 게시글이 제외처리 될 수 있도록 빠르게 도와드리겠습니다.
주민등록번호, 계좌번호, 운전면허증번호 등 치명적인 개인정보가 노출되는 페이지로 개인정보 노출에 대한 피해, 혹은 심각한 명예훼손이 우려되는 경우 원본삭제
과정 없이 검색에서 제외처리가 가능합니다. 그러나 신고 후 해당 글에 대한 권리 증빙을 추가로 요구할 수 있으니 이 점 양해 부탁 드립니다.
2. 운영자가 운영 중인 웹 페이지를 검색에서 제외하고 싶으신 경우
게시판, 혹은 기타 웹 페이지를 검색에서 제외하고 싶으신 운영자의 경우 로그인, 혹은 robots.txt 설치처럼, 검색 제외 요청의사를 수집 당시에 확실히 표현하시는 것이
가장 정확한 방법입니다. 예외적으로 이미 검색 수집을 한 후 robots.txt를 설치하신 경우에도, 요청해주시면 최대한 빠른 시간 안에 문서를 검색에서 제외시켜드립니다.
(삭제요청 시 robots.txt의 설치여부를 알려주세요.)
그러나 일부 회원이 삭제를 요청했는데 운영 사정상 불가능한 경우, 일정한 권리증빙 과정을 거쳐 네이버 검색에서 제외될 수 있도록 도와드립니다.
아래의 삭제 문의 창구를 통해 접수해 주세요.

3. 제 3자의 게시물을 검색에서 제외하고 싶으신 경우
본인과 관련 없는 글이라도 웹서핑을 하다가 접속이 되지 않는 페이지를 발견하셨거나 성인물, 악성코드 등 적합하지 않은 페이지들을 발견하면, “삭제 문의 창구”를
이용해 신고해주세요. 여러분의 참여가 더 좋은 네이버 검색을 만들어 갑니다.
다만, 특별히 이상 없는 페이지를 삭제요청 하실 경우에는, 그에 따른 합당한 근거 및 권리관계 증명이 필요하실 수 있습니다.
삭제 요청을 접수하실 때에는 꼭 아래 사항을 기재해주셔야 원활한 처리가 가능합니다.

① 본인의 성명 / 연락처 / 해당 페이지가 나오는 키워드 / 문제가 되는 게시물의 URL주소
(여기에서 게시물의 URL은 네이버 검색결과의 URL이 아닌 삭제 대상이 되는 URL을 뜻합니다)
② 본인과 관련된 글, 혹은 운영자의 경우 문제가 되는 게시물의 권리자임을 표시하는 문서(신분증 등)의 사본 또는 그에 상당하는 자료

반응형

댓글


Copyright ⓒ SmartWeb All rights reserved.