Robots.txt : 어디에도 연결되지 않은 페이지를 허용하지 않아야합니까?

12

내 웹 사이트에는 사용자가 URL을 제공 한 경우에만 방문 할 수있는 일부 페이지가 있습니다.

에서 단일 페이지를 허용하지 않으면 robots.txt누구나 해당 페이지를 볼 수 있습니다.

내 질문은 : 어디서나 또는 적어도 색인 페이지에서 링크하지 않으면 어떤 식 으로든 크롤러가 여전히 도달 할 수 있습니까?

robots.txt

— 마르트 노
소스

11

페이지가 SERP에 전혀 표시되는 것을 원하지 않습니다.

robots.txt를 허용하지 마십시오. 대신 페이지에 noindex 메타 태그 (또는 X-Robots-Tag HTTP 헤더)를 추가하십시오.

j0k가 제안한 것처럼 어떻게 든 페이지를 찾을 수 있습니다. 통계 보고서, 디렉토리 목록 등

robots.txt를 허용하지 않으면 페이지가 크롤링되지 않지만 색인이 생성되어 SERP에서 URL 전용 링크로 표시 될 수 있습니다. 다음과 같은 것 :

Google SERP의 URL 만 링크

noindex 메타 태그를 사용하면 SERP에 페이지가 전혀 나타나지 않습니다. 그러나 noindex 메타 태그를 보려면 Google이 페이지를 크롤링 할 수 있어야하므로 robots.txt에서 허용되지 않습니다!

페이지에 공개적으로 사용 가능 하지 않아야하는 것이 있으면 페이지는 일종의 인증 뒤에 있어야합니다.

— 미스터 화이트
소스

명심해야 할 것은 이것이 실제로 기밀 인 경우 URL을 사용하여 "숨기는"것은 선택한 방법에 관계없이 나쁜 습관입니다. 그런 경우에는 적절한 인증을 사용하는 것이 매우 중요합니다.

— John Mueller

1

또한 소셜 미디어 버튼 (좋아요 / 공유 / + 1 / 다양한 북마크)은 콘텐츠를 가져 와서 URL에 색인이 없거나 (또는 로봇이 허용하지 않는 경우에도) URL, 제목 및 스 니펫을 공개적으로 표시 할 수 있습니다. .txt). 이를 방지하는 유일한 방법은 인증을 사용하는 것입니다.

— John Mueller

2

글쎄, 당신은 robots.txt를 읽고 지시를 따르는 좋은 크롤러가 있다고 생각합니다. 그리고 지시를 따르지 않는 다른 것.

이 URL을 어떻게 제공 할 계획입니까? 이메일로 Facebook이나 Twitter를 사용하십니까? 이러한 모든 서비스는 귀하가 전송하는 정보를 크롤링합니다. Gmail은 광고를 제공하기 위해 귀하가받는 이메일을 파싱합니다. 따라서 URL이 어떻게 든 크롤링됩니다.

어떤 사람들은 Google 툴바 (또는 검색 엔진의 다른 툴바)를 사용합니다. 툴바가 방문한 모든 URL을 Google에 보낼 수 있도록하는 옵션 (기본적으로 잘 기억되어있는 경우 선택)이 있습니다. Google이 숨겨진 웹을 볼 수있는 다른 방법입니다. 따라서 URL을 공유하지 말라고 상대방에게 말하더라도 암시 적으로 그 / 그녀는 할 것입니다 (도구 모음 덕분에).

우리는 다른 많은 가능성을 찾을 수 있다고 생각합니다.

~~따라서 robots.txt에 추가 할 수 있지만 noindex, nofollow 등과 같은 추가 메타를 제공 할 수도 있습니다.~~

편집하다:

robots.txt에 대한 w3d의 제안은 나에게 좋을 것 같습니다. 따라서 robots.txt에 추가하지 말고 propre 메타 태그를 제공하십시오.

— j0k
소스

이메일을 통해 연결하고 있습니다. 예, 적절한 메타를 제공 할 계획이었습니다. 따라서 로봇에 추가하거나하지 않는 것이 좋습니다. 감사합니다

— martjno

robots.txt에 추가하는 것이 좋습니다. 그러나 w3d의 제안은 내 마음을 바꿨습니다. 추가하지 말고 적절한 메타 태그를 제공하십시오.

— j0k

0

위의 의견 외에도 HTACCESS 인증도 최소한으로 추천합니다. 개인에게 자격 기간 동안 사용자 이름 / 암호 조합을 제공하여 페이지를 볼 수 있도록합니다.

개인 정보 보호 문제가있는 경우 적절한 로그인 제어 스크립트를 고려해야합니다.

숨겨지지 않은 페이지 (숨겨져 있다고 생각 되더라도)는 야생 페이지로 만듭니다.

— 앤드류
소스