페이지가 몇 살인지 알려주는 방법은 무엇입니까?


15

누가 텍스트를 먼저 게시했는지 누가 복사했는지를 결정하는 데 Google이 다소 정확하다고 생각했습니다. 그러나 "검색 도구 : 사용자 정의 간격"을 사용하면 결과가 매우 이상합니다. 몇 년 동안 보유한 웹 사이트의 2002 년으로 거슬러 올라가는 페이지를 발견했습니다.

따라서 Google은 누가 원본을 복사했으며 누가 썼는지 정확하게 알 수 없습니다. 뭐가?

여기에 이미지 설명을 입력하십시오

stackexchange.com2009 년에 만들어 졌다면 어떻게 가능합니까? hermeneutics.se스택 오버플로보다 오래되었습니다!


다른 사람이 도메인 이름을 소유 했습니까? Google에서 비교중인 페이지는 무엇입니까?
closetnoc

SE 데이터로 질문을 업데이트했습니다. 타임 스탬프가 정확하지 않습니다.
Renan

2
와. 확실하지 않습니다. 나는 이것의 메커니즘을 정상적으로 이해하지만 Google 이하는 일은 여전히 ​​미스터리입니다. 인터넷에서 Google이 날짜를 결정하는 방법에 대한 정보는 거의 없습니다. Google에서 얼마 전에 수정 날짜를 결정하는 방법에 대한 질문이있었습니다. 나는 약간의 연구를했고 거의 아무것도 없습니다. 아직도, 나는 다시 볼 것이다. 그러나 며칠이 걸릴 수 있습니다. CMS 소프트웨어 및 SE 코드는 Apache가 HTML 페이지에 대해 작성하는 날짜와 수정 날짜를 리턴하지 않습니다. 그리고 이것은 답이 될 수 있습니다.
closetnoc

Google 일 필요는 없지만 사용자가 표절하거나 표절하고 있는지 알고 싶습니다. = /
Renan

지금까지 Google이 HTML의 날짜 형식을 이해하지 못하는 것처럼 보이지만 결정적인 것은 아닙니다. 첫 번째 예제 페이지의 소스 코드는 Google에 명확한 날짜 힌트를 제공하지 않습니다. URL, 제목, 본문 (콘텐츠), 메타 태그, HTTP 응답의 마지막 수정 날짜 : HEAD 요청은 작성 날짜와 마지막 수정 날짜를 리턴합니다. 또한 if-modified-since가있는 GET은 200 Ok가있는 리소스를 반환하거나 304 Not Modified를 반환합니다. SE 코드는 이러한 코드를 반환하지 않을 수 있으며 URL, 제목, 컨텐츠 및 메타 태그 만 사용할 수 있습니다.
closetnoc

답변:


12

이 질문에 대한 답을 이런 식으로 연구했습니다. 이것은 내가 가지고있는 예제이기 때문에 Google을 사용하는 방법, Google이 생성 날짜 및 수정 날짜를 얻는 방법 및 Google이 인식하는 날짜 형식입니다. 이 정보는 단지 몇 페이지에 존재하지 않으며 직접 적용하지 않고 결합하지 않는 많은 소스에서 데이터를 추출해야한다는 점을 이해하십시오. 경우에 따라 정보가 여러 소스에서 파생되어 항상 할당 가능한 것은 아닙니다.

Google은이 순서대로 페이지 날짜를 찾습니다. Google 검색 어플라이언스와 관련이있는 한 URL, 제목 태그, 본문 (콘텐츠), 메타 태그, HTTP 응답 헤더 다른 문서의 다른 단락에서는 주문이 문서화되지 않았지만 목록이 논의되어 목록을 확인하는 것처럼 보였습니다. 당신이 그것에 대해 생각한다면, 이것은 검색 엔진의 순서를 반영합니다. 하나는 페이지 (링크)를 발견하고 두 개는 메타 태그 (작은 세부 사항) 및 HTTP 응답 헤더를 제외하고 페이지를 위에서 아래 (제목, 본문 및 메타 태그)로 읽습니다. 어플라이언스와 관련된 목록은 다음과 같습니다.https://developers.google.com/search-appliance/documentation/68/admin_crawl/Preparing#docdaterule

참고 : 시작 날짜는 Google이 페이지를 처음 요청한 날짜입니다. 작성 날짜가 없으면 시작 날짜가 사용됩니다.

1] 모든 검색 엔진은 HTTP GET 요청을 통해 리소스를 요청할 수 있으며 웹 서버는 데이터 패킷 내의 리소스와 함께 응답 헤더 내의 마지막 수정 날짜를 반환합니다.

2] 모든 검색 엔진은 HTTP HEAD 요청을 통해 리소스의 헤더 정보를 요청할 수 있으며 웹 서버는 데이터 패킷 내의 리소스없이 응답 헤더 내에서 수정 된 날짜를 반환합니다.

3] 모든 검색 엔진은 if-modified-since가 날짜로 설정된 HTTP GET을 가진 리소스를 요청하여 특정 날짜 이후에 리소스가 수정되었는지 요청할 수 있습니다. 설정된 날짜 이후에 리소스가 수정 된 경우 웹 서버는 200 Ok 응답으로 응답하고 리소스를 반환하거나 설정된 날짜 이후로 리소스가 수정되지 않은 경우 리소스를 반환하지 않고 304 Not Modified로 응답합니다. .

Google은 대역폭 절약을 위해 방법 3을 사용하여 많은 요청을합니다. 웹 서버 로그 파일에이 내용이 표시됩니다.

참고 : CMS (콘텐츠 관리 시스템) 또는 기타 소프트웨어는 응답 헤더 내에 날짜를 적절하게 제공 할 수 없습니다.

이 날짜 예제는 Google 어플라이언스 설명서에서도 제공되지만 일반적인 검색과 관련된 다른 곳에도 있습니다. 다른 곳에서는 깔끔하지 않은 목록으로 잘라 붙여 넣을 수 있기 때문에 어플라이언스 설명서에서 이러한 세부 정보를 가져 왔습니다.

4] Google은 URL에서 날짜를 찾습니다. 다음 형식을 찾습니다. YYYMMDDHH-YYYY-YYYYMM.

5] Google은 제목 태그 내에서 날짜를 찾습니다. 다음 형식을 찾습니다. 다른 형식을 인식 할 수 있지만 YYYMMDDHH-YYYY-YYYYMM입니다. 아래를 참조하십시오.

6] Google은 본문 태그 (콘텐츠) 내에서 날짜를 찾습니다. 다음 형식을 찾습니다. YYYMMDDHH-YYYYMMDD-YYYYMM-YYYY-DDMMYYYY-YYMMMDD-MMDDYYYY-YYMMDD-DDMMYY-MMDDYY 다른 형식을 인식 할 수 있습니다. 아래를 참조하십시오.

참고 : Google은 첫 번째 H1태그 바로 아래의 날짜를 구체적으로 찾습니다 . 블로그가 종종이 위치에 날짜를 입력하기 때문입니다.

7] Google은 이와 같은 메타 태그를 찾습니다. <meta http-equiv="last-modified" content="YYYY-MM-DD@hh:mm:ss TMZ" />

Google은 또한 다음 날짜 형식을 인식한다고합니다.

YYYY-MD-YYYY.MD-YYYY / M / D-MD-YYYY-MDYYYY-M / D / YYYY-YY-MM-DD-YY.MM.DD-YY / MM / DD-WK, D MON, YR -WK, MON D, YR-D MON, YR-MON YYYY-MON D, YR-MON YY-YYYY-DM-YYYY.DM-YYYY / D / M-DM-YYYY-DMYYYY-D / M / YYYY- DD-MM-YY-MM-DD-YY-DD / MM / YY-MM / DD / YY-YYYYMMDDHH-YYYYMMDD-YYYYMM-YYYY-DDMMYYYY-MMDDYYYY-YYMMDD-DDMMYY-MMDDYY

내가 찾은 연구는 시간 문제에 답하지 못했습니다.

인용 된 예의 경우, 페이지는 무시 될 수있는 스팬 태그를 제외하고는 날짜 힌트를 제공하지 않습니다. SE 소프트웨어 / 웹 서버는 응답 헤더 내에서 작성 및 수정 날짜를 리턴 할 수 없습니다.

Google이이 날짜를 도출 한 이유와 방법은 해결할 수없는 좋은 질문입니다. 그러나 나는 계속 볼 것이다.


3
"Google은 URL, 제목 태그, 본문 (콘텐츠), 메타 태그, HTTP 응답 헤더의 순서대로 페이지 날짜를 찾습니다"에 대한 참조가 있습니까? 이 연구에 대한 숫자 나 통계가 있습니까? 여기에 게시 한 내용에 대한 참조를 게시 할 수 있다면 우리 모두에게 훨씬 좋습니다.
PatomaS

이 질문을 주셔서 감사합니다. 내가 찾은 것의 대부분은 비트와 조각이었습니다. 이 목록은 여러 곳에서 발견되었지만 주문은 Google 검색 어플라이언스의 설명서에서 발견되었으며 다른 곳에서는 단락으로 백업 된 것 같습니다. 나는 말 그대로 꽤 많은 시간이 걸린 수십 개의 문서를 보았습니다. 나는 이것에 대한 직접적인 정보가 없었기 때문에 다양한 출처의 데이터를 함께 모아야한다고 말하려고주의를 기울였습니다. 나는 문장을보다 명확하게하기 위해 편집 할 것이다.
closetnoc 2015 년

또한 일부 article.post > div.post-content > h2 > p수준에 포함 된 다음 날짜 형식 문자열 이 Google에 의해 최근에 선택되어 날짜를 표시하는 데 사용 되었음을 확인할 수 있습니다 . "최종 업데이트 : 2018 년 10 월 7 일"
Matt

-2

도메인이 몇 살인지 보려면 Google에서 wayback machine을 검색하십시오 . 이 사이트는 당신이 찾고있는 것입니다 : http://archive.org/web/ .

표절을 감지하려면 다음 링크를 참조하십시오. http://copyscape.com/signup.php?pro=0&o=f

또한 Google에서 "표절 검사기"를 검색하십시오.

도움이 되었기를 바랍니다.


3
이와 관련하여 질문을 다시 읽어야합니다.
closetnoc

문제는 "페이지가 몇 살인지 알려주는 방법"입니다. 내 링크를 따라 가면 대답이 좋다는 것을 알 수 있습니다. 읽어 주셔서 감사합니다.
Pascut

3
당신은 질문을 읽고 있지 않습니다. 당신은 제목을 읽고 있습니다. 기계를 돌려주는 방식으로 질문에 대답하지 않습니다.
closetnoc

당신이 맞아요, 내 질문을 편집했습니다 ..
Pascut

1
웨이 백 머신은 도메인의 페이지를 추적합니다. 특정 페이지 간의 날짜를 비교하는 것은 유용하지 않습니다. 어느 것이 먼저 게시되었는지 알 수있는 정확한 방법을 찾고 있습니다.
Renan
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.