이 질문에 대한 답을 이런 식으로 연구했습니다. 이것은 내가 가지고있는 예제이기 때문에 Google을 사용하는 방법, Google이 생성 날짜 및 수정 날짜를 얻는 방법 및 Google이 인식하는 날짜 형식입니다. 이 정보는 단지 몇 페이지에 존재하지 않으며 직접 적용하지 않고 결합하지 않는 많은 소스에서 데이터를 추출해야한다는 점을 이해하십시오. 경우에 따라 정보가 여러 소스에서 파생되어 항상 할당 가능한 것은 아닙니다.
Google은이 순서대로 페이지 날짜를 찾습니다. Google 검색 어플라이언스와 관련이있는 한 URL, 제목 태그, 본문 (콘텐츠), 메타 태그, HTTP 응답 헤더 다른 문서의 다른 단락에서는 주문이 문서화되지 않았지만 목록이 논의되어 목록을 확인하는 것처럼 보였습니다. 당신이 그것에 대해 생각한다면, 이것은 검색 엔진의 순서를 반영합니다. 하나는 페이지 (링크)를 발견하고 두 개는 메타 태그 (작은 세부 사항) 및 HTTP 응답 헤더를 제외하고 페이지를 위에서 아래 (제목, 본문 및 메타 태그)로 읽습니다. 어플라이언스와 관련된 목록은 다음과 같습니다.https://developers.google.com/search-appliance/documentation/68/admin_crawl/Preparing#docdaterule
참고 : 시작 날짜는 Google이 페이지를 처음 요청한 날짜입니다. 작성 날짜가 없으면 시작 날짜가 사용됩니다.
1] 모든 검색 엔진은 HTTP GET 요청을 통해 리소스를 요청할 수 있으며 웹 서버는 데이터 패킷 내의 리소스와 함께 응답 헤더 내의 마지막 수정 날짜를 반환합니다.
2] 모든 검색 엔진은 HTTP HEAD 요청을 통해 리소스의 헤더 정보를 요청할 수 있으며 웹 서버는 데이터 패킷 내의 리소스없이 응답 헤더 내에서 수정 된 날짜를 반환합니다.
3] 모든 검색 엔진은 if-modified-since가 날짜로 설정된 HTTP GET을 가진 리소스를 요청하여 특정 날짜 이후에 리소스가 수정되었는지 요청할 수 있습니다. 설정된 날짜 이후에 리소스가 수정 된 경우 웹 서버는 200 Ok 응답으로 응답하고 리소스를 반환하거나 설정된 날짜 이후로 리소스가 수정되지 않은 경우 리소스를 반환하지 않고 304 Not Modified로 응답합니다. .
Google은 대역폭 절약을 위해 방법 3을 사용하여 많은 요청을합니다. 웹 서버 로그 파일에이 내용이 표시됩니다.
참고 : CMS (콘텐츠 관리 시스템) 또는 기타 소프트웨어는 응답 헤더 내에 날짜를 적절하게 제공 할 수 없습니다.
이 날짜 예제는 Google 어플라이언스 설명서에서도 제공되지만 일반적인 검색과 관련된 다른 곳에도 있습니다. 다른 곳에서는 깔끔하지 않은 목록으로 잘라 붙여 넣을 수 있기 때문에 어플라이언스 설명서에서 이러한 세부 정보를 가져 왔습니다.
4] Google은 URL에서 날짜를 찾습니다. 다음 형식을 찾습니다. YYYMMDDHH-YYYY-YYYYMM.
5] Google은 제목 태그 내에서 날짜를 찾습니다. 다음 형식을 찾습니다. 다른 형식을 인식 할 수 있지만 YYYMMDDHH-YYYY-YYYYMM입니다. 아래를 참조하십시오.
6] Google은 본문 태그 (콘텐츠) 내에서 날짜를 찾습니다. 다음 형식을 찾습니다. YYYMMDDHH-YYYYMMDD-YYYYMM-YYYY-DDMMYYYY-YYMMMDD-MMDDYYYY-YYMMDD-DDMMYY-MMDDYY 다른 형식을 인식 할 수 있습니다. 아래를 참조하십시오.
참고 : Google은 첫 번째 H1
태그 바로 아래의 날짜를 구체적으로 찾습니다 . 블로그가 종종이 위치에 날짜를 입력하기 때문입니다.
7] Google은 이와 같은 메타 태그를 찾습니다. <meta http-equiv="last-modified" content="YYYY-MM-DD@hh:mm:ss TMZ" />
Google은 또한 다음 날짜 형식을 인식한다고합니다.
YYYY-MD-YYYY.MD-YYYY / M / D-MD-YYYY-MDYYYY-M / D / YYYY-YY-MM-DD-YY.MM.DD-YY / MM / DD-WK, D MON, YR -WK, MON D, YR-D MON, YR-MON YYYY-MON D, YR-MON YY-YYYY-DM-YYYY.DM-YYYY / D / M-DM-YYYY-DMYYYY-D / M / YYYY- DD-MM-YY-MM-DD-YY-DD / MM / YY-MM / DD / YY-YYYYMMDDHH-YYYYMMDD-YYYYMM-YYYY-DDMMYYYY-MMDDYYYY-YYMMDD-DDMMYY-MMDDYY
내가 찾은 연구는 시간 문제에 답하지 못했습니다.
인용 된 예의 경우, 페이지는 무시 될 수있는 스팬 태그를 제외하고는 날짜 힌트를 제공하지 않습니다. SE 소프트웨어 / 웹 서버는 응답 헤더 내에서 작성 및 수정 날짜를 리턴 할 수 없습니다.
Google이이 날짜를 도출 한 이유와 방법은 해결할 수없는 좋은 질문입니다. 그러나 나는 계속 볼 것이다.