첫 페이지에 Google에 수천 개의 결과가 있지만 마지막 페이지에 100 개 미만의 결과가 나오는 이유는 무엇입니까?


11

첫 페이지에 Google에 수천 개의 결과가 있지만 마지막 페이지에 100 개 미만의 결과가 나오는 이유는 무엇입니까?

그것은 재귀 적 인 Google 검색 의 일종이며 설명이 필요합니다. 문장을 조정하고 정확하게 해당 숫자를 찾으려고하는 데 시간이 걸렸습니다 . 대신 " 수백 "으로 바꿨습니다 . :피

Google을 오랫동안 사용했다면 이와 비슷한 상황이 여러 번 발생했을 것입니다. 10 페이지 미만으로 표시 될 때마다 쉽게 볼 수 있습니다. 요점은 다음 결과 수마지막 하나를 제외한 모든 페이지 는 A 보인다 끔찍한 추정 .

더 이상한 점은, 임의의 임의의 시간 추정치가 마지막 페이지보다 모든 페이지에서 갑자기 훨씬 나아지고 거의 동일하게되는 것입니다. 항상 정확한 유일한 페이지입니다.

그래서 왜 그런지 아는 사람이 있습니까?


1
현재 검색에 대한 1 페이지에 3200 개의 결과가 표시되지만 마지막 페이지에 75 (업데이트에 관심이있는 사람들)에 표시됩니다
dkuntz2

@DKuntz (로그인하는 동안)는 2990과 65입니다 (내가 처음 로그인 한 방법). 3120과 77로 바뀝니다. 나중에 질문을 약간 변경하고 빌드합니다. 보다 일관된 재귀 쿼리를 작성하지만 누구나 수행 할 수 있습니다. : P
cregox

구글은 이상하다.
dkuntz2

내 결과는 항상 4 페이지 또는 22 페이지이든 마지막 페이지에 208 개의 결과를 표시하고 항상 208을 표시합니다.
mchid

답변:


6

나는 정확한 답변을 모른다. 아마도 구글 이외의 사람은 모른다. 그러나 유용한 두 가지 데이터 요소가 있습니다.

첫 번째는 XKCD의 문제입니다.

따라서 구글이 분명히 "나사"라고 말하고 거대한 숫자를 버리는 것 이상의 결과 볼륨 임계 값이있는 것처럼 보입니다. 나는 이것이 의도적 인기만 이라기보다는 무능함으로 인한 것이라고 생각한다. 많은 소스에서 빠르게 페이지를 생성하는 것이 어려우며 결과가 많은 검색의 경우 모든 페이지를 동기화 할 시간이 없습니다. 그래서 그들은 숫자를 퍼지합니다. 이것이 그들이하는 것보다 더 많은 결과를 갖는 것처럼 보이게 만드는 것은 아마도 의도하지 않은 보너스 일 것입니다.

두 번째 데이터 포인트는 내가 문제에 대해 매우 궁금해하고 Google의 일부 친구를 괴롭힌 컴퓨터 과학 교수의 것입니다. 그들은 검색 결과가 실제로 얼마나 많은 결과를 반환했는지 알아내는 데 비용이 많이 들기 때문에 대부분의 사람들이 관심을 갖는 최상의 결과를 첫 번째 페이지로 반환합니다. 실제로 페이지를 드릴 다운하기 시작할 때만 Google은 나머지 페이지를 완전히 계산하지 않습니다.

따라서 이들 중 어느 것도 결정적인 답은 아니지만 Google의 부정확성을 유발할 수있는 문제의 종류를 설명하는 데 유용 할 것입니다.

편집하다:

이 페이지 에 대한 Sathya의 답변 은 Google 웹 마스터 KB의 답변입니다 .

검색을 수행하면 결과가 XXXX에 대한 결과 1-10과 함께 종종 표시됩니다.

총 검색 결과 수에 대한 Google의 계산은 추정치입니다. 우리는 야구장 수치가 가치가 있다는 것을 이해하고 정확한 계정이 아닌 견적을 제공함으로써 양질의 검색 결과를 더 빨리 반환 할 수 있습니다.

또한 다음 검색 결과 페이지를 클릭하면 총 검색 결과 수가 변경 될 수 있습니다. 이 경우 쿼리 결과 중 일부가 중복 된 것으로 알고 있으며, 중복 된 결과를 축소하여 원하는 특정 결과를보다 쉽게 ​​찾을 수 있습니다. 복제본을 축소하면 예상 결과 수와 전체 결과 페이지 수가 줄어 듭니다.


XKCD와 전직 선생들을 사랑하지만, 당신이 말하는 것은 아마도 stackoverflow.com에서이 질문을해야한다는 것입니다. : P
cregox

나는 stackoverflow의 누군가가 확실한 대답을 할 것이라고 생각하지 않습니다. 정말로 알아야 할 경우 Google에 문의해야합니다. 몇 달 전에 Google에 요청한 사람의 답변 만 전달할 수 있습니다.
dsolimano

결정적인 답을 찾지 않고, 합리적이고 깊이있는 설명을하는 것, 바람직하게는 좋은 출처를 찾는 것. 나 자신을 합리적으로 틀리지 말아라. 그러나 그것이 어렵고 권위가 있지만 "어려워서"라고 말하는 것은 나에게 너무 작다. 흠 ... 아마도 회의론자
.se

좋은 편집, 이제 좋은 소싱입니다! "어려워서"여전히 말하고 있지만, 여전히 자세한 내용을 기대하고 있습니다. : P
cregox

7

아니요-숫자는 근사치 입니다.

검색을 수행하면 결과가 XXXX에 대한 결과 1-10과 함께 종종 표시됩니다.

총 검색 결과 수에 대한 Google의 계산은 추정치입니다. 우리는 야구장 수치가 가치가 있다는 것을 이해하고 정확한 계정이 아닌 견적을 제공함으로써 양질의 검색 결과를 더 빨리 반환 할 수 있습니다.

또한 다음 검색 결과 페이지를 클릭하면 총 검색 결과 수가 변경 될 수 있습니다. 이 경우 쿼리 결과 중 일부가 중복 된 것으로 알고 있으며, 중복 된 결과를 축소하여 원하는 특정 결과를보다 쉽게 ​​찾을 수 있습니다. 복제본을 축소하면 예상 결과 수와 전체 결과 페이지 수가 줄어 듭니다.


항상 결과 수를 1000 개 이하로 제한하면 이것이 좋은 행동이 아니라고 생각합니다. 사용자가 더 많이 원할 경우 더 많이 보여야합니다. 내 관점에서 볼 때 일부 일반적인 키워드는 실제로 많은 양의 검색 결과 (예 : 꽃, 책 ...)를 반환해야하며 인터넷에는 수많은 그림이 존재한다고 생각합니다!

@ user11656 귀하는 Google 이미지 검색이 사용중인 표준 앱에서의 검색과 동일한 방식으로 작동한다고 가정합니다. 일반적으로 사물 은 그 규모에서 매우 다르게 작동 합니다. 호주의 서버 인 "꽃과 일치하는 모든 이미지"에 대한 단일 답변은 아직 미국의 서버로 아직 전파되지 않은 이미지를 업로드했을 수 있습니다. 그런 다음 복제본을 표시하는 방법 및 수백만 명의 사용자가 수백만의 이미지를 통해 즉시 모든 작업을 수행하는 방법과 같은 작업을 처리해야합니다. 어려운 일이므로 아키텍처를 타협해야합니다.
George Mauer

3

Google 결과 개수는 의미가 없습니다 . 이외에도 중복의 붕괴, 당신은 또한 계수가 곱 주파수에 의해 처음에 계산하는 방법, 구글은 모자를 부과한다는 사실은, 형태소 분석 한 그 세트 것이다 결과의 최대 수를 지금까지 반환.


2

위의 답변 중 어느 것도 맞지 않습니다.

Google의 견적은 제공된 것보다 실제 수에 더 근접해야합니다.

간단한 예를 통해이를 알 수 있습니다. "Russia"또는 "michael"과 같이 다소 빈번한 단어를 선택하십시오. 실제로 인터넷에는 사이트에 해당 단어를 포함하는 웹 사이트가 수십만 개가 아니라 수천 개가 있어야합니다. 그러나 Google 결과는 700 만 제공 할 수 있습니다.

진실은 구글이 과대 평가하는 것이 아니라, 이제 구글이 제공 할 결과의 수를 크게 제한한다는 것입니다. 그것은 개인으로서의 우리의 주요 손해에 대한 결과를 심각하게 요약합니다. 어떤 경우에는 내 용어로 수천 개의 사이트를 읽고 싶기 때문에 불행합니다.

10 ~ 15 년 동안 Google을 오랫동안 사용해 왔기 때문에이 용어를 알고 있으며 일반적으로 동일한 용어를 사용하는 사이트의 수가 일반적으로 많아야하지만 일반적으로 용어의 결과는 더 짧아지고 더 짧아지지 않습니다. Google을 사용하는 시간이 늘어났습니다.

과거에는 몇 년 전에 일부 용어에 대해 1000 개의 결과를 얻을 수 있었지만 이제는 1000 개의 결과와 동일한 용어에 대해 500 개의 결과를 얻습니다.


2
"위의"는 몇 가지 다른 방식으로 정렬 될 수 있기 때문에 답변에 맥락이 없습니다. "투표"를 기준으로 기본 정렬을 가정하더라도 상향 및 하향 투표가 추가되면 위치가 변경됩니다.
ale

매우 흥미로운! 러시아는 지금 322 개의 결과 만 제공 하며 마지막 34 번째 페이지 에만 표시 됩니다 . 그때까지 799 000 000 결과를 말할 것입니다! 이것은 좋은 통찰력이지만 여전히 옳지 않은 것처럼 보입니다. 나는 첫 번째 추정치가 정확하다고 생각하지 않으며 의도는 "웹에 얼마나 많은 것으로 생각되는지"가 아니라 표시된 결과 만 가져 오는 것이므로 마지막 페이지를 수정합니다.
cregox

1

Google (이미지) 검색 엔진의 문제점은 분산을 제거하여 관련성을 목표로한다는 것입니다. 첫째, 작동 방식을 이해하는 것이 중요합니다. 인터넷에 업로드 된 이미지는 다음 두 가지 방법으로 색인을 생성해야합니다.

  • 독창성을 기반으로 (이미지는 색상, 크기, 패턴, 모양 인식, 유형 등에 따라 "스마트 봇"으로 분석됩니다)
  • 유사성 (이미지는 "스마트 봇 2"에 의해 분석되고 데이터베이스에 이미 존재하는 이미지와 상호 참조되며 하나 또는 두 개의 카테고리 레이블로 추가됩니다 : "이미지가 일치합니다"및 "이미지가 ... ")

인덱싱이 완료된 후 이미지는 인식 결과로 "키워드"를 상속하여 최종 사용자에게 주제를 벗어난 결과가 표시되지 않도록합니다. 문제는 각 키워드가 관련성에 따라 %로 지정된 값을 가진 독립형 문구라는 것입니다. 따라서 검색 창에 더 많은 단어를 그룹화하면 결과가 줄어들고 이미지를 업로드하거나 URL을 입력하여 이미지를 검색 할 때 Google 상위 키워드만으로 "추측"을 할당합니다. 즉, 검색이 그렇게 설계되지 않았기 때문에 검색에 모든 사진이 표시되지는 않습니다.)

따라서 하루 종일 이미지 검색을 수행하고 검색 창 바로 아래에 "25,270,000,000 개의 결과 (0.55 초)"라는 엄청난 숫자가 표시됩니다. 200 이상 (최대 500이지만 사용자가 요청한 후에 만) 결과는 제외되도록 필터링됩니다.

  • 외부 복제본 (같은 이미지가 같은 사이트 페이지에서 2 회 이상인 경우)
  • 관련성 중복 ( "최상의 결과"만 표시-아래 이미지 참조)
  • 법에 문제가있는 이미지 (아래 이미지 참조)
  • DMCA를 위반하는 이미지 (아래 이미지 참조)
  • 스팸, 멀웨어, 피싱 소스에서 나오는 이미지
  • 숨겨진 이미지 (사용자가 세이프 서치를 사용 중지하지 않은 경우)
  • Google이 블랙리스트에 올린 이미지 ( 기사 )
  • AR이 다른 이미지 (기본적으로 이미지 검색 참조와 다른 종횡비를 갖는 모든 이미지). 예를 들어 선택한 이미지로 검색하면 원하는 결과를 모두 놓칠 수 있습니다. Google의 비율은 3 : 4입니다.이 검색 엔진의 가장 큰 단점은 항상 첫 번째 기준으로 가로 세로 비율을 준수하기 때문입니다)
  • 그리고 더 많은

요약하자면, 이미지의 검색 결과는 전혀 관련이 없습니다. 때로는 "게이트 포스터"라는 검색 문구를 사용하여 원하는 최종 결과를 얻을 수 있습니다. 그렇지 않으면 "게이트 커버", "게이트 블러이", "게이트 DVD", "게이트 2015"또는 "自衛隊 彼 の 地 に て 斯 く 戦え り "-"ALL "이미지 결과를 얻을 수 없습니다."ALL "이라는 것이 없기 때문에 이미지를 가지고 놀아야 할 이유가 있습니다. 또한 다른 표준과 기준에서 작동하기 때문에 다른 방식으로 작업을 수행 할 수있는 다른 이미지 검색 엔진이 있다는 점도 언급과 관련이 있습니다. "Google"전용이 아니며 결코 아닙니다 ... >> https://www.yandex.com/images/

주목할만한 확장 프로그램 :


다시, 이것을 중복으로 표시하면 각 질문에 대한 답변을 게시하는 것보다 훨씬 도움이됩니다.
jonsca

0

맨 위에 7000 개의 결과 중 70 페이지가 표시됩니다 (예). 페이지 번호와 결과 수를 제공합니다. 결과는 70 개가 아니라 70 페이지입니다. 도움이 되었기를 바랍니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.