글쎄, 문제를 해결하는 것이 MapReduce인지 확실하지 않지만 제기 한 모든 질문을 해결하기 위해 MapReduce만으로는 아닙니다. 그러나 여기에서 고려해야 할 중요한 일이 있고, 그것을 만드는 것이 가능한 다른 컴퓨터에있는 데이터의 이러한 TB의 모든에서 쿼리에 낮은 지연 시간을 가지고 :
- 분산 컴퓨팅 : 분산되었다고해서 인덱스가 단순히 다른 머신에 분산되어 있다는 것을 의미하는 것은 아니며, 실제로는 서로 다른 클러스터를 따라 복제되므로 많은 사용자가 낮은 검색 시간으로 다른 쿼리를 수행 할 수 있습니다. 기계);
- 캐싱 : 캐시는 크롤링 단계, 페이지 검색 또는 결과 순위 및 표시를 위해 실행 시간을 엄청나게 단축합니다.
- 많은 조정 : 위의 모든 매우 효율적인 알고리즘 / 솔루션은 구현이 효율적인 경우에만 효과적 일 수 있습니다. 참조, 압축, 캐싱의 지역 성과 같은 수많은 (하드 코딩 된) 최적화가 있습니다. 이들 모두는 일반적으로 처리의 다른 부분에 적용 할 수 있습니다.
이를 고려하여 질문을 해결하십시오.
하지만 가능한 모든 단일 쿼리의 결과를 색인화하는 것이 불가능하다고 생각합니다.
그렇습니다. 실제로 가능한 모든 단일 쿼리에 대해 결과를 얻는 것은 불가능 합니다 . 세계에는 무한한 수의 용어가 있으며 (올바른 철자 만 입력한다고 가정하더라도)이 n -> inf
용어에 대한 지수 쿼리 수가 있습니다 ( 2^n
). 그래서 무엇을해야합니까? 캐싱. 그러나 쿼리 / 결과가 너무 많은 경우 캐시 할 쿼리 / 결과는 무엇입니까? 캐싱 정책. 가장 빈번한 / 인기있는 / 사용자와 관련된 쿼리는 캐시 된 것입니다.
Google 하드웨어의 하드웨어 대기 시간이 크지 않습니까? Google의 데이터가 모두 TB / s SSD에 저장된 경우에도
오늘날 고도로 발전된 프로세서를 사용하는 사람들은 1 초 이내에 완료해야하고 많은 양의 데이터를 처리하는 모든 가능한 작업을 여러 개의 코어와 많은 메모리를 가진 매우 강력한 프로세서로 처리해야한다고 생각하는 경향이 있습니다. 그러나 시장을 지배 하는 한 가지는 돈이며, 투자자들은 돈 낭비에 관심이 없습니다. 그래서 무엇을해야합니까?
실제로는 단순 / 액세스 가능한 (비용면에서) 프로세서를 사용하는 많은 머신을 선호하는 경우가 많으며, 이로 인해 다수의 클러스터를 구축하는 가격이 낮아집니다. 그리고 그렇습니다. 간단한 성능 측정을 고려하면 기본 병목 현상은 항상 디스크로 귀결됩니다 . 그러나 시스템이 너무 많으면 하드 디스크에서 작업하는 대신 주 메모리에 작업을로드 할 수 있습니다.
메모리 카드는 비싼 우리, 단순한 인간 존재에 대한,하지만 그들은 한 번에 같은 카드를 많이 구매 기업을위한 매우 저렴합니다. 비용이 많이 들지 않기 때문에 인덱스를로드하고 캐시를 유지하는 데 필요한 메모리가 많은 것은 문제가되지 않습니다. 또한 컴퓨터가 너무 많기 때문에 쿼리를 다른 장소로 보낼 수 있고 특정 지역 에 참석하는 컴퓨터 클러스터를 가질 수 있으므로 초고속 프로세서가 필요하지 않으므로 보다 전문적인 데이터 캐싱 및 더 나은 응답이 가능합니다. 타임스.
MapReduce가이 문제를 해결하는 데 도움이됩니까?
MapReduce를 사용하거나 사용하지 않는 것이 Google 내부의 제한된 정보라고 생각하지는 않지만이 시점에 대해서는 잘 모릅니다. 그러나 Google의 MapReduce 구현 (확실히 Hadoop 은 아님 )에는 위에서 설명한 측면과 관련된 많은 최적화가 필요합니다. 따라서 MapReduce의 아키텍처는 계산이 실제로 분산되는 방법을 안내하는 데 도움이되지만 쿼리 시간에서 이러한 속도를 정당화하기 위해 고려해야 할 다른 사항이 많이 있습니다.
좋아, 나는 인기있는 검색이 메모리에 캐시 될 수 있음을 이해합니다. 그러나 인기없는 검색은 어떻습니까?
아래 그래프 는 쿼리 종류 가 어떻게 발생 하는지를 보여줍니다 . 세 가지 주요 검색 유형이 있으며 각 검색 량의 약 1/3을 조회합니다 (곡선 아래 영역). 이 그림은 권력 법을 보여 주며, 작은 쿼리가 가장 많이 사용된다는 사실을 강화합니다. 쿼리의 두 번째 1/3은 단어가 적기 때문에 여전히 처리가 가능합니다. 그러나 일반적으로 경험이없는 사용자의 쿼리로 구성된 소위 모호한 쿼리 집합은 무시할 수있는 부분이 아닙니다.
그리고 새로운 솔루션을위한 공간이 있습니다. 하나 또는 두 개의 쿼리가 아니라 3 분의 1의 쿼리이므로 관련 결과 가 있어야합니다 . 당신이 뭔가에 입력하면 너무 모호 Google 검색, 그것은 결과의 목록을 반환하는 데 시간이 더 걸릴 수 없으나, 대부분의 아마 당신에게 뭔가 보여줄 것이다 추론 말하고자합니다. 또는 단순히 그러한 용어가 포함 된 문서가 없다고 말하거나 32 단어로 검색을 줄입니다 (여기서 무작위 테스트에서 나에게 발생했습니다).
수십 가지의 적용 가능한 휴리스틱이 있습니다. 일부 휴리스틱은 일부 단어를 무시하거나 쿼리를 작은 단어로 나누고 가장 인기있는 결과를 수집하려고 할 수 있습니다. 그리고 이러한 모든 솔루션은 실행 가능한 대기 시간 ( 예 : 1 초 미만) 을 고려하여 조정하고 조정할 수 있습니다 . :디