괜찮아. 이것은 프로세스가 더 명확 해지도록 프로세스를 진행하는 경우 중 하나입니다. 다소 길지만 고통스럽게 길지 않을 것입니다.
처음부터 시작할까요?
1997 년 Brin과 Page의 연구 논문을 기반으로 Google이 원래 어떻게 작동하는지에 대해 알고있는 것부터 오늘날까지도 여전히 가능성이 높은 것들을 알고 있습니다.
Google의 색인 및 가져 오기 대기열에 URL이 있으며 페이지를 가져옵니다. 페이지의 코드는 다양한 형태의 처리를 위해 데이터베이스 내에 저장됩니다. 프로세스 중 하나는 새 링크를 찾는 것입니다. Google에서 찾은 모든 링크는 링크 인덱스 (있는 경우)에 먼저 위치합니다. 그렇지 않으면 링크가 링크 테이블에 추가되고 페치 큐에 추가됩니다.
링크 테이블 내의 모든 링크에는 최소한 이러한 요소, 링크 URL, 소스 URL 및 링크 텍스트가 있습니다. 다른 데이터 요소가있을 가능성이 있지만 논의를 진행 시키지는 않습니다. 링크 테이블에 추가 된 모든 링크는 소스 URL을 확인했지만 반드시 대상 URL은 아닙니다. 관계형 데이터베이스를 예로 사용하면 소스 및 대상 URL은 URL 테이블 내의 URL ID 일 수 있으며 조인 테이블은 링크 테이블 소스 URL 및 대상 URL 요소를 ID를 사용하여 URL 테이블로 다시 결합합니다. 혼란 스러운가? 하지마
대상 페이지를 가져 오지 않은 경우 링크 테이블 내의 링크는 매달려있는 링크라고합니다. 페이지가 페치되면 링크 테이블 내의 링크가 완료됩니다. 대상 페이지가 존재하지 않으면 링크 테이블 내의 링크가 끊어진 링크입니다. 단순한?
완전한 링크 만 가치를 전달할 수 있습니다. PageRank 알고리즘은 값을 계산하기 위해 완전한 링크가 필요합니다. 매달린 링크와 끊어진 링크는 링크를 사용한 계산을 중지합니다. 이전에는 PR은 모든 링크에 조정할 수있는 값이 너무 작아서 효과적으로 차이를 만들지 않을 때까지 링크 테이블을 사용하여 링크 값을 반복해서 계산하는 재귀 프로세스였습니다. 이것이 여전히 하우스 키핑 프로세스로 발생한다고 확신합니다. 그러나 오늘날 PR은 한 페이지에서 다른 페이지까지의 거리를 상대적으로 중요하게 측정하는 네트워크의 홉과 유사한 다른 방법을 사용하여 계산됩니다. 원본 PageRank 모델이 에뮬레이트되도록 설계된 트러스트 네트워크 모델을 기반으로합니다. 링크는 한 엔티티에서 다른 엔티티로의 신뢰 투표입니다. 이보다 더 복잡해 지지만 당신은 그림을 얻는다. 정확도는 떨어지지 만 정확하기는하지만보다 실시간 계산을 사용하여 재귀 프로세스와 동일한 작업을 효과적으로 수행합니다. 트러스트가 설정되지 않은 경우 트러스트 네트워크 모델을 사용하는 트러스트 값을 전달할 수 없으므로 완전한 링크가 필요합니다. 링크는 신뢰 투표 또는 신뢰 네트워크 모델의 링크입니다. PageRank는 트러스트 네트워크에서 트러스트 값으로 표시됩니다.
이제 링크와 링크의 중요성을 이해 했으므로 계속 진행하겠습니다.
검색 엔진의 경우 URL을 제거하는 것은 의미가 없습니다. URL이 URL 테이블에 존재하지 않으면 URL에 대해 아무것도 알 수 없으며 손실 될 수 있습니다. URL이 더 이상 존재하지 않는 경우와 같이 의미가없는 한 URL은 일반적으로 삭제되지 않을 수 있습니다. 그러나 페이지가 NOINDEX로 설정되면 검색 엔진에 명시 적으로 페이지를 색인화하지 않도록 지시했습니다. 색인 내의 웹 페이지는 URL과 HTML 소스 코드의 두 가지로 구성되므로 NOINDEX는이 시점에서 페이지를 효과적으로 제거합니다. NOINDEX 페이지에 대한 링크가 적어도 매달려 있습니다.
이제 색인이 생성 된 페이지가 어떤 모양인지 알았으므로 계속 진행하겠습니다.
검색 엔진이 웹 페이지 나 사이트에 불이익을주는 방법에는 여러 가지가 있습니다. 하나는 상장 폐지입니다. 이것은 모든 형벌 중 가장 심하며 회복하는 데 오랜 시간이 걸립니다. 이 페널티 카테고리는 페이지를 찾을 수없고 찾을 수 없기 때문에 증명할 수 있습니다. 또한 Google 검색 콘솔은 페이지가 목록에서 해제되고 있음을 알려줍니다. 나머지 페널티 중 페널티는 SERP 필터에 적용됩니다.
검색 쿼리가 수행되면 실제로 한 번에 인덱스에 대한 여러 쿼리가 있으며 알고리즘의 일부를 기반으로 결과 집합으로 혼합됩니다. 우리가 종종 단일 엔티티라고 부르는 나머지 알고리즘은 비교적 간단한 일련의 SERP 알고리즘입니다. 기본 알고리즘은 추세와 같은 더 많은 실시간 메트릭을 기반으로 결과 집합을 재정렬합니다. 알고리즘 중에서 결과 집합에서 항목을 제거하거나 결과 집합 내의 항목 배치를 심각하게 다운 그레이드하는 알고리즘을 필터라고합니다. 적용되는 것은 DMCA를 처리하는 필터입니다....we have removed 1 result(s) from this page...
이제 처벌이 어떻게 적용되는지, 이제 링크, PR 및 DMCA 필터가 연결되어 있는지 알았습니다.
이를 통해 필터가 적용되었음을 알 수 있지만 PageRank가 계산되는 방식 인 링크 색인과는 아무런 관련이 없습니다. 가능한 한 링크 / PR 프로세스에서 제거됩니다. 링크 및 PR은 색인 작성 프로세스의 시작 부분에있는 반면 DMCA 불이익을받는 페이지를 제거하는 것은 조회 프로세스의 끝 부분에 있습니다. 실제로 이들은 완전히 분리 된 두 개의 엔진입니다. 따라서 DMCA 불만으로 인해 페이지가 제거 될 수 있지만 실제로는 인덱스에서 제거되지 않으므로 페이지와의 링크는 계속 계산됩니다.
진흙처럼 맑습니까? 나는 이것을 잘 설명하기를 바랍니다. 내가 당신을 위해 무언가를 명확히 할 수 있는지 알려주십시오
[최신 정보]
OP의 시나리오에 적용되지 않는 예외입니다.
@StephenOstermiller는 위의 내용을 손상시키지 않는 좋은 점을 제시하지만 완성도를 높이기 위해 추가하고 싶습니다.
아시다시피 검색에서 사이트 나 페이지의 점수를 매기는 데는 많은 요소가 필요합니다. 이것은 당신이 상상하는 것만 큼 기술적이거나 신비적이지는 않지만 여전히 무게를 측정하는 많은 요소입니다. 신뢰 점수가 OP의 경우에는 적용되지 않았기 때문에 신뢰 점수의 영향을 잊었습니다. 여기에 추가하겠습니다.
스팸 사이트와 같이 좋지 않은 사이트도 있습니다. 이 사이트 분류에는 저작권 콘텐츠를 습관적으로 남용하는 사이트가 있습니다. 이것은 몇 년 전 콘텐츠 스크레이퍼가 귀하의 노력으로 사이트를 구축 할 수있는 큰 문제였습니다. 오랫동안 아무 것도하지 않았다. 원본 콘텐츠가있는 사이트는 스크래퍼 사이트에서 상당히 일관되게 손실됩니다. 난 알아야 겠어. 나는 PR 8 사이트가 두 개 있었는데 이는 전혀 의지가없는 스크레이퍼 사이트로 인해 거의 모든 트래픽을 잃었습니다.
그러나 상황이 바뀌 었습니다. 그리고 중대한 변화가 시작된 지 약 4 년이 지났습니다.
이러한 특수한 사이트 분류의 경우 사이트 신뢰 점수를 크게 줄일 수 있습니다. 이것은 잘 알려져 있습니다. 신뢰 점수를 재 구축하는 데 몇 년이 걸리며 일부 사이트에서는 이런 일이 발생하지 않을 수 있습니다. 예를 들어, 도메인 수익 창출 도구가 동일한 남용을 위해 수십만 건의 사이트를 철저히 폐기하려고한다고 생각하는 이유는 무엇입니까? 현실은 도메인이 구속 이상의 가치를 망칠 수 있기 때문입니다.
신뢰를 설정하는 데는 여러 가지 요소가 있습니다. 나는 여기에 들어 가지 않을 것입니다. 그러나 신뢰는 모든 사이트의 순위를 결정하는 주요 구성 요소입니다.
즉, DMCA를 심각하게 위반 한 사이트는 상당히 광범위한 실적을 보유하고 있기 때문에 신뢰 점수가 크게 떨어질 것입니다. 이것은 OP가 설명하는 시나리오가 아닙니다. 그러나 여기서 가정하는 시나리오입니다.
링크와 PageRank 설정에는 둘 이상의 구성 요소가 있습니다. 하나는 페이지 자체의 PageRank (권한)입니다. 권위있는 페이지의 경우 권한 한도가 있습니다. PR 8 페이지는 해당 페이지의 링크간에 8 값을 공유하지 않습니다. 이것은 PR에보다 자연스러운 곡선을 적용하기위한 원래 PageRank 알고리즘의 일부입니다. 그렇지 않으면 오랜 시간이 지난 후에도 새 페이지가 권한이 높은 페이지와 경쟁하는 것이 거의 불가능합니다. 링크 자체의 가치는 링크 텍스트의 시맨틱 값, 링크 URL, 링크의 위치 (확대), 해당되는 경우 링크를 포함하는 컨텐츠 블록의 시맨틱 값 등을 포함한 여러 요소를 사용하여 점수가 매겨집니다. 모든 링크 점수는 0에서 .9 사이입니다. 권한 및 링크 점수의 계산은 모든 링크가 전달한 값입니다.
잘하고 좋아. 그렇다면 이것이 DMCA의 중대한 위반자 인 사이트에 어떤 영향을 미칩니 까?
링크 값은 소스 사이트에서 가져 오기 때문에 인바운드 링크의 값이 대상 사이트의 신뢰 점수에 의해 반드시 영향을받는 것은 아닙니다. 그러나 모든 아웃 바운드 링크가있을 수 있습니다. 상당한 DMCA 가해자 인 사이트의 권한은 신뢰 점수에 의해 영향을받습니다. 결국 권위는 신뢰에서 비롯됩니다. 따라서이 방법으로 인바운드 링크의 값은 신뢰 점수에 따라 저하되지 않고 아웃 바운드 링크를 통해 전달되지 않습니다.
이것은 대답을 다소 변경합니다.
OP의 시나리오에는 적용되지 않지만 DMCA 위반으로 인바운드 링크 값이 사이트를 완전히 통과하지 않는 시나리오가 있습니다. 그러나 이것은 어려운 경우이므로이 문제가 발생하기 전의 임계 값은 중요합니다.