검색 엔진 바이어스를 감지하는 방법이 있습니까?

정보 게이트 키퍼로서 검색 엔진에 점점 더 의존하고 있지만, 검색 엔진이 결과 순위를 매기는데 사용하는 기준은 사용자에게 불투명합니다. 검색 결과 품질을 희생하여 관심을 끌기 위해 사용자의 결과가 어떤 식 으로든 편향되거나 변조되지 않도록하려면 어떻게해야합니까?

정부는 일상적으로 검색 공급자가 정치적으로 바람직하지 않은 웹 사이트의 순위를 제거하거나 낮추도록 요구합니다. 기업은 수익을 높이기 위해 특정 결과를 다른 업체보다 높이도록 제공자에게 비용을 지불 할 수 있습니다. 방화벽은 사용자에게 다시 전송되기 전에 결과에 방해가 될 수 있습니다.

표면에 표시되지 않을 수있는 순위 알고리즘에 대한 무해한 변경 사항조차도 편향된 것처럼 보이며 실제로는 실제 속성과 관련이없는 공통 속성을 공유하는 웹 사이트에 해를 끼치도록 설계 될 수 있습니다.

일정 기간 동안의 결과를 모니터링하고 일부 "숨겨진 변수"(정치적 제휴)가 웹 사이트 순위의 변화를 유발하는 요인인지 평가함으로써 검색 엔진 편견을 감지 할 수 있습니까?

교활한 공급자는 시간이 지남에 따라 대상 웹 사이트 (및 임의의 웹 사이트 및 사용자의주의를 산만하게하기 위해)의 순위가 점차 낮아질 수 있습니다. 공급자가 탐지하지 않고 바이어스를 도입 할 수있는 한계는 무엇입니까? 또는 의도적으로 결과를 생성하는 가중치 기반 순위 기준을 "데이터 스누핑"방식으로 선택하여 이러한 간섭을 항상 숨길 수 있습니다.

순위 기준이 공개되면이 중 어떤 것이 변경됩니까? 검색 엔진이 사용하는 기준을 오픈 소스해야합니까?

이것은 CDO와 같은 복잡한 금융 상품이 판매자에 의해 변조되었는지 여부를 감지하는 것이 가장 조밀 한 하위 그래프 문제를 해결하는 것과 동등한 지 여부를 상기시킵니다.

http://www.cs.princeton.edu/~rongge/derivative.pdf

감사!

ds.algorithms data-mining

— 한 d.
소스

이것은 멋진 질문이지만, 하나의 cstheory 관련 질문 만하도록하여 수정하겠습니다. 가장 명백한 것은 이것을 참조 요청으로 만들고 "이미 본 사람이 있습니까?"라고 묻는 것입니다. 아무도 모른다고 확신한다면 "이것은 공식적으로 어떻게 모델링 될 수 있을까?" 좋은 질문이 될 수 있습니다. 당신이 너무 많은 질문을 계속하고 있고, 그중 일부는 잠재적으로 비논리적 관련이있는 경우, "실제 질문이 아닌"것으로 닫힐 수 있습니다.

— Artem Kaznatcheev

순위 체계를 공개하면 스패머의 공격을받을 수 있습니다. 흥미로운 변형은 "순위에 상응하는 '공개 키'가 있습니까?"

— Suresh Venkat

@SureshVenkat는 "랭킹 체계를 공개적으로 공격 할 수있게합니다"라는 말은 <s> 보안 </ s>을 통해 모호함을 통한 편견을 암시하는 것처럼 들립니다.

— Artem Kaznatcheev

아니요, 그렇기 때문에 공개 키 버전의 순위 체계에 대해 물었습니다.

— Suresh Venkat

검색 프로세스에 참여하는 당사자 중 누구도 악의적 인 사용자로 간주되므로 일반적인 해결책은 이기적인 사용자가있는 게임으로 프로세스를 모델링하는 것입니다. 올바르게 모델링 된 경우 검색 엔진이 이러한 작업을 수행하는 것이 유리한지 여부를 알 수 있습니다. 그런 다음 그러한 변조를 방지하는 메커니즘을 설계 할 수 있습니다.

— Helium

이것은 분명히 매우 개방적인 질문이지만, 주제를 유지하기 위해 "공정성"이라는 아이디어에 대한 CS 이론 접근 방법과 그것을 시행하는 방법이 있습니다.

"인식을 통한 공정"Dwork, Hardt, Pitassi, Reingold, Zemel http://arxiv.org/abs/1104.3913

— 아론 로스
소스