StackExchange 사이트를위한 데이터 마이닝 패키지를 만들려고하는데 특히 "가장 흥미로운"질문을 찾기 위해 노력하고 있습니다. 질문 점수를 사용하고 싶지만 조회수로 인한 편견을 제거하고 있지만 엄격하게 접근하는 방법을 모르겠습니다.
이상적인 세계에서는 을 계산하여 질문을 정렬 할 수 있습니다 . 여기서 는 총 투표 수이고 은 조회 수입니다. 결국 질문을지지하는 사람의 비율을 빼고 질문을지지하는 사람의 비율을 뺀 것입니다.
불행하게도, 투표 패턴은 훨씬 더 복잡합니다. 투표는 특정 수준으로 "고원"경향이 있으며 이는 매우 인기있는 질문을 과소 평가하는 효과가 있습니다. 실제로, 조회수가 1이고 투표 수가 1 인 질문은 10,000 점이지만 10,000 표 미만의 다른 질문보다 확실히 점수가 높고 정렬됩니다.
저는 현재 을 실험적인 공식으로 사용하고 있지만 정확하고 싶습니다. 수학적 엄격함으로이 문제에 어떻게 접근 할 수 있습니까?
의견 중 일부를 해결하기 위해 문제를 더 나은 방식으로 다시 설명하려고 노력합니다.
총 투표 수와 조회수에 대한 질문이 있다고 가정하겠습니다 . 조회수가 도달했을 때 총 투표 가능성을 추정 할 수 있습니다 .
이런 식으로 간단히 대한 명목 값을 선택 하고 예상되는 총계 에 따라 모든 질문을 정렬 할 수 있습니다.
SO 데이터 덤프에 대해 두 가지 쿼리를 작성하여 내가 말하는 효과를 더 잘 보여주었습니다.
결과:
결과:
결과가 똑 더 나은지 확실하지 않습니다. ( 은 파란색, 은 빨간색)