StackExchange 질문에 대한 "흥미"기능

StackExchange 사이트를위한 데이터 마이닝 패키지를 만들려고하는데 특히 "가장 흥미로운"질문을 찾기 위해 노력하고 있습니다. 질문 점수를 사용하고 싶지만 조회수로 인한 편견을 제거하고 있지만 엄격하게 접근하는 방법을 모르겠습니다.

이상적인 세계에서는 을 계산하여 질문을 정렬 할 수 있습니다 . 여기서 는 총 투표 수이고 은 조회 수입니다. 결국 질문을지지하는 사람의 비율을 빼고 질문을지지하는 사람의 비율을 뺀 것입니다. $\frac{v}{n}$ $v$ $n$

불행하게도, 투표 패턴은 훨씬 더 복잡합니다. 투표는 특정 수준으로 "고원"경향이 있으며 이는 매우 인기있는 질문을 과소 평가하는 효과가 있습니다. 실제로, 조회수가 1이고 투표 수가 1 인 질문은 10,000 점이지만 10,000 표 미만의 다른 질문보다 확실히 점수가 높고 정렬됩니다.

저는 현재 을 실험적인 공식으로 사용하고 있지만 정확하고 싶습니다. 수학적 엄격함으로이 문제에 어떻게 접근 할 수 있습니까? $\frac{v}{\log{n}+1}$

의견 중 일부를 해결하기 위해 문제를 더 나은 방식으로 다시 설명하려고 노력합니다.

총 투표 수와 조회수에 대한 질문이 있다고 가정하겠습니다 . 조회수가 도달했을 때 총 투표 가능성을 추정 할 수 있습니다 . $v_0$ $n_0$ $v_1$ $n_1$

이런 식으로 간단히 대한 명목 값을 선택 하고 예상되는 총계 에 따라 모든 질문을 정렬 할 수 있습니다. $n_1$ $v_1$

SO 데이터 덤프에 대해 두 가지 쿼리를 작성하여 내가 말하는 효과를 더 잘 보여주었습니다.

점수 별 평균 조회수

결과:

점수 별 조회수

조회수 별 평균 점수 (100 조 버킷)

결과:

조회수 점수

두 공식은 비교

결과가 똑 더 나은지 확실하지 않습니다. ( 은 파란색, 은 빨간색) $\frac{v}{n}$ $\frac{v}{log{n}+1}$

data-mining predictive-models

— Sklivvz
소스

이것은 확실히 흥미로운 질문이지만 stats.SE 에서이 질문을하는 것이 좋습니다.

@Theo 실제로 당신이 옳을 수도 있습니다. 모드가 가장 좋다고 생각하면 마이그레이션하도록 플래그를 지정합니다.

견해가 흥미를 유발하지 않는 이유는 무엇입니까? (그러나 더 나쁜 것은 왜 부정적인 영향을 미칩니 까?) 더 흥미로운 것들이 더 자주 보이는 경향이 있습니다 ... 여기서 근본적인 문제는 흥미로운 것의 의미 는 무엇 입니까? 일반적인 관심사 또는보다 구체적으로 높은 수준의 잠재 고객에게 관심있는 질문을 의미합니까 ? 누군가가이 수학 문제를 "수학적 엄격 성"으로 대답하려면 먼저 엄격하게 제기해야합니다.

질문이 하나의 힘은 말할 좋은 사이트로 링크 할 수 및 뷰의 톤을받을 수 있기 때문에 뷰는 질문에 바이어스 - 당신이 보면 최고 등급의 질문에 그들은 모두 높은보기 질문입니다; 흥미롭게도 나는 사이트의 사용자들이 인식하는 것보다 더 가치있는 질문을 의미합니다. 어쨌든 여전히 질에 대한 최고의 예측자를 얻기 위해 의견과 투표를 결합하는 올바른 방법은 무엇입니까?

수학 사람들은 좋은 질문을했습니다. 이 질문의 논리는 원형 인 것처럼 보입니다. SE 질문의 "품질"을 측정하는 공식을 요구하는 것처럼 보이지만 "사용자가 인식 한 가치와 같은 작동하지 않는 동의어를 제공하는 것을 제외하고는"품질 "이 무엇을 의미하는지는 명시하지 않습니다. 사이트의 아무것도 얻을 수 없습니다!

— whuber

답변:

우리는 흥미로운 질문을 여러 의견이 주어 졌을 때 비교적 많은 표를 얻은 질문으로 정의 할 수 있습니다. 이를 위해 뷰에 주어진 예상 투표 수를 반영하는 기준선을 만들 수 있습니다. 기준선보다 더 많은 표를 얻은 곡선이 특히 흥미로 여겨졌습니다.

기준을 구성하기 위해 100-view bin 당 중간 투표 수를 계산할 수 있습니다. 또한 구간당 표준 편차에 대한 강력한 측정 값으로 MAD (중앙 절대 편차)를 계산할 수 있습니다. 그런 다음 "관심"을 다음과 같이 계산할 수 있습니다.

interestingness(votes,views) = (votes-baselineVotes(views))/baselineMAD(views)

— 조나스
소스

이것이 나의 이론이다. 나는 두 가지 종류의 질문이 있다고 생각합니다. 주로 SE 내에 남아있는 질문 (보통 적은 조회수)과 다른 곳에서 연결되어 외부인이 보는 질문 (보통 더 많은 조회수가 있음).

SE 내에 남아있는 질문의 경우 투표는 흥미로운 질문의 좋은 척도입니다. 이것이 투표의 요점입니다.

질문이 사이트 외부에 연결되면 투표가 의미를 멈 춥니 다. 일부 링크 사이트에는 SE 회원이 거의 없을 수 있고 다른 사이트에는 더 많은 SE 회원이있을 수 있습니다. 이러한 질문에 대한 투표 수의 편차는 아마도 높은 것일 수 있습니다 (곡선의 오른쪽이 피어나는 점수 대 뷰 도표에서 알 수 있듯이). 이러한 질문은 더 많은 견해를 가질 것이며, 견해는 흥미로운 질문을 더 잘 나타내는 지표 일 수 있습니다. 또는 더 큰 커뮤니티가 더 흥미로운 것을 발견했다는 질문이 있습니다. 이 상황에는 많은 변수가 있으며 이러한 경우를 구별하기 위해 더 많은 정보를 찾으려고 노력할 가치가 있다고 생각합니다. SE가 추천 정보를 공개합니까?

— rm999
소스

SE가 추천 정보를 공개합니까? 난 그냥

— 투표