우리는“연민 공감”에 문제가 있습니까?


50

나는 이것이 주제가 아닌 것처럼 들릴 수 있지만 내 말을 듣는다.

스택 오버플로에서 게시물에 대한 투표를 받으면 모두 표 형식으로 저장됩니다.

예 :

게시물 유권자 ID 투표 유형 날짜 시간
------- -------- --------- --------
1012 2000-1-1 10:00:01 
11 3 3 2000-1-1 10:00:01 
10 5 2 2000-1-1 10:00:01 

... 등등. 투표 유형 2는 공감 투표, 투표 유형 3은 공감 투표입니다. http://data.stackexchange.com 에서이 데이터의 익명 버전을 쿼리 할 수 ​​있습니다.

게시물이 -1 이하의 점수에 도달하면 투표 가능성이 높아진다는 인식이 있습니다. 이것은 단순히 확인 편향 일 수도 있고 실제로 뿌리를 내릴 수도 있습니다.

이 가설을 확인하거나 거부하기 위해이 데이터를 어떻게 분석 할 것입니까? 이 편견의 영향을 어떻게 측정 할 것인가?


1
쿼리의 예를 얻을 수 있습니까? 모든 사람이 SQL 문 작성에 정통한 것은 아닙니다. 샘플 데이터가 있으면 사람들이 데이터를 가지고 놀아 볼 수 있습니다. 질문에 +1
mpiktas

투표는 당신이 데이터 만 덤프에서 부분적인 정보를 얻을 수 익명화 @Jeff 여기에 빠른 샘플입니다하지만, 모든 전환을 포함하지 data.stackexchange.com/stackoverflow/q/101738 전체 익명의 데이터는 공공 데이터 덤프에서 사용할 수 있습니다
샘 사프란

왜 공감해야 하는가? 각각의 특정 가치를 중심으로 상향 또는 하향 투표 확률이 어떻게 흥미로울까요?
밥 Durrant

@ 밥, 확실히 동의합니다
Sam Saffron

1
나는 다른 종류의 사이트가 투표를 모호하게하는 것을 보았으며 (즉, 표시하기 전에 소음을 추가 함) 때로는 다양한 형태의 악 대차, 동정 투표 및 기타 '사회적'을 피하기 위해 단기간 동안 상향 및 하향 투표를 완전히 숨기는 경우가 있습니다. 투표의 요소.
Glen_b

답변:


32

다중 상태 모델 또는 Markov 체인을 사용할 수 있습니다 (R의 msm 패키지는 이러한 방법에 적합합니다). 그런 다음 -1에서 0으로의 전이 확률이 0에서 1, 1에서 2보다 큰지 확인할 수 있습니다. -1에서 다른 시간에 비해 평균 시간을보고 더 짧은 지 확인할 수도 있습니다. .


3
+1 훌륭한 참조. Journal of Statistical Software에는 msm 패키지에 대한 기사 가 있습니다 . 모델은 이런 종류의 작업에 이상적으로 적합합니다.
mpiktas

3
Markov 체인 모델 아이디어는 좋은 것으로 보이지만 -1의 평균 시간이 전체 이야기를 제공하지는 않습니다. 다른 곳보다 -1에서 하향 조정될 가능성이 더 높습니다.
밥 Durrant

가장 먼저해야 할 일은 투표 궤적을 모으는 것입니다-거의 (거의) 업 / 다운 투표 된 (매우 인기있는 / 매우 나쁜 질문) 그리고 더 논쟁적인 것입니다. 그런 다음 세 가지 클래스에서 Markov 체인을 수행 할 수 있습니다.
Jonas

13

내 답변 요약. 나는 Markov 체인 모델링을 좋아하지만 "일시적"측면을 놓치고 있습니다. 다른 한편으로, 시간적 양상 (예를 들어 에서의 평균 시간)에 초점을 맞추는전환 확률 만 추정하는 경우와 주어진 상태에서 소요 된 시간 만 측정하는 경우의 중간 단계입니다. 이 도움을 바랍니다.1

(VDi)i1(Si)i1

Yt=Yt+Yt

Yt+=i=01VDit,Si=1 and Yt=i=01VDit,Si=1

ϵ

λtϵ=limdt01dtP(Yt+dtϵYtϵ=1|Ft)
ϵ+Ft
Ft=σ(Yt+,Yt,VD1,,VDYt++Yt,S1,,SYt++Yt)

하지만 귀하의 질문에 따라 이는 경우 결정적 순서 되도록 .

P(Yt+dtϵYtϵ=1|Ft)=P(Yt+dtϵYtϵ=1|Yt)
ϵ=+,(μiϵ)iZλtϵ=μYtϵ

이 형식 내에서 " " 일 가능성이 높습니다 (또는 적어도 차이가 a보다 큰 경우). 주어진 임계 값).μ1+μ0+>0

이러한 가정 하에서, 그 표시가 용이 이 [균질 마르코프 프로세스] [3]에 발전기와 주어진YtZQ

i,jZQi,i+1=μi+Qi,i1=μiQii=1(μi++μi)Qij=0 if |ij|>1

질문에 답하기 (통계 문제에 대한 최대 우도 추정치를 제안하여) 이 개혁으로부터 문제를 해결하는 것은 추정하고 그 값을 만족하는 테스트를 구축함으로써 이루어집니다. 일반성을 잃지 않고 인덱스를 수정하고 잊어 봅시다 . (및 )의 추정 은i μ + μ (μi+)iμ+μ

T의 j 개의 J t의 시간 (P) Y t는 = η J + 1 - 1 0(T1,η1),,(Tp,ηp) 여기서 는 상태 에서 소비 된 기간 의 의 길이입니다. (즉, 를 연속 시간 ) 및 는 질문이 경우 이고 경우 이고 마지막 관찰 상태 인 경우 입니다.TjjthpiYt=iηj+110

당신이 관찰의 마지막 상태의 경우를 잊어 버린 경우 했나요 커플에 따라 분배에서 IID입니다 와 이로 배포됩니다 : (여기서 Exp는 지수 분포의 임의 변수이고 는 최대 값을 인식하는 사람에 따라 + 또는 -1입니다). 그런 다음 다음과 같은 간단한 정리를 사용할 수 있습니다 (증거는 간단 함). μ iμi+μi(min(Exp(μi+),Exp(μi)),η)η

보조 정리 하면 와 그리고, 및 . X+Exp(μ+)XExp(μ)T=min(X+,X)Exp(μ++μ)P(X+1<X)=μ+μ++μ

이 농도 것을 의미 의 주어진다 : 여기서 대한 는 지수 랜덤 변수의 밀도 함수입니다 매개 변수 와 함께 . 이 식에서 및 의 최대 우도 추정값을 쉽게 도출 할 수 있습니다 .f(t,ϵ)(T,η)

f(t,ϵ)=gμ++μ(1(ϵ=+1)μ++1(ϵ=1)μμ++μ)
gaa>0aμ+μ

(μ^+,μ^)=argminln(μ+μ+)((μ+μ+)i=1pTi+p)pln(μ)p+ln(μ+)
여기서및.p=|i:δi=1|p+=|i:δi=+1|

고급 접근 방식에 대한 의견

때 ACOUNT의 경우를 고려하려면 마지막으로 관찰 된 상태입니다 (확실히 똑똑한 당신이 통과 할 때 때문에 당신이 약간에게 reasonning을 수정해야, 그것은 당신의 마지막 점수는 ... 자주). 해당 검열은 비교적 고전적입니다 ...i1

가능한 다른 접근 방식은

  • 시간이 지남에 따라 감소하는 강도
  • 마지막 투표 이후에 소비 한 시간에 따라 감소하는 강도를 가짐 (이것을 선호합니다.
  • 는 의 부드러운 함수 라고 가정 할 수 있습니다μi+i
  • .... 다른 아이디어를 제안 할 수 있습니다!

12

실험을 수행하십시오. 매일 특정 시간에 새로운 게시물의 절반을 무작위로 하향 투표하십시오.


5
"비판적"배지가 크게 증가하고 신규 사용자에 대한 동기 부여가 현저히 줄어드는 것을 관찰해야합니다.-)이 경우 (실험을 편향시킬 위험이있는) 높은 평판의 사용자부터 시작하는 것이 좋습니다.
chl

14
실제로 우리는 이것보다 더 잘할 수 있습니다 ... AB 테스트를 사용하여 사이트에서 -1 투표 된 질문의 절반을 0으로 표시하고 -1로 절반을 표시하도록 선택할 수 있습니다 ... 공감! 영리한.
Sam Saffron

4
실험 아이디어는 게시물의 품질을 제어하지만 (1) 다운 그레이드 된 사용자는 실험에 참여하기로 미리 동의해야하며 (2) 잠시 후 다운 그레이드는 제거해야합니다.
zbicyclist 2016 년

2
+1 (여기의 모든 의견에도 +1) : 영향을 받고 승인을받은 모든 사용자에게 미리 전달 되는 통제 된 가역 실험은이 정보를 얻는 가장 강력한 방법 중 하나입니다.
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.