투표에 대한 평판의 영향에 대한 분석을 개선하려면 어떻게해야합니까?


15

최근에는 평판에 영향을 미치는 업 보트 ( blog-post 참조)에 대한 분석을 수행 한 , 더 많은 깨달음 (또는 더 적절한) 분석 및 그래픽에 대한 몇 가지 질문이있었습니다.

따라서 몇 가지 질문이 있습니다 (특히 누군가에게 자유롭게 대답하고 다른 사람들은 무시하십시오).

  1. 화신의 현재에서, 나는 포스트 번호의 중심을 의미하지 않았다. 포스트 카운트의 하단에 더 많은 게시물이 있기 때문에 이것이 산포도에 부정적 상관 관계를 잘못 표시하는 것이라고 생각합니다. (이것은 Jon Skeet 패널에서 발생하지 않으며 필사자 사용자에서만 발생합니다. 패널). 게시물 번호를 평균화하지 않는 것이 적절하지 않습니까 (사용자 평균 점수 당 평균 점수를 의미했기 때문에)?

  2. 그래프에서 점수가 매우 오른쪽으로 치우쳐 있음을 알 수 있습니다 (평균 중심화는 그 변화를 나타내지 않음). 회귀선을 피팅 할 때 ( rlmMASS R 패키지 를 통해) 오차가있는 Huber-White sand를 사용하여 선형 모델과 모델을 모두 적합 하게하고 기울기 추정값에 아무런 차이가 없었습니다. 강력한 회귀 대신 데이터로의 변환을 고려해야 했습니까? 모든 변환은 0과 음수의 가능성을 고려해야합니다. 아니면 OLS 대신 카운트 데이터에 다른 유형의 모델을 사용해야합니까?

  3. 나는 마지막 두 그래픽이 일반적으로 향상 될 수 있다고 생각합니다 (그리고 향상된 모델링 전략과 관련이 있습니다). 내 생각에 비추어 볼 때, 나는 평판 효과가 실제라면 포스터 역사에서 아주 일찍 실현 될 것이라고 생각할 것이다. 만약 이것이 사실이라면, 이것들이 재검토 될 수 있다고 생각한다. "총 점수 별 평판"효과 대신 게시물 "). 과도한 플로팅을 고려하면서 이것이 사실인지 설명하기 위해 그래픽을 만들려면 어떻게해야합니까? 나는 이것을 증명하는 좋은 방법은 폼의 모델에 맞는 것이라고 생각했다.

Y=β0+β1(X1)+α1(Z1)+α2(Z2)αk(Zk)+γ1(Z1X1)γk(ZkX1)+ϵ

여기서 은 IS (현재 산점도에 동일한) 은 IS 및 예를 들어 포스트 숫자의 어떤 임의의 범위 (나타내는 가변 수있다 같음을 포스트 번호 인 경우 , 동일 경우 생성 우편 번호 등). 과 은 각각 절편과 오류입니다. 그런 다음 예상 기울기를 조사하여 포스터 이력에서 평판 효과가 일찍 나타나는지 또는 그래픽으로 표시하는지 확인합니다. 이것이 합리적이고 적절한 접근법입니까?X 1 Z 1Z k Z 1 Z 2 β 0Yscore - (mean score per user)X1post numberZ1ZkZ111 through 25Z2126 through 50β0ϵγ

이러한 유형의 비모수 스무딩 라인을 이러한 산점도 (예 : 황토 또는 스플라인)에 맞추는 것이 인기가 있지만 스플라인을 사용한 실험에서는 아무것도 밝히지 않았습니다 (포스터 역사 초기에 포스트 효과의 증거는 약간이나 온도 적이었습니다) 포함 된 스플라인 수). 초기에 효과가 발생한다는 가설이 있기 때문에 스플라인보다 모델링 방법이 더 합리적입니까?

또한이 모든 데이터를 거의 준설했지만 여전히 조사 할 다른 커뮤니티가 많이 있습니다 (수퍼 유저 및 서버 오류와 비슷한 일부 샘플을 가져와야합니다). 따라서 향후 제안하는 것이 합리적입니다. 홀드 아웃 샘플을 사용하여 모든 관계를 검사하는 분석.


현재 첫 번째 질문에 대한 메모를 작성했으며 여기 에서 찾을 수 있습니다 . 나는 이것을 내 자신의 질문에 대한 답변으로 게시하거나 별도의 질문을 열지 (현재 데이터 시각화에 중점을두고 있기 때문에) 확실하지 않습니다. 그러나 여기나 대화방 에서 Google 문서에 대한 의견을 남겨주세요 .
Andy W

답변:


14

이것은 용감한 시도이지만 이러한 데이터만으로는 "공개 투표에 대한 평판의 영향"에 관한 연구 질문대답하기가 어렵거나 불가능합니다 . 문제는 다른 현상의 영향을 분리하는 데 있으며, 이러한 현상을 해결하는 방법에 대한 간단한 표시와 함께 나열합니다.

  • 학습 효과 . 명성이 올라감에 따라 경험도 올라갑니다. 경험이 증가함에 따라 우리는 더 나은 질문과 답변을 게시 할 것으로 기대합니다. 품질이 향상되면 게시물 당 더 많은 투표가 예상됩니다. 알만, 분석에서이 문제를 처리하는 한 가지 방법은 하나 개 이상의 SE 사이트에서 활동하는 사람들을 식별하는 것입니다 . 어느 사이트에서나 그들의 평판은 경험치보다 느리게 증가하여 평판과 학습 효과를 괴롭히는 손잡이를 제공합니다.

  • 상황의 일시적인 변화. 이것들은 무수하지만 명백한 것에는 다음이 포함됩니다

    • 전반적인 상승 추세, 계절적 추세 (종종 학문주기와 관련됨) 및 특이 치 (특정 스레드 링크와 같은 외부 홍보에서 발생)를 포함하여 시간에 따른 유권자 수의 변화 . 모든 분석은 개인의 평판 경향을 평가할 때이를 고려해야합니다 .

    • 시간이 지남에 따라 지역 사회 관습의 변화 . 커뮤니티와 이들이 상호 작용하고 진화하고 개발하는 방법. 시간이 지남에 따라 그들은 더 자주 또는 덜 자주 투표하는 경향이 있습니다. 모든 분석은이 효과를 평가하고에 반영해야합니다 .

    • 시간 그 자체. 시간이 지남에 따라 이전 게시물은 검색 할 수 있으며 투표를 계속 이어갑니다. 따라서, caeteris paribus , 오래된 게시물은 새로운 게시물보다 더 많은 투표를 생성해야합니다. (이것은 강력한 효과입니다. 월간 명성 리그에서 꾸준히 높은 일부 사람들은 1 년 내내이 사이트를 방문하지 않았습니다!) 이것은 실제 긍정적 인 평판 효과를 가리거나 심지어 뒤집을 수도 있습니다. 모든 분석은 각 게시물이 사이트에 존재 한 시간을 고려해야합니다 .

  • 주제 인기. 일부 태그 (예 : )는 다른 태그 보다 훨씬 인기가 있습니다. 따라서, 사람이 대답하는 질문의 종류의 변화는 평판 효과와 같은 일시적인 변화와 혼동 될 수 있습니다. 따라서 모든 분석은 답변되는 질문의 성격을 고려해야합니다.

  • [편집으로 추가됨]. 다양한 이유 (필터, 링크 등)에 따라 다른 수의 사람들이 질문을 봅니다. 답변에 의해 수신 된 투표 수는 조회수와 관련이있을 수 있지만, 조회수가 증가함에 따라 비율이 감소 할 것으로 예상 할 수 있습니다. (질문에 관심이있는 사람들이 실제 숫자가 아니라 실제로 얼마나 많은지에 대한 문제입니다. 제 자신의 (비정기적인) 경험은 많은 질문에서받은 공감 율의 대략 절반이 처음 5-15 개 안에 들어온다는 것입니다. 결과는 결국 수백 번 조회됩니다.) 따라서 모든 분석은 뷰 수를 고려해야 하지만 선형적인 방식은 아닙니다.

  • 측정 어려움. "평판"은 초기 평판, 답변, 질문, 질문 승인, 태그 위키 편집, 하향 투표 및 하향 투표 (내림차순) 등 다양한 활동에 대해받은 투표의 합계입니다. 이러한 구성 요소는 서로 다른 사항을 평가하지만 모든 지역 사회 유권자의 통제하에있는 것은 아니므 로 분석을 위해 분리해야합니다 . "평판 효과"는 아마도 답변과 질문에 대한 공언과 관련이 있지만 다른 평판 원에는 영향을 미치지 않아야합니다. 시작 평판은 분명히 빼야합니다 (그러나 아마도 초기 경험의 대리로 사용될 수 있습니다).

  • 숨겨진 요인. 측정 할 수없는 다른 많은 혼란 요소가있을 수 있습니다. 예를 들어, 포럼 참여에는 다양한 형태의 "번 아웃"이 있습니다. 사람들은 처음 몇 주, 몇 달 또는 몇 년의 열정 후에 무엇을합니까? 드물거나, 비정상적이거나 어려운 질문에 초점을 맞추는 것도 포함됩니다. 답변되지 않은 질문에 대해서만 답변을 제공하는 것; 답변은 적지 만 품질은 우수합니다. 이러한 것들 중 일부는 평판 효과를 가리는 반면 다른 것들은 실수로 혼동 될 수 있습니다. 이러한 요소에 대한 대리자는 개인의 참여율 변화 일 수 있습니다 . 해당 개인의 게시물 특성에 변화가 있음을 나타낼 수 있습니다.

  • 하위 커뮤니티 현상. 매우 활동적인 SE 페이지에서도 통계를 자세히 보면 비교적 적은 수의 사람들이 대부분의 답변과 투표를하는 것으로 나타났습니다. 2-3 명 정도의 작은 파벌은 평판의 성장에 큰 영향을 줄 수 있습니다. 2 인칭 도당은 사이트의 내장 모니터에 의해 감지되지만 (그러한 그룹 중 하나는이 사이트에 존재) 더 큰 도당은 아닐 수 있습니다. (나는 공식적인 공모에 대해 이야기하고있는 것이 아니다. 사람들은 그러한 인식을 모르고도 그러한 파벌의 구성원이 될 수있다.) 우리는 어떻게 눈에 띄지 않고 감지되지 않는 비공식적 인 파동의 활동과 명백한 평판 효과를 분리 할 것인가? 자세한 투표 데이터는 진 단적으로 사용될 수 있지만 이러한 데이터에 액세스 할 수는 없습니다.

  • 제한된 데이터. 평판 효과를 감지하려면 (최소한) 수십에서 수백 개의 게시물이있는 개인에게 집중해야 할 것입니다. 그것은 현재 인구를 50 명 미만으로 떨어 뜨립니다. 변이와 혼란의 가능성이 모두 있기 때문에, 그것이 너무 강하지 않으면 상당한 영향을 미치기에는 너무 작습니다. 치료법은 다른 SE 사이트의 레코드로 데이터 세트를 보강하는 것 입니다.

이러한 모든 합병증을 감안할 때 블로그 기사의 탐색 그래픽은 눈에 띄지 않는 한 아무것도 공개 할 가능성이 거의 없다는 것이 분명해야합니다. 예상대로 데이터가 지저분하고 복잡합니다. 도표 나 제시된 분석에 대한 개선을 권장하는 것은 시기상조 입니다. 이러한 근본적인 문제가 해결 될 때까지 점진적인 변화와 추가 분석은 도움이되지 않습니다 .


답변 주셔서 감사합니다. 비판의 폭이 넓어지면 모든 의견을 적절하게 언급 할 수는 없습니다 (다른 장소를 생각해야 할 수도 있습니다 .Google 문서를 게시해야 할 수도 있습니다). 그러나 이제는 대답 할 수 없다고 생각할 것입니다. 잠재적 인 혼란의 한계를 고려할 때 최소한 평판 효과가 사용 가능한 증거와 일치하는지 확인할 수 있습니다.
Andy W

@ 앤디 나는 혼란이 실질적이고 널리 퍼져 있다고 생각하므로 평판 효과가있는 것처럼 보일 지라도 인공물이 될 수 있습니다. 이러한 문제를 해결하지 않으면 유효한 결론을 도출 할 수 없습니다. 물론 나는 틀릴 수 있지만 증거의 부담은 당신에게 있습니다.
whuber

"평판 효과가있는 것 같으면"라는 것이 핵심 진술입니다. 제시 한 대부분의 혼란은 포스터 평판 / 게시 번호 / 역사와 모호하게 관련되어 있거나 이론적으로 나중에 역사에서 답변에 대한 포스터 점수를 높일 것으로 예상됩니다. 평판 효과의 증거를 찾지 못하면 많은 잠재적 혼란이 그 부재를 설명하는 데 사용될 수 없습니다.
Andy W

@ 앤디 그러나 적어도 하나는 할 수 있고, 그것으로 충분합니다. 여기에는 숨겨진 요소, 주제 인기도 및 상황의 일시적인 변화가 포함됩니다. 분석에서이 모든 것을 명시 적으로 처리하지 않으면 결론이 의심됩니다. 기록을 한눈에 살펴보면 주제 인기와 시간적 변화가 크다는 것을 알 수 있습니다. 그들의 잠재적 영향은 우리가 평판 효과가 최대 10 배까지 합리적으로 기대할 수있는 수준을 떨어 뜨 렸습니다.
whuber

2
@cardinal은 공식적인 정의가 없어도 소수의 사람들이 투표 패턴에 영향을 줄 수 있습니다 (이 맥락에서 whuber가 언급한다고 가정합니다). Jon Skeet의 평균 게시물은 5 개 정도의 공감대였습니다. 갑자기 한 사람이 자신의 모든 답변을 찬성하기로 결정하면, 낮은 평균 점수로 시작하면 상당히 큰 영향을 줄 수 있습니다.
Andy W

5

YtZtYt=a0+a1Yt1+a2Zt1+ϵtZt=b0+b1Yt1+b2Zt1+δta2ZYZYtΔYt=YtYt1YtFχ2T1T1/2YtZta0a1a2

포인트 1에서 : 손으로 고정 효과를 수행하는 경우 응답 변수와 설명 변수를 모두 중앙에 배치해야합니다. 패널 데이터 회귀 패키지가이를 수행했을 것입니다. 그러나 사물을 보는 공식적인 계량 적 방법은 "풀링 된"회귀에서 "사이"회귀를 빼는 것입니다 ( Wooldridge의 블랙 북 참조 ; 두 번째 판은 확인하지 않았습니다, 그러나 나는 일반적으로 첫 번째 판을 계량 경제학 패널 데이터에 대한 최고의 교과서 유형 설명으로 본다).

요점 2 : 당연히 Eicker / White 표준 오류는 점 추정치에 영향을 미치지 않습니다. 만약 그렇다면, 그것은 잘못된 구현을 나타냅니다! 시계열의 맥락에서, Newey and West (1987) 가 더 적절한 추정량을 제시했다 . 변형을 시도하면 도움이 될 수 있습니다. 나는 개인적으로 큰 팬입니다 Box-Cox 혁신그러나 귀하가 수행하고있는 분석의 맥락에서, 깨끗하게하기는 어렵습니다. 먼저 모양 매개 변수 위에 이동 매개 변수가 필요하며 이러한 매개 변수는 이러한 매개 변수로 식별하기 어렵습니다. 둘째, 다른 사람들, 다른 게시물 및 / 또는 ... (모든 지옥이 느슨해 짐)에 대해 다른 이동 / 모양 매개 변수가 필요할 것입니다. 카운트 데이터도 옵션이지만 평균 모델링의 맥락에서 포아송 회귀 분석은 로그 변환만큼이나 훌륭하지만 분산 = 평균의 다루기 힘든 가정을 강요합니다.

추신 당신은 아마 이것을 "종 데이터"와 "시계열"로 태그를 붙일 수 있습니다.


답변과 의견 / 질문에 감사드립니다. 나는이 데이터에서 적어도 더 명백한 시계열 접근법을 탐색해야한다는 데 동의합니다 (잔류에 자기 상관의 증거가 있는지 확인조차하지 않았습니다). 이 데이터의 시계열 모델링에서 몇 가지 더 복잡한 문제가 있지만 (t는 무엇입니까? 점수 자체는 동적이며 게시물 번호별로 고정되지 않습니다) 또한 Z_t를 예측하는 회귀가 필요하지 않습니다. Z_t가 무엇인지 완벽하게 알고 있습니다. 의 기능입니다!
Andy W

또한 점수가 고정적이지 않다고 의심합니다. 어떻게 생각하십니까?
Andy W

최소한 이질 론적 일 수도 있습니다. 일부 게시물은 흥미롭고 많은 인기와 공감을 얻지 만 다른 게시물은 작은 설명이나 RTFM- "이 링크 읽기"유형의 질문 / 답변입니다. 그것 자체는 기술적으로 비정규 적입니다. 물론 정상 성은 테스트 가능한 가정이지만, 이와 같은 미친 데이터를 사용하면 분석 방법에서 과도하게 보수적 인 측면에서 매우 안전한 측면을 원할 것입니다 (또는 언급 한 바와 같이 결과가 기묘한).
StasK

마지막 의견에 약간 혼란 스럽습니다. 답의 점수에 영향을 미치는 외인성 요인이 어떻게 이분산성 시리즈를 만드는가?
Andy W

모든 시점에서 한계 분포가 동일한 경우 시계열은 정지 상태입니다. 따라서 같은 의미를 가질 수 있더라도 변화가 변하면 시리즈가 정지하지 않게됩니다. 2000 년대 초에 노벨상을 수상한 (G) ARCH 모델이 그 예입니다. 그러나이 데이터에서는 평균에 약간의 변화가있을 것으로 예상합니다. 웹 사이트의 잠재 고객이 증가하면 주어진 답변의 질에 대해 더 많은 투표를 보게 될 것이므로 점수의 평균과 분산이 모두 높아질 것입니다.
StasK

3

플롯에 대한 몇 가지 다른 변경 사항 :

  1. 답변 점수 대 이전 평판에 대한 Quantile 밴드. (1 및 3 플롯)
  2. Post # (Plot 3)에 의해 계층화 된 Skeet과 다른 Skeet에 대한 밀도 플롯
  3. 경쟁 게시물 수로 계층화 고려
  4. 시간에 따라 계층화 (질문을 한 후에도 계속 점수를 얻을 수 있음)

모델링이 더 어려울 것입니다. 포아송 회귀를 고려할 수 있습니다. 솔직히 좋은 줄거리를 개발하는 것이 통찰력과 기술을 개발하는 훨씬 더 좋은 방법입니다. 데이터를 더 잘 이해 한 후에 모델링을 시작하십시오.


(+1) 게시물을 잠시 동안 놓아 둔 후, 포인트의 밀도를 시각화하는 것이 포인트 자체를 시각화하는 것보다 훨씬 더 나은 솔루션 인 것으로 나타났습니다. 게시물 # "). 나는 또한 추정 된 Quantile을 플로팅하는 것이 좋은 생각처럼 들리지만, 플롯 1 & 2의 경우 거대한 구름에있을 것입니다. 이 맥락에서 "시간에 따른 계층화"가 무엇을 의미하는지 다시 한 번 알지 못합니다. 블로그 게시물에 대한 Brad Larson의 의견과 이에 대한 나의 답변을 참조하십시오.
Andy W

또한 경쟁 게시물이 관찰 된 관계와 관련이 있다고 의심합니다. 당신은 높은 명성을 가진 사람들이 그들의 역사 초기에 더 경쟁적인 답변으로 스레드에 게시되었다고 생각하십니까? 다른 공변량 포함에 대한 제안은 모델링을 피하고 플롯에 초점을 맞추기 위해 제안과 충돌하는 것 같습니다.
Andy W

경쟁 게시물의 아이디어는 본질적으로 탐구 적입니다. 대답 동기는 그것과 관련이 없습니다. 모델링과 관련하여 모델링 자체에 반대하는 것이 아니라 데이터를 더 잘 이해하기 전까지는 아직 준비가되지 않은 것입니다. 데이터를 이해하지 못하면 모델을 이해하지 못합니다.
반복자

게시물 번호별로 계층화하여 게시물을 비우는 것이 좋습니다. 0-100 개의 게시물, 101-200 등의 간격 범위에있을 수도 있고 Quantile 규모에있을 수도 있습니다. 총 게시물의 맨 아래 10 %, 20 %에 해당하는 사용자로 사용자를 나눕니다. Skeet 게시물이 너무 많으면 동료 그룹과 비교하는 것이 가장 좋지만 정확히 같은 게시물 수 를 가진 동료 그룹과 비교하기는 어렵습니다 . 데이터를 비닝하면 도움이 될 수 있습니다.
반복자

Btw, 층화를 위해을 사용할 수 있습니다 coplot().
반복자

1

우와. (그리고 좋은 방법으로 ;-) 의미합니다.) 모델을 계속 진행하기 전에 데이터와 관련된 문제를 해결해야합니다.

이 플롯의 중간에 매우 독특한 곡선에 대한 설명이 표시되지 않습니다. http://stats.blogoverflow.com/files/2011/07/Rep_Correlated_With_Upvotes.png

그러한 곡선을 보면 그 점들에 대해 매우 이상한 점이 있다고 생각합니다. 서로 독립적이지 않고 동일한 소스에 대한 일련의 관찰 결과를 반영합니다.

(사소한 참고 : "상관 관계 ..."플롯을 제목 표시하는 것은 잘못된 것입니다.


5
23

이 곡선은 평판이 공감 율과 어떤 관련이 있는지에 따라 설명 될 수 있으며, 하나의 답변을 게시하고 해당 답변에서 모든 평판을 얻은 사람들 일 가능성이 높습니다 (필요한 경우 왜 그런지에 대한 자세한 내용을 볼 수 있음) . 현재 평판에서 가장 최근 게시물의 평판을 뺀 값을 플로팅 한 경우 대부분의 경우 평판을 처리했을 것입니다 (이러한 관찰은 후속 분석과 관련이 없습니다). 오해의 소지가있는 상관 관계를 자세히 설명 하시겠습니까?
Andy W

@ whuber, 나는 10 ^ 3 이하의 아무것도 소음이라고 생각하지 않습니다. 평판이없는 경우에는 평판 효과 이론이 반드시 적용되어야합니다. 나는 또한 음모에 대한 개선 제안을 환영합니다 (음모에 많은 정보가 없습니다!)
Andy W

감사. 제목의 경우 상관 관계 계산이 없습니다. 그것은 단지 한계 점수 대 명성의 산점도입니다. 당신과 @ whuber가 언급했듯이, 실제로 한계 점수는 아닙니다 : deltaRep (또는 Rep (t)-Rep (t-1)) 대 Rep (t-1)이어야합니다.
반복자

1
@Iterator, 마지막 문장 (upvote 당 10 포인트)에 맞지만 여전히 다른 문장과 플롯하는 내용이 혼동 될 수 있습니다. Y 축은 평판이 아니지만 가장 최근 게시물의 업 보트 수 ( Rep(t) - Rep(t-1)사용자가 다른 장소에서 평판을 얻을 수있는 것은 아닙니다 ), X 축은 현재 평판 (해당 게시물에서 얻은 평판 포함)입니다. X 축은 교체해야한다고 제안한 것입니다 (Y 축에 그려진 문제의 답에서 얻은 공감을 빼는 것입니다).
Andy W
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.