최근에는 평판에 영향을 미치는 업 보트 ( blog-post 참조)에 대한 분석을 수행 한 후 , 더 많은 깨달음 (또는 더 적절한) 분석 및 그래픽에 대한 몇 가지 질문이있었습니다.
따라서 몇 가지 질문이 있습니다 (특히 누군가에게 자유롭게 대답하고 다른 사람들은 무시하십시오).
화신의 현재에서, 나는 포스트 번호의 중심을 의미하지 않았다. 포스트 카운트의 하단에 더 많은 게시물이 있기 때문에 이것이 산포도에 부정적 상관 관계를 잘못 표시하는 것이라고 생각합니다. (이것은 Jon Skeet 패널에서 발생하지 않으며 필사자 사용자에서만 발생합니다. 패널). 게시물 번호를 평균화하지 않는 것이 적절하지 않습니까 (사용자 평균 점수 당 평균 점수를 의미했기 때문에)?
그래프에서 점수가 매우 오른쪽으로 치우쳐 있음을 알 수 있습니다 (평균 중심화는 그 변화를 나타내지 않음). 회귀선을 피팅 할 때 (
rlm
MASS R 패키지 를 통해) 오차가있는 Huber-White sand를 사용하여 선형 모델과 모델을 모두 적합 하게하고 기울기 추정값에 아무런 차이가 없었습니다. 강력한 회귀 대신 데이터로의 변환을 고려해야 했습니까? 모든 변환은 0과 음수의 가능성을 고려해야합니다. 아니면 OLS 대신 카운트 데이터에 다른 유형의 모델을 사용해야합니까?나는 마지막 두 그래픽이 일반적으로 향상 될 수 있다고 생각합니다 (그리고 향상된 모델링 전략과 관련이 있습니다). 내 생각에 비추어 볼 때, 나는 평판 효과가 실제라면 포스터 역사에서 아주 일찍 실현 될 것이라고 생각할 것이다. 만약 이것이 사실이라면, 이것들이 재검토 될 수 있다고 생각한다. "총 점수 별 평판"효과 대신 게시물 "). 과도한 플로팅을 고려하면서 이것이 사실인지 설명하기 위해 그래픽을 만들려면 어떻게해야합니까? 나는 이것을 증명하는 좋은 방법은 폼의 모델에 맞는 것이라고 생각했다.
여기서 은 IS (현재 산점도에 동일한) 은 IS 및 예를 들어 포스트 숫자의 어떤 임의의 범위 (나타내는 가변 수있다 같음을 포스트 번호 인 경우 , 동일 경우 생성 우편 번호 등). 과 은 각각 절편과 오류입니다. 그런 다음 예상 기울기를 조사하여 포스터 이력에서 평판 효과가 일찍 나타나는지 또는 그래픽으로 표시하는지 확인합니다. 이것이 합리적이고 적절한 접근법입니까?X 1 Z 1 ⋯ Z k Z 1 Z 2 β 0score - (mean score per user)
post number
1
1 through 25
1
26 through 50
이러한 유형의 비모수 스무딩 라인을 이러한 산점도 (예 : 황토 또는 스플라인)에 맞추는 것이 인기가 있지만 스플라인을 사용한 실험에서는 아무것도 밝히지 않았습니다 (포스터 역사 초기에 포스트 효과의 증거는 약간이나 온도 적이었습니다) 포함 된 스플라인 수). 초기에 효과가 발생한다는 가설이 있기 때문에 스플라인보다 모델링 방법이 더 합리적입니까?
또한이 모든 데이터를 거의 준설했지만 여전히 조사 할 다른 커뮤니티가 많이 있습니다 (수퍼 유저 및 서버 오류와 비슷한 일부 샘플을 가져와야합니다). 따라서 향후 제안하는 것이 합리적입니다. 홀드 아웃 샘플을 사용하여 모든 관계를 검사하는 분석.