최근에 커뮤니티 게시판을 읽고 있다면 StackExchange 네트워크의 CEO Joel Spolsky의 공식 StackExchange 블로그 게시물 인 Snark의 사냥 (Hunting of the Snark)을 보셨을 것입니다. 그는 외부 사용자의 관점에서 "친숙성"을 평가하기 위해 SE 의견 샘플에 대해 수행 된 통계 분석에 대해 설명합니다. 의견은 StackOverflow에서 무작위로 추출되었으며 컨텐츠 분석가는 저렴한 비용으로 작고 짧은 작업을 수행하는 근로자와 회사를 연결 하는 업무 시장 인 Amazon Mechanical Turk 커뮤니티의 회원이었습니다 .
얼마 전 저는 정치학 대학원생이었고 제가 강의하는 과목 중 하나는 통계적 내용 분석 이었습니다. 이 클래스의 최종 프로젝트는 실제로 전체 목적으로 뉴욕 타임즈의 전쟁 보도에 대한 자세한 분석 을 수행하여 전쟁 중에 미국인이 뉴스 보도에 대해 가정하는 많은 가정이 정확한지 여부를 테스트하는 것이 었습니다 (스포일러 : 증거는 그들이 아니). 이 프로젝트는 거대하고 상당히 재미 있었지만, 가장 고통스러운 부분은 '훈련 및 신뢰성 테스트 단계'로, 전체 분석을 수행하기 전에 발생했습니다. 그것은 두 가지 목적을 가졌다 (내용 분석 통계 문헌에서 인터 코더 신뢰성 표준에 대한 참조와 자세한 설명은 링크 된 논문의 9 페이지 참조).
모든 코더, 즉 컨텐츠의 독자가 동일한 질적 정의에 대해 교육을 받았는지 확인하십시오. Joel의 분석에서 이것은 모든 사람들이 프로젝트가 어떻게 "친절하고"친근하지 않다고 정의했는지 정확히 알 수 있음을 의미했습니다.
모든 코더가 이러한 규칙을 안정적으로 해석했는지 확인합니다. 즉, 샘플을 샘플링하고 부분 집합을 분석 한 다음 정 성적 평가에 대한 쌍별 상관 관계를 통계적으로 입증했습니다.
안정성 테스트는 3-4 회 수행해야했기 때문에 피해를 입었습니다. -1-이 고정되고 -2-가 충분히 높은 쌍별 상관 관계를 보일 때까지 전체 분석에 대한 결과가 의심되었습니다. 유효하거나 유효하지 않다는 것을 증명할 수 없습니다. 가장 중요한 것은 최종 샘플 세트 전에 안정성의 파일럿 테스트를 수행해야했습니다.
내 질문은 이것입니다. Joel의 통계 분석에는 파일럿 신뢰성 테스트가 없었으며 "친 화성"에 대한 운영상의 정의를 확립하지 못했습니다. 최종 결과는 그의 결과의 통계적 타당성에 대해 말할 정도로 신뢰할 만했습니까?
한 가지 관점에서, 인터 코더 신뢰성과 일관된 운영 정의 의 가치 에 대한이 입문서를 고려하십시오 . 동일한 소스에서 자세히 살펴보면 파일럿 신뢰성 테스트 (목록의 항목 5)에 대해 읽을 수 있습니다 .
그의 대답에서 앤디 W.의 제안 당, 내가있는 데이터 세트에 신뢰성 다양한 통계 계산을 시도하고있어 , 여기에 해당 이 사용하는 명령 시리즈 R에 (I 새로운 통계를 산출 갱신을).
백분율 동의 (허용 오차 = 0) : 0.0143
백분율 합의 (허용 오차 = 1) : 11.8
크리 펜 도르프의 알파 : 0.1529467