Joel Spolsky의“Snark 사냥”은 유효한 통계 컨텐츠 분석 이후입니까?


25

최근에 커뮤니티 게시판을 읽고 있다면 StackExchange 네트워크의 CEO Joel Spolsky의 공식 StackExchange 블로그 게시물 인 Snark의 사냥 (Hunting of the Snark)을 보셨을 것입니다. 그는 외부 사용자의 관점에서 "친숙성"을 평가하기 위해 SE 의견 샘플에 대해 수행 된 통계 분석에 대해 설명합니다. 의견은 StackOverflow에서 무작위로 추출되었으며 컨텐츠 분석가는 저렴한 비용으로 작고 짧은 작업을 수행하는 근로자와 회사를 연결 하는 업무 시장 인 Amazon Mechanical Turk 커뮤니티의 회원이었습니다 .

얼마 전 저는 정치학 대학원생이었고 제가 강의하는 과목 중 하나는 통계적 내용 분석 이었습니다. 이 클래스의 최종 프로젝트는 실제로 전체 목적으로 뉴욕 타임즈의 전쟁 보도에 대한 자세한 분석 을 수행하여 전쟁 중에 미국인이 뉴스 보도에 대해 가정하는 많은 가정이 정확한지 여부를 테스트하는 것이 었습니다 (스포일러 : 증거는 그들이 아니). 이 프로젝트는 거대하고 상당히 재미 있었지만, 가장 고통스러운 부분은 '훈련 및 신뢰성 테스트 단계'로, 전체 분석을 수행하기 전에 발생했습니다. 그것은 두 가지 목적을 가졌다 (내용 분석 통계 문헌에서 인터 코더 신뢰성 표준에 대한 참조와 자세한 설명은 링크 된 논문의 9 페이지 참조).

  1. 모든 코더, 즉 컨텐츠의 독자가 동일한 질적 정의에 대해 교육을 받았는지 확인하십시오. Joel의 분석에서 이것은 모든 사람들이 프로젝트가 어떻게 "친절하고"친근하지 않다고 정의했는지 정확히 알 수 있음을 의미했습니다.

  2. 모든 코더가 이러한 규칙을 안정적으로 해석했는지 확인합니다. 즉, 샘플을 샘플링하고 부분 집합을 분석 한 다음 정 성적 평가에 대한 쌍별 상관 관계를 통계적으로 입증했습니다.

안정성 테스트는 3-4 회 수행해야했기 때문에 피해를 입었습니다. -1-이 고정되고 -2-가 충분히 높은 쌍별 상관 관계를 보일 때까지 전체 분석에 대한 결과가 의심되었습니다. 유효하거나 유효하지 않다는 것을 증명할 수 없습니다. 가장 중요한 것은 최종 샘플 세트 전에 안정성의 파일럿 테스트를 수행해야했습니다.

내 질문은 이것입니다. Joel의 통계 분석에는 파일럿 신뢰성 테스트가 없었으며 "친 화성"에 대한 운영상의 정의를 확립하지 못했습니다. 최종 결과는 그의 결과의 통계적 타당성에 대해 말할 정도로 신뢰할 만했습니까?

한 가지 관점에서, 인터 코더 신뢰성과 일관된 운영 정의가치 에 대한이 입문서를 고려하십시오 . 동일한 소스에서 자세히 살펴보면 파일럿 신뢰성 테스트 (목록의 항목 5)에 대해 읽을 수 있습니다 .

그의 대답에서 앤디 W.의 제안 당, 내가있는 데이터 세트에 신뢰성 다양한 통계 계산을 시도하고있어 , 여기에 해당 이 사용하는 명령 시리즈 R에 (I 새로운 통계를 산출 갱신을).

설명 통계는 여기

백분율 동의 (허용 오차 = 0) : 0.0143

백분율 합의 (허용 오차 = 1) : 11.8

크리 펜 도르프의 알파 : 0.1529467

또한 다른 질문 에서이 데이터 대한 항목-응답 모델을 시도했습니다 .


1
공개적으로 코딩 된 데이터를 해제 않은 사람이 가서 하나가 원한다면 코더 자체의 신뢰성을 평가할 수 있도록.
Andy W

3
재 : # 1 - 의견이있는 경우에 운동을 너무 많이 아니라는 것을 주목해야한다 이었다 의견이 있다면 친화적 여부는하지만, 더 운동의에 대한 인식 친화적으로 여부를 외부 사용자에게.
Rachel

3
@Rachel 나는 그것이 옳지 않다고 생각합니다. 외부인이 SO에 대한 의견을 인식하는 방법을 측정하는 경우 20 명보다 훨씬 더 많은 샘플 세트가 필요했을 것입니다.
Christopher

2
외부인이 의견을 인식하는 방법에 대한 결론과 의견 자체에 대한 결론을 맺는 것의 차이점입니다. 첫 번째 경우에는 훨씬 더 많은 사람들이 필요하며 "외부인은 SO 의견의 2.3 %가 비우호적이라고 생각합니다"라고 결론을 내립니다. 두 번째로, "SO 의견의 2.3 %는 친절하지 않습니다." 그것들은 다른 결론이며, 두 번째 결론은 불가능하다고 생각합니다. 왜냐하면 우리는 코더가 신뢰성 테스트없이 주석을 비슷하게 평가한다는 것을 보여줄 수 없기 때문입니다.
Christopher

2
@Christopher Friendliness는 매우 주관적입니다. 누구에게 물어 보느냐에 따라 같은 의견을 친절하고 비우호적 인 것으로 볼 수 있습니다. 그렇기 때문에 본인과 똑같은 관점을 가진 사람 대신 수많은 무작위 사용자로부터 관점을 얻는 것이 더 중요하다고 생각합니다.
Rachel

답변:


6

백분율 합의 (허용 오차 = 0) : 0.0143

백분율 합의 (허용 오차 = 1) : 11.8

크리 펜 도르프의 알파 : 0.1529467

이러한 합의 조치는 실질적으로 범주 적 합의가 없음을 나타냅니다. 각 코더는 주석을 "친절한"또는 "친절하지 않은"것으로 판단하기위한 내부 차단 지점이 있습니다.

만약 우리가 세 가지 범주, 즉 비 친화적 <중립적 <친근한 것으로 분류되었다고 가정한다면, 다른 합의 척도로서 클래스 내 상관 관계를 계산할 수도 있습니다. 1000 개의 주석으로 구성된 랜덤 샘플에서 ICC (2,1)는 .28이고 ICC (2, k)는 .88입니다. 즉, 20 개의 평가자 중 하나만 사용하는 경우 결과를 매우 신뢰할 수 없으며 (.28) 평균 20 개의 평가자를 사용하면 결과가 신뢰할 수 있습니다 (.88). 세 가지 임의의 평가자를 조합하여 사용하는 경우 평균 신뢰도는 .50과 .60 사이이며 여전히 너무 낮은 것으로 판단됩니다.

두 코더 간의 평균 이변 량 상관 관계는 .34로 다소 낮습니다.

이러한 합의 조치가 코더의 품질 척도로 보이는 경우 (실제로 합의를 보여야 함) 대답은 다음과 같습니다. 좋은 코더가 아니므로 더 잘 훈련해야합니다. 이것이 "임의의 사람들 사이에서 자발적인 합의가 얼마나 좋은가"의 척도로 간주된다면, 그 대답은 다음과 같습니다. 벤치 마크로서 물리적 매력도의 평균 상관 관계는 약 .47-.71입니다 [1]

Langlois, JH, Kalakanis, L., Rubenstein, AJ, Larson, A., Hallam, M., & Smoot, M. (2000). 아름다움의 막심 또는 신화? 메타 분석 및 이론적 검토. 심리 게시판, 126, 390–423. 도 : 10.1037 / 0033-2909.126.3.390


7

점수의 신뢰성은 종종 고전 시험 이론 에 의해 해석됩니다 . 여기에는 실제 점수가 X있지만 특정 결과에서 관찰하는 것은 실제 점수뿐만 아니라 오류가있는 실제 점수입니다 (예 :) Observed = X + error. 이론적으로 동일한 기본 테스트대해 여러 번 관찰 된 측정을 수행 하여 (그 테스트의 오류 분포에 대한 몇 가지 가정을 수행) 관찰되지 않은 실제 점수를 측정 할 수 있습니다.

이 프레임 워크에서 여러 관측 값이 동일한 기본 테스트를 측정 한다고 가정 해야합니다. 그런 다음 관찰 된 측정 값이 동일한 기본 테스트를 측정하지 않는다는 증거로 테스트 항목의 신뢰성이 떨어집니다. 이것은 신뢰성이 낮고 그 자체로는 항목이 동일한 구성을 측정하지 않는다는 것을 입증하지는 않지만 이는 현장의 관습 일뿐입니다. 따라서 매우 신뢰할 수없는 테스트로도 많은 관찰 된 측정을 수행함으로써 실제 점수의 신뢰할 수있는 측정을 얻을 수 있다고 주장 할 수 있습니다.

또한 고전적 테스트 이론이 그러한 테스트를 해석하는 유일한 방법 일 필요는 없으며 많은 스콜 러들은 잠재적 변수와 항목-응답 이론 의 개념 이 항상 고전적인 테스트 이론보다 더 적합 하다고 주장 할 것 입니다.


고전적 테스트 이론에서 유사한 암시 적 가정은 사람들이 신뢰도가 너무 높다고 말할 때입니다. 특정 항목 (들)이 몇 가지 기본 테스트를 측정하는지의 타당성에 대해서는 아무 것도 말하지 않지만, 신뢰성이 너무 높을 때 연구자들은 테스트 간의 오류가 독립적이지 않다는 증거로 사용합니다.

나는 왜 당신이 들어 가지 않고 신뢰도를 계산하는 것에 대해 그렇게 열의를 가지고 있는지 잘 모르겠습니다. 왜이 추가 정보에 비추어 이것을 수행 할 수없고 분석을 해석 할 수 없습니까?


먼저 저는 더 이상 좋은 이유 때문에 통계를하는 대학원생이 아니라는 점을 지적하겠습니다. 그것은 꽤 좋은 강점이 아니 었습니다. 방법론을 잘못 기억하고있을 수 있습니다. 똑같이, 나는 당신과 나는 다른 신뢰성 측정에 대해 이야기하고 있다고 생각하거나 적어도 최종 분석을 수행하기 전에 인터 코더 신뢰성을 측정하기위한 연구가 있다고 생각합니다. 웹에서 찾은 하나의 출처를 포함하도록 질문을 편집했습니다.이 주제에 대해 상당히 많은 연구가 인용되었습니다.
Christopher

다른 맥락 (일부 연속 결과 대신 이분법 테스트 항목의 신뢰성)이지만 논리는 기능적으로 동일합니다. 그러므로 왜 특정한 신뢰성 측정 기준을 언급하지 않았습니까 (많은). 귀하의 견적은에 대해 아무런 영향을 미치지 않으므로 before the final analysis해당 개념의 출처가 확실하지 않습니다.
Andy W

아하. 당신은 맞습니다, 그것은 요구 사항이 아닙니다. 내가 게시 한 링크를 자세히 읽으면이 파일럿 테스트가 방법 론적 모범 사례로 간주됩니다 (파일럿 테스트 검색).
Christopher

새로운 정보를 수용하기 위해 질문을 변경했습니다. 내 오류를 해결하는 데 도움을 주셔서 감사합니다.
크리스토퍼

2
다른 질문 이 있습니다.
Christopher
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.