아마존의“평균 등급”은 오해의 소지가 있습니까?


49

올바르게 이해하면 1-5 척도의 도서 등급은 리 커트 점수입니다. 즉, 나를위한 3은 다른 사람을위한 3 일 필요는 없습니다. 서수 척도 IMO입니다. 실제로 서수 스케일을 평균화해서는 안되지만 모드, 중앙값 및 백분위 수를 확실히 취할 수 있습니다.

인구의 대부분이 위의 통계보다 수단을 이해하기 때문에 규칙구부리 는 것이 '좋아' 입니까? 리서치 커뮤니티는 리 커트 척도 기반 데이터의 평균을 취하는 것을 강력히 책망하지만, 대중과 함께 (실제로 말하면) 괜찮을까요? 이 경우 평균을 취하는 것이 처음부터 오도 된 것입니까?

아마존과 같은 회사가 기본 통계를 다루지 않을 것 같지만, 그렇지 않다면 여기서 무엇을 놓치고 있습니까? 서수 척도가 평균을 취하는 것을 정당화하기 위해 서수에 대한 편리한 근사라고 주장 할 수 있습니까? 어떤 근거로?


3
당신을위한 3이 다른 누군가를위한 3과 같지 않다면, 당신은 스케일을 가지고 있지 않습니다. 당신은 비교할 수없는 측정의 콜렉션을 가지고 있고 그것들을 요약하기 위해 할 수있는 의미가 거의 없습니다. 척도 서수를 만드는 것은 (a) 값 비교할 있으므로 3과 3이 동일한 것을 의미하지만 (b) 값의 수치 적 차이는 부호와 떨어져 의미가 없으므로 (3) 두 3, 수치 적으로 각 등급의 쌍이 동일한 평균과 중앙값을 갖지만 , 4 및 2, 또는 5 및 1은 임의의 순서 로 배치 될 수있다 .
whuber

1
@ whuber-그러나 두 사람이 숫자에 대해 1-9 척도로 동일한 의견을 공유하지 않을 수 있습니까? 저에게 6은 실제로 미리 정해진 척도가 없다면 다른 사람에게는 6이 아닐 수 있습니까?
PhD

1
나는 최근 아마존에 대한 한 리뷰를 읽었습니다. "화려한 제품은 그것을 잘못 만들 수 없습니다. 나는 5 별을주지 않을 것입니다. 이것이 평균을 왜곡시키지 않으면 나는 그것을 모른다.
Matt Wilko

2
@ Wilko 당신은 규모의 차이가 아니라 의견의 차이에 대해 이야기하고 있습니다. 체조 또는 피겨 스케이팅 점수 또는 강의 급류 난이도를 평가하기위한 국제 규모와 같이 척도를 매우 신중하게 교정하더라도 전문가가 해당 척도를 사용하도록 훈련을 받았더라도 여전히 변동이 있습니다. 그것은 일반적으로 규모가 주관적인 증거로 해석되지 않습니다 : 그것은 판사들 사이의 변화로 해석됩니다.
whuber

1
죄송합니다, 이것은 실제로 답이 아니지만 불행히도 "댓글"-기능을 찾을 수 없습니다. 최근에는 고객 리뷰의 핵심 요소에 대한 석사 논문을 쓰기 시작했습니다. 다음과 같은 상황을 고려하여 Amazon의 5 성급 등급 시스템의 중요성을 의심하기 시작했습니다. - 불신 한 리뷰 수 - 등급 편향 및 J- 커브의 영향 ( buildingreputation.com/writings/2009
derPio

답변:


42

평균을 사용하여 5 점 등급의 중심 경향을 요약 할 경우의 이점

@ gung이 언급했듯이 5 점 항목의 평균을 중심 경향의 지표로 취하는 데는 매우 좋은 이유가 있다고 생각합니다. 나는 이미 이러한 이유를 설명했다 .

말을 바꾸려면 :

  1. 평균은 계산하기 쉽다
  2. 평균은 직관적이고 잘 이해됩니다
  3. 평균은 단일 숫자입니다
  4. 다른 지수는 종종 유사한 순위의 객체를 산출합니다

평균이 아마존에 좋은 이유

평균을보고하는 데있어 아마존의 목표에 대해 생각해보십시오. 그들은 목표로하고있을 수 있습니다

  • 항목에 대해 직관적이고 이해하기 쉬운 등급을 제공합니다.
  • 평가 시스템의 사용자 승인을 보장
  • 사람들이 평가의 의미를 이해하도록하여 구매 결정에 알맞게 사용할 수 있도록합니다.

Amazon은 일종의 반올림 평균, 각 등급 옵션의 빈도 수 및 샘플 크기 (예 : 등급 수)를 제공합니다. 이 정보는 아마도 대부분의 사람들이 품목에 대한 일반적인 감정과 그러한 등급에 대한 신뢰를 모두 이해하기에 충분할 것입니다 (즉, 등급이 20 인 4.5는 평점이 4.5 인 4.5보다 10 5 인 항목보다 정확할 가능성이 높습니다). -별 등급 및 댓글이없는 1 개의 별 등급은 여전히 ​​좋은 항목 일 수 있습니다).

평균을 민주적 옵션으로 볼 수도 있습니다. 많은 선거는 어느 후보가 2 점 척도에서 가장 높은 평균을 얻는 지에 따라 결정됩니다. 마찬가지로, 검토를 제출 한 각 사람이 투표를 받는다는 주장을한다면, 평균을 각 사람의 투표에 똑같이 가중시키는 형태로 볼 수 있습니다.

스케일 사용의 차이가 실제로 문제입니까?

중심 경향 편향, leniency 편견, 엄격 편향과 같은 심리학 문헌에 알려진 광범위한 등급 편향이 있습니다 (검토를 위해 Saal et al 1980 참조). 또한 일부 평가자는 더 임의적이며 일부는 더 신뢰할 수 있습니다. 일부는 체계적으로 가짜 긍정적 또는 가짜 부정적인 리뷰를 제공하기도합니다. 항목의 실제 평균 등급을 계산할 때 다양한 형태의 오류가 발생합니다.

그러나 임의의 모집단 표본을 추출하는 경우 이러한 치우침이 취소되고 충분한 표본 크기의 평가자가 있으면 실제 평균을 얻을 수 있습니다.

물론 아마존에서 무작위 샘플을 얻지 못하고 아이템에 대해 얻은 특정 평가자 세트가보다 관대하거나 엄격하도록 체계적으로 편향 될 위험이 있습니다. 즉, Amazon 사용자는 사용자가 제출 한 평가가 불완전한 샘플에서 나온 것임을 높이 평가할 것입니다. 또한 많은 경우에 응답 바이어스 차이의 대부분이 사라지기 시작하는 합리적인 표본 크기로 인해 가능성이 높다고 생각합니다.

평균 이상의 가능성

등급의 정확성을 향상시키는 관점에서 평균의 일반적인 개념에 도전하지는 않지만 항목의 실제 모집단 평균 등급을 추정하는 다른 방법이 있다고 생각합니다. 항목을 평가하도록 요청한 큰 대표적인 샘플이었습니다.

  • 그들의 신뢰도에 근거한 무게 평가자
  • 평균 등급을 모든 품목의 평균 등급과 특정 품목의 평균의 가중 합계로 추정하는 베이지안 등급 시스템을 사용하고 등급 수가 증가함에 따라 특정 품목의 가중치를 높이십시오.
  • 항목 전체의 일반적인 등급 경향에 따라 평가자의 정보를 조정하십시오 (예 : 일반적으로 3을 제공하는 사람의 5는 일반적으로 4를 제공하는 사람보다 더 가치가 있습니다).

따라서 등급의 정확성이 아마존의 주요 목표라면 아이템 당 등급 수를 늘리고 위의 전략 중 일부를 채택하기 위해 노력해야한다고 생각합니다. 이러한 접근 방식은 "최고의"순위를 만들 때 특히 관련이있을 수 있습니다. 그러나 페이지의 겸손한 평가의 경우 샘플 평균이 단순성과 투명성의 목표를 더 잘 충족 할 수 있습니다.

참고 문헌

  • Saal, FE, Downey, RG & Lahey, MA (1980). 등급 평가 : 등급 데이터의 심리적 품질 평가. Psychological Bulletin, 88, 413.

1
+1. 나는 이것이 이전 답변을 넘어서 / 아주 좋은 방법으로 확장한다고 생각합니다. 나는 특히 '평균이 아마존에 좋은 이유'라는 섹션을 좋아하는데, 마지막 문장에서 무엇을 얻으려고했는지 더 명확하게 열거합니다. '비율의 다른 용도'도 상당히 통찰력이 있습니다. 좋은 문헌을 알고 있다면 그 문헌을 검토해 주셔서 감사합니다. 그러나 마지막 섹션은 두 번째 부분의 긴장 상태에 있습니다.
gung-모니 티 복원

2
감사. 나는 등급 편향 문헌에 대한 참조를 추가하고 마지막에 두 가지 관점을 조정하려고 시도하는 것을 추가했습니다.
Jeromy Anglim

2
+1 @JeromyAnglim-문제의 다양한 측면을 밝게 비추는 철저한 관점. 명성!
PhD

+1, 좋은 답변입니다. 한 문장이 약간 오도되었지만 "그러나 무작위 모집단 표본을 채취 할 경우 그러한 편견이 사라지고 충분한 표본 크기의 평가자가 있으면 실제 평균을 얻을 수 있습니다." -난 당신이 모집단의 무작위 표본을 가지고 있더라도 모든 편견에 적용되지 않는다고 생각합니다.
Michael Bishop

1
@MichaelBishop 고마워, 나는 내 언어가 조금 부주의하다는 데 동의한다. 나는 그것이 "진정한 평균"의 의미에 달려 있다고 생각합니다. 모집단에 가짜가있는 경우 조정되지 않은 모집단이 가상의 "진정한 평균"에서 멀어 지도록 편향 될 수있는 방법을 알 수 있습니다. 모든 항목에 적용되는 개인의 체계적인 편향이 결과 평균에 따라 편견없는 항목 순서를 지정하기 위해 취소 될 것이라고 생각했습니다.
Jeromy Anglim

15

여기에 다소 기술적하기 위해, 그 평가는 실제로 아니다 리 커트 척도 ; 그들은 단지 서수 등급입니다. 자, 당신의 요점은 본질적으로 맞습니다. 그러나 종종이 문제로 너무 많은 것이 있다고 생각합니다. 한 가지 주목할 점은 일반적으로 다수의 서수 항목의 평균 이 대략 간격 일 있다는 점을 이해 하므로 많은 등급이있을 경우 평균이보다 합리적인 표현이됩니다. 내가 발견 한 이 답변 (정말, 질문 및 모든 승무원 답변 읽기 가치가있다) @JeromyAnglim에 의해 우수합니다. 더 이론적 인 치료는 여기를 참조 하십시오. 다른 말로, 나는 아마존을 좋아하지만 특히 기본 사이트 디자인과 관련하여 통계적 정교함을 기대할 이유가 없습니다. 요점은 통계 교수에게 깊은 인상을주지 않는 소비자의 유용성입니다.


2
아마존은 온라인 광고 및 웹 사이트 사용을위한 실험 설계 분야에서 (인터넷) 기술 업계의 리더 중 하나였습니다. 당신은 그들이 실제로 확신 할 수 있는 통계적 방법에 매우 정교한. :-) 당신의 요점은 좋은 것입니다. 더 작은 단계를 밟기 위해 Amazon이 "더 정교한"작업을 수행하고 누군가가 간단한 평균을 사용하여 확인한 경우 일부 항목은 평균보다 "높은"등급을, 다른 항목은 "낮은"것으로 나타났습니다. 소란스럽고 아마존이 제품에 대한 "숨겨진 편견"을 설명하려고 떠난다 고?
추기경

1
Netflix와 같은 다른 서비스는 "요약"데이터 만 제공하여이 문제를 방지합니다. :)
추기경

@ cardinal, 그것은 매우 흥미 롭습니다. 아마존에 대해서는 몰랐습니다.
gung-Monica Monica 복원

15

모두 이것에 대해 좋은 의견을 가지고 있습니다. 나는 정말 더 많은 것을 추가 할 수 있다고 생각하지 않습니다. 그러나 나는 이것을 게시 할 것이다 :


7
만화에 따르면 일부 사람들은 아이템의 품질에 대한 나쁜 판단력을 가지고 있으며 많은 사람들을 평균화하면 평균이 좋지 않습니다. 일반적으로 군중의 지혜는 적어도 합리적인 비율의 사람들이 약간의 지식을 가지고 있으면 평균이 상당히 잘 수행됨을 시사합니다. 신뢰도 별 가중 등급은 문제를 극복하기위한 하나의 전략 일 수도 있습니다.
Jeromy Anglim

1
다른 옵션은 Netflix 스타일 권장 사항을 사용하는 것입니다. 등급을 다른 사용자의 등급과 비교 한 다음 비슷한 선택을 가진 사용자가 제공 한 등급을 평균화합니다.
rahul

1
@rahul 좋은 지적입니다. 내 대답에서 때때로 나는 오류에 대한 구조가 있더라도 등급이 대체로 실제 점수 + 오류라고 가정합니다. 그러나 개인 취향이 품질의 정의의 일부인 도메인에 관해서는 이것이 항상 의미가있는 것은 아닙니다.
Jeromy Anglim

나는 그것을 좋아한다. 그리고 그것은 소비자로서 나는 별의 수를 보지 않고 리뷰를 읽으려고 노력하는 이유이다. 그러나 나는이 경우에 중앙값, 모드 및 백분위 수의보다 "정교화 된"방법이 모두 평균보다 더 나쁜 결과를 낳는 것이 아이러니하다고 생각했다. ;-)
Darren Cook

3

내 경험상, 평가 척도 데이터의 평균은 종종 우리가 평가 척도와 연관시키려는 실제 메트릭의 수준과 가장 밀접한 상관 관계가 있습니다. 우리는 많은 선형 관계를 발견했으며, 따라서 평균은 데이터를 요약하는 더 좋은 방법 중 하나입니다. 즉, Jeromy가 지적했듯이 등급 척도의 중심 경향을 분석하는 대부분의 방법은 대부분 비슷한 결과 (순위 순서 등)를 제공합니다.

또한, 나는 아마존이 과학적 타당성과 관련된 모든 방법이 아닐 수도 있다고 생각합니다. 결국 아마존의 목표는 사람들이 Amazon.com에서 더 많은 쇼핑을하도록하는 것입니다. 그리고 리뷰를 달성하는 데 도움이되는 방법은 아마도 하나의 요약이 사용 된 것과 다를 수 있습니다. 좋은 제품은 보상을 받고, 나쁜 제품은 처벌을받으며, 신경질적인 구매자는 장단점을 더 자세히 검토 할 수 있습니다.


2

회사가 시스템을 게임하기 때문에 아마존 등급이 잘못되었습니다. 고객에게 5 성급 리뷰에 대한 리베이트 및 무료 상품이 제공 될 때 등급 번호의 의미 또는 의미에 대한 "통계"가 불분명합니다.


1
그러한 일이 얼마나 자주 발생하는지에 대한 데이터가 있습니까?
Michael Bishop

1

당신은 좋은 지적을합니다. 서수의 평균을 취하는 것은 다소 오해의 소지가 있습니다. 몇 가지 순위에 대한 요약은 내 주관적인 3이 실제로 4와 동일하다는 사실로 인해 어려움을 겪을 것입니다. 따라서 다른 개별 점수를 결합하는 것이 가장 큰 문제 일 것입니다. 3과 4의 평균을 3.5로 해석하는 것은 그리 심각하지 않습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.