적은 수의 사람들에 의해 높은 등급을받은 항목들보다 더 많은 사람들에 의해 높은 등급의 항목들을 선호하도록 등급 시스템의 가중치를 부여합니까?


9

나와 관련해 주셔서 감사합니다. 나는 어떤 종류의 통계학 자도 아니며 내가 상상하고있는 것을 설명하는 방법을 모릅니다. 따라서 Google은 나를 도와주지 않습니다 ...

작업중인 웹 응용 프로그램에 평가 시스템을 포함시키고 있습니다. 각 사용자는 각 항목을 정확히 한 번만 평가할 수 있습니다.

"강하게 싫어함", "싫어요", "좋아요"및 "강하게 좋아요"의 4 가지 값으로 스케일을 상상하고 각각 -5, -2, +2 및 +5의 값을 할당 할 계획이었습니다. .

이제 모든 항목의 평점 수가 동일하다면 가장 선호하는 항목과 가장 적은 항목을 명확하게 구분하여이 점수 체계에 상당히 익숙 할 것입니다. 그러나 항목의 평점 수가 동일하지 않으며 다른 사진에 대한 투표 수의 차이가 상당히 클 수 있습니다.

이 경우 두 항목의 누적 점수를 비교하면 평범한 등급이 많은 오래된 항목이 투표 수가 적은 예외적 인 새 항목보다 훨씬 높은 점수를 얻게됩니다.

따라서 내가 생각한 첫 번째 명백한 것은 평균을 취하는 것입니다. 그러나 이제 항목에 "+5"등급이 하나만있는 경우 99 "+5"등급을받은 항목보다 평균이 더 좋습니다. 그리고 1 "+2"등급. 직관적으로 이는 항목의 인기도를 정확하게 나타내지는 않습니다.

나는이 문제가 일반적이라고 생각하며 더 많은 예제를 사용 하여이 작업을 수행 할 필요가 없으므로이 시점에서 멈추고 필요한 경우 주석을 작성합니다.

내 질문은 :

  1. 이런 종류의 문제는 무엇이며이를 해결하는 데 사용되는 기술에 대한 용어가 있습니까? 나는 이것을 읽을 수 있도록 이것을 알고 싶습니다.
  2. 당신이 주제에 대한 평온한 자원을 알고 있다면, 나는 많은 링크를 부탁드립니다.
  3. 마지막으로, 이런 종류의 데이터를 효과적으로 수집하고 분석하는 방법에 대한 다른 제안에 감사드립니다.

답변:


14

이를 방지 할 수있는 한 가지 방법은 각 범주에 비율을 사용하는 것입니다. 각 범주에 숫자를 입력 할 필요가 없습니다 (80 %로 "강력하게"라고 평가할 수 있음). 그러나 비율은 소수의 등급 문제로 인해 어려움을 겪습니다 . 이 예에서는 1 +5 등급의 사진이 99 +5 및 1 +2 등급의 사진보다 높은 평균 점수 (및 비율)를 얻습니다. 이것은 내 직감에 맞지 않습니다 (그리고 나는 대부분의 사람들을 의심합니다).

이 작은 표본 크기 문제를 해결하는 한 가지 방법은 " Laplace의 승계 규칙 "(이 용어를 검색하는 것이 유용 할 수 있음)으로 알려진 베이지안 기법을 사용하는 것 입니다. 확률을 계산하기 전에 각 범주에 1 개의 "관측"을 추가하기 만하면됩니다. 숫자 값의 평균을 원한다면 가중치가 연속 규칙으로 계산 된 확률 인 가중 평균을 제안합니다 .

수학 양식의 경우 이 각각 "강하게 싫어함", "싫어요", "like"및 "strongly like"의 응답 수를 나타냅니다. (두 예에서, 및 ). 그런 다음 다음과 같이 강력하게 확률 (또는 가중치)을 계산합니다.에스,,,에스에스=1,에스===0에스=99,=1,에스==0

아르 자형("강하게 좋아")=에스+1에스+++에스+4

두 가지 예에서 및 과 같이 "강하게 좋아요"의 확률을 제공합니다. "상식"에 더 가깝다고 생각합니다. 추가 된 상수를 제거하면 및 이 생성되어 첫 번째 결과가 예상보다 높아 보입니다 (적어도 어쨌든).1+11+0+0+0+4=2599+199+1+0+0+4=1001041199100

각 점수는 가중 평균으로 제공되며, 아래에서 다음과 같이 작성했습니다.

에스영형아르 자형이자형=5에스+1에스+++에스+4+2+1에스+++에스+42+1에스+++에스+45에스+1에스+++에스+4

또는 더 간결하게

에스영형아르 자형이자형=5에스+225에스에스+++에스+4

다음은 및 의 두 가지 예에서 점수를 제공합니다 . 이것이 두 경우의 적절한 차이를 보여줍니다.55=14971044.8

이것은 약간 "수수한"일 수 있으므로 더 자세한 설명이 필요하면 알려주십시오.


그것은 저에게 약간의 "수학"이었고 처음에는 공식을 이해하지 못했지만 약 세 번주의 깊게 읽고 클릭했습니다! 이것은 내가 찾던 것과 정확히 같으며, 수학 자나 통계학자가 아닌 사람에게도 당신의 설명은 매우 분명했습니다. 대단히 감사합니다!
Andrew

2
아주 좋은 비 기술적 답변과 내가 생각하지 않은 접근법. 정수가 아닌 숫자를 포함하여 1이 아닌 각 범주에 임의의 수의 가짜 '관찰'을 추가 할 수 있다고 덧붙였습니다. 이를 통해 투표가 적은 항목의 점수를 0으로 축소하려는 정도를 유연하게 결정할 수 있습니다. 이 방법에 대해 기술적으로 들리는 설명을 원한다면 이전에 대칭 Dirichlet을 사용하여 다항 분포에서 데이터에 대한 베이지안 분석을 수행하고 있다고 말할 수 있습니다.
onestop

1
"가짜"관측치처럼 보일 수 있지만, +1 이상일 때는 잘 정의 된 의미를 갖습니다 (실제로 "가짜"숫자 또는 이전 데이터 수집의 숫자 인 +2 이상). 그것은 기본적으로인지 기술의 상태에 대해 설명 가능한 각 카테고리는, 투표 할 수 있도록 이전에 모든 데이터를 관찰한다. 이것은 정확하게 (N-1) 심플 렉스 이전의 평평한 기능입니다.
probabilityislogic

이 게시물을 찾는 미래의 사람들을위한 한 가지 더 관찰 : 내 모델에서 이것을 구현할 때 최종 점수를 취하여 20을 곱하여 최악의 점수에서 가능한 최고 점수까지 -100에서 100까지의 범위를 제공합니다 (기술적으로는 도달 할 수없는 한계이지만 아이디어를 얻습니다. 내 앱의 사용자 출력이 매우 직관적입니다!
Andrew

@probabilityislogic : Dirichlet에 대한 엄격하게 긍정적 인 매개 변수는 모든 확률이 엄격하게 0과 1 사이에 있다고 설명합니다. 그리고이 주장은 그것들을 2 / m으로 설정하는 것을 제안합니다. 여기서 m은 1이 아닌 범주의 수입니다. en.wikipedia.org/wiki/…
onestop

2

나는 그래픽 접근법을 취할 것입니다. x 축은 평균 등급 일 수 있고 y는 등급 수일 수 있습니다. 나는 이것을 스포츠 통계와 함께 사용하여 젊은 페놈의 기여와 베테랑 스타의 기여를 비교했습니다. 점이 오른쪽 상단에 가까울수록 이상적인 지점에 가까워집니다. 물론, "최상의"항목을 결정하는 것은 여전히 ​​주관적인 결정이지만, 이것은 일부 구조를 제공 할 것입니다.

다른 변수에 대해 평균 등급을 표시하려면 버블 크기, 버블 플롯 (예 : XL 또는 SAS)을 사용하여 세 번째 변수로 등급 수를 설정할 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.