SE 기고자의“반올림”을 측정하는 방법은 무엇입니까?


12

우리 모두 알다시피, Stack Exchange는 다양한 주제를 가진 Q & A 사이트 모음입니다. 사용자가 가진 통계를 고려할 때 각 사이트가 서로 독립적이라고 가정하면 다음 사람과 비교하여 자신의 "반올림"을 계산하는 방법은 무엇입니까? 사용해야하는 통계 도구는 무엇입니까?

솔직히 말해서, "웰빙 성"을 수학적으로 정의하는 방법을 잘 모르지만 다음과 같은 특징이 있어야합니다.

  1. 모든 것이 평등할수록 사용자가 더 많은 담당자를 가질수록 더 균형 잡힌 사람입니다.
  2. 모든 것이 평등할수록 사용자가 더 많은 사이트에 참여할수록 더 균형이 잘 잡 힙니다.
  3. 답변이나 질문이 다방면에 영향을 미치지 않는지 여부

SE 맥락에서 우선 "반올림"을 어떻게 정의 하시겠습니까?
JM은 통계하지

@JM, 나는 모르겠다. 그것이 커뮤니티가 개념을 조금 더 구체화하는 데 도움이되기를 희망하는 이유이다.
Graviton

1
무릎을 꿇고 PC 경찰 중 하나처럼 들릴 위험이 있습니다-우리 사이트를 방문하는 여성을 포함합시다. @Graviton, 모든 참조는 남성입니다.
rolando2

사용자 ID로 정의 된 반올림은 제공자의 SE에 대한 사용자 ID가 다를 수 있으므로 제공자의 반올림에 대해 알려주지 않습니다 . 일부 사용자 ID는 둘 이상의 제공자 (예 : 계정을 공유하는 파트너)가 사용할 수도 있습니다.
Alexis

답변:


7

사이트 간의 유사성도 고려해야합니다. StackOverflow의과에 참여하는 사람 조미 조언은 더 (내가 주장) 더 SO와에 참여하는 사람보다 잘 반올림 차례에 SO와 CrossValidated에 참여하는 사람보다 잘 반올림 프로그래머 . 의심의 여지없이 여러 가지 방법이 있지만 중복 등록을 확인하여 느낌을 얻을 수 있습니다.


1
@ 매트 파커 (Matt Parker), 좋은 점-담당자가 통계의 일부인 경우 담당자의 획득 방식도 살펴 봐야한다고 생각합니다. 많은 질문 / 답변에서 적은 이익을 얻은 사람은 많은 투표권을 얻은 단일 질문에 대해 동일한 사람을 얻는 사람보다 더 잘 반올림 될 수 있습니다.
DQdlM

3
@Kenny 그것은 좋은 지적이며 당신이 말한 방식이 옳다고 생각합니다. 그러나 가장 많이 투표를 한 많은 질문과 답변은 종종 전문 지식을 나타내는 것이 아니라고 생각하지만 실제로는 어려운 기술적 질문에 대한 좋은 답변은 매우 낮은 투표.
매트 파커

1
예를 들어 whuber의 답변을 확인하십시오. 그의 답변은 획일적으로 우수합니다. 그렇다면 그의 높은 등급의 답변과 1 표의 차이는 무엇입니까? 전자를 살펴보면 내가 이해하는 질문에 대한 훌륭한 답변을 볼 수 있습니다. 후자에, 나는 심지어 시작하기 시작하지 않은 질문에 대한 훌륭한 답변. 따라서 투표가 적은 답변은 실제로 깊은 전문화를 나타내는 것일 수 있습니다 (그러나 참고 : 다재다능한 SE 사용자가 어떻게 보이는지 궁금하다면 이것이 바로 그 것입니다 ).
매트 파커

1
실제로 @Graviton은 다재다능하다고 생각되는 다중 사이트 사용자를 찾고 다양한 메트릭에서 이들이 어떻게 수행되는지 확인하는 것이 좋습니다.
매트 파커

1
@KennyPeanuts는 위의 @Matt의 요점을 보완하기 위해 SE 사이트에 엄청난 수의 질문에 응답하면서도 많은 지지율을 보이는 상당한 수의 사용자가있는 것으로 보입니다. 그것은 일반적으로 전문 지식이나 다방면을 나타내는 것이 아닙니다. (비록, 그것은 이다 가너 "명성"가장 쉬운 전략 중 하나).
추기경

6

예 : 세 개의 사이트가 있다고 가정하고 사용자 A, B, C의 균형을 비교하고자합니다. 우리는 세 사이트에 대한 사용자의 평판을 벡터 형식으로 씁니다.

사용자 A : [23, 23, 0]

사용자 B : [15, 15, 0]

사용자 C : [10, 10, 10]

A는 B보다 균형이 잘 잡힌 것으로 간주합니다 (평판은 두 사이트에 균등하게 분산되어 있지만 A는 전체 평판이 더 높습니다). 또한 우리는 C보다 B가 더 반올림 된 것으로 간주합니다 (동일한 명성을 가지지 만 C는 더 많은 사이트에 퍼져 있습니다). .

하자 , , 각각 위의 명성 벡터를합니다.xAxBxC

평판 벡터 의 함수로 사용자의 "반올림"을 측정하려고합니다 . 위에서 함수 가 및 .f(x)ff(xA)>f(xB)f(xC)>f(xB)

모든 인 오목 증가 트릭을 할 것이다.f(x)

볼록 함수의 두 가지 일반적인 예는 '분수 규범'입니다.

f([x1,...,xm])=ixip

대 .0<p<1

촬영 , 우리는 계산p=1/2

f(xA)=2239.6
f(xB)=2157.7
f(xC)=3109.5

규범 에 따르면 , 사용자 A는 사용자 C에 비해 좁은 마진으로 세 가지 중에서 가장 균형이 잘 잡힌 것으로 간주됩니다.1/2

에 대한 다른 선택 은 (스케일 된) Shannon 엔트로피입니다.f

f([x1,...,xm])=ixilog(xi/c).

여기서 입니다.c=ixi

우리가 가지고가는 경우에 우리가 계산 스케일 섀넌 엔트로피가 될 수 있습니다f

f ( x B ) = 30 로그 ( 2 ) 20.8 f ( x C ) = 30 로그 ( 3 ) 33.0

f(xA)=46log(2)31.9
f(xB)=30log(2)20.8
f(xC)=30log(3)33.0

축척 된 Shannon 엔트로피에 따라 측정하면 C는 세 가지 중에서 가장 반올림되고 A는 두 번째로 가장 반올림됩니다.

편집 : 원래 함수 는 볼록해야 한다고 말했습니다 . 그 반대입니다.f(x)

EDIT2 : whuber의 의견에 비추어 예를 추가했습니다.


편집 : 다시 응답에 가 수행하는 역할을 설명하는 것이 없기 때문에 옳은지 여부를 알기가 어렵습니다 . 사용하지 않거나이 문제에 어떻게 적용되는지 말하지 마십시오. f
whuber

(+1) 편집 해 주셔서 감사합니다. 아이디어가 훨씬 명확 해집니다. 그러나 예제가 개수와 일치하도록 할 수 있습니다. 예제 는 각각 4 개가 아닌 3 명의 사용자와 3 개의 사이트에 관한 것 같습니다 . BTW, 어떤 사이트를 사용할지 어떻게 결정합니까? 사이트 전체 또는 일부에 대해 활동적인 사람은 없습니다. 어떤 사람들은 1의 시작점을 얻고 다른 사람들은 101을 얻기 때문에 문제가됩니다. 우리 가 이것을 다루기 위해 간격으로 를 일정하게 고집한다면 , 더 큰 값을 위해 가 오목하고 증가하는 것은 불가능 합니다 ! [ 1 , 101 ] ff[1,101]f
whuber

x_i <0 일 때 분수 규범은 정의되지 않습니다. x_i / c ≤ 0 일 때 Shannon 엔트로피가 실패합니다. 일부 x_i가 0에서-changes로 변경 될 때 잘 둥근 정도가 갑자기 날아가는 것은 의미가 없습니다.
200_success

4

이것은 정말로, 정말로 흥미로운 질문입니다 (실제로 스택 교환 사이트를 모델링하는 아이디어에 다소 관심이 있습니다).

다방면의 문제에서이를 평가하는 한 가지 방법은 특정 사용자가 대답하는 태그 및 사이트 전체의 배포를 통하는 것입니다. 예를 들어 이것을 더 명확하게 만들 수 있습니다.

저는 TeX, StackOverflow, CrossValidated 및 AskUbuntu의 회원입니다. 이제는 실제로 여기와 StackOverflow에만 기여하고 Stackoverflow의 R에만 기여합니다. 따라서 반올림 성을 정의하기 위해 a) 두 사이트에서 공통으로 사용하는 태그의 양 (사이트 간 유사성을 정의하기 위해)과 공통적으로 태그가 거의 또는 전혀없는 사이트에서 사용자가 질문에 답변하는 정도를 살펴 보겠습니다.

예를 들어 누군가 누군가 StackOverflow 및 요리에서 Python 태그에 기여하는 경우 해당 사용자는 여기에서 오버플로 및 통계 질문에 대한 통계 소프트웨어 질문 (예 : 질문)에 답변하는 사람보다 다재다능합니다.

이것이 다소 도움이되기를 바랍니다.


4
(+1) SO와 요리 모두에서 파이썬 태그에 기여하는 사람은 음식에 이국적인 맛이 있습니다 :-) 닭고기 맛이 나는 것을 들었습니다.
whuber

3

'다양한 스택 교환 사이트에 기여하는'것으로 '반올림 성'을 정의하면 사이트 당 기여도를 계산할 수 있습니다. 총 게시물 수, 하루 평균 게시물 수 또는 평판을 사용할 수 있습니다. 그런 다음 모든 사이트에서이 지표의 분포를보고 어떤 방식 으로든 왜곡을 계산하십시오.

다시 말해, '반올림 된'사람은 많은 다른 사이트에 기여하는 사람이고 '반올림되지 않은'사람은 주로 한 사이트에 기여하는 사람 일 것입니다. 모든 사이트에서 사용자의 총계로 측정 항목을 조정하여이를 개선 할 수 있습니다. 즉, 여러 사이트에 많은 기여를 한 사람은 해당 사이트에 아무 것도 기여하지 않은 사람보다 더 균형 잡힌 것으로 간주되어야합니다. SE를 사용하지 않은 사람은 매우 둥글 지 않습니다!


1

이미 많은 좋은 답변이 있는데 왜 하나 더? 이 논의 흥미로운 아이디어에 관심을 끌기 위해 대부분입니다 여기서 상기 n 개의 카테고리 카페 . 생태학 (및 다른 곳)의 다양성은 대부분 풍요 로움 만 보지만, 다른 종들이 얼마나 유사 / 비 유사한 지 살펴보아야합니다.

메트릭 공간의 포인트로 종 (또는 SE 사이트 등)을 표시함으로써 엔트로피 를 메트릭 공간 으로 일반화 할 수 있습니다 (예 : Tom Leinster, Emily Roff의 메트릭 공간의 최대 엔트로피 참조) . 미터법 공간에서 태그를 포인트로보고 동일한 아이디어를 SE 사이트 내에서 사용할 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.