필자의 작업에서 개인이 데이터 세트의 "평균"값을 참조 할 때 일반적으로 산술 평균 (예 : "평균"또는 "예상 값")을 나타냅니다. 기하 평균을 제공하면 사람들은 "평균"의 정의가 미리 알려져 있기 때문에 내가 저리거나 도움이되지 않는다고 생각할 것입니다.
데이터 세트의 "중앙"에 대한 여러 정의가 있는지 확인하려고합니다. 예를 들어, 짝수 개의 요소가있는 데이터 세트의 중앙값을 찾기 위해 동료가 제공 한 정의 중 하나는 다음과 같습니다.
알고리즘 'A'
- 요소 수를 2로 나누고 내림합니다.
- 이 값은 중앙값의 인덱스입니다.
- 즉, 다음 집합의 경우 중앙값은입니다
5
. [4, 5, 6, 7]
반올림 측면은 약간 임의적 인 것처럼 보이지만 이것은 의미가있는 것 같습니다.
알고리즘 'B'
어쨌든 다른 동료는 별도의 알고리즘을 제안했는데, 이는 그의 이름과 저자를 필요로하는 통계 교과서에 있습니다.
- 요소 수를 2로 나누고 반올림 및 반올림 정수의 사본을 유지하십시오. 이름을 지정
n_lo
하고n_hi
. n_lo
및 의 요소의 산술 평균을 취하십시오n_hi
.- 즉, 다음 집합의 경우 중앙값은입니다
(5+6)/2 = 5.5
. [4, 5, 6, 7]
이 경우 중앙값 5.5
이 실제로 원래 데이터 세트에 없기 때문에 이것은 잘못된 것 같습니다 . 일부 테스트 코드에서 알고리즘 'A'를 'B'로 바꾸면 예상대로 끔찍하게 파산되었습니다.
질문
데이터 세트의 중앙값을 계산하기위한이 두 가지 접근 방식에 대한 공식적인 "이름"이 있습니까? 즉, "2 개 중 중앙값"대 "중간 요소 평균 및 새 데이터 중간 값"?