숫자 목록의 평균, 중앙값 및 모드의 개념을 어떻게 설명하고 기본 산술 기술 만 가진 사람에게 중요한가? 왜도, CLT, 중심 경향, 통계적 특성 등은 언급하지 마십시오.
나는 누군가에게 숫자 목록을 "요약"하는 빠르고 더러운 방법이라고 설명했다. 그러나 되돌아 보면 이것은 거의 밝혀지지 않습니다.
어떤 생각이나 실제 사례?
숫자 목록의 평균, 중앙값 및 모드의 개념을 어떻게 설명하고 기본 산술 기술 만 가진 사람에게 중요한가? 왜도, CLT, 중심 경향, 통계적 특성 등은 언급하지 마십시오.
나는 누군가에게 숫자 목록을 "요약"하는 빠르고 더러운 방법이라고 설명했다. 그러나 되돌아 보면 이것은 거의 밝혀지지 않습니다.
어떤 생각이나 실제 사례?
답변:
평균, 중앙값 및 모드의 기본 통계 개념에 대한이 단순하지만 심오한 질문에 감사합니다. 이러한 개념에 대한 산술보다는 직관적 인 이해를 설명하고 파악하는 데 사용할 수있는 몇 가지 훌륭한 방법 / 데모가 있지만, 불행히도 그것들은 널리 알려지지 않았습니다 (또는 학교에서 제 지식으로 가르치지 않음).
1. 균형점 : 받침점으로 평균
개념을 이해하는 가장 좋은 방법 은 균일 한 막대 의 균형점 으로 생각한다는 의미 입니다. {1,1,1,3,3,6,7,10}과 같은 일련의 데이터 포인트를 상상해보십시오. 이러한 각 점이 균일 한 막대에 표시되고 각 점에 동일한 가중치가 배치되면 (아래 그림 참조) 막대가 균형을 이루도록 데이터의 평균에 받침점을 배치해야합니다.
이 시각적 데모는 또한 산술 해석으로 이어집니다. 이것에 대한 산술적 근거는 받침점의 균형을 맞추기 위해 평균점으로부터의 총 음의 편차 (받침점의 왼쪽)가 평균 (오른쪽)에서의 총 양의 편차와 같아야한다는 것입니다. 따라서 평균은 분포에서 균형점으로 작용합니다 .
이 시각적은 데이터 포인트의 분포와 관련된 평균을 즉시 이해할 수있게합니다. 이 데모를 통해 쉽게 알 수있는 평균의 다른 속성은 평균이 항상 최소값과 최대 값 사이에 있다는 사실입니다. 또한 특이 치의 영향을 쉽게 이해할 수 있습니다. 특이 치의 존재는 균형점을 이동시켜 평균에 영향을 미칩니다.
2. 재분배 (공정한 몫) 가치
평균을 이해하는 또 다른 흥미로운 방법은 평균을 재분배 값 으로 생각하는 것입니다 . 이 해석은 평균 계산의 산술에 대한 이해가 필요하지만, 의인화 적 질, 즉 재분배의 사회주의 개념을 활용하여 평균의 개념을 직관적으로 파악합니다.
평균을 계산하려면 분포의 모든 값을 합산하고 (값 집합) 합계를 분포의 데이터 요소 수로 나눕니다.
이 계산의 근거를 이해하는 한 가지 방법은 각 데이터 요소를 사과 (또는 다른 재미있는 항목)로 생각하는 것입니다. 이전과 동일한 예를 사용하여 샘플에 {1,1,1,3,3,6,7,10}의 8 명이 있습니다. 첫 번째 사람에게는 사과가 하나 있고 두 번째 사람에게는 사과가 하나 있습니다. 이제 모든 사람에게 "공평한"사과 수 를 재배포 하려는 경우 배포의 평균을 사용하여이 작업을 수행 할 수 있습니다. 즉, 분포가 공정하고 평등하도록 모든 사람에게 사과 4 개 (즉, 평균값)를 제공 할 수 있습니다. 이 데모는 위의 공식에 대한 직관적 인 설명을 제공합니다. 분포의 합을 데이터 포인트 수로 나누는 것은 분포 전체를 모든 데이터 포인트로 동일하게 분할하는 것과 같습니다.
3. 시각적 니모닉
다음 시각적 니모닉은 고유 한 방식으로 평균의 해석을 제공합니다.
이것은 평균 의 레벨링 값 해석을 위한 니모닉입니다 . A의 크로스바의 높이는 네 글자의 높이의 평균입니다.
그리고 이것은 평균 의 균형점 해석을 위한 또 하나의 니모닉입니다 . 받침점의 위치는 대략 M, E 및 두 배의 N 위치의 평균입니다.
로드 의 균형점 으로서 평균의 해석 이 이해되면, 중간 값은 목걸이 같은 균형점 같은 동일한 아이디어의 확장에 의해 입증 될 수 있습니다 .
막대를 끈으로 교체하되 데이터 표시와 무게는 유지하십시오. 그런 다음 끝에서 첫 번째보다 긴 두 번째 끈을 부착하여 [목걸이와 같은] 고리를 형성하고 루프를 잘 윤활 된 도르래 위에 감습니다.
처음에 가중치가 다르다고 가정하십시오. 풀리와 루프는 같은 수의 웨이트가 각 측면에있을 때 균형을 맞 춥니 다. 다시 말해, 중앙값이 가장 낮은 지점 일 때 루프가 균형을 맞 춥니 다.
가중치 중 하나가 루프를 위로 미끄러 져 올라가면 이상 값을 만들면 루프가 움직이지 않습니다. 이것은 물리적으로 중앙값이 특이 치에 영향을받지 않는다는 원칙을 보여줍니다.
이 모드는 가장 기본적인 수학 연산 (계수)을 포함하므로 이해하기 가장 쉬운 개념 일 것입니다. 그것은 약자에 가장 자주 발생하는 데이터 포인트 리드 동일하다는 사실 : " M의 OST 종종 O ccurring D ATA E lement".
모드는 세트에서 가장 일반적인 값 으로 생각할 수도 있습니다 . ( '전형적인'에 대한 더 깊은 이해는 대표 또는 평균값으로 이어질 것이지만 '전형적인'이라는 단어의 문자 그대로의 의미에 따라 '전형적인'모드와 모드를 동일시하는 것이 적절합니다.)
출처 :
최소한의 재료로 최대의 효과와 설명력을 원하는 것처럼 귀하의 기준을 달성 할 수 있는지 궁금합니다. 그러나 간단한 예는
1212 34 5 6 15
모드 (2), 중앙값 (3) 및 평균 (44/11) = 4를 즉시 계산할 수 있으므로 서로 다를 수 있음을 보여줍니다.
그런 다음 가장 일반적인 가치, 중간 가치 및 평균 의 아이디어 가 다르다는 것을 설명 할 수 있습니다. 에 의해 합병증을 소개
모드를 표시하기 위해 값을 변경하면 모호 할 수 있습니다
중앙값 계산 규칙을 설명하기 위해 짝수 개의 값이있는 예를 사용하는 경우
꼬리의 변화하는 가치는 평균에 무슨 일이 일어나는지, 그리고 왜 그리고 왜 바람직한 지 강조합니다.
평균, 중간, 모드의 두세 가지가 일치하는 더 간단한 예를 사용합니다.
나는 그것이 다양한 문헌에서 용어라는 말을 제외하고는 나의 가르침에서 중심적인 경향을 언급하지 않았다. 나는 레벨 과 그것이 어떻게 정량화 될 수 있는지 에 대해 이야기하는 것을 선호합니다 . 반대로, 사람들이 대칭보다 평소보다 왜도에 대한 느낌이 최소한이 아니라면 심각한 데이터 분석이 가능하다고 생각하지 않습니다.
이것이 내가 그들을 설명하는 방법입니다.
(산술) 평균 은 전체 데이터 세트를 고려하여 "중간"어딘가에 정착하는 지점입니다. 우주에서 점 구름 또는 얼룩을 생각하게하십시오. 평균은 그 점 구름의 질량 중심입니다.
중앙값 (a "측"개념 2+ 차원에서 잘 정의되지 명백하게) "사방 같은 점수"를 가지고있는 점이다. 이것은 다른 종류의 "중간"을 나타내며, 실제로 어떤 의미에서는 더 직관적 인 종류를 나타냅니다. 우주에서 동일한 얼룩을 생각할 때, 얼룩이 일 방형이면 평균이 이동한다는 것이 분명합니다. 그러나이 편견은 두 가지 방법 중 하나로 달성 할 수 있습니다. 한 영역에 더 많은 점을 추가하거나 해당 영역에 점의 분산을 증가시킵니다. 포인트 수를 늘리지 않고 한 영역에서 포인트 분산을 늘리면 중앙값은 여전히 "모든면에"동일한 포인트 수를 가지며 평균에 비례하여 이동하지 않습니다.
와 두 가지 매우 간단한 "blobs"로이를 증명할 수 있습니다 . 반면 입니다. 그러나 먼저 기하학적 / 비주얼 "blob-based"설명으로 시작하는 것이 좋습니다. 경험상 손으로 흔드는 그래픽 데모로 시작한 다음 구체적인 장난감 예제 로 이동 하는 것이 더 쉽습니다 . 나는 대부분의 사람들 (내 자신을 포함)이 자연스럽게 숫자 지향적이지 않으며 숫자 설명으로 시작 하는 것이 혼란의 요리법 이라는 것을 알았습니다 . 나중에 언제든지 더 정확한 정의를 가르 칠 수 있습니다.y ′ = ( 1 , 2 , 3 , 4 , 99 ) 평균 ( y ) = 중앙값 ( y ) 평균 ( y ' ) > 중앙값 ( y ' )
모드 점 임의로 그 블롭에서 샘플링 된 경우 (이것은 연속 데이터의 퍼지 있음을 인식) 나타날 가능성이 가장 높은, 점이다. 평균 또는 중앙값 근처에있을 수 있지만 반드시 그럴 필요는 없습니다.
당신이이 개념을 설명하면, 다음, 당신은 더 "통계적인"데모에 이동할 수 있습니다 :
실선은 평균입니다. 파선은 중앙값입니다. 점선은 모드입니다. 평균은 x 축을 따라 데이터 포인트의 위치를 나타내며, 중앙값은 양쪽의 데이터 포인트 수만 반영합니다. 모드는 단지 가장 큰 확률의 포인트이며 평균 및 중앙값과는 다릅니다.
R 코드 :
set.seed(47730)
y <- rgamma(100, 2, 2)
d <- density(y)
plot(d)
rug(y)
abline(v = mean(y), lty = 1)
abline(v = median(y), lty = 2)
abline(v = d$x[which.max(d$y)], lty = 3)
" 평균 ", " 중간 "및 " 모드 "는 "중앙 경향"으로서, 다른 도메인에서 "가장 가능성이 높은 결과"이다. 그들은 다른 "게임"에서 모두 "최고의 베팅"입니다.
확률과 통계는 부분적으로 도박꾼이 만든 필드입니다 ( link , link ). 경마 나 포커 테이블에 갈 때 이길 수있는 과학을 알고 싶을 것입니다. 그들도 그렇게했고 그것에 대해 썼습니다. 그래서 당신은 그것을 스스로 발명 할 필요가 없습니다.
경마에서는 승자를 선택하고 싶습니다. 미래의 정보는 없지만 과거 정보는 알고 있습니다. 지난 몇 경기에서 각 말이 얼마나 빨리 달렸는지 알 것입니다. 다음 레이스에서 얼마나 빨리 달릴 지 추정하려면 평균, 즉 평균 레이스 타임을 계산하고 비교할 수 있습니다.
또 다른 중심 경향은 정렬 된 목록의 중심 인 "중앙값"입니다. 레이스 시간 목록에 끔찍한 오타를두면 그 값이 다른 모든 것보다 1000 배 길어집니다. 추정치가 엉망이 될 것입니다. 당신은이기는 말에 내기를하지 않을 수도 있습니다. 어떻게 해결합니까? 하나의 값을 수동으로 찾거나 "중간 값"을 사용할 수 있습니다.
" 블랙 잭 " 과 같은 카드를 사용 하고 있고 이전 카드에 다른 카드가 필요한지 알아 내려고한다면 어떻게해야 합니까? 카드 번호는 정수 값이므로 찾고있는 카드는 3.14가 아닙니다. "평균"또는 중간 값이 의미가 없을 때 최선의 방법이 무엇인지 어떻게 알 수 있습니까? 이 경우 딜러 스택에서 가장 가능성이 높은 카드 인 "모드"에 베팅하려고합니다.
세 가지 경우 모두, 중심 경향은 "최고의 선택"이라고 말하는 또 다른 방법입니다.
베팅의 중심적인 경향뿐만 아니라 베팅을 원한다면 상금을 극대화하면서 손실의 영향을 줄일 수 있다면 베팅을 원한다면 "변동 경향"을 봐야합니다. 표준 편차, 양자 간 범위 또는 대체 모드 및 해당 주파수와 같은 것은 모두 최대 손실을 최소화하는 동시에 승리 가능성을 최대화하는 데 사용됩니다.
여러 수단, 중간 값 및 모드를 고려할 때이 개념을 설명하는 것이 유용하다고 생각합니다. 이 값들은 진공 상태 자체로는 존재하지 않습니다.
예를 들어, 다음은 평균을 설명하는 방법입니다.
수박 2 상자 (상자 1과 2)가 있다고 가정 해 봅시다. 그것은 밀봉되어있어 수박을 볼 수 없으므로 크기를 알 수 없습니다. 그러나 각 상자에있는 수박의 총 중량을 알고 있으며 각각 동일한 수의 수박을 함유하고 있습니다. 이를 통해 각 수박 상자 (M1 및 M2)의 평균 무게를 계산할 수 있습니다.
이제 두 개의 서로 다른 평균값 M1과 M2가 있으므로 개별 내용을 대략적으로 비교할 수 있습니다. M1> M2 인 경우, 크레이트 1에서 무작위로 선택된 수박은 크레이트 2에서 선택한 수박보다 무거울 수 있습니다.
물론이 관점에 대한 의견을 듣고 싶습니다.