정규 분포에 대한 왜도 및 첨도 값 범위


11

데이터가 정규 분포로 간주되는 왜도첨도 값의 범위가 무엇인지 알고 싶습니다 .

나는 많은 논쟁을 읽었으며 대부분 혼란스러워했다. 첨도에 대한 왜도 및 는 정규 분포에 허용되는 범위입니다. 일부는 왜도가 허용되는 범위 라고 말합니다 . 여기서 자세한 논의를 찾았습니다 .이 문제와 관련된 데이터의 정상적인 분포에 대한 허용 가능한 왜도 및 첨도 범위는 무엇입니까? 그러나 나는 결정적인 진술을 찾을 수 없었다.( 2 , 2 ) ( 1.96 , 1.96 )(1,1)(2,2)(1.96,1.96)

그러한 간격을 결정하는 기초는 무엇입니까? 이것은 주관적인 선택입니까? 아니면이 간격 뒤에 수학적 설명이 있습니까?


3
"허용 가능한"이란 무엇입니까?
Glen_b-복지 모니카

그건 좋은 질문이야. 나는 이것에 대한 명확한 대답이 없습니다.
Dark_Knight

"이 모델을 평가하기 전에 /이 테스트를 수행하기 전에 샘플 왜도 및 첨도를 확인하십시오. 미리 지정된 범위 내에있는 경우 일부를 사용하십시오. 정상적인 이론 절차, 그렇지 않으면 다른 것을 사용하십시오. " ...?
Glen_b-복지 주 모니카

그렇다면 정규 가정에 대한 절차는 무엇입니까? 어떤 변수를 확인 하시겠습니까? 일부 기준에 의해 "수용 가능하지 않다"고 결론을 내릴 경우 사용하는 대체 절차는 무엇입니까?
Glen_b-복지 주 모니카

또한 상황에 따라 중요 할 수 있습니다. 특히 일부 범위를 선택하기 위해 추론이 제공되는 경우-인용 할 수있는 인용 범위를 포함 할 수 있습니까 (특히 제안 된 범위가 꽤있는 경우) 다른)? 그러한 맥락에서 아는 것이 유용한 한 가지-그들은 이런 상황을 위해 어떤 상황을 사용하고 있습니까?
Glen_b-복지 주 모니카

답변:


6

원래 게시물에는 몇 가지 주요 사항이 누락되었습니다. (1) "데이터"를 정규 배포 할 수 없습니다. 데이터는 반드시 이산 적입니다. 올바른 질문은 "데이터를 생성 한 프로세스가 정규 분산 프로세스입니까?"입니다. 그러나 (2) 두 번째 질문에 대한 답은 통계적 테스트 나 데이터 기반의 다른 평가가 제공하는 내용에 관계없이 항상 "아니오"입니다. 일반적으로 분포 된 공정은 표준 편차 범위 (예 : 68-95-99.7) 내에서 무한 연속성, 완벽한 대칭 및 정확하게 지정된 확률로 데이터를 생성하지만, 어떤 데이터로든 측정 할 수있는 데이터를 생성하는 프로세스에는 해당되지 않습니다. 인간이 사용할 수있는 측정 장치.

따라서 데이터를 정규 분포로 간주 할 수 없으며 데이터를 생성 한 프로세스를 정확하게 정규 분포로 처리 할 수 ​​없습니다. 그러나 Glen_b가 지적했듯이 데이터로 무엇을하려고하는지에 따라 너무 중요하지 않을 수 있습니다.

왜도 및 첨도 통계는 데이터 생성 프로세스의 정규성에서 특정 종류의 편차를 평가하는 데 도움이됩니다. 그러나 매우 가변적 인 통계입니다. 위에 주어진 표준 오차는 정규성에서만 유효하기 때문에 유용하지 않습니다. 즉, 본질적으로 쓸모없는 운동 인 정규성 검정으로 만 유용합니다. 정확한 se를 얻기 위해 큰 샘플이 필요할지라도 부트 스트랩을 사용하여 se를 찾는 것이 좋습니다.

또한 첨도는 위의 게시물과 달리 해석하기가 매우 쉽습니다. Z 값의 평균 (또는 예상 값)이며 각 값은 네 번째 거듭 제곱입니다. 큰 | Z | 가치는 특이 치이며 첨도에 크게 기여합니다. 작은 | Z | 분포의 "피크"인 값은 Z ^ 4 값을 작게하여 첨도에 전혀 영향을 미치지 않습니다. 저의 기사 https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4321753/ 에서 첨도는 Z ^ 4 * I (| Z |> 1) 값의 평균에 매우 근접 함을 증명했습니다 . 따라서 첨도는 데이터 생성 프로세스의 경향을 측정하여 특이 치를 생성합니다.


간단히 말해서 "정규 분산 프로세스"란 정확히 무엇을 의미합니까? 랜덤 변수의 불연속성 및 연속성에 대해 말하고 있지만 중앙 제한 정리를 사용하여 만들 수있는 정규 분포에 대한 가정은 어떻습니까?
Dark_Knight

CLT는 여기서는 관련이 없습니다. 우리는 평균이 아닌 개별 데이터 값을 생성하는 분포에 대해 이야기하고 있습니다. "정규 분포 프로세스"는 정규 분포 랜덤 변수를 생성하는 프로세스입니다. 완벽한 일반 컴퓨터 난수 생성기는 예입니다 (이러한 것은 존재하지 않지만 우리가 사용하는 소프트웨어에서는 상당히 훌륭합니다).
Peter Westfall

또한 분석 할 수있는 데이터를 생성하는 프로세스가 정상적인 프로세스가 아니기 때문에 해당 프로세스에서 생성 된 평균의 분포가 샘플 크기에 상관없이 정확하게 정상적이지 않습니다. 그러나 그렇습니다. 그러한 평균의 분포는 CLT에 따라 정규 분포에 가깝습니다. 이러한 분포의 정규 성과의 근접성은 (i) 표본 크기와 (ii) 개별 데이터 값을 생성하는 데이터 생성 프로세스의 비정규 성 정도에 따라 다릅니다.
피터 웨스트 폴

4
안녕하세요 피터-정렬 순서가 변경되므로 "위"와 같은 참조를 피할 수 있습니까? 다음 사람이 볼 수 있도록 위에있는 것이 위에 있지 않을 수 있습니다. gung의 게시물 또는 내 게시물을 의미하는 경우 (여전히 여러 측면에서 작업하면서 편집 중임) 작성자를 통해 해당 게시물을 식별 할 수 있습니다.
Glen_b-복지 주 모니카

위의 설명에서 첨도가 높을수록 특이 치를 생성하는 경향이 높다고 주장합니다. 특이 치를 특이 적으로 정의하지 않는 한 (즉, 주장을 사실로 만들기 위해), 일반적인 경우에는 사실이 아닙니다. 예를 들어 꼬리가 무거울수록 첨도가 낮은 분포 쌍을 구성하는 것이 상당히 쉽습니다.
Glen_b-복지 주 모니카

5

여기서 요구 하는 것은 정상적인 모집단에서 추출한 표본의 왜도 및 첨도에 대한 표준 오차 입니다. 왜도 또는 뚱뚱한 꼬리 ( 커토 시스) 와 같은 것들을 추정하는 다양한 방법이 있으며 , 이는 표준 오차가 무엇인지에 분명히 영향을 미칩니다. 사람들이 생각하는 가장 일반적인 조치는 기술적으로 3 번째 및 4 번째 표준화 된 순간으로 알려져 있습니다.

이러한 측정 항목의 일부 복잡성을 고려할 가치가 있습니다. 전형적인 왜도 통계량은 사람들이 의심하는 방식에서 대칭의 척도가 아닙니다 (cf, here ). 첨도는 더욱 복잡 할 수 있습니다. 정규 분포의 첨도가 범위 있습니다. 결과적으로 사람들은 일반적으로 "과도 첨도"를 사용하는데, 이는 입니다. 그런 다음 범위는 입니다. 그러나 실제로 첨도는 아래에서 , 위에서부터 샘플 크기의 함수 (약 )로 제한됩니다. 또한 왜도가 아닌 경우 첨도를 해석하기가 더 어렵습니다.[1,)3kurtosis3[2,)skewness2+124/N0 . 이러한 사실은 사람들이 기대하는 것보다 사용하기가 어렵습니다.

가치있는 것에 대한 표준 오류는 다음과 같습니다.

SE(skewness)=6N(N1)(N2)(N+1)(N+3)SE(kurtosis)=2×SE(skewness)N21(N3)(N+5)

표본의 왜도 및 첨도를 일반 모집단에서 예상되는 것과 구별 할 수 있는지에 대한 문제를 제외하고 의 편차가 얼마나 큰지 묻을 수도 있습니다 . 내가 들었던 엄지 손가락의 규칙은 일반적으로 다음과 같습니다. 0

  • <|.5|작은
  • [|.5|,|1|) 매체
  • |1|

왜도 및 첨도에 대한 좋은 소개 개요는 여기 에서 찾을 수 있습니다 .


3

[다음에 나는 "샘플 왜도 및 첨도 확인, 둘 다 사전 지정된 범위 내에 있으면 정상적인 이론 절차를 사용하고, 그렇지 않으면 다른 것을 사용하십시오"와 같은 것을 제안한다고 가정합니다.]

여기에는 여러 가지 측면이 있으며 그 중 몇 가지 사항 만 고려할 공간이 있습니다. 먼저 중요한 문제가 이와 같은 기준을 사용하기 전에 살펴 봐야 할 내용을 나열하는 것으로 시작하겠습니다. 나중에 다시 돌아와서 각 항목에 대해 조금 쓰려고합니다.

고려해야 할 문제

  1. 다양한 종류의 비정규 성이 우리가하는 일에 얼마나 나쁜 영향을 미칩니 까?

  2. 표본 왜도 및 첨도의 범위를 사용하여 이러한 편차를 포착하는 것이 얼마나 어렵습니까?

    내가 제안에 동의한다는 것은 - 그것이 효과 크기 (관련 조치의 쌍에 보이는 얼마나 정상 편차)보다는 의미. 그런 의미에서 공식 가설 검정이 큰 표본 크기에서 사소한 편차를 거부하는 경향이있는 훨씬 유용한 공식에 가까워 질 것입니다. 작은 샘플 크기. (가설 테스트는 여기서 잘못된 질문을 해결합니다.)

    물론 작은 표본 크기에서도 측정 값이 매우 "잡음"이라는 점에서 여전히 문제가됩니다. 따라서 우리는 여전히 거기에서 길을 잃을 수 있습니다.

    왜도 또는 첨도의 편차가 우리가 원하는 정규성 문제와 어떻게 관련이 있는지 알려주지 않으며, 비정규성에 대한 반응에서 다른 절차가 상당히 다를 수 있습니다.

    정규성에서 벗어난 편차가 왜도 및 첨도가 눈에 띄는 종류 인 경우에는 도움이되지 않습니다.

  3. 이 표본 통계량을 두 절차 중 하나를 결정하기위한 기초로 사용하는 경우 결과 추론의 특성에 미치는 영향은 무엇입니까 (예 : 가설 검정, 유의 수준 및 검정력이 이와 같은 모양)?

  4. 정규 분포와 정확히 같은 왜도 및 첨도를 갖지만 분명히 비정규 인 분포는 무한합니다. 대칭 일 필요도 없습니다! 그러한 것들의 존재가 그러한 절차의 사용에 어떤 영향을 미칩니 까? 기업은 처음부터 파산 되었습니까?

  5. 정규 분포에서 추출한 표본에서 표본 왜도 및 첨도의 변동이 어느 정도입니까? (일부 규칙에 의해 어느 정도의 일반 샘플이 나오게됩니까?)

    [이 문제는 gung이 그의 답변에서 논의한 내용과 관련이 있습니다.]

  6. 대신에 더 좋은 것이 있을까요?

마지막으로, 이러한 모든 문제를 고려한 후이 접근 방식을 사용해야한다고 결정하면 귀하의 질문에서 도출 된 고려 사항에 도달합니다.

  1. 다양한 절차에 대한 왜도 및 첨도에 대한 좋은 경계는 무엇입니까? 어떤 절차에서 어떤 변수를 걱정해야합니까?

    (예 : 회귀 분석을 수행하는 경우 IV 및 원시 DV를 이런 방식으로 처리하는 것은 올바르지 않습니다. 이들 중 어느 것도 일반적인 정규 분포에서 도출 된 것으로 간주되지 않습니다)


돌아와서 몇 가지 생각을 추가 하겠지만 그 동안 의견이나 질문이 있으면 유용 할 것입니다.


실제로 시험에서 왜도 및 첨도의 주어진 값에 대해 질문을했습니다. 분포의 정규성에 대해 무엇을 말할 수 있습니까? 왜이 두 숫자를 기반으로 결론을 내리는 것이 좋은 생각인지 확신 할 수 없습니다. 왜도 및 첨도 값이 다소 이고 분포가 정규 분포와 다른 경우가 몇 가지 있습니다 . 0
Dark_Knight

또한 정규성 테스트를 수행하기 위해 왜도 및 첨도에 특정 범위의 값이 필요한 이유를 이해하지 못합니까?
Dark_Knight
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.