왜도 길들이기… 왜 그렇게 많은 왜도 기능이 있습니까?


9

이 커뮤니티의 네 가지 유형의 왜곡에 대해 더 많은 통찰력을 갖기를 바랍니다.

내가 참조하는 유형은 http://www.inside-r.org/packages/cran/e1071/docs/skewness 도움말 페이지에 언급되어 있습니다.

이전 방법은 도움말 페이지에서 언급되지 않았지만 그럼에도 불구하고 포함시킵니다.

require(moments)
require(e1071)


x=rnorm(100)
n=length(x)
hist(x)


###############type=1
e1071::skewness(x,type=1)
sqrt(n) * sum((x-mean(x))^3)/(sum((x - mean(x))^2)^(3/2)) #from e1071::skewness source
m_r=function(x,r) {n=length(x); sum((x - mean(x))^r/n);} ##from e1071::skewness help
g_1=function(x) m_r(x,3)/m_r(x,2)^(3/2)
g_1(x) ##from e1071::skewness help
moments::skewness(x) ##from e1071::skewness help
(sum((x - mean(x))^3)/n)/(sum((x - mean(x))^2)/n)^(3/2) ##from moments::skewness code, exactly as skewness help page


###############type=2
e1071::skewness(x,type=2)
e1071::skewness(x,type=1) * sqrt(n * (n - 1))/(n - 2) #from e1071::skewness source
G_1=function(x) {n=length(x); g_1(x)*sqrt(n*(n-1))/(n-2);} #from e1071::help
G_1(x)
excel.skew=function(x) { n=length(x); return(n/((n-1)*(n-2))*sum(((x-mean(x))/sd(x))^3));}
excel.skew(x)


###############type=3
e1071::skewness(x,type=3)
e1071::skewness(x,type=1) * ((1 - 1/n))^(3/2) #from e1071::skewness source
b_1=function(x) {n=length(x); g_1(x)*((n-1)/n)^(3/2); }  #from e1071::skewness help page
b_1(x);
prof.skew=function(x) sum((x-mean(x))^3)/(length(x)*sd(x)^3);
prof.skew(x)

###############very old method that fails in weird cases
(3*mean(x)-median(x))/sd(x)
#I found this to fail on certain data sets as well...

다음은 e1071의 저자가 참조하는 논문입니다. http://onlinelibrary.wiley.com/doi/10.1111/1467-9884.00122/pdf Joanes와 CA Gill (1998), 샘플 왜도 및 첨도의 측정 값 비교.

그 논문을 읽은 결과, 유형 # 3에 오류가 가장 적습니다.

위 코드에서 왜도의 예는 다음과 같습니다.

e1071::skewness(x,type=1)
-0.1620332
e1071::skewness(x,type=2)
-0.1645113
e1071::skewness(x,type=3)
-0.1596088
#old type:
0.2694532

또한 e1071의 작성자가 도움말 페이지의 메모와 다른 왜곡 함수를 작성했음을 알았습니다. sqrt에 주목하십시오 :

sqrt(n) * sum((x-mean(x))^3)/(sum((x - mean(x))^2)^(3/2)) #from e1071::skewness source

(sum((x - mean(x))^3)/n)/(sum((x - mean(x))^2)/n)^(3/2) #from moments and e1071 help page

왜 sqrt (n)이 첫 번째 방정식에 있는지 아십니까? 오버플로 / 언더 플로를 더 잘 처리하는 방정식은 무엇입니까? 다른 아이디어가 다른 이유는 있지만 동일한 결과를 생성합니까?


3
귀하의 질문에는 "네 가지 유형의 왜곡"이 언급되어 있지만 링크를 제공하고 많은 코드 (언어조차 언급하지 않은 언어)로 시작합니다. 따라서 사람들은 당신이 요구하는 것을 발견하기 위해 링크를 읽을 필요가 없으며, R을 읽지 않는 사람들과 이해를 전달하는 데 도움이되지 않는 독서 코드를 찾는 사람들의 이익을 위해 어느 네 가지를 정의하는 것이 도움이 될 것입니다 코드 스와 스 이전 (또는 바람직하지 않은 대신)을 의미하는 왜도 측정. [당신은 "이 4"라기보다는 "4"라고 말할 때 왜 5 또는 7이나 다른 숫자가 아닌 정확히 4가 있다고 생각합니까?]
Glen_b-복지국 Monica

1
귀하의 게시물에서 찾을 수있는 특정 질문에 대해 어떤 형태의 답변을 제공하려고 시도했지만 그 과정에서 많은 문제를 해결했지만 그 밖의 "통찰력을 얻기 위해 뛰어 다니는 것"은 너무 모호합니다. 어떤 정보를 원하는지 더 명확하게 식별 할 수 있습니까? 이 사이트에는 왜도에 관한 많은 질문이 있습니다.
Glen_b-복지 주 모니카

글을 보내 주셔서 감사합니다. 나는 설명을 목적으로하고 공식을 보여주기 위해 R을 포함시켰다. 또한 나는 라텍스를 모른다. :(
Chris

답변:


10

"오래된 방법"으로 설명하는 방법부터 시작하겠습니다. 이것은 두 번째 Pearson 왜도 또는 평균 왜도입니다 . 실제로 모멘트 왜곡과 전반적으로 같은 빈티지입니다 (모멘트 왜곡이 피어슨의 노력보다 우선하기 때문에 중간 왜곡은 실제로 약간 젊습니다).

역사의 일부에 대한 약간의 토론은 여기 에서 찾을 수 있습니다 . 그 게시물은 다른 질문에 약간의 빛을 던질 수도 있습니다.

두 번째 Pearson 왜도 를 사용하여 사이트를 검색 하면이 측정의 동작에 대한 토론이 포함 된 게시물이 상당히 많이 나타납니다.

내 마음의 왜도 측정보다 더 이상하지 않습니다. 그들은 때때로 왜도 측정에 대한 사람들의 기대와 맞지 않는 이상한 일을합니다.


일반적인 형태 1Wikipedia 에서 논의 됩니다 . 말하자면, 그것은 순간 추정기의 방법이며, 표준화 된 세 번째 순간으로 인구 계산을 고려할 때 자연스럽게 사용하는 것입니다.

하나를 사용하는 경우 에스 ...에 대한 에스1 (예 : 베셀 보정없이) 1언급 한 유형; 그 중 하나는 내가 "순간 방법"이라고 부르는 것입니다. 분모를 편향하려고 노력하는 것이 중요하다는 것은 분명하지 않습니다. 왜냐하면 반드시 비율을 편향하지는 않기 때문입니다. 계산이 사람들이 직접 할 것으로 기대하는 것과 일치하도록 계산하는 것이 합리적 일 수 있습니다.

그러나 누적 률 (위의 Wikipedia 링크 참조) 측면에서 모집단 왜도를 정의하는 두 번째 (동등한) 방법이 있으며 표본 왜도를 위해 편견없는 추정값을 사용한 경우 1.

[또한 분자를 곱하면 1 으로 2(1)(2)사람들이 그 형태를 보는 또 다른 이유가 될 수 있습니다. 세 번째와 두 번째 모멘트 계산을 모두 편향하려고하면 약간 다른 요소를 얻습니다.,(1)(2) 앞으로 나옵니다.]

이 세 가지 모두 세 번째 순간 왜곡에 대한 변형이 약간 다릅니다. 매우 큰 샘플에서는 실제로 사용하는 차이가 없습니다. 더 작은 샘플에서는 모두 약간 다른 바이어스와 분산이 있습니다.


여기에 논의 된 양식은 왜도에 대한 정의를 소진하지 않습니다 (수십에 대해 보았습니다, Wikipedia 기사 는 꽤 많지만 범위를 다루지 않음). -모멘트 왜곡은 여기에서 세 개 이상을 보았습니다.

왜 많은 왜도 측정이 있습니까?

그렇다면 왜 이렇게 많은 3 차원 왜도를 한 번에 하나씩 처리해야합니까? 개념으로서의 왜도 는 실제로 고정하기가 매우 어렵 기 때문 입니다. 실제로 하나의 숫자로 고정 할 수없는 것은 미끄 럽습니다. 결과적으로, 모든 정의는 어떤 식 으로든 적절하지 않지만 그럼에도 불구하고 왜도 측정이해야한다고 생각하는지에 대한 우리의 넓은 의미와 일치합니다. 사람들은 계속해서 더 나은 정의를 찾으려고 노력하지만 QWERTY 키보드와 같은 오래된 방법은 아무데도 가지 않습니다.

왜 세 번째 순간을 기준으로 왜도 측정이 여러 개입니까?

왜 이렇게 많은 3 차 왜도가 존재하는지에 대한 이유는 인구 측정을 표본 측정으로 변환하는 방법이 여러 가지이기 때문입니다. 우리는 모멘트를 기반으로 한 두 개의 경로와 누적을 기반으로 한 두 개의 경로를 보았습니다. 우리는 여전히 더 많은 것을 만들 수 있습니다. 예를 들어, 일부 분포 가정 또는 최소 평균 제곱 오차 측정 또는 그와 같은 수량으로 (작은 샘플) 바이어스되지 않은 측정 값을 얻으려고 시도 할 수 있습니다.

기울기 계몽과 관련된 사이트의 일부 게시물을 찾을 수 있습니다. 대칭은 아니지만 제 3 모멘트 왜곡이 0 인 분포의 예를 보여주는 것들이 있습니다. Pearson 중앙값 왜도를 나타내는 몇 가지가 있으며 세 번째 순간 왜도는 반대 부호를 가질 수 있습니다.

왜 도와 관련된 몇 가지 게시물에 대한 링크는 다음과 같습니다.

평균 = 중앙값은 단봉 분포가 대칭임을 의미합니까?

왼쪽으로 치우친 데이터에서 평균과 중앙값 사이의 관계는 무엇입니까?

특이 치를 사용하여 히스토그램에서 왜도를 결정하는 방법은 무엇입니까?


의 계산에 대한 마지막 질문과 관련하여 1:

(엑스엑스¯)((엑스엑스¯)2)/2 #from e1071 :: 비대칭 소스

(엑스엑스¯)/((엑스엑스¯)2/)/2 # 순간 및 e1071 도움말 페이지에서

두 형태는 대수적으로 동일합니다. 두 번째는 "두 번째 순간에 세 번째 순간에 세 번째 순간2첫 번째 용어는 남은 음식을 앞쪽으로 가져옵니다. 오버플로 / 언더 플로를 피하기 위해 수행 된 것으로 생각하지 않습니다. 나는 그것이 조금 더 빠르다고 생각 되었기 때문에 이루어 졌다고 생각합니다. [오버플로 또는 언더 플로가 우려되는 경우 계산을 다르게 정렬 할 수 있습니다.]

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.