상관 된 비정규 데이터 생성 방법


14

상관 된 비정규 데이터를 생성하는 방법을 찾는 데 관심이 있습니다. 따라서 공분산 (또는 상관) 행렬을 모수로 사용하고 근사치에 가까운 데이터를 생성하는 분포가 이상적입니다. 그러나 여기에 캐치가 있습니다. 제가 찾고자하는 방법은 다변량 왜도 및 / 또는 첨도를 제어 할 수있는 유연성을 가져야합니다.

나는 익숙한 Fleishman의 방법과 정규 변량의 거듭 제곱 방법의 사용에 익숙하지만, 대부분의 확장은 사용자에게 한계 왜곡과 첨도 의 특정 조합에 대해서만 허용 하고 다변량 왜도 / 첨도는 그대로 둡니다. 내가 궁금한 것은 다변량 왜곡 및 / 또는 첨도를 지정하는 데 도움이되는 방법이 있는지, 상관 관계 / 공분산 구조와 함께 있는지 여부입니다.

약 1 년 전에 나는 copula 분포에 관한 세미나를 갔고 교수는 포도 나무 copulas의 사용을 통해 1 차원 한계 값 각각에 대해 대칭이지만 공동으로 치우친 부수적 인 데이터를 생성 할 수 있다고 언급했다. -거의. 또는 더 낮은 차원의 여백은 가장 큰 치수를 대칭으로 유지하면서 비대칭 또는 첨도를 가질 수 있습니다. 나는 그러한 융통성이 존재할 수 있다는 생각에 놀랐다. 나는 그 방법을 설명하는 일종의 기사 나 회의 논문을 찾으려고 노력했지만 실패했다 :(. copulas를 사용하지 않아도됩니다. 나는 작동하는 모든 것에 열려 있습니다.

편집 : 내가 의미하는 바를 보여주기 위해 R 코드를 추가했습니다. 지금까지 나는 다변량 왜도 및 첨도에 대한 Mardia의 정의에 대해 잘 알고 있습니다. 내가 처음 내 문제에 접근했을 때 나는 비틀림 마진 (이 예에서는 베타)으로 대칭 copula (이 경우 가우시안)를 사용하면 마진에 대한 일 변량 테스트는 의미가 있지만 멀티 바리 언트 왜도 / 커트 시스에 대한 Mardia의 테스트는 중요하지 않다. 나는 그것을 시도했지만 예상대로 나오지 않았다.

library(copula)
library(psych)
set.seed(101)

cop1 <- {mvdc(normalCopula(c(0.5), dim=2, dispstr="un"), 
            c("beta", "beta"),list(list(shape1=0.5, shape2=5), 
            list(shape1=0.5, shape2=5)))}

            Q1 <- rmvdc(cop1, 1000)
            x1 <- Q1[,1]
            y1 <- Q1[,2]


cop2 <- {mvdc(normalCopula(c(0.5), dim=2, dispstr="un"), 
            c("norm", "norm"),list(list(mean=0, sd=1), 
            list(mean = 0, sd=1)))}

            Q2 <- rmvdc(cop2, 1000)
            x2 <- Q2[,1]
            y2 <- Q2[,2]

mardia(Q1)  

Call: mardia(x = Q1)

Mardia tests of multivariate skew and kurtosis
Use describe(x) the to get univariate tests
n.obs = 1000   num.vars =  2 
b1p =  10.33   skew =  1720.98  with probability =  0
small sample skew =  1729.6  with probability =  0
b2p =  22.59   kurtosis =  57.68  with probability =  0

mardia(Q2)
Call: mardia(x = Q2)

Mardia tests of multivariate skew and kurtosis
Use describe(x) the to get univariate tests
n.obs = 1000   num.vars =  2 
b1p =  0.01   skew =  0.92  with probability =  0.92
 small sample skew =  0.92  with probability =  0.92
b2p =  7.8   kurtosis =  -0.79  with probability =  0.43

경험적 이변 량 밀도 플롯뿐만 아니라 'cop1'VS 'cop2'에 대한 윤곽선을 검사하면 대칭이 전혀 보이지 않습니다. 그때가 생각보다 조금 더 복잡하다는 것을 깨달았습니다.

나는 Mardia 's가 다 변형 왜도 / 커트 시스의 유일한 정의는 아니라는 것을 알고 있습니다. 따라서 Mardia의 정의 만 만족시키는 방법을 찾도록 제한하지는 않습니다.

감사합니다!


+1 가장 흥미로운 질문입니다. 이 맥락에서 (특히 이변 형) '공동으로 치우친'의 의미에 대해 더 구체적으로 설명해 주시겠습니까? 네 가지 사분면 (평균에 배치 된 축에 대해)에서 어떤 의미로 "상이한"관절 분포의 형태를 묘사 할 수 있지만, "공동으로 치우친"것이 구체적으로 무엇을 말하는지 잘 모르겠습니다.
Glen_b-복지 주 모니카

코 풀라를 사용하는 것에 관해서는; 분명하게, 구리는 대칭 적 (다양한 의미로)있을 수 있으며, 반면에 구리는 한계 균일 성으로 변환되기 때문에 한계가 왜곡됩니다. 다변량 로그 정규 간단 그래서 심지어 뭔가 ( 여기서 X 정상 다변량가) 왜곡 여백이있는 '대칭'접합부 (다변량 정상의 접합부는 적어도 대칭이라는 의미로). 그러나 그것은 당신이 요구하는 것이 아닙니다. 특급엑스엑스
Glen_b-복지 주 모니카

여보세요. 내 질문에 관심을 가져 주셔서 감사합니다. 이것은 내가 여기에 처음 게시 할 때이므로 올바르게 작업하고 싶습니다. 문자 제한으로 인해 R 코드를 사용하여 내가하고있는 일을 시도하고 전달하지 못하기 때문에 주석 섹션에 대해 더 자세히 설명하겠습니다.
S. Punky

예, 나는 그것을 깨달았고 더 자세한 내용을 추가했습니다. 시간을내어이 보드를 사용하는 방법까지 안내해 주셔서 감사합니다. 감사!
S. Punky 2016 년

" Mardia의 정의 만 만족시키는 방법을 찾는 데 제한을 두지 않습니다. "
Glen_b-복지 주 모니카

답변:


3

많이 검색 한 후, 교수와 컨설팅 및 문헌 고찰을 많이하고, 주위에 온라인 포럼 점프, 나는 아마 결론에왔다 이 문제를 해결하는 유일한 방법은 참 포도 나무 copulas 사용하는 것입니다. p- 변량 랜덤 벡터와 p-1 쌍의 copulas와 나머지 p * (p-1) / 2-()를 자유롭게 지정할 수 있도록 pairwise skewness 및 kurtosis (또는 높은 모멘트)를 제어 할 수 있습니다. p-1) 차원은 어떤 종류의 조건부 copula에서 지정할 수 있습니다.

나는 사람들이 만난 다른 방법을 환영하지만 적어도 내 인생 에서이 문제를 해결할 수있는 다른 방법을 찾을 수 없기 때문에 적어도이 포인터를 대답을 향하게 할 것입니다.


2
포도 나무 copula는 무엇입니까?
Sextus Empiricus 2016 년

1

Ruscio and Kaczetow (2008) 알고리즘을 수정하여이 문제를 해결할 수 있습니다. 이 논문은 실제와 의도 된 한계 모양 사이의 차이를 최소화하는 반복 알고리즘 (R 코드 포함)을 제공합니다. 한계가 아닌 다변량 모멘트를 대상으로하도록 수정할 수 있습니다.

Ruscio, J., & Kaczetow, W. (2008). 반복 알고리즘을 사용하여 다변량 비정규 데이터 시뮬레이션 다변량 행동 연구, 43 (3), 355-381. 도 : 10.1080 / 00273170802285693


세상에! 감사합니다! 나는
S. Punky

1
글쎄 ... 나는 Ruscio & Kaczetow (2008) 기사를 검토했다. 슬프게도 이것은 다변량 3, 4 차 모멘트에서 잘 작동하지 않는 것으로 알려진 NORTA (Normal To Anything) 알고리즘 제품군의 또 다른 (아직 더 유연한) 구현입니다. 나는 이것에 대해 정사각형으로 돌아온 것 같아요.
S. Punky 2016 년

0

일반화 된 타원형 분포 (Generalized Elliptical Distribution) 를 확인하여 다른 기능에 대한 유연성을 가진 "고전적인"모양 매트릭스를 사용할 수 있습니다.


감사합니다! 이 링크를 확인하십시오. 이제 타원형 분포가 대칭 적이 지 않습니까? 따라서 첨도를 제어 할 수 있지만 왜도는 0으로 유지되어야합니까?
S. Punky 2016 년

물론 GE는 타원형을 의미하지는 않습니다. 일부 기울기 타원형 변형도 확인하려면 여기를 클릭하십시오. stat.tamu.edu/~genton/STAT689/TAMU2009SE.pdf
Quartz

0

나는 coplas와 다른 복잡한 디자인을 포함하지 않는 간단한 방법을 생각해 냈습니다. 이 방법이 매우 효과적 인 것으로 보이지만 공식적인 언급이없는 것이 두려워요.

아이디어는 간단하다. 1. 공동 정규 분포에서 여러 변수를 그립니다. 2. 일 변량 정규 CDF 변수를 적용하여 각 변수에 대한 확률을 도출합니다. 3. 마지막으로 모든 분포의 역 CDF를 적용하여 해당 분포의 그림을 시뮬레이션합니다.

2012 년에이 방법을 생각 해냈고 Stata를 사용하여 시연했습니다 . 또한 R을 사용하여 동일한 방법을 보여주는 최근 게시물을 작성했습니다 .


(1) "스피어 맨 정규 분포"란 무엇입니까? (2) CDF와 "정상 CDF"사이에 어떤 차이점이 있습니까? (3)이 방법이 어떻게 상관 관계를 도입하는지 설명해 주시겠습니까? "가변"및 "배포"를 일반적으로 사용하면 설명이 모호해 지므로 실제로 무엇을하고 있는지 말하기 어렵습니다. 더 정확한 답을 말씀해 주시겠습니까?
whuber

게시물 주셔서 감사합니다! 링크를 따라 가면 메소드에 대한 자세한 정보를 볼 수 있습니다. 그것은 내가 달성하기를 바랐던 것 (즉, 고차원, 고차원 분포의 순간에 대한 제어)을 수행하지는 않지만 여전히 매우 가치있는 접근법입니다.
S. Punky

1
놀랍게도, 나는 새로운 방법 인 Cario, Marne C. 및 Barry L. Nelson을 찾지 못했습니다. 임의의 한계 분포와 상관 행렬을 사용하여 랜덤 벡터를 모델링하고 생성합니다. 1997 년 일리노이 주 에반 스톤 노스 웨스턴 대학교 산업 공학 및 관리 과학 기술 보고서. Yahav, Inbal 및 Galit Shmueli. "관리 과학 애플리케이션에서 다변량 포아송 데이터 생성 중." Robert H. Smith School Research 논문 번호 RHS (2009) : 06-085.
Francis Smart

그것이 '새로운 방법'이 아니더라도, 나는 여전히 내 질문을 살펴보고 통찰력있는 것을 추가하기 위해 시간을내어 주셔서 감사합니다 :)
S. Punky

0

다음 논문에 제시된 방법은 평균, 분산, 왜도 및 첨도의 (가능한) 조합으로 임의의 다변량을 생성 할 수 있다고 생각합니다.

  1. Stanfield, PM, Wilson, JR 및 GA GA 1996. Johnson Distributions를 사용한 다변량 입력 모델링 , 1996 Winter Simulation Conference , eds. Charnes, JM, Morrice, DJ, Brunner, DT 및 Swain, JJ, 1457-1464
  2. Stanfield, PM, Wilson, JR 및 King, RE 2004. 제품 재사용 시설에 적용하여 상관 된 운영 시간을 유연하게 모델링, International Journal of Production Research , Vol 42, No 11, 2179–2196.

면책 조항 : 나는 저자 중 하나가 아닙니다 .

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.