합성 데이터 세트를 생성하기위한 표준 사례는 무엇입니까?


26

컨텍스트 : 매우 큰 데이터 세트로 작업 할 때 예측 변수와 반응 변수 간의 관계 또는 예측 변수 간의 관계를 "알고있는"합성 데이터 세트를 작성할 수 있는지 묻는 경우가 있습니다.

수년에 걸쳐, 나는 일회성 합성 데이터 세트 (특별한 방식으로 조리 된 것처럼 보임) 또는 연구원이 제안한 모델링 방법에 특히 유리한 구조화 된 데이터 세트를 만나는 것 같습니다.

합성 데이터 세트를 만드는 표준 방법을 찾고 있다고 생각합니다. 부트 스트랩 리샘플링은 합성 데이터 세트를 생성하는 일반적인 방법 중 하나이지만 , 구조 를 우선적으로 알고 있다는 조건을 충족시키지 못합니다 . 더욱이, 부트 스트랩 샘플을 다른 것과 교환하려면 데이터 생성 방법이 아니라 데이터 교환이 필수적입니다.

모수 분포를 데이터에 맞추거나 충분히 가까운 모수화 된 모형을 찾을 수있는 경우 합성 데이터 세트를 생성 할 수있는 한 가지 예입니다.

다른 방법이 있습니까? 특히 고차원 데이터, 희소 데이터 및 시계열 데이터에 관심이 있습니다. 고차원 데이터의 경우 관심있는 구조 (예 : 공분산 구조, 선형 모델, 트리 등)를 생성 할 수있는 방법을 찾습니다. FFT, AR 모델 또는 기타 다양한 필터링 또는 예측 모델을 통한 분포의 시계열 데이터의 경우 시작과 같습니다. 희소 데이터의 경우 희소성 패턴을 재현하는 것이 유용 해 보입니다.

나는 이것들이 표면을 긁는 것만 믿습니다. 이들은 공식적인 관행이 아니라 휴리스틱입니다. 실무자에게 알려진 합성 데이터를 생성하기위한 참고 자료 나 자료가 있습니까?


참고 1 : 이 질문 은 특정 시계열 모델과 같은 데이터를 생성하는 방법에 대한 문헌을 다루고 있음을 알고 있습니다. 여기서 구별은 특히 기존 데이터 세트와의 유사성 / 충실성에 대해 알려진 구조 (내 질문)를 나타 내기 위해 실습에 있습니다. 필자의 경우에는 알려진 구조만큼 유사성을 가질 필요는 없지만, 유사성은 유사성보다 훨씬 선호됩니다. 모델이 약속을 보여주는 이국적인 합성 데이터 세트는 실제 시뮬레이션보다 덜 선호됩니다.

참고 2 : 합성 데이터에 대한 Wikipedia 항목은 Rubin 및 Fienberg와 같은 조명기구 가이 문제를 해결했지만 모범 사례에 대한 참조는 찾지 못했음을 지적합니다. 응용 통계 (Analys of Applied Statistics) (또는 AOS)와 함께 소집업자에게 전달할 내용을 이해하거나 이러한 저널 또는 다른 저널의 검토 작업을 아는 것이 흥미로울 것입니다. 간단하고 기발한 용어로, "(허용) 요리"와 "너무 요리"사이의 임계 값이 어디에 있는지 물어볼 수 있습니다.

참고 3 : 문제에 영향을 미치지는 않지만, 사용 시나리오는 다양한 고차원 데이터 세트를 모델링하는 데 있으며, 연구 계획 (인간과 기계에 의해 ;-) 데이터의 구조를 학습해야합니다. 일 변량, 이변 량 및 기타 저 차원 시나리오와 달리 구조는 쉽게 추론되지 않습니다. 구조에 대한 이해를 높이기 위해 모델링 방법이 데이터와 상호 작용하는 방법 (예 : 매개 변수 안정성 검사)을 확인하기 위해 유사한 속성을 가진 데이터 세트를 생성 할 수있는 것이 중요합니다. 그럼에도 불구하고, 낮은 차원의 합성 데이터에 대한 오래된 가이드는 더 높은 차원의 데이터 세트를 위해 확장되거나 적응 될 수있는 출발점이 될 수 있습니다.

답변:


7

합성 데이터를 생성하기위한 표준 사례 확실하지 않습니다. 이 연구는 연구의 다양한 측면에서 많이 사용되어 목적에 맞게 구축 된 데이터가 더 일반적이고 논쟁의 여지가없는 접근 방식 인 것 같습니다.

나에게 가장 좋은 표준 방법은 데이터 세트를 만들어 모델과 잘 작동 하지 않는 것입니다. 이는 데이터 생성 단계가 아닌 연구 단계의 일부입니다. 대신, 데이터는 데이터 생성 프로세스 를 반영하도록 설계되어야합니다 . 예를 들어 역학 시뮬레이션 연구의 경우, 항상 분포가 알려진 가상의 대규모 모집단에서 시작한 다음 "연구 모집단"을 직접 생성하지 않고 해당 모집단에서 연구 샘플링을 시뮬레이션합니다.

예를 들어 아래 논의를 바탕으로 제가 만든 시뮬레이션 데이터의 두 가지 예가 있습니다.

  • 아래의 SIR 모델 예제와 다소 비슷하지만, 네트워크를 통한 질병 확산의 수학적 모델을 사용하여 시뮬레이션을 통해 특정 상수 매개 변수가 결과를 결과로 처리했을 때 반드시 일정한 위험을 암시하지는 않는다는 시뮬레이션을 통해 자신을 보여주었습니다. 코호트 연구. 분석 솔루션을 파헤치는 동안 유용한 개념 증명이었습니다.
  • 사례 관리 연구를위한 특정 샘플링 체계의 영향을 살펴보고 싶었습니다. 연구를 똑바로 생성하기보다는 프로세스의 각 단계를 수행했습니다. 알려진 질병의 유병률과 알려진 공변량 패턴을 가진 1,000,000 명의 인구. 그런 다음 샘플링 과정을 시뮬레이션하여이 경우 모집단에서 사례와 통제를 도출 한 방식입니다. 그런 다음에야 수집 된 "시뮬레이션 된 연구"에서 실제 통계 모델을 던졌습니다.

후자의 시뮬레이션은 연구 모집 방법의 영향, 공변량 제어에 대한 통계적 접근 방법 등을 조사 할 때 매우 일반적입니다.


대답 해줘서 고마워. 그러나 내가 역학에 대해 알고있는 것에 기초하여, 상당히 유용한 확률 론적 모델, 특히 SIR 모델을 개발하는 데 훨씬 더 많은 일이 이루어졌다. 수용 가능한 확률 론적 데이터 모델을 신속하게 개발할 수 있다는 것이 저의 의도의 일부이지만 다른 많은 분야에서는 사실이 아닙니다.
반복자

@Iterator 그것은 당신이 어디에 있고, 역학의 어떤 측면에 크게 의존하고 있습니다. 예를 들어, 암 역학 전문의는 SIR 모델로 "더 많은 것"이 수행되었다는 소식에 충격을받을 것입니다. SIR- 타입 모델은 역학의 특정 부분 (감염성 질병 에피, 심지어 ID Epi의 일부 도 아님 )의 한 측면이지만, 역학은 필드로서 통계 모델, 특히 일반적인 선형 모델, 생존을 엄청나게 사용합니다. 분석 및 시계열.
Fomite

우와 범죄 의도는 없으며 SIR 모델이 표준 데이터 생성 모델의 좋은 예라고 언급했습니다. 물론 모든 모델링 방법을 사용하는 다른 epi 영역이 있다는 것을 알고 있습니다. 역학에 사용되는 다른 데이터 생성 방법에 대한 포인터 나 참고 자료가 있다면, 나는 그들에게 매우 개방적입니다.
반복자

1
@Iterator 내가 기분을 상하게했다면 죄송합니다. 별로);). 수학적 전염병과 관측 적 전염병학 사이의 교차점에 사각형으로 앉아 있기 때문에 내가 얻는 것입니다. 한 지역의 사람들 은 다른 지역이 존재하기 때문에 흐릿 합니다. SIR이 아닌 예제를 사용하여 답변을 편집하겠습니다.
Fomite

2

R 통계 패키지에는 기존 데이터에 맞는 모델을 기반으로 데이터를 시뮬레이션하는 시뮬레이션 기능이 있습니다. 그러면 적합 모형을 "알려진"모집단 관계로 사용하고 해당 모형을 기반으로 새 데이터를 시뮬레이션합니다. lme4 패키지에는이 기능에 대한 방법이 있습니다. 이러한 적합 물체는 무작위 및 고정 효과 및 상관 관계 (시계열의 자기 상관 포함)를 고려할 수 있습니다.

이것은 당신이 원하는 것을 할 수 있습니다.


제안 해 주셔서 감사합니다. 이 기능은 확실히 유용하지만 특정 솔루션의 코드가 아닌 통계 관행 및 방법론에 더 관심이 있습니다. 이는 상기 방법 및 분석을 구현하는 특정 패키지가 아니라 샘플링 방법 또는 재현 가능한 분석에 관해 묻는 것과 유사하다. 그럼에도 불구하고 좋은 방법은 패키지가되어야합니다. :)
반복자
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.