컨텍스트 : 매우 큰 데이터 세트로 작업 할 때 예측 변수와 반응 변수 간의 관계 또는 예측 변수 간의 관계를 "알고있는"합성 데이터 세트를 작성할 수 있는지 묻는 경우가 있습니다.
수년에 걸쳐, 나는 일회성 합성 데이터 세트 (특별한 방식으로 조리 된 것처럼 보임) 또는 연구원이 제안한 모델링 방법에 특히 유리한 구조화 된 데이터 세트를 만나는 것 같습니다.
합성 데이터 세트를 만드는 표준 방법을 찾고 있다고 생각합니다. 부트 스트랩 리샘플링은 합성 데이터 세트를 생성하는 일반적인 방법 중 하나이지만 , 구조 를 우선적으로 알고 있다는 조건을 충족시키지 못합니다 . 더욱이, 부트 스트랩 샘플을 다른 것과 교환하려면 데이터 생성 방법이 아니라 데이터 교환이 필수적입니다.
모수 분포를 데이터에 맞추거나 충분히 가까운 모수화 된 모형을 찾을 수있는 경우 합성 데이터 세트를 생성 할 수있는 한 가지 예입니다.
다른 방법이 있습니까? 특히 고차원 데이터, 희소 데이터 및 시계열 데이터에 관심이 있습니다. 고차원 데이터의 경우 관심있는 구조 (예 : 공분산 구조, 선형 모델, 트리 등)를 생성 할 수있는 방법을 찾습니다. FFT, AR 모델 또는 기타 다양한 필터링 또는 예측 모델을 통한 분포의 시계열 데이터의 경우 시작과 같습니다. 희소 데이터의 경우 희소성 패턴을 재현하는 것이 유용 해 보입니다.
나는 이것들이 표면을 긁는 것만 믿습니다. 이들은 공식적인 관행이 아니라 휴리스틱입니다. 실무자에게 알려진 합성 데이터를 생성하기위한 참고 자료 나 자료가 있습니까?
참고 1 : 이 질문 은 특정 시계열 모델과 같은 데이터를 생성하는 방법에 대한 문헌을 다루고 있음을 알고 있습니다. 여기서 구별은 특히 기존 데이터 세트와의 유사성 / 충실성에 대해 알려진 구조 (내 질문)를 나타 내기 위해 실습에 있습니다. 필자의 경우에는 알려진 구조만큼 유사성을 가질 필요는 없지만, 유사성은 유사성보다 훨씬 선호됩니다. 모델이 약속을 보여주는 이국적인 합성 데이터 세트는 실제 시뮬레이션보다 덜 선호됩니다.
참고 2 : 합성 데이터에 대한 Wikipedia 항목은 Rubin 및 Fienberg와 같은 조명기구 가이 문제를 해결했지만 모범 사례에 대한 참조는 찾지 못했음을 지적합니다. 응용 통계 (Analys of Applied Statistics) (또는 AOS)와 함께 소집업자에게 전달할 내용을 이해하거나 이러한 저널 또는 다른 저널의 검토 작업을 아는 것이 흥미로울 것입니다. 간단하고 기발한 용어로, "(허용) 요리"와 "너무 요리"사이의 임계 값이 어디에 있는지 물어볼 수 있습니다.
참고 3 : 문제에 영향을 미치지는 않지만, 사용 시나리오는 다양한 고차원 데이터 세트를 모델링하는 데 있으며, 연구 계획 은 (인간과 기계에 의해 ;-) 데이터의 구조를 학습해야합니다. 일 변량, 이변 량 및 기타 저 차원 시나리오와 달리 구조는 쉽게 추론되지 않습니다. 구조에 대한 이해를 높이기 위해 모델링 방법이 데이터와 상호 작용하는 방법 (예 : 매개 변수 안정성 검사)을 확인하기 위해 유사한 속성을 가진 데이터 세트를 생성 할 수있는 것이 중요합니다. 그럼에도 불구하고, 낮은 차원의 합성 데이터에 대한 오래된 가이드는 더 높은 차원의 데이터 세트를 위해 확장되거나 적응 될 수있는 출발점이 될 수 있습니다.