회귀 분석에서 '데이터 생성 프로세스'와 '모델'의 차이점은 무엇입니까?
회귀 분석에서 '데이터 생성 프로세스'와 '모델'의 차이점은 무엇입니까?
답변:
기술적 정의는 분야에 따라 다르지만, 우리 모두는 "모델"이 무엇을 의미하는지 잘 알고 있습니다. 이를 DGP와 비교하기 위해 Googling "데이터 생성 프로세스"에서 상위 5 개의 조회수 (한 명의 저자와 동일한 조회수를 두 번 기록)를 살펴 보았습니다.
종이 미 공군이 실제로 방법에 생성 물류 지원 데이터를.
컴퓨터 "시뮬레이션 모델"을 통해 "합성 미세 인구"를 만드는 방법에 관한 환경 및 계획 A에 발표 된 논문의 개요 .
"합성 데이터 생성"에 관한 웹 페이지 ; 즉, "모델에 대한 특정 데이터 특성의 영향을 탐색하기위한 시뮬레이션"입니다.
"데이터베이스의 데이터는 기본 데이터 생성 프로세스 (dgp)의 결과"라고 주장하면서 데이터 마이닝 에 관한 회의 논문의 개요 .
책 장 으로 관심 데이터를 특징 짓는 "일부 변형에서 발생 기본이되는 [확률] 공정 ... 일부 또는 모두 [있는] 관측 될 수있다 ..."V의 t
이러한 링크는 "데이터 생성 프로세스"라는 용어가 약간 다르지만 밀접하게 관련되어 있습니다. 가장 일반적인 것은 통계 시뮬레이션과 관련이 있습니다. 다른 하나는 진행중인 상황 (물류)에서 데이터가 생성되는 실제 수단과 진행중인 데이터 생성 절차에 대한 확률 모델을 나타내며 직접 분석하지 않습니다. 마지막 경우, 텍스트는 관찰 할 수없는 확률 론적 과정을 구별 하지만 , 그럼에도 불구하고 수학적 으로 모델링 된 실제 수치와 분석 할 실제 수치 는 다릅니다 .
이것은 약간 다른 두 가지 답변이 가능하다는 것을 암시합니다.
시뮬레이션 또는 분석을위한 "합성"데이터 생성과 관련하여 "데이터 생성 프로세스"는 일반적으로 컴퓨터의 의사 난수 생성기를 통해 후속 연구를위한 데이터를 만드는 방법입니다. 분석은이 DGP의 수학적 특성을 설명하는 일부 모델을 암시 적으로 채택합니다.
통계 분석의 맥락에서, 실제 현상 (DGP)을 분석 할 관측치와 구별 할 수 있습니다. 우리는이 모델 현상 및 관찰뿐만 아니라 두 가지가 어떻게 연결되어 있는지에 대한 모델 모두를.
회귀 분석에서 DGP 는 일반적으로 데이터 집합 = , 이 생성 된 것으로 가정합니다. 예 를 들어 는 실험자에 의해 설정되거나 어떤 식 으로든 관찰 된 다음 의 값 을 유발 하거나 관련이 있는 것으로 추정 될 수 있습니다 . 모델은 이러한 데이터를 수학적으로 관련 될 수있는 가능한 방법을 설명하는 것; 예를 들어 , 각 는 기대 값을 갖는 임의의 변수 라고 말할 수 있습니다. ( X 1 i , X 2 i , … , X p i , Y i ) i = 1 , 2 , … , n X j i Y i Y i X β σ 2 β σ 과 분산 미지 파라미터 및 .
Whuber의 답변은 훌륭하지만 통계 모델이 데이터의 추론 적 탐색을위한 적절한 모델이되기 위해 모든 측면에서 데이터 생성 모델과 유사 할 필요는 없다는 사실을 강조 할 가치가 있습니다. Liu와 Meng은 최근 arXived 논문 ( http://arxiv.org/abs/1510.08539 ) 에서 그 요점을 명확하게 설명합니다 .
오해 1. 확률 모델은 데이터 생성을 설명해야합니다.
모나리자의 복제본 (즉, 컨트롤)을 만들기 위해 다빈치를 가져올 필요는 없다. 삶으로 돌아 가기 — 대부분의 경우 카메라와 프린터로 충분합니다. 물론 da Vinci의 페인팅 스타일에 대한 지식은 실제 데이터 생성 프로세스에 대한 과학적 지식이보다 의미있는 컨트롤을 디자인하는 데 도움이되는 것처럼 복제본의 품질을 향상시킵니다. 그러나 불확실성 정량화를 위해 모델의 임무는 (D, 와 유사한 제어 세트를 지정하는 것입니다.). 알려진 (그러나 매우 복잡한) 결정 론적 패턴에 따라 데이터를 설명하기 위해 확률 적 패턴이 사용되는 컴퓨터 실험과 관련된 응용 프로그램보다이 점이 더 명확하지 않습니다 (Kennedy and O'Hagan, 2001; Conti et al., 2009). 우리는 설명 적 모델이 필요하지만 반드시 생성 적 모델은 아닙니다. 이에 대한 자세한 내용은 Lehmann (1990), Breiman (2001) 및 Hansen and Yu (2001)를 참조하십시오.
DGP는 가상 현실이며 시뮬레이션을위한 독특한 레시피입니다. 모델은 DGP 또는 데이터를 생성 할 수있는 가능한 방법의 모음입니다.
Russell Davidson이 작성한이 미니 코스의 첫 페이지를 읽으십시오.
http://russell-davidson.arts.mcgill.ca/Aarhus/bootstrap_course.pdf