회귀 분석에서 데이터 생성 프로세스와 모델의 차이점은 무엇입니까?


19

회귀 분석에서 '데이터 생성 프로세스'와 '모델'의 차이점은 무엇입니까?


1
데이터 생성 과정은 알려져 있지 않으며, 데이터 생성 과정을 충분히 근사하기 위해 모델을 선택합니다. 그것은 가능한 답변 중 하나입니다. 더 많은 컨텍스트를 제공하면 도움이되므로 어떤 종류의 답변을 찾고 있는지 더 명확합니다. 현재 진행중인 저널 클럽이이 문제가 제기 된 기사에 대해 토론하는 채팅을 확인하십시오.
mpiktas

3
이 질문에 대한 답변은 "데이터 생성 프로세스"와 "모델"이 다양한 작성자에 의해 다양한 방식으로 사용되기 때문에 원하는대로 달라질 수 있습니다. @Weijie, 당신은 염두에두고 특정 참조가 있습니까?
whuber

답변:


15

기술적 정의는 분야에 따라 다르지만, 우리 모두는 "모델"이 무엇을 의미하는지 잘 알고 있습니다. 이를 DGP와 비교하기 위해 Googling "데이터 생성 프로세스"에서 상위 5 개의 조회수 (한 명의 저자와 동일한 조회수를 두 번 기록)를 살펴 보았습니다.

  1. 종이 미 공군이 실제로 방법에 생성 물류 지원 데이터를.

  2. 컴퓨터 "시뮬레이션 모델"을 통해 "합성 미세 인구"를 만드는 방법에 관한 환경 및 계획 A에 발표 된 논문의 개요 .

  3. "합성 데이터 생성"에 관한 웹 페이지 ; 즉, "모델에 대한 특정 데이터 특성의 영향을 탐색하기위한 시뮬레이션"입니다.

  4. "데이터베이스의 데이터는 기본 데이터 생성 프로세스 (dgp)의 결과"라고 주장하면서 데이터 마이닝 에 관한 회의 논문의 개요 .

  5. 책 장 으로 관심 데이터를 특징 짓는 "일부 변형에서 발생 기본이되는 [확률] 공정 ... 일부 또는 모두 [있는] 관측 될 수있다 ..."V의 tV

이러한 링크는 "데이터 생성 프로세스"라는 용어가 약간 다르지만 밀접하게 관련되어 있습니다. 가장 일반적인 것은 통계 시뮬레이션과 관련이 있습니다. 다른 하나는 진행중인 상황 (물류)에서 데이터가 생성되는 실제 수단과 진행중인 데이터 생성 절차에 대한 확률 모델을 나타내며 직접 분석하지 않습니다. 마지막 경우, 텍스트는 관찰 할 수없는 확률 론적 과정을 구별 하지만 , 그럼에도 불구하고 수학적 으로 모델링실제 수치와 분석 할 실제 수치 는 다릅니다 .

이것은 약간 다른 두 가지 답변이 가능하다는 것을 암시합니다.

  1. 시뮬레이션 또는 분석을위한 "합성"데이터 생성과 관련하여 "데이터 생성 프로세스"는 일반적으로 컴퓨터의 의사 난수 생성기를 통해 후속 연구를위한 데이터를 만드는 방법입니다. 분석은이 DGP의 수학적 특성을 설명하는 일부 모델을 암시 적으로 채택합니다.

  2. 통계 분석의 맥락에서, 실제 현상 (DGP)을 분석 할 관측치와 구별 할 수 있습니다. 우리는이 모델 현상 및 관찰뿐만 아니라 두 가지가 어떻게 연결되어 있는지에 대한 모델 모두를.

회귀 분석에서 DGP 는 일반적으로 데이터 집합 = , 이 생성 된 것으로 가정합니다. 를 들어 는 실험자에 의해 설정되거나 어떤 식 으로든 관찰 된 다음 의 값 을 유발 하거나 관련이 있는 것으로 추정 될 수 있습니다 . 모델은 이러한 데이터를 수학적으로 관련 될 수있는 가능한 방법을 설명하는 것; 예를 들어 , 각 는 기대 값을 갖는 임의의 변수 라고 말할 수 있습니다. ( X 1 i , X 2 i , , X p i , Y i ) i = 1 , 2 , , n X j i Y i Y i X β σ 2 β σ(엑스,와이)나는(엑스1나는,엑스2나는,,엑스나는,와이나는)나는=1,2,,엑스제이나는와이나는와이나는엑스β 과 분산 미지 파라미터 및 .σ2βσ


"원인"또는 "관련"이라는 단어를 쓰십시오. 이것에 대해 질문이 있습니다. 당신의 대답에서 DGP 개념은 인과 관계를 암시하지 않는 것 같습니다. 그러나이 "관계"는 상관 관계 (또는 모든 유형의 연관성) 이상의 것입니까? 이 내 관련 질문을 참조하십시오 : stats.stackexchange.com/questions/399671/…
markowitz

@markowitz "Correlation"은 엄밀히 말하면 이변 량 랜덤 변수의 두 번째 순간을 나타냅니다. 나는 "통계적으로 독립적이지 않다"라는 넓은 의미로 "관련"을 사용합니다.
whuber

나는이 이유로 정확히 "또는 모든 유형의 [통계] 연결"을 언급했습니다. 다음과 같이 질문을 반복 할 수 있습니까? 그러나이 "관계"가 협회 이상의 것입니까? DGP와 동의어로 사용되는 "실제 모델"이라는 개념에서 시작하여 더 많은 것으로 보입니다. 그렇다면 정확히 무엇인지 이해하지 못합니다. 내 이전 링크는 예를 제공합니다.
markowitz

@markowitz 나는 당신이 무엇을 묻고 있는지 이해가되지 않습니다. "관계"또는 "연관"의 의미를 정확히 모르기 때문일 수 있습니다. 나는 당신의 링크를 보았지만, 특이한 영어 사용법은 나에게 의미있는 것을 전달하지 않습니다.
whuber

영어가 유감입니다. 링크 된 질문을보다 명확하게 수정하려고했습니다. 이해할 수 있기를 바랍니다.
markowitz

4

DGP는 진정한 모델입니다. 모델은 우리가 최고의 기술을 사용하여 진정한 자연 상태를 나타내려고 시도한 것입니다. DGP는 "잡음"의 영향을받습니다. 소음은 여러 종류가 될 수 있습니다.

  1. 일회성 중재
  2. 레벨 시프트
  3. 트렌드
  4. 계절의 변화
  5. 모델 매개 변수의 변경
  6. 차이의 변화

이 6 개 항목을 제어하지 않으면 실제 DGP를 식별하는 기능이 줄어 듭니다.


4

Whuber의 답변은 훌륭하지만 통계 모델이 데이터의 추론 적 탐색을위한 적절한 모델이되기 위해 모든 측면에서 데이터 생성 모델과 유사 할 필요는 없다는 사실을 강조 할 가치가 있습니다. Liu와 Meng은 최근 arXived 논문 ( http://arxiv.org/abs/1510.08539 ) 에서 그 요점을 명확하게 설명합니다 .

오해 1. 확률 모델은 데이터 생성을 설명해야합니다.

모나리자의 복제본 (즉, 컨트롤)을 만들기 위해 다빈치를 가져올 필요는 없다. 삶으로 돌아 가기 — 대부분의 경우 카메라와 프린터로 충분합니다. 물론 da Vinci의 페인팅 스타일에 대한 지식은 실제 데이터 생성 프로세스에 대한 과학적 지식이보다 의미있는 컨트롤을 디자인하는 데 도움이되는 것처럼 복제본의 품질을 향상시킵니다. 그러나 불확실성 정량화를 위해 모델의 임무는 (D, 와 유사한 제어 세트를 지정하는 것입니다.θ). 알려진 (그러나 매우 복잡한) 결정 론적 패턴에 따라 데이터를 설명하기 위해 확률 적 패턴이 사용되는 컴퓨터 실험과 관련된 응용 프로그램보다이 점이 더 명확하지 않습니다 (Kennedy and O'Hagan, 2001; Conti et al., 2009). 우리는 설명 적 모델이 필요하지만 반드시 생성 적 모델은 아닙니다. 이에 대한 자세한 내용은 Lehmann (1990), Breiman (2001) 및 Hansen and Yu (2001)를 참조하십시오.


+1. 나는 특히 데이터의 기술 모델 과 생성 모델의 구별을 좋아합니다 .
whuber

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.