설명 적 모델링과 예측 모델링에 대한 실질적인 생각


70

지난 4 월에 UMD 수 학부 통계 그룹 세미나 시리즈에서 "설명 또는 예측"이라는 주제의 연설에 참석했습니다. 이 연설은 UMD의 Smith Business School에서 가르치는 Galit Shmueli 교수에 의해 진행되었습니다 . 그녀의 연설은 "IS Research의 예측 대 설명 모델링" 이라는 제목의 논문 과 "설명 또는 예측할 것인가?" 라는 제목의 후속 작업 논문 을 바탕으로 진행되었습니다. .

슈무 엘리 박사의 주장은 통계적 모델링 맥락에서 예측과 설명이라는 용어가 혼란스러워졌으며 통계 문헌에는 차이점에 대한 철저한 논의가 부족하다는 것입니다. 이 논문에서 그녀는 둘 다 대조하고 그들의 실제적인 의미에 대해 이야기합니다. 논문을 읽어 보시기 바랍니다.

실무자 커뮤니티에 제기하고 싶은 질문은 다음과 같습니다.

  • 예측 운동과 설명 / 설명 운동을 어떻게 정의합니까? 특정 응용 프로그램에 대해 이야기 할 수 있다면 유용 할 것입니다.
  • 다른 것을 사용한다는 의미에서 하나를 사용하는 함정에 빠진 적이 있습니까? 나는 확실히있다. 어느 것을 사용해야하는지 어떻게 알 수 있습니까?

2
이 질문은 종결 될 것을 제안합니다. 참조 : meta.stats.stackexchange.com/questions/213/… 2 표가 있습니다. 상향 투표자 또는 OP가 질문이 메타 스레드에서 열린 상태로 유지되는 이유에 대해 의견을 제시 할 수 있습니까?

9
"폐쇄해야합니다. 누군가 방어해야합니다"라고 말하지 말고 폐쇄하려는 이유를 설명하는 것부터 시작하십시오. 너무 모호합니까? 그런 다음 설명을 요청하십시오. 이것은 나에게 합리적인 질문 인 것 같습니다. 질문자는 논문을 제시하고 예측 통계와 설명 통계의 차이점에 대해 묻습니다. 질문에 대한 유일한 변경 사항은 질문을 정확하게 설명하여 투표하기 쉽도록하는 것입니다.
JD Long

2
메타 스레드에 대한 이유를 이미 제시했습니다. 질문에 대한 '메타 토론'이이 특정 페이지를 혼란스럽게 할 것이라고 생각합니다.

2
@Srikant @JD 질문을 강화하겠습니다. 피드백 주셔서 감사합니다. 나는 이것이 토론의 가치가있는 주제라고 생각합니다.
wahalulu

4
위에서 언급 한 토론 / 논문에 대한 적절한 링크를 추가 할 수 있습니까?
chl

답변:


39

한 문장에서

예측 모델링은 "어떻게 일어 날까?"에 관한 것이며, 설명 적 모델링은 "어떻게 할 수 있는가"에 관한 것입니다.

많은 문장에서

가장 큰 차이점은 분석으로 수행되어야 할 것이라 생각합니다. 나는 설명이 예측보다 개입에 있어 훨씬 더 중요하다고 제안한다 . 결과를 변경하기 위해 무언가를하고 싶다면, 그것이 왜 그런지 설명하는 것이 가장 좋을 것입니다. 설명이 잘 이루어지면 개입 방법 (어떤 입력을 조정해야하는지)을 알려줍니다. 그러나 어떤 의도 (또는 능력)도 개입하지 않고 미래가 어떻게 될지를 이해하려면 예측 모델링이 더 적합 할 것입니다.

"암 데이터"를 사용하는 매우 느슨한 예입니다.

다른 병원의 암 병동에 자금을 지원하는 경우 "암 데이터"를 사용한 예측 모델링이 적합하거나 적어도 유용 할 것입니다. 사람들이 왜 암에 걸리는지 설명 할 필요는 없으며, 얼마나 많은 서비스가 필요한지 정확하게 추정하면됩니다. 설명 적 모델링은 아마 여기에별로 도움이되지 않을 것입니다. 예를 들어 흡연이 암 발병 위험이 높다는 것을 아는 것만으로는 와드 A 또는 와드 B에 더 많은 자금을 제공 할 것인지 여부를 알 수 없습니다.

국가 암 발생률 을 줄이려 면 "암 데이터"에 대한 설명 적 모델링이 적절할 것입니다. 예측 적 모델링은 상당히 쓸모가 없습니다. 암 발생률을 정확하게 예측하는 능력은 암 발생률을 줄이는 방법을 결정하는 데 도움이되지 않습니다. 그러나 흡연으로 인해 암 위험이 높아진다는 사실을 아는 것은 귀중한 정보입니다. 흡연률을 낮추면 (예 : 담배를 더 비싸게함으로써) 더 많은 위험을 가진 사람들이 생겨 암 위험이 줄어 듭니다. 요금.

이런 식으로 문제를 살펴보면 설명 적 모델링이 주로 사용자를 직접 또는 간접적으로 제어하는 ​​변수에 중점을 둘 것이라고 생각합니다. 다른 변수를 수집해야 할 수도 있지만 분석에서 변수를 변경할 수없는 경우 해당 변수를 제어하거나 영향을 줄 수있는 경우를 제외하고 설명 모델링이 유용 할 것입니다. 중요합니다. 예측 모델링은 사용자에 의해 제어되는지 여부에 관계없이 변수 간의 연관성을 찾습니다. 예측을하기 위해서는 입력 / 기능 / 독립 변수 등을 알아야합니다. 그러나 결과를 개입시키고 변경하기 위해서는 입력 / 기능 / 독립 변수 등을 수정하거나 영향을 줄 수 있어야합니다. .


9
+1, 잘 했어요! 나는 nitpick을 싫어하지만, 예측이 미래에 관한 것은 아닙니다. 예를 들어, 고고학자는 남은 흔적 (즉, 강우의 영향)에 대한 지식에 의해 과거의 한 지점에서 강우 수준을 결정 (즉, 예측) 할 수 있습니다.
gung

@ gung-나는 이것이 일어나지 않도록 내 대답을 말한 것으로 생각했습니다. 분명히, 나는 자리를 놓쳤다 :-)
chanceislogic

좋은 대답입니다. 많은 경우에 미래의 모습과 이유를 알아야합니다. 고객 이탈을 연구 할 때 다음 달에 고객이 얼마나 많은 고객 (그리고 정확히 어떤 고객)이 이탈했는지, 그리고 고객이 이탈하는 이유를 알고 마케팅이 고객을 유지하기 위해 개입 할 수 있다고 가정하십시오. 그런 다음 예측 (미래의 수와 고객을 배우기 위해)하고 이유를 알려주는 설명이 필요하므로 이탈을 줄일 수 있습니다. 그렇다면 둘 다 또는 하나의 하이브리드 모델이 있습니까? Varty는 "알려진 관계는 설명 / 설명 분석 또는 기타 기술에서 나올 수 있습니다"
Espanta

@gung 나는 nitpick을 좋아 한다 : 고고학자는 그녀의 미래 에 대한 경험을 예측하기를 원한다 .
Alexis

@Alexis는 확실히 가능하지만 고고학자의 주요 연구 관심사가 아니며 이러한 데이터는 이미 다른 연구자 (고생물학 자)가 수집했으며 고고학자는 이러한 데이터를 사용하여 이론을 테스트하기를 원합니다. 그들의 주요 이론적 관심 ( Gill, 200 ).
gung

30

내 관점에서 차이점은 다음과 같습니다.

설명 / 설명

설명 / 설명 적 답변을 구할 때 주요 초점은 우리가 가진 데이터 에 있으며 노이즈가 고려 된 후 데이터 간의 기본 관계를 발견하려고합니다.

예 : 규칙적으로 운동 (예 : 하루 30 분)하면 혈압이 낮아지는 것이 사실입니까? 이 질문에 답하기 위해 우리는 환자의 운동 요법과 시간에 따른 혈압 값에 대한 데이터를 수집 할 수 있습니다. 목표는 운동 요법의 변화에 ​​의해 혈압의 변화를 설명 할 수 있는지 확인하는 것 입니다.

혈압은 사람이 섭취하는 나트륨의 양 등과 같은 다양한 다른 요인에 의한 운동뿐만 아니라 운동 요법과 혈압.

예측

예측 운동을 수행 할 때 우리는 현재 보유하고있는 데이터 간의 알려진 관계를 사용하여 미지로 추정합니다 . 알려진 관계는 설명 / 설명 분석 또는 다른 기술에서 나올 수 있습니다.

예 : 하루에 1 시간 운동하면 혈압이 어느 정도 떨어질 수 있습니까? 이 질문에 답하기 위해, 예측을 수행하기 위해 혈압과 운동 요법 사이에 이전에 밝혀지지 않은 관계를 사용할 수 있습니다.

위의 맥락에서 설명 모델은 예측 프로세스에 도움이 될 수 있지만 설명에 중점을 두지는 않습니다. 변수 사이의 기본 관계의 본질에 대한 지식을 반드시 추가하지 않고도 미지 예측에 능숙한 비 설명 적 접근법 (예 : 신경망)도 있습니다.


6
+1이 회신은 설명, 설명 및 관계 언어를 사용하여 인과 관계를 혼동하지 않도록합니다. 이것은 바람직한 선명도를 제공합니다.
whuber

4
설명 아래에 "기본 데이터는 우리가 가진 데이터에 중점을두고 있습니다"라고 썼다-나는 당신이 그 작업이 소급 적이라고 예측하려고한다. 설명 ( "인과 적 설명"읽기)에는 실제로 이론 및 영역 지식에 큰 초점이 있으며 데이터는 이러한 가정 / 이론을 테스트하는 데 사용됩니다. 반대로, 예측에서는 인과 관계가 아니라 상관 관계를 검색하기 때문에 데이터 중심적이며 관계에 대해 더 개방적입니다.
Galit Shmueli

@GalitShmueli Reg 이론 / 도메인 지식-그렇습니다. 그 점에 동의합니다. 나는 단순히 변수의 가치를 추정하는 것과 변수 사이의 관계를 밝히는 것의 핵심 구별에 초점을 두어 설명에 대한 예측을 대조하려고했습니다. 그 과정에서 두 패러다임 사이의 미묘한 뉘앙스를 무시하는 것은 물론 유죄입니다.
varty

1
@varty 나는 당신의 요점에 동의합니다 : 설명 / 설명에서는 전반적인 / 평균 관계 / 효과에 관심이있는 반면 예측에서는 개별 값을 예측하는 데 관심이 있습니다 (외삽은 아닙니다)
Galit Shmueli

19

여기서 발생하는 실제 문제 중 하나는 모델링의 변수 선택입니다. 변수는 중요한 설명 변수가 될 수 있지만 (예 : 통계적으로 유의할 수 있음) 예측 목적에 유용하지 않을 수 있습니다 (즉, 모델에 포함하면 예측 정확도가 떨어집니다). 나는이 실수를 거의 매일 출판 된 논문에서 본다.

또 다른 차이점은 주성분 분석과 요인 분석의 차이점입니다. PCA는 종종 예측에 사용되지만 설명에는 그다지 유용하지 않습니다. FA는 해석 (및 설명)을 개선하기 위해 수행되는 추가 회전 단계를 포함합니다. 이 이것에 대해 Galit Shmueli의 블로그에 좋은 게시물 오늘 .

업데이트 : 변수가 중요한 설명 변수 일 수 있지만 미래에는 사용할 수없는 경우 세 번째 사례가 시계열에서 발생합니다. 예를 들어, 주택 융자는 GDP와 밀접한 관련이있을 수 있지만 GDP에 대한 좋은 예측이 없다면 미래 주택 융자를 예측하는 데별로 사용되지 않습니다.


3
중요한 설명 변수가 예측 정확도를 낮추는 이유 / 어떻게?

3
@Srikant. 설명 변수가 반응 변수와 약하지만 유의 한 관계가있는 경우 발생할 수 있습니다. 그러면 계수는 통계적으로 유의하지만 추정하기 어려울 수 있습니다. 결과적으로, 예측의 MSE는 변수가 생략 될 때에 비해 변수가 포함될 때 증가 할 수있다. (그 편견은 포함과 함께 감소하지만 분산은 증가합니다.)
Rob Hyndman

첫 번째 단락은 매우 좋은 지적입니다. 여전히 때로는 더 나쁘다. 여기 PMID : 18052912는 실제 모델보다 노이즈 부분에 대해 더 나은 모델을 만들 수있는 좋은 예입니다. 랜덤 데이터에서 좋은 모델을 만들 수 있다는 것은 명백하지만 약간 충격적입니다. .

1
내 관용을 용서하지만 회전은 FA뿐만 아니라 PCA의 일부가 아닌가?
richiemorrisroe

3
통계적으로 시그. 그러나 약한 예측자는 예측이나 설명에 거의 효과적이지 않습니다. 예를 들어, 선형 회귀 솔루션에 예측 변수 X1을 포함하지 않고 RSQ가 .40이고 X1을 포함하면 해당 RSQ에 .01이 추가되면 X1은 예측이나 설명에 중요하지 않습니다.
rolando2

17

어떤 사람들은 사용 된 모델 / 알고리즘 (예를 들어, 신경망 = 예측)의 관점에서 구별을 생각하는 것이 가장 쉬운 것을 알지만, 그것은 설명 / 예측 구별의 한 가지 특정 측면 일뿐입니다. 다음은 데이터 마이닝 과정에서 두 각도에서 선형 회귀를 가르치기 위해 사용 하는 슬라이드 데크입니다 . 선형 회귀 만 사용 하고이 작은 예를 사용하더라도 설명 대 예측 목표 (변수 선택, 변수 선택, 성능 측정 등)에 대한 다양한 모델로 이어지는 다양한 문제가 발생합니다.

갈릿


5
호기심에서 예측 (33 페이지부터 시작) 회귀 분석에 대해 학습 및 검증 데이터 세트 (3 단계 ) 분할 하기 전에 예측 변수 (1 단계)를 선택하는 것이 의도적 인가? 나는 가장 객관적이고 정직한 절차는 산점도를보기 전에도 처음부터 분할하는 것이라고 생각했다 (2 단계). 전체 데이터 세트를 기준으로 회귀자를 선택하면 이후에 유효성 검사 데이터에 적용되는 경우에도 많은 테스트에서 명백한 유의 수준이 팽창하지 않습니까?
whuber

더 일반적인 질문은 홀드 아웃을 유지하기 전에 데이터 시각화를 수행하는지 여부입니다. 데이터 세트가 크면 실제로 중요하지 않습니다. 작은 표본에서는 시각화를 사용하여 예측 변수를 선택하는 것이 실제로 위험합니다. 슬라이드에서 변수 선택에 시각화를 사용하는 것은 아닙니다. "선택 예측 자"는보다 일반적으로 "합리적인 가능한 이용 가능한 예측 자 세트를 선택"이다. 합리적인 세트를 선택하기 위해 도메인 지식을 통합하는 것에 관한 것입니다.
Galit Shmueli

"설명하거나 예측하기"라는 주제를 계속하면서 여기에 관련 질문이 있습니다 . 질문이 대부분 귀하의 논문을 기반으로하기 때문에 살펴 보시면 감사하겠습니다.
Richard Hardy

Shmueli 교수, 당신은이 주제에 관한 논문 291 페이지에서 1993 년 Geisser가 정의한 '비 확률 예측'만을 고려하고 있다고 말합니다. 비 확률 예측의 전체 정의는 어디에서 찾을 수 있습니까? 새 게시물도 시작하게되어 기쁘지만 여기에서 먼저 물어 보겠다고 생각했습니다.
user0

11

예 : 내가 본 고전적인 예는 인간의 성과를 예측하는 맥락에서입니다. 자기 효능감 (즉, 사람이 과제를 잘 수행 할 수 있다고 생각하는 정도)은 종종 과제 수행의 강력한 예측 인자입니다. 따라서 지능과 사전 경험의 정도와 같은 다른 변수와 함께 자기 회귀를 다중 회귀 분석에 넣는 경우 자기 효능이 강력한 예측 변수 인 경우가 많습니다.

이로 인해 일부 연구자들은 자기 효능이 과제 수행을 유발한다고 제안했습니다. 그리고 그 효과적인 개입은 개인의 자기 효능감 향상에 초점을 둔 것입니다.

그러나 대안적인 이론적 모델은 작업 수행의 결과로 자기 효능을 크게 본다. 즉, 당신이 좋다면 알게 될 것입니다. 이 틀에서 개입은 인식되는 능력이 아닌 실제 능력을 높이는 데 중점을 두어야한다.

따라서 자기 효능감과 같은 변수를 포함하면 예측이 증가 할 수 있지만, 자기 효능 성 결과 모델을 채택한다고 가정 할 때, 모델의 목표가 성과에 영향을 미치는 인과 적 과정을 밝히는 것이 예측 인으로 포함되어서는 안됩니다.

이것은 물론 인과 적 이론적 모델을 개발하고 검증하는 방법에 대한 문제를 제기합니다. 이것은 실험적인 조작과 동적 프로세스에 대한 일관된 논증으로 이상적으로 여러 연구에 의존합니다.

근위 대 원위 : 연구원들이 원위 및 근위 원인의 영향에 관심이있을 때 비슷한 문제를 보았습니다. 근위 원인은 원위 원인보다 더 잘 예측하는 경향이 있습니다. 그러나 이론적 관심은 원위 및 근위 원인이 작동하는 방식을 이해하는 데 있습니다.

변수 선택 문제 : 마지막으로, 사회 과학 연구에서 큰 문제는 변수 선택 문제입니다. 어떤 주어진 연구에서도 측정 될 수는 있지만 무한한 변수가 있습니다. 따라서, 모델 해석은 이론적 해석을 할 때 이것의 의미를 고려해야합니다.


"약한 가설"의 사회 과학에도 문제가있다 (예 : 효과는 긍정적 대 부정적). 그리고 "자기 효능"예에서, 각 개인이 구축 한 성과의 내부 예측 자로 볼 수 있습니다. 따라서 설명 변수로 "블랙 박스"예측을 사용하는 것과 비슷할 것입니다.
probabilityislogic

9

통계 모델링 : L. Breiman의 Two Cultures (2001)는 아마도이 시점에서 가장 좋은 논문 일 것입니다. 그의 주요 결론 (문서 끝에 다른 저명한 통계학 자의 답변도 참조)은 다음과 같습니다.

  • "높은 예측 정확도는 기본 데이터 메커니즘에 대한보다 신뢰할 수있는 정보와 관련이 있습니다. 예측 정확도가 낮 으면 의심스러운 결론을 초래할 수 있습니다."
  • "알고리즘 모델은 데이터 모델보다 더 나은 예측 정확도를 제공하고 기본 메커니즘에 대한 더 나은 정보를 제공 할 수 있습니다."

3
: 그냥 이전 관련 질문 링크를 만들려면 두 문화 : 기계 학습 대 통계를?
chl

3
알고리즘 모델의 문제점은 이해하기 어렵다는 것입니다. 이로 인해 발생할 수있는 잠재적 인 문제를 진단하고 수정하기가 어렵습니다. 각 구성 요소의 모양을 알기 때문에 구조 모델을 평가하기가 훨씬 쉽습니다.
chanceislogic

8

나는 연결된 논문의 초록을 넘어서 그녀의 작품을 읽지 못했지만 내 설명은 "설명"과 "예측"사이의 구별을 버리고 실무자의 목표 사이의 구별로 대체되어야한다는 것이다. 인과 "또는"예측 " 일반적으로 "설명"은 거의 모호한 단어라고 생각합니다. 예를 들어, Hooke 's Law는 설명 적이거나 예측 적인가? 스펙트럼의 다른 쪽 끝에서, 예측 가능한 정확한 추천 시스템은 명시적인 아이템 등급의 좋은 인과 적 모델입니까? 나는 우리 모두 과학의 목표는 설명이고 기술의 목표는 예측이라는 직관을 공유한다고 생각합니다. 지도 학습 알고리즘과 같이 우리가 사용하는 도구를 고려할 때이 직관은 어떻게 든 사라집니다.

그 모든 것을 말하면, 아마도 모델에 적용 할 수있는 유일한 단어는 해석 할 수 있습니다. 회귀는 일반적으로 해석 가능합니다. 많은 층을 가진 신경망은 종종 그렇지 않습니다. 나는 사람들이 때로는 해석 가능한 모델이 인과 정보를 제공한다고 가정하고, 해석 할 수없는 모델은 예측 정보만을 제공한다고 생각합니다. 이 태도는 단순히 혼란스러워 보입니다.


7

나는 아직도 그 질문이 무엇인지에 대해 조금 불분명합니다. 내 생각에 예측 모델과 설명 모델의 근본적인 차이점은 초점의 차이입니다.

설명 모델

xyβ

예측 모델

예측 모델의 목표는 무언가를 예측하는 것입니다. 따라서, 그들은 parsimony 또는 단순성에 중점을 두지 않고 종속 변수를 예측하는 능력에 더 집중하는 경향이 있습니다.

그러나 위의 설명은 설명 모델이 예측에 사용될 수 있고 때로는 예측 모델이 무언가를 설명 할 수 있기 때문에 다소 인공적인 차이입니다.


상위 답변에서 직접 언급하지 않은 복잡성 을 언급 한 +1 그러나 설명 모델이 개입에 사용될 때 문제가 발생합니다. 추정 된 계수가 치우 치지 않도록하는 방법은 무엇입니까? 이것은 parsimony에서 발생하는 일반적인 문제입니까?
Thomas Speidel

5

다른 사람들이 이미 말했듯이, 연구자의 목표와 관련이있는 경우를 제외하고는 구별은 다소 의미가 없습니다.

The Two Cultures 논문 의 논평자 중 하나 인 Brad Efron 은 다음과 같은 관찰을했습니다 ( 이전 질문에서 논의 바와 같이 ).

예측 자체만으로도 충분합니다. 우체국은 손으로 쓴 낙서에서 정확한 주소를 예측하는 방법에 만족합니다. 피터 그레고리 (Peter Gregory)는 예측 목적으로 연구를 수행했으며, 간염의 의학적 기초를 더 잘 이해하기 위해 노력했습니다. 대부분의 통계 조사는 인과 관계 요인을 최종 목표로 식별합니다.

특정 분야 (예 : 의약품)는 데이터를 생성하는 기본 프로세스를 이해하기위한 수단으로서 설명 프로세스 (분포 등)로서 모델 피팅에 무거운 가중치를 부여합니다. 다른 분야는이 문제에 관심이 적으며 예측 성공률이 매우 높은 "블랙 박스"모델에 만족합니다. 이것은 모델 구축 과정에도 적용됩니다.


5

이와 관련하여이 질문에 더 집중할 수 있습니다. 다른 용어가 더 적절했을 때 사람들이 한 용어를 사용한 적이 있습니까? 물론입니다. 때때로 그것은 문맥에서 충분히 명확하거나, 당신은 농민 적이기를 원하지 않습니다. 때때로 사람들은 자신의 용어에서 부주의하거나 게으르다. 이것은 많은 사람들에게 해당되며 확실히 나아진 것은 아닙니다.

여기서 잠재적 가치가있는 것은 (설명과 CV 예측에 대한 논의) 두 접근 방식의 차이점을 명확히하는 것입니다. 요컨대, 구별은 인과 관계 의 역할에 중점을 둔다. 세계의 역학을 이해하고 왜 그런 일이 일어나는지 설명하려면 관련 변수 사이의 인과 관계를 식별해야합니다. 예측하기 위해 인과 관계를 무시할 수 있습니다. 예를 들어 원인에 대한 지식을 통해 효과를 예측할 수 있습니다. 영향이 발생했다는 지식을 통해 원인의 존재를 예측할 수 있습니다. 동일한 원인으로 구동되는 다른 효과에 대한 지식을 통해 한 효과의 대략적인 수준을 예측할 수 있습니다. 왜 누군가가 이것을 할 수 있기를 원합니까? 미래에 일어날 수있는 일에 대한 지식을 넓히고 그에 따라 계획을 세울 수 있습니다. 예를 들어, 가석방위원회는 가석방 될 경우 유죄 판결을받을 확률을 예측할 수 있습니다. 그러나 이것은 설명하기에 충분하지 않습니다. 물론이야, 두 변수 간의 실제 인과 관계를 추정하는 것은 매우 어려울 수 있습니다. 또한 실제 인과 관계를 파악하는 모델 (예상되는 것)은 종종 예측을하기에 더 나쁩니다. 그렇다면 왜합니까? 첫째,이 중 대부분은 과학을 위해 이루어지며 여기서 과학은 이해를 추구합니다. 둘째, 우리가 확실하게 진실한 원인을 찾아 내고 그에 영향을 줄 수있는 능력을 개발할 수 있다면, 그 효과에 영향을 줄 수 있습니다.

통계 모델링 전략과 관련하여 큰 차이는 없습니다. 근본적으로 차이점은 연구 수행 방법에 있습니다. 목표를 예측할 수있게하려면 모델 사용자가 예측해야 할 때 사용할 수있는 정보를 찾으십시오. 그들이 액세스 할 수없는 정보는 가치가 없습니다. 예측 변수의 특정 수준 (또는 좁은 범위 내)에서 예측할 수있는 가능성이 가장 높은 경우 예측 변수의 샘플링 된 범위를 해당 수준의 중심에 놓고 오버 샘플링하십시오. 예를 들어, 가석방위원회가 2 가지 주요 유죄 판결을받은 범죄자에 대해 대부분 알고 싶다면 1, 2, 3 개의 유죄 판결을받은 범죄자에 대한 정보를 수집 할 수 있습니다. 반면에 변수의 인과 상태를 평가하려면 기본적으로 실험이 필요합니다. 그건, 실험 단위는 설명 변수의 미리 지정된 수준에 무작위로 할당되어야합니다. 인과 관계 효과의 성격이 다른 변수에 영향을 미치는지에 대한 우려가있는 경우 해당 변수를 실험에 포함시켜야합니다. 실제 실험을 수행 할 수 없다면 훨씬 어려운 상황에 직면하게됩니다.


1
(x,y,z,v)z(x,y,v)분석의. 마지막 단락에서이 사이트에는 전략의 급격한 차이를 입증하는 계정이 많이 있습니다.
whuber

1
이것이 연구의 목적에 달려 있습니다. 나는 그것을 명시 적으로하지 않았다고 가정합니다 (나는 당신 달성 하고자 하는 것에 대해서만 이야기했습니다 ). 또한 설명이 인과 관계와 정확히 일치 할 필요는 없다. 즉 인과 관계와 유사한 것이있다. 그러나 대부분의 설명 모델링은 인과 관계에 중점을 둡니다. 나는 단순성을 위해 그런 종류의 것을 건너 뛸 수 있다고 생각합니다. 마지막으로 연구 설계 및 데이터 수집 중에 전략이 다르지만 x에서 y를 회귀시키는 것은 거의 동일합니다.
gung

답장을 보내 주셔서 감사합니다. 이 사이트의 다른 교류에서 나는 작가의 배경과 경험을 그대로 반영하기 위해 "인과 관계에 대한 가장 설명적인 모델링 센터"와 같은 보편적 인 진술을 이해하는 법을 배웠다. 물리학 및 "하드"과학에서는이 진술이 정확할 수 있지만, 사회 및 "소프트"과학에서는 실무자들이 그러한 강력한 주장을 할 것이라고 의심합니다. 실제로, 연구중인 관계는 흔히 숨겨져있는 원인으로 여겨지지만 회귀 자와 회귀 사이의 직접적인 원인을 반영하지는 않습니다.
whuber

@ whuber 확실히 내 아이디어가 내 배경과 경험에 영향을 받는다는 것은 사실입니다. 이 답변이 도움이되지 않으면 (투표를받지 못한 것을 알 수 있음) 삭제할 수 있습니다. 다른 많은 사람들이 내가 전달하려는 아이디어를 다루는 답변을 제공했습니다.
gung

@whuber-연약한 인과 관계의 좋은 예는 "흡연은 암을 유발합니다"입니다.하지만 암이없는 연쇄 흡연자를 찾을 수있을 것입니다. 인과성의 개념은 사건의 타이밍과 관련이 있습니다. 원인은 효과가 발생하기 전에 발생해야합니다. 큐브 예제가 의미가없는 이유를 설명합니다.
확률

4

대부분의 답변은 설명을위한 모델링과 예측을위한 모델링이 무엇이고 왜 다른지 명확히하는 데 도움이되었습니다. 지금까지 명확하지 않은 것은 어떻게 다른지입니다. 따라서 유용한 예를 제시 할 것이라고 생각했습니다.

학업 준비의 기능으로 College GPA 모델링에 참여하고 있다고 가정합니다. 학업 준비의 수단으로 다음과 같은 것이 있습니다.

  1. 적성 시험 점수;
  2. HS GPA; 과
  3. 통과 한 AP 테스트 수

예측 전략

목표가 예측 인 경우이 모든 변수를 선형 모형에서 동시에 사용할 수 있으며 주요 관심사는 예측 정확도입니다. College GPA 예측에 가장 유용한 변수는 최종 모델에 포함될 것입니다.

설명을위한 전략

목표가 설명이라면 데이터 축소에 더 관심이 있고 독립 변수 간의 상관 관계에 대해 신중하게 생각할 수 있습니다. 내 주요 관심사는 계수를 해석하는 것입니다.

상관 된 예측 변수의 일반적인 다변량 문제에서 "예기치 않은"회귀 계수를 관찰하는 것은 드문 일이 아닙니다. 독립 변수들 간의 상호 관계를 고려할 때, 0 차 관계와 같은 방향이 아니고 직관적이고 설명하기 어려운 것처럼 보일 수있는 일부 변수에 대한 부분 계수를 보는 것은 놀라운 일이 아닙니다.

예를 들어, 모델에서 적성 시험 점수 및 AP 시험 수를 성공적으로 고려하면 고등학교 GPA가 대학 GPA 가 낮아진다 고 제안합니다 . 이는 예측에 문제가되지 않지만 그러한 관계를 해석하기 어려운 설명 모델에는 문제가됩니다 . 이 모델은 최상의 샘플 예측을 제공 할 수 있지만 학업 준비와 대학 GPA의 관계를 이해하는 데 거의 도움이되지 않습니다.

대신 설명 전략은 다음과 같은 주요 구성 요소, 요인 분석 또는 SEM과 같은 일부 형태의 변수 축소를 추구 할 수 있습니다.

  1. "학업 성과"의 가장 좋은 척도 인 변수에 중점을두고 해당 변수에 대한 대학 GPA 모델 또는
  2. 원래 변수보다는 세 가지 학업 준비 척도의 조합에서 도출 된 요인 점수 / 잠재적 변수를 사용합니다.

이와 같은 전략은 모델의 예측력을 떨어 뜨릴 수 있지만 학업 준비가 대학 GPA와 어떤 관련이 있는지 더 잘 이해할 수 있습니다.


반 직관적 인 부호와 관련하여, 직관이 잘못된 공변량을 해석하기 때문인지 궁금합니다. 주 효과는 마치 중첩 효과 나 상호 작용 효과처럼 말입니다.
chanceislogic

3

이 문제에 대한 모델 중심의 견해를 제시하고 싶습니다.

예측 모델링은 대부분의 분석에서 발생합니다. 예를 들어, 연구원은 많은 예측 변수를 사용하여 회귀 모델을 설정합니다. 그런 다음 회귀 계수는 그룹 간의 예측 비교를 나타냅니다. 예측 측면은 확률 모델에서 비롯됩니다. 추론은 관측 된 모집단 또는 표본을 생성했을 수있는과 인구 모델과 관련하여 수행됩니다. 이 모델의 목적은이 슈퍼 인구에서 나오는 유닛의 새로운 결과를 예측하는 것입니다. 종종 사회 세계에서 상황이 항상 변하기 때문에 이것은 헛된 목표입니다. 또는 모델이 국가와 같은 희귀 단위에 관한 것이므로 새 샘플을 그릴 수 없습니다. 이 경우 모델의 유용성은 분석가에게 감사의 마음을 전합니다.

결과를 다른 그룹이나 미래 단위로 일반화하려고 할 때 이것은 여전히 ​​예측이지만 다른 종류입니다. 예를 들어 예측이라고 할 수 있습니다. 핵심은 추정 모델의 예측력이 기본적으로 기술적 인 특성이라는 점입니다. 그룹 간 결과를 비교하고 이러한 비교에 대한 확률 모델을 가정하지만 이러한 비교가 인과 적 영향을 구성한다고 결론을 내릴 수는 없습니다.

그 이유는 이들 그룹이 선택 편견에 시달릴 수 있기 때문이다 . 즉, 치료 (가설 적 인과 적 개입)에 관계없이 관심 결과에서 자연적으로 더 높은 점수를받을 수 있습니다. 또는 다른 그룹과 치료 효과 크기가 다를 수 있습니다. 그렇기 때문에 특히 관측 데이터의 경우 추정 모델이 일반적으로 예측 비교 에 관한 것이며 설명이 아닙니다. 원인은 인과 적 영향의 식별 및 추정에 관한 것으로, 잘 설계된 실험 또는 신중한 도구 적 변수 사용이 필요합니다. 이 경우 예측 비교는 모든 선택 바이어스에서 잘리고 인과 관계 효과를 나타냅니다. 따라서 모델은 설명으로 간주 될 수 있습니다.

이 용어로 생각하면 종종 일부 데이터에 대한 모델을 설정할 때 실제로 무엇을하고 있는지 명확하게 알 수 있습니다.


+1, 여기 좋은 정보가 있습니다. 그러나 "예측 모델링은 대부분의 분석에서 발생하는 것"이라는 진술에 대해서는 신중해야합니다. 예측 모델링이 더 일반적인지 여부는 분야 등에 따라 달라질 수 있습니다. 학계의 대부분의 모델링은 설명이 필요하며 민간 부문에서 수행되는 많은 모델링 / 데이터 마이닝 (예 : 잠재적 인 반복 고객 식별) 예측 적입니다. 나는 쉽게 틀릴 수 있지만, 대부분의 경우에 발생하는 선험적으로 말하기는 어려울 것입니다.
gung

1
내 관점에서, 관측 데이터의 대부분의 모델링은 목표가 설명 적이라하더라도 예측 적이다. 치료의 속성을 무작위로 지정하지 않고 실제로 실험 설정의 변화를 유도하는 경우 회귀 계수는 설명적인 값만 갖게됩니다. 즉, 예측 비교에 대한 수단 만 제공합니다. 예를 들어 인구 통계 학적 특성에 따라 학교에서의 성공을 예측할 수 있지만 이러한 인구 통계가 설명 적 인과 적 영향을 의미하는 것은 아닙니다. 그 이유는 비교 예측이 선택 바이어스에 노출되기 때문입니다.
Lionel Henry

1

블랙 박스 "예측"모델에서 생각하는 것보다 더 많은 것을 배울 수 있습니다. 핵심은 다양한 유형의 민감도 분석 및 시뮬레이션을 실행하여 INPUT 공간의 변화가 모델 OUTPUT에 어떤 영향을 미치는지 실제로 이해하는 것입니다. 이런 의미에서 순전히 예측 가능한 모델조차 설명적인 통찰력을 제공 할 수 있습니다. 이것은 종종 연구 공동체가 간과하거나 오해하는 요점입니다. 알고리즘이 작동하는 이유를 이해하지 못한다고해서 알고리즘에 설명력이 부족하다는 의미는 아닙니다.

주류 관점에서 볼 때, 확률 론적 간결한 대답은 절대적으로 정확합니다 ...


만약 그 구절로 인과성을 암시한다면, "설명 적 통찰"이 이런 식으로 수집 될 수 있는지는 확실하지 않습니다.
gung

1

통계에서 설명예측 응용 프로그램 이라고 부르는 것에는 차이가 있습니다 . 그녀는 우리가 정확하게 사용되고있는 것을 사용할 때마다 알아야한다고 말합니다. 그녀는 우리가 종종 그것들을 섞어서 혼동 한다고 말합니다 .

나는 사회 과학 응용에서 구별이 합리적이지만 자연 과학에서는 동일하고 동일해야 한다는 데 동의합니다 . 또한 나는 그것들을 추론예측 이라고 부르며 , 사회 과학 에서 그것들을 섞어서는 안된다는 데 동의 합니다.

자연 과학부터 시작하겠습니다. 물리학에서 우리는 설명에 초점을 맞추고, 세계가 어떻게 작동하는지, 무엇이 원인을 일으키는 지 이해하려고 노력하고 있습니다. 따라서 초점은 인과 관계, 추론 등에 초점을 맞추고 있습니다. 반면에, 예측 측면은 또한 과학적 과정의 일부입니다. 실제로, 관측을 잘 설명한 이론을 증명하는 방법 (샘플 내 생각)은 새로운 관측을 예측 한 다음 예측의 작동 방식을 확인하는 것입니다. 예측 능력이없는 이론은 물리학에서 수용하는데 큰 어려움을 겪을 것입니다. 그래서 Michelson-Morley 와 같은 실험 이 매우 중요합니다.

불행히도 사회 과학에서 근본적인 현상은 불안정하고 반복 할 수 없으며 재현 할 수 없습니다. 핵 붕괴를 관찰하면, 관찰 할 때마다 동일한 결과를 얻을 수 있으며, 100 년 전에 나 또는 친구와 동일한 결과를 얻을 수 있습니다. 경제 나 금융에는 없습니다. 또한 실험 수행 능력은 매우 제한적이며 모든 실제 목적에 거의 존재하지 않으며 무작위 샘플관찰 하고 수행 합니다.관측. 계속 진행할 수는 있지만, 우리가 다루는 현상이 매우 불안정하여 우리 이론이 물리학의 질과 동일하지 않다는 아이디어가 있습니다. 따라서 우리가 상황을 다루는 방법 중 하나는 추론 (무엇을 유발하는지 또는 무엇에 영향을 미치는지 이해하려고 시도 할 때) 또는 예측 (이것에 대해 일어날 것이라고 생각하거나 구조를 무시하는 것)에 중점을 두는 것입니다.


0

구조 모델은 설명을 제공하고 예측 모델은 예측을 제공합니다. 구조 모델에는 잠재 변수가 있습니다. 구조 모델은 회귀 및 요인 분석의 동시 정점입니다.

잠재 변수는 예측 모델 (회귀)에서 다중 공선 성의 형태로 나타납니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.