통계 모델을 정확히 구축하는 것은 무엇입니까?


15

통계 모델을 정확히 구축하는 것은 무엇입니까?

요즘 연구 작업이나 컨설팅 작업을 신청할 때 종종 "모델 구축"또는 "모델링"이라는 용어가 등장합니다. 이 용어는 멋지게 들리지만 정확히 무엇을 의미합니까? 어떻게 당신은 당신의 모델을 구축?

k-nn 및 로지스틱 회귀 분석을 포함한 예측 모델링을 찾았습니다 .


1
그것은 매우 광범위합니다. 그것은 다양한 종류의 회귀, 다단계 모델, 나무와 그 변형, 클러스터링 등 다양한 모델을 가리킬 수 있습니다.
Peter Flom-Reinstate Monica

통계 모델에는 오류를 설명하는 변수가 있다는 점을 제외하면 통계 모델은 수학 모델과 동일합니다. 수학적 모델 : 무게 = 높이 * 2.7. 통계 모델 : Weight = Height * 2.7 + error.
닐 맥기 건

2
논문 을 인용하고 싶습니다 : 통계 모델링 : 두 문화
user13985

답변:


12

나는 통계학자가 아니지만 통계적 및 비 통계적 인 많은 '모델링'을 수행 함에도 불구하고 이것에 균열을 일으킬 것입니다.

먼저 기본 사항부터 시작하겠습니다.

모델은 정확히 무엇입니까?

모델은 매우 단순화되었지만 현실을 나타냅니다. 집을위한 왁스 / 목재 '모델'을 생각하십시오. 만지거나 느끼거나 냄새를 맡을 수 있습니다. 이제 수학적 모델 은 숫자를 사용한 현실의 표현입니다.

내가 듣는이 '현실'은 무엇입니까? 괜찮아. 다음과 같은 간단한 상황을 생각해보십시오. 주정부 주지사는 이제 담배 한 갑 가격이 내년에 100 달러가 될 것이라고 말하는 정책을 시행합니다. '목표'는 사람들이 담배를 구매하지 못하도록하여 흡연을 줄임으로써 흡연자를 건강하게 만드는 것입니다 (종료되기 때문에).

1 년 후 총재가 묻습니다. 이것이 성공 했습니까? 어떻게 그런 말을 할 수가있어? 글쎄, 당신은 / 하루 또는 연간 판매 패킷 수, 설문 조사 응답, 문제와 관련이 당신이 손에 얻을 수있는 측정 가능한 데이터와 같은 데이터를 캡처합니다. 방금 문제를 '모델링'하기 시작했습니다. 이제 당신이 '모델은'무엇을 분석 할 말합니다 . 통계 모델링이 유용한 곳입니다. 간단한 상관 관계 / 산란 그림을 실행하여 모델이 어떻게 보이는지 확인할 수 있습니다. 인과 관계를 결정하기 위해 화를 낼 수 있습니다. 즉, 가격이 상승하면 흡연이 감소하거나 다른 혼란스러운 요인이있을 수 있습니다 (예 : 전혀 다른 것이거나 모델이 놓친 것일 수 있습니까?).

이제이 모델을 구성하는 것은 '규칙 세트'(더 많은 가이드 라인과 같은), 즉 합법적이지 않은 / 적합하지 않은 것 또는 의미가없는 것에 의해 수행됩니다. 수행중인 작업과이 모델의 결과를 해석하는 방법을 알아야합니다. 이 모델을 빌드 / 실행 / 통역 하려면 통계에 대한 기본 지식이 필요합니다. 위의 예에서 상관 관계 / 산포도, 회귀 (단일 및 다변량) 및 기타 항목에 대해 알아야합니다. 통계를 직관적으로 이해하는 절대 재미 / 정보 읽기를 읽는 것이 좋습니다. 어쨌든 p- 값은 무엇입니까? 재미있는 소개이며 간단한 것에서 고급 (즉, 선형 회귀)에 이르는 '모델링'을 가르쳐 줄 것입니다. 그런 다음 계속해서 다른 내용을 읽을 수 있습니다.

따라서 모델은 현실을 나타내고 "모든 모델이 잘못되었지만 일부는 다른 것보다 유용합니다"라는 것을 기억하십시오 . 모델은 현실을 단순화 한 표현 이며 모든 것을 고려할 수는 없습니다 수는 없지만 의미있는 결과를 제공 할 수있는 좋은 모델을 갖추려면 무엇을 고려해야하고 무엇을 고려해야하는지 알아야합니다.

여기서 멈추지 않습니다. 현실을 시뮬레이션하는 모델을 만들 수도 있습니다! 그것이 시간이 지남에 따라 많은 숫자가 변하는 방법입니다. 이 숫자는 도메인에서 의미있는 해석으로 매핑됩니다. 이 모델을 만들어 채굴 할 수도 있습니다 데이터 하여 다양한 측정 값이 서로 어떻게 관련되어 있는지 확인할 (여기서 통계 적용은 문제가 될 수 있지만 현재는 걱정하지 마십시오). 예 : 한 달에 한 점포의 식료품 판매를보고 맥주를 구입할 때마다 기저귀 팩이 있다는 것을 알고 있습니다 (데이터 세트를 통해 실행되는 모델을 작성하고이 연관성을 보여줍니다). 이상 할지도 모르지만 대부분의 아버지는 주말에 아기가 아이를 앉힐 때 이것을 구입한다는 것을 암시 할 수 있습니까? 기저귀를 맥주 근처에두면 매출이 증가 할 수 있습니다! 아아! 모델링 :)

이것들은 단지 예일 뿐이며 전문적인 작업에 대한 언급이 아닙니다. 당신은 기본적으로 현실이 어떻게 기능하고 있는지를 이해 / 추정하고 결과에 기초하여 더 나은 결정을 내리기 위해 모델을 구축합니다. 통계, 아니, 당신은 아마 그것을 실현하지 않고 모든 인생을 모델링하고 있습니다. 행운을 빌어 요 :)


11

통계 모델을 구축하려면 해당 시스템과 관련된 불확실성 및 / 또는 임의성을 설명하는 실제 현상에 대한 수학적 설명을 구성해야합니다. 응용 분야에 따라 복잡한 다변량 요인 분석 또는 데이터 마이닝을 통해 선형 회귀 또는 기본 가설 검정과 같은 단순한 것부터 다양 할 수 있습니다.


5
나는 이것이 매우 광범위한 질문에 응답하기위한 용감하고, 진지한 노력이기 때문에 이것을 찬성했습니다. "데이터 마이닝"에 통계 모델링이 포함되어 있는지에 대한 의문이 있지만, 그 문구가 의미하는 바의 예나 설명을 보는 것이 좋습니다.
whuber

@ whuber LASSO는 기능 선택을 수행합니다. 어떤 의미에서 회귀 모델을 작성하지 않습니까?
user13985

다시 말해, 상상의 벽돌과 박격포 만 사용하여 집을 짓는 것과 비슷합니까? 내 비의 코멘트 입니다 농담했다. :)
Graeme Walsh

1
데이터 마이닝은 주어진 모델을 구성하거나 검증하는 과정의 일부로 사용될 수 있습니다.
Dave

5

저에게 모델링에는 관측 가능한 데이터가있을 때 중요한 차이를 식별하는 데 사용할 수있는 추정 가능한 매개 변수를 사용하여 관측 된 데이터에 대한 확률 적 프레임 워크를 지정하는 것이 포함됩니다. 이것을 힘이라고합니다. 확률 모델은 예측 또는 추론에 사용될 수 있습니다. 그것들은 기계류를 교정하고, 투자 수익의 결함을 보여 주거나, 날씨 나 주식을 예측하거나, 의료 의사 결정을 단순화하는데 사용될 수 있습니다.

모델을 반드시 구축 할 필요는 없습니다. 고립 된 실험에서, t- 검정과 같은 비모수 적 모델링 접근법을 사용하여 두 그룹간에 평균에 큰 차이가 있는지 여부를 확인할 수 있습니다. 그러나 많은 예측 목적을 위해 시간의 변화를 감지하도록 모델을 구축 할 수 있습니다. 예를 들어, 전환 기반 Markov 모델을 사용하여 투자 시장 가치의 상승 및 하락 변동을 예측할 수 있지만 "딥"은 어느 정도 예상보다 악화 될 수 있습니까? 역사적 증거와 관측 된 예측 변수를 사용하여 관측 된 딥이 역사적으로 유지 된 것과 크게 다른지 여부를 교정하는 정교한 모델을 구축 할 수 있습니다. 컨트롤 차트, 누적 발생률 차트, 생존 곡선 및 기타 "시간 기반"차트와 같은 도구를 사용하여

또는 일부 모델은 데이터가 증가함에 따라 적응할 수있는 유연성을 제공하여 "빌드"됩니다. 트위터의 트렌드 감지와 Netflix의 추천 시스템이 이러한 모델의 대표적인 예입니다. 이 모델에는 유연한 모델이 과거의 변화와 추세를 수용하고 재 교정하여 고 충격 필름의 도입, 새로운 사용자의 큰 수용 또는 계절성으로 인해 영화 선호도의 급격한 변화.

일부 데이터 마이닝 방식은 특정 유형의 예측 방식 (다시 말해서 데이터에서 "예상 된"트렌드 또는 값을 얻는 문제)을 달성하는 데 매우 적합하기 때문에 도입되었습니다. K-NN은 높은 차원의 데이터를 통합하고 피험자가 단순히 근접성 (연령, 음악적 취향, 성적 기록 또는 기타 측정 가능한 특성)으로 인해 신뢰할 수있는 예측을받을 수 있는지 여부를 유추하는 방법입니다. 반면에 로지스틱 회귀는 이진 분류기를 얻을 수 있지만 확률 비율이라는 매개 변수를 통해 이진 결과와 하나 이상의 노출 및 조건 간의 연관성을 유추하는 데 훨씬 일반적으로 사용됩니다. 제한 이론과 일반화 된 선형 모형과의 관계로 인해 승산 비는 "매우 보존 된"유형 I 오류 (예 :


당신의 말에 감사드립니다. Twitter에서 Netflix를 감지 한 경우 머신 러닝 영역에서 그 정도가 그렇지 않습니까? 나는 종종 모델링과 기계 학습 사이의 선을 그릴 수 없습니다.
user13985

1
기계 학습은 일반적으로 고차원 모델링입니다. 많은 방법은 벌금이나 가중치를 적용한 기존 우도 기반 방법의 특별한 경우입니다.
AdamO

내 생각을 확인해 주셔서 감사합니다. 다른 의견이 있으면 알려주세요.
user13985

3

모델링은 적합한 모델을 식별하는 프로세스입니다.

종종 모델러는 중요한 변수에 대한 좋은 아이디어를 가지고 있으며 특정 모델에 대한 이론적 근거를 가지고있을 수도 있습니다. 또한 반응과 예측 변수와의 일반적인 관계에 대한 몇 가지 사실을 알고 있지만 평균에 대한 이론적 아이디어가 있더라도 모형에 대한 일반적인 아이디어가 완전히 적합한 지 확실하지 않을 수 있습니다. 예를 들어, 분산이 평균과 관련이 없다고 확신하지 못하거나 일부 직렬 의존성이 가능하다고 의심 될 수 있습니다.

따라서 데이터를 (적어도 일부는) 참조하는 여러 단계의 모델 식별주기가있을 수 있습니다. 대안은 매우 부적합한 모델을 정기적으로 위험에 노출시키는 것입니다.

(물론 책임이 있다면 데이터를 이런 식으로 사용하는 것이 추론에 미치는 영향을 고려해야합니다.)

실제 프로세스는 지역마다, 사람마다 약간 씩 다르지만 프로세스에서 단계를 명시 적으로 나열하는 일부 사람들을 찾을 수도 있습니다 (예 : Box 및 Jenkins는 시계열에 대한 책에서 그러한 접근 방식 중 하나를 간략하게 설명합니다 ). 모델 식별을 수행하는 방법에 대한 아이디어는 시간이 지남에 따라 변경됩니다.


0

통계 모델을 구성하는 것에 대한 일반적인 정의가 있다고 생각하지 않습니다. 업계에서 제가 경험 한 바에 따르면 계량 경제학의 개념을 축소 형 모델 이라고하는 것과 동의어로 보입니다 . 설명하겠습니다.

예를 들어, 물리학에서 관계 또는 "법칙"이 있다고 가정합니다.에프=미디엄2엑스2

이 모델은 물리학 자들이 "상수"또는 "효율"이라고 부르는 것, 예를 들어 주어진 온도와 고도에서의 공기 밀도를 가질 것입니다. 실험적으로 이러한 계수가 무엇인지 알아야합니다. 우리의 경우, 우리는 포병에게 각도, 온도 등과 같은 엄격하고 통제 된 여러 가지 조건에서 대포를 발사하도록 요구할 것입니다.

모든 데이터를 수집하고 통계 기법을 사용하여 모델을 적합시킵니다. 선형 회귀 또는 평균만큼 간단 할 수 있습니다. 모든 계수를 얻었 으면 이제 수학적 모델을 실행하여 소성 테이블을 생성합니다. 이 내용은 여기에 분류되지 않은 문서 인 "캐논 동맥을위한 피겨 테이블 제작"이라고 깔끔하게 설명되어 있습니다.

방금 설명한 것은 통계 모델 이 아닙니다 . 그렇습니다. 통계를 사용하지만이 모델은 모델의 본질 인 물리 법칙을 설정합니다. 여기서 통계는 몇 가지 중요한 매개 변수의 값을 결정하는 단순한 도구입니다. 시스템의 역학은 필드에 의해 설명되고 미리 결정됩니다.

우리가 물리 법칙을 알지 못하거나 신경 쓰지 않았고 단순히 "통계 모델"을 사용하여 대포 비행 거리와 발사 각도 및 온도와 같은 매개 변수 사이의 관계를 설정하려고 시도했다고 가정하십시오. 우리는 다수의 후보 변수 또는 특징, 변수의 변환, 다항식 계열의 온도 등으로 큰 데이터 세트를 만들었습니다. 그런 다음 일종의 회귀 분석을 수행하고 계수를 식별했습니다. 이러한 계수가 반드시 해당 분야에서 해석을 확립하지는 않았을 것입니다. 우리는 그것들을 온도의 제곱 등에 대한 민감도라고 부를 것입니다.이 모델은 근본적인 과정이 상당히 안정적이기 때문에 대포 볼의 종말점을 예측하는데 실제로 상당히 좋습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.