통계적 배경이없는 사람들에게 일반화 된 선형 모델을 어떻게 설명 하시겠습니까?


16

나는 통계적 배경이없는 청중에게 통계 기술을 설명하는 데 어려움을 겪고 있습니다. 통계 관용어를 버리지 않고 GLM이 그러한 대상에게 어떤 것인지 설명하고 싶을 때 가장 효과적인 방법은 무엇입니까?

나는 보통 GLM을 (1) 응답 변수 인 랜덤 성분, (2) 선형 예측 변수 인 시스템 성분, (3) 연결의 "핵심"링크 기능 (1)과 (2). 그런 다음 선형 또는 로지스틱 회귀의 예를 제공하고 응답 변수를 기반으로 링크 함수가 어떻게 선택되는지 설명합니다. 따라서 두 구성 요소를 연결하는 핵심 역할을합니다.


청중은 어떤 배경을 가지고 있습니까? 수학 자나 생물 학자에게 GLM을 설명하는 것은 매우 다릅니다.

1
@Procrastinator, 통계적 배경이없는 수학자가 거의 없을 것입니다. 그러나 당신의 요점은 좋은 것입니다. 의도 된 청중에 대한 명확한 생각이 있으면 응답의 일관성과 집중을 유지하는 데 도움이됩니다. 이 문제를 확장하기 위해 질문을 편집 하시겠습니까?
whuber

1
@Procrastinator의 요점을 알지만 일반적으로 수학 또는 생물학 배경이없는 경우 모든 사람 (수학자 및 / 또는 생물 학자)에게 이해하기 쉬운 답변을 얻고 싶었습니다. 어쨌든 그들의 배경과 관련하여 GLM을 설명하는 방법을 모르겠습니다.
Ken

4
많은 1 단계 대학교에서도 통계 수업을받지 않고도 학사, 석사 또는 생물학 박사 학위를 취득 할 수 있다는 점을 명심해야합니다. 생화학에서 학위를 받으려면 2 학기 초 미적분학과 1 학기 미분 방정식이 필요했습니다. 많은 학생들이이 기술을 다시는 사용하지 않기 때문에이 수업의 내용은 빨리 잊혀집니다! 그래서 저는 통계가 아닌 전형적인 사람들에 대한 설명을 멍청하게해야한다고 생각합니다.
Alexander

아래 답변에 추가 할 설명입니다. 만약 당신이 라인 (즉, 링크 함수와 선형 예측 변수)을 피팅 할 수 있다면, 효율적인 역 분산 가중치에 대한 연결은 그렇게 통신하기 어렵지 않다; 우리는 단순히 정확한 기여를 늘리고 나머지는 줄이려고합니다. 이를 통해 결과의 임의성에 대해 너무 기술적 인 말을 피할 수 있습니다. NB GLM은 IWLS를 사용하여 MLE를 제공 할 수있는 모델로 고안되었으므로 위에서 설명한 방법에 대한 생각 방식은 실제로 유용한 이유를 대부분 파악합니다.
손님

답변:


25

청중이 실제로 통계적 배경이 없다면 설명을 좀 더 단순화하려고 노력할 것입니다. 먼저 보드에 좌표 선을 그립니다.

y = mx + b

여러분의 대화에 참여하는 모든 사람들은 y = m x + b 간단한 선에 대한 방정식에 익숙 할 것입니다 . 왜냐하면 그것은 초등학교에서 배운 것이기 때문입니다. 그림과 함께 표시하겠습니다. 그러나 다음과 같이 거꾸로 작성합니다. y=mx+b

 mx+b=y

이 방정식은 단순한 선형 회귀의 예라고 말할 수 있습니다. 그런 다음이 이미지에 표시된 것과 같은 데이터 포인트의 산점도에 이러한 방정식을 맞추는 방법을 설명하겠습니다.

산포도

저는 여기서 우리가 연구하고있는 유기체의 나이를 사용하여 그것이 얼마나 큰지를 예측하고 결과적인 선형 회귀 방정식을 사용하여 (이미지에 표시됨) 유기체의 크기를 예측할 수 있다고 말할 것입니다 우리가 나이를 알고 있다면

 mx+b=와이

그런 다음 이것이 단순한 선형 회귀 방정식의 예이며 실제로 더 복잡한 품종이 있다고 설명합니다. 예를 들어, 로지스틱 회귀 분석 에서 y는 1 또는 0 만 허용됩니다. 누군가가 질병이 있는지 없는지 여부와 같은 "예"또는 "아니오"답변을 예측하려는 경우이 유형의 모델을 사용하려고 할 수 있습니다. 또 다른 특별한 다양성은 Poisson regression 이라고 불리는 것으로 , "count"또는 "event"데이터를 분석하는 데 사용됩니다 (실제로 필요한 경우가 아니라면 더 자세히 다루지 않겠습니다).

그런 다음 선형 회귀, 로지스틱 회귀 및 포아송 회귀는 모두 "일반화 된 선형 모델"이라고하는보다 일반적인 방법의 특별한 예라고 설명합니다. "일반화 된 선형 모델"의 가장 큰 장점은 어떤 값을 가질 수 있는지 (예 : 유기체가 선형 회귀 분석에서 얼마나 큰지), 1 또는 0 만 취할 수있는 (응답) 데이터를 사용할 수 있다는 것입니다. 로지스틱 회귀의 질병) 또는 불연속 카운트 (포아송 회귀의 사건 수와 같은)를 취합니다.

그런 다음 이러한 유형의 방정식에서 x (예측 자)는 통계학자가 "링크 함수"라고 부르는 것을 통해 y (응답)에 연결됩니다. x가 선형으로 y와 관련이없는 경우 이러한 "링크 기능"을 사용합니다.

어쨌든, 그 문제에 대한 나의 두 센트입니다! 어쩌면 내가 제안한 설명이 약간 멍청하고 어리석은 것처럼 들릴 수도 있지만,이 연습의 목적이 "관심"을 청중에게 전달하는 것이라면, 이와 같은 설명은 그렇게 나쁘지 않을 것입니다. 개념을 직관적 인 방식으로 설명하고 "무작위 구성 요소", "체계적 구성 요소", "링크 기능", "결정적", "로짓 기능"등과 같은 단어를 피하는 것이 중요하다고 생각합니다. 전형적인 생물학 자나 의사와 같이 통계적 배경이없는 사람들과 대화를 나눈다면, 그 말을 들으면 눈이 흐려질 것입니다. 그들은 확률 분포가 무엇인지 모르고, 링크 함수에 대해 들어 본 적이 없으며, "logit"이 무엇인지 모릅니다.

비 통계적 청중에 대한 설명에서, 나는 다양한 모델을 언제 사용해야하는지에 초점을 맞출 것입니다. 방정식의 왼쪽에 얼마나 많은 예측 변수를 포함시킬 수 있는지에 대해 이야기 할 수 있습니다 (샘플 크기를 10으로 나눈 것과 같은 경험 법칙을 들었습니다). 데이터가 포함 된 예제 스프레드 시트를 포함하고 통계 소프트웨어 패키지를 사용하여 모델을 생성하는 방법을 관객에게 설명하는 것도 좋습니다. 그런 다음 해당 모델의 출력을 단계별로 살펴보고 다른 문자와 숫자가 무엇을 의미하는지 설명하려고합니다. 생물 학자들은이 내용에 대해 실마리가 없으며 실제로 SPSS의 GUI 배후에있는 수학에 대한 이해를 얻는 대신 사용할 테스트를 배우는 데 더 관심이 있습니다!

제안 된 설명에 관한 의견이나 제안, 특히 누군가가 오류를 지적하거나 더 잘 설명 할 수있는 방법을 생각할 경우 감사하겠습니다.


4
모든 사람이 선 방정식에 익숙하지는 않습니다. 모든 대학원생이나 박사 학위를 가진 사람도 있습니다.
Peter Flom-Monica Monica 복원

6
나는 선에 대한 방정식을 모르는 대학원생이 세계에 존재한다고 확신하지만, 일반화 된 선형 모델을 설명하려는 청중은 아마도 최고에 대한 반의 단서를 가질 것입니다. 학교 수준의 대수! : -o
Alexander

나는 당신에게 Alexander에 동의하고 당신의 접근 방식은 나에게 매우 자연스럽게 보입니다. 나는 glm의 "g"에 너무 많이 (또는 너무 일찍) 초점을 맞추지 않았고 무작위 대 고정에 대해서도 구별하지 않을 것이다. 물론이 모든 것을 설명해야하는 시간에 달려 있습니다.
Dominic Comtois

Y=αX+βα

10

응답을 임의의 구성 요소라고 부르지 않습니다. 결정 론적 요소와 무작위 구성 요소의 조합입니다.

log(p/(1p))[0,1]


3
이 "응답"사용이 궁금합니다. 우리의 목적 관객 가능성이 의미하는 것을 이해하지 않을 것이다 관찰 응답 : 예 또는 아니오, 0 또는 1 등 로지스틱 회귀 분석에서 우리 모델 뭔가 관측 (결코 직접적으로 관찰); 즉, 응답의 가상의 기회입니다. "링크"는 이러한 가능성을 확률이 아닌 로그 확률로 표현하는 것입니다. 로지스틱 회귀 분석은 로그 확률이 ​​IV와 선형으로 변한다고 가정합니다. ( "is"와 "predict"가 아니라 "model", "assume"및 "hypothetical"을 사용하는 경우에도 다른인지 적 및 존재 론적 관점을 나타냅니다.)
whuber

1
좋은 지적이야.
Michael R. Chernick

-2

나는 때때로 예측 된 것들이 필요하다는 것을 설명 할 것입니다. 예를 들어, 주택 가격에 대한 정보가 있습니다. 크기, 위치, 시공 연령 등을 생각해보십시오. 가격을 예측하기 위해 이러한 요인의 영향을 고려한 모델로 고려하고 싶습니다.

이제 하위 예를 들어 집의 크기 만 고려해 봅시다. 그것은 가격에 영향을 미치는 다른 것이 없음을 의미합니다. 같은 지역에 있거나 같은 시간에 지어진 집을 비교하는 경우 일 수 있습니다. 또는 자신을 위해 문제를 복잡하게하고 싶지 않기 때문에 실제 생활이 어떻게 적용되는지를 원할 수 있습니다 내가 생각할 수있는 한. 다음으로, 비슷한 부동산의 크기와 해당 가격의 목록이있는 모델을 만듭니다 (예 : 최근에 발생한 판매 등). 그러나 판매용이 아니므로 가격에 영향을 미치는 주택에 대한 심각한 편견이 있습니다. 주택은 있지만 무시할 수 있습니다).

이제 100 평방 피트의 주택 가격이 $ 1m라는 것을 알 수 있습니다. 따라서 당연히 200 평방 피트의 집이 두 배가 될 것으로 예상합니다. 이것이 바로 우리가 "선형 패턴"이라고 부르는 것입니다. 물론 데이터를 수집하고 크기와 가격을 비교하면 정확히 두 배가 아니라는 것을 알 수 있습니다. 그러나 추세는 분명히 증가하고 있습니다.

그래서 나는 추세를 정량화하려고 노력합니다. 평방 피트가 증가 할 때마다 얼마나 증가합니까? 그것은 선형 회귀입니다.

용어집 삽입 및 통계 개념 계속. 무작위적이고 체계적인 구성 요소를 설명하는 한 가지 방법은 모델링하지 않았거나 측정 할 수없는 것은 임의적이라는 것입니다. 당신이 할 수있는 것은 체계적입니다. (예를 들어, 그것이 2008 년이고 집을 팔고 싶다고 가정하십시오.)

이 모델의 기초가되는 가정은 산점도는 막대처럼 보여야한다는 것입니다. X와 Y는 모두 "정상"입니다. 모두 비슷한 차이가 있습니다.

그렇지 않은 경우 GLM을 입력하십시오. 이제 링크 함수 n을 모두 설명하십시오.

간단하지만 소개로 작동해야합니다.

GLM 및 요인 모형의 이력을 넣을 수 있습니다. Fisher가 다양한 것을 함께 시작해야하는 경우이 프레임 워크는 이러한 종류의 복잡성에 적합했습니다.

도움이 되었기를 바랍니다...


1
귀하의 노력에 감사 드리지만 실제로 작성을 마치기 전에는 자료를 게시 할 필요가 없습니다. 현재의 형태에서, 그것이 마지막에 희박한 암호로 붕괴되는 방식은 독자들을 실망시킬 것입니다.
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.