청중이 실제로 통계적 배경이 없다면 설명을 좀 더 단순화하려고 노력할 것입니다. 먼저 보드에 좌표 선을 그립니다.
여러분의 대화에 참여하는 모든 사람들은 y = m x + b 간단한 선에 대한 방정식에 익숙 할 것입니다 . 왜냐하면 그것은 초등학교에서 배운 것이기 때문입니다. 그림과 함께 표시하겠습니다. 그러나 다음과 같이 거꾸로 작성합니다. y=mx+b
mx+b=y
이 방정식은 단순한 선형 회귀의 예라고 말할 수 있습니다. 그런 다음이 이미지에 표시된 것과 같은 데이터 포인트의 산점도에 이러한 방정식을 맞추는 방법을 설명하겠습니다.
저는 여기서 우리가 연구하고있는 유기체의 나이를 사용하여 그것이 얼마나 큰지를 예측하고 결과적인 선형 회귀 방정식을 사용하여 (이미지에 표시됨) 유기체의 크기를 예측할 수 있다고 말할 것입니다 우리가 나이를 알고 있다면
mx+b=y
그런 다음 이것이 단순한 선형 회귀 방정식의 예이며 실제로 더 복잡한 품종이 있다고 설명합니다. 예를 들어, 로지스틱 회귀 분석 에서 y는 1 또는 0 만 허용됩니다. 누군가가 질병이 있는지 없는지 여부와 같은 "예"또는 "아니오"답변을 예측하려는 경우이 유형의 모델을 사용하려고 할 수 있습니다. 또 다른 특별한 다양성은 Poisson regression 이라고 불리는 것으로 , "count"또는 "event"데이터를 분석하는 데 사용됩니다 (실제로 필요한 경우가 아니라면 더 자세히 다루지 않겠습니다).
그런 다음 선형 회귀, 로지스틱 회귀 및 포아송 회귀는 모두 "일반화 된 선형 모델"이라고하는보다 일반적인 방법의 특별한 예라고 설명합니다. "일반화 된 선형 모델"의 가장 큰 장점은 어떤 값을 가질 수 있는지 (예 : 유기체가 선형 회귀 분석에서 얼마나 큰지), 1 또는 0 만 취할 수있는 (응답) 데이터를 사용할 수 있다는 것입니다. 로지스틱 회귀의 질병) 또는 불연속 카운트 (포아송 회귀의 사건 수와 같은)를 취합니다.
그런 다음 이러한 유형의 방정식에서 x (예측 자)는 통계학자가 "링크 함수"라고 부르는 것을 통해 y (응답)에 연결됩니다. x가 선형으로 y와 관련이없는 경우 이러한 "링크 기능"을 사용합니다.
어쨌든, 그 문제에 대한 나의 두 센트입니다! 어쩌면 내가 제안한 설명이 약간 멍청하고 어리석은 것처럼 들릴 수도 있지만,이 연습의 목적이 "관심"을 청중에게 전달하는 것이라면, 이와 같은 설명은 그렇게 나쁘지 않을 것입니다. 개념을 직관적 인 방식으로 설명하고 "무작위 구성 요소", "체계적 구성 요소", "링크 기능", "결정적", "로짓 기능"등과 같은 단어를 피하는 것이 중요하다고 생각합니다. 전형적인 생물학 자나 의사와 같이 통계적 배경이없는 사람들과 대화를 나눈다면, 그 말을 들으면 눈이 흐려질 것입니다. 그들은 확률 분포가 무엇인지 모르고, 링크 함수에 대해 들어 본 적이 없으며, "logit"이 무엇인지 모릅니다.
비 통계적 청중에 대한 설명에서, 나는 다양한 모델을 언제 사용해야하는지에 초점을 맞출 것입니다. 방정식의 왼쪽에 얼마나 많은 예측 변수를 포함시킬 수 있는지에 대해 이야기 할 수 있습니다 (샘플 크기를 10으로 나눈 것과 같은 경험 법칙을 들었습니다). 데이터가 포함 된 예제 스프레드 시트를 포함하고 통계 소프트웨어 패키지를 사용하여 모델을 생성하는 방법을 관객에게 설명하는 것도 좋습니다. 그런 다음 해당 모델의 출력을 단계별로 살펴보고 다른 문자와 숫자가 무엇을 의미하는지 설명하려고합니다. 생물 학자들은이 내용에 대해 실마리가 없으며 실제로 SPSS의 GUI 배후에있는 수학에 대한 이해를 얻는 대신 사용할 테스트를 배우는 데 더 관심이 있습니다!
제안 된 설명에 관한 의견이나 제안, 특히 누군가가 오류를 지적하거나 더 잘 설명 할 수있는 방법을 생각할 경우 감사하겠습니다.