다중 선형 회귀 모형을 설명하거나 시각화하는 방법


21

여러 입력 매개 변수 (예 : 3)를 사용하여 다중 선형 회귀 모델을 데이터에 맞추려고합니다.

(i)F(x)=Ax1+Bx2+Cx3+dor(ii)F(x)=(A B C)T(x1 x2 x3)+d

이 모델을 어떻게 설명하고 시각화합니까? 다음 옵션을 생각할 수 있습니다.

  1. 표준 편차와 함께 (계수, 상수)에 설명 된 회귀 방정식을 언급 한 다음이 모델의 정확도를 나타내는 잔차 오차 플롯을 언급하십시오. (i)

  2. 다음과 같이 독립 및 종속 변수의 쌍별 플롯 :

    여기에 이미지 설명을 입력하십시오

  3. 계수가 알려지면 방정식 을 얻는 데 사용되는 데이터 포인트 를 실제 값으로 압축 할 수 있습니까? 즉, 훈련 데이터는 각각의 독립 변수에 각각의 계수를 곱한 , , , 대신 형식의 새로운 값을 갖습니다 . 그런 다음이 단순화 된 버전을 다음과 같이 간단한 회귀로 시각적으로 표시 할 수 있습니다.x x 1 x 2 x 3(i)xx1x2x3

    여기에 이미지 설명을 입력하십시오

나는이 주제에 대한 적절한 자료를 살펴 보았지만 혼란 스럽습니다. 여러 선형 회귀 모델을 "설명"하고 시각적으로 표시하는 방법을 누군가에게 설명해 주시겠습니까?


2
문서의 목적은 무엇이며 대상은 누구입니까? 나는 비슷한 기사를 얻는 것부터 시작하여 자신의 분야에서 어떻게 수행되는지에 대한 예를 찾습니다. 나는 생물 의학 문헌에 더 익숙하며 대부분의 경우 테이블을 사용합니다. 저자가 상호 작용을 설명하려고 할 때 그림이 더 자주 보입니다.
Penguin_Knight

@Penguin_Knight, 이것은 컴퓨터 과학 도메인에 있지만 특정 도메인으로 제한되는 것이 아니라 일반적인 것으로 생각합니다. 내가 틀렸다면 정정 해주세요.
kris mar

흠 ...하지만 질문. 나는 유일한 일반적인 부분은 당신이 보여야 할 것보다 더 많이 보여주지 않으며 강조 할 구성 요소가 실제로 강조되도록해야한다고 말하고 싶습니다. 내 분야에서도 세 가지 옵션을 모두 보았습니다. 1) 결과를 표로 작성하는 것이 가장 일반적이며, 3), 그러나 대부분 예측 된 결과를 나타내는 형태, 2)가 뒤 따릅니다. 그러나 2)의 경우 @gregory_britten이 제안한 것을 사용합니다. 각 개별 X 대신 조정 X를 사용하십시오.
Penguin_Knight

분포도를 사용합니다 .... 모형에서 나온 적합치의 분포를보고 실제 값의 분포와 비교합니다.
owais qureshi

몇 년 전의 것이지만 여기서 다시 방문하면 데이터를 게시 할 수 있습니까? 그러면 사람들은 다른 가능성을 보여주기 위해 협력 할 무언가를 갖게 될 것입니다.
gung-Monica Monica 복원

답변:


21

기본 다중 선형 회귀 결과를 보여주는 가장 좋아하는 방법은 먼저 정규화 된 변수에 모형을 맞추는 것입니다. 즉, 평균을 빼고 표준 편차로 나눠서 s를 z- 변형 한 다음 모형을 적합시키고 모수를 추정합니다. 변수가 이런 식으로 변환 될 때, 추정 된 계수는 단위 를 갖도록 '표준화'됩니다 . 이런 식으로, 계수가 0으로부터의 거리는 상대적인 '중요도'의 순위이며 CI는 정밀도를 제공합니다. 나는 그것이 관계를 잘 요약하고 자연스럽고 종종 다른 숫자 척도의 계수와 p. 값보다 훨씬 많은 정보를 제공한다고 생각합니다. 예는 다음과 같습니다.Δ Y / Δ s d ( X )XΔY/Δsd(X)

여기에 이미지 설명을 입력하십시오

편집 : 또 다른 가능성은 '추가 변수 플롯'을 사용하는 것입니다 (즉, 부분 회귀 플롯). 이것은 다른 변수가 고려 된 후 와 사이의 이변 량 관계를 보여주기 때문에 또 다른 관점을 제공합니다 . 예를 들어, 의 부분 회귀 는 다른 두 항에 대해 회귀 한 후 의 잔차에 대한 간의 이변 량 관계를 제공 합니다. 계속해서 각 변수에 대해이 작업을 수행합니다. 라이브러리의 함수 는 피팅 된 객체 에서 이러한 플롯을 제공 합니다. 예는 다음과 같습니다. X i Y ~ X 1 + X 2 + X 3 X i YYXiYX1+X2+X3XiYavPlots()carlm

여기에 이미지 설명을 입력하십시오


이 정보에 대해 @gregory_britten에게 감사드립니다. 내가 가지고있는 문제에는 8 개의 독립 변수가 있습니다. '추가 변수 플롯'이 많은 입력 변수에 적합하다고 생각하십니까?
kris mar

R에서 작업하는 경우 첫 번째 줄거리의 아이디어에 따라 RMS 패키지를 살펴 보는 것이 좋습니다. 좋은 점은 공분산에서 의미있는 단계 변화를 요구할 수 있기 때문에 표준화 할 필요가 없다는 것입니다.
Thomas Speidel

@suzanne 그래. 추가 된 변수 그림은 여러 변수에 대한 2 차원 투시도를 제공합니다. 특히 더 높은 차원에서 드러날 수 있습니다. 관찰 된 Y에서는 전혀 분명하지 않은 잔차에서 드러나는 패턴을 종종 발견한다.
gregory_britten

이 문맥에서 X1 | X2 & X3 표기법을 잘 이해하지 못합니다. 확률과 관련하여 어떻게 사용되는지는 알고 있지만 여기서 무슨 말을하는지 이해할 수 없습니다.
Casebash

1
@Casebash 그것은 X1에 부분적 회귀 주어진 X2 및 X3은 모델에 인
gregory_britten

1

그들은 모두 간경변의 원인을 설명하는 것과 관련이 있기 때문에 거품 / 원형 차트를 시도하고 색을 사용하여 다른 회귀 자와 원 반경을 나타내며 간경변에 대한 상대적 영향을 나타 냅니까?

여기에 다음과 같은 Google 차트 유형이 언급되어 있습니다.여기에 이미지 설명을 입력하십시오

그리고 관련이없는 메모에서, 당신의 음모를 잘못 읽지 않는 한, 거기에 여분의 회귀자가 있다고 생각합니다. 와인은 이미 주류이므로이 두 개가 개별 회귀 분석기 인 경우 간경변의 발생률을 설명하는 것이 목표라면 두 가지를 모두 유지하는 것이 이치에 맞지 않습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.