다음 그림에서 와 의 관계는 무엇입니까 ? 내 생각에는 부정적인 선형 관계가 있지만, 특이 치가 많기 때문에 관계가 매우 약합니다. 내가 맞아? 산점도를 어떻게 설명 할 수 있는지 배우고 싶습니다.X
다음 그림에서 와 의 관계는 무엇입니까 ? 내 생각에는 부정적인 선형 관계가 있지만, 특이 치가 많기 때문에 관계가 매우 약합니다. 내가 맞아? 산점도를 어떻게 설명 할 수 있는지 배우고 싶습니다.X
답변:
이 질문은 몇 가지 개념, 즉 산점도 형태로 주어진 데이터를 평가하는 방법, 산점도를 요약하는 방법 및 관계가 선형으로 보이는지 여부를 나타냅니다. 순서대로 가져 갑시다.
탐색 적 데이터 분석 (EDA) 원칙을 사용하십시오. 이것 (적어도 원래는 연필과 종 이용으로 개발되었을 때)은 간단하고 계산하기 쉽고 강력한 데이터 요약을 강조합니다. 가장 간단한 종류의 요약 중 하나는 "일반적인"값을 설명하는 중간 값과 같은 일련의 숫자 내 위치를 기반으로 합니다. 그래픽을 통해 중간 값을 쉽게 추정 할 수 있습니다.
산점도는 숫자 쌍을 나타냅니다. 각 쌍의 첫 번째 (수평 축에 표시됨)는 단일 숫자 집합을 제공하며이를 개별적으로 요약 할 수 있습니다.
이 특정 산점도 에서 y- 값은 거의 완전히 별개의 두 그룹 ( 상단에서 을 초과하는 값 과 하단에서 을 초과 하는 값) 내에있는 것처럼 보입니다 . (이 인상은 급격한 바이 모달이지만이 단계에서 많은 작업이 될 y 값의 히스토그램을 그려서 확인됩니다.) 나는 회의론자들을 산점도에 흠집을 내도록 초대합니다. 산점도에서 점의 큰 반경, 감마 보정 가우시안 블러 (즉, 표준 빠른 이미지 처리 결과)를 사용하면 다음과 같습니다.60
위와 아래의 두 그룹은 매우 분명합니다. (점수가 많기 때문에 상위 그룹이 하위 그룹보다 훨씬 밝습니다.)
따라서 y- 값 그룹을 개별적으로 요약 해 봅시다. 두 그룹의 중앙값에 수평선을 그려서 그렇게하겠습니다. 데이터 의 인상 을 강조하고 우리가 어떤 종류의 계산도하지 않음을 보여주기 위해 (a) 축과 격자 선과 같은 모든 장식을 제거하고 (b) 점을 흐리게 처리했습니다. 데이터 에서 패턴 에 대한 정보는 그래픽에서 "squinting"하여 손실됩니다.
마찬가지로, x 값의 중앙값을 세로 선 세그먼트로 표시하려고했습니다. 상단 그룹 (빨간색 선)에서는 얼룩을 계산하여이 선이 실제로 그룹을 수평과 수직으로 두 개의 동일한 절반으로 분리하는지 확인할 수 있습니다. 하위 그룹 (파란색 선)에서는 실제로 계산하지 않고 위치를 시각적으로 만 추정했습니다.
교점은 두 그룹의 중심입니다. x와 y 값 사이의 관계에 대한 훌륭한 요약은 이러한 중심 위치를보고하는 것입니다. 그런 다음 각 그룹의 데이터가 센터의 왼쪽과 오른쪽, 위, 아래에 얼마나 많이 퍼져 있는지에 대한 설명으로이 요약을 보완하려고합니다. 간결하게하기 위해 여기서는하지 않겠지 만, 내가 그린 선분의 길이는 각 그룹의 전체 스프레드를 반영한다는 점에 유의하십시오.
마지막으로 두 센터를 연결하는 (파선) 선을 그렸습니다. 이것은 합리적인 회귀선입니다. 데이터에 대한 좋은 설명입니까? 확실하지 않습니다 : 데이터가이 선에 어떻게 퍼져 있는지보십시오. 심지어 선형성의 증거입니까? 선형 설명이 너무 나쁘기 때문에 거의 관련이 없습니다. 그럼에도 불구하고 그것이 우리 앞에있는 질문이기 때문에 해결해 봅시다.
관계는 선형 때 통계적 의미에서 하나 는 Y 값 선 주위 균형 무작위 방식으로 변화 하거나 는 x 값이 라인 (또는 모두) 주위 균형 무작위 방식으로 변화하는 것으로된다.
전자는 여기에 해당되지 않는 것으로 보입니다. y 값이 두 그룹으로 분류되는 것처럼 보이기 때문에 변동이 선의 위 또는 아래에 대략 대칭 적으로 분포되어 있다는 의미에서 균형 이 잡히지 않습니다 . (즉, 데이터를 선형 회귀 패키지에 덤프하고 x에 대해 y의 최소 제곱을 수행 할 가능성을 즉시 배제합니다. 답은 관련이 없습니다.)
x의 변형은 어떻습니까? 그것은 더 그럴듯하다 : 줄거리의 각 높이 에서 , 점선 주위의 점 들의 수평 분산은 꽤 균형을 이룬다. 확산 이 분산의 낮은 높이에서 약간의 이상 (낮은 Y 값을) 것 같다,하지만 어쩌면 더 많은 지점이의 때문이. (랜덤 데이터가 많을수록 극단적 인 값은 더 넓어집니다.)
또한 위에서 아래로 스캔 할 때 회귀선 주변의 수평 산란이 불균형이 심한 곳은 없습니다. 이는 비선형 성의 증거입니다. (아마도 y = 50 정도일 수 있으므로 너무 큰 x 값이 너무 많을 수 있습니다.이 미묘한 영향은 데이터를 y = 60 값 주위의 두 그룹으로 나누는 추가 증거로 볼 수 있습니다.)
우리는 그것을 보았다
x를 y의 선형 함수와 "좋은"랜덤 변이로 보는 것이 합리적입니다.
y를 x + 랜덤 변이의 선형 함수로 보는 것은 의미 가 없습니다 .
회귀선은 데이터를 높은 y 값 그룹과 낮은 y 값 그룹으로 분리하고 중앙값을 사용하여 두 그룹의 중심을 찾은 다음 해당 중심을 연결하여 추정 할 수 있습니다.
결과 선은 아래쪽으로 기울어 져서 음의 선형 관계를 나타냅니다 .
선형성에서 크게 벗어난 것은 없습니다.
그럼에도 불구하고, 선 주위의 x- 값의 스프레드는 여전히 크므로 (시작할 x- 값의 전체 스프레드와 비교하여)이 음의 선형 관계를 "매우 약한"것으로 특성화해야합니다.
데이터를 두 개의 타원 모양의 구름을 형성하는 것으로 묘사하는 것이 더 유용 할 수 있습니다 (하나는 60보다 높은 y에 대한 것이고 다른 하나는 y의 낮은 값에 대한 것). 각 클라우드 내에서 x와 y 사이에는 감지 할 수있는 관계가 거의 없습니다. 구름의 중심은 (0.29, 90)과 (0.38, 30)에 가깝습니다. 구름은 비슷한 스프레드를 가지고 있지만, 위쪽 구름은 아래쪽 구름보다 데이터가 훨씬 적습니다 (20 % 정도).
이 결론들 중 두 가지는 그 자체로 약한 부정적인 관계가 있음을 확인시켜줍니다. 다른 사람들은 그러한 결론을 보완하고지지합니다.
지지하지 않는 것으로 보이는 질문에서 도출 된 한 가지 결론은 "이상치 (outlier)"가 있다는 주장이다. 보다 신중한 검사 (아래 스케치 참조)는 유효하지 않은 것으로 간주 될 수있는 개별 점 또는 작은 점 그룹을 나타내지 못합니다. 충분히 긴 분석 후, 오른쪽 중앙 근처의 두 지점 또는 왼쪽 하단의 한 지점에주의가 집중 될 수 있지만 데이터의 평가 여부는 고려 여부에 관계없이 크게 변경되지는 않습니다. 밖에 있는.
훨씬 더 말할 수 있습니다. 다음 단계는 구름의 확산을 평가하는 것입니다. 두 클라우드 각각에서 x와 y의 관계는 여기에 표시된 동일한 기술을 사용하여 별도로 평가할 수 있습니다. 낮은 구름의 약간의 비대칭 성 (더 많은 데이터가 가장 작은 y 값에 나타나는 것 같음)은 y 값을 다시 표현하여 평가하고 조정할 수도 있습니다 (제곱근이 잘 작동 할 수 있음). 이 단계에서 설명에는 일반적인 데이터 값과 스프레드에 대한 정보가 포함되기 때문에이 단계에서는 외부 데이터를 찾는 것이 좋습니다. 이상치 (정의상)는 중간에서 너무 멀어 관측 된 확산 량으로 설명 할 수 없습니다.
상당히 양적인이 작업은 데이터 그룹의 중간을 찾아서 간단한 계산을 수행하는 것보다 훨씬 더 많은 것을 요구하지 않으므로 데이터가 그래픽 형식으로 만 제공되는 경우에도 빠르고 정확하게 수행 할 수 있습니다. 양적 값을 포함하여 여기에보고 된 모든 결과는 그래픽 위에 표시를 할 수있는 디스플레이 시스템 (예 : 하드 카피 및 연필 :-)을 사용하여 몇 초 안에 쉽게 찾을 수 있습니다.
재미있게 놀자!
계수 추정치는 다음과 같습니다.
redoubtable whuber는 강한 선형 관계가 없다고 주장하지만 힌지 항에 의해 암시 된 의 편차 는 의 기울기와 같은 순서에 있습니다 (즉, 37.7). 우리는 강한 비선형 관계가 보이지 않는다는 것에 동의하지 않을 것이다.X
해석
(나는 종속 변수로 에만 관심이 있다고 가정 합니다.) 값은 의해 매우 약하게 예측됩니다 (Adjusted- = 0.03). 연관성은 대략 선형이며, 약 0.46에서 기울기가 약간 감소합니다. 잔차는 오른쪽으로 약간 기울어 져 있습니다. 아마도 값의 급격한 하한이기 때문일 것입니다 . 표본 크기가 이면 정규성 위반 을 용인하는 경향이 있습니다. 값에 대한 더 많은 관찰 은 기울기의 변화가 실제인지, 또는 분산이 감소 된 인공물인지를 낮추는 데 도움이됩니다.Y X R 2 Y N = 170 X > 0.5 Y 그 범위에서.
그래프로 업데이트 :
(빨간 선은 X에서 ln (Y)의 선형 회귀입니다.)
의견 러스 Lenth 썼다 : "나는 당신이 부드럽게 경우이가 보유하고 궁금 대 분포. 기울어 권리입니다." 변환 대 도 대칭 적으로 분포 된 잔차를 갖는 와 사이의 선에 비해 약간 더 잘 맞기 때문에 이것은 상당히 좋은 제안 입니다. 그러나 그의 제안 된 와 선형 힌지 모두 직선으로 설명 되지 않은 (변환되지 않은) 와 의 관계에 대한 선호를 공유합니다 .X Y 로그 Y X Y X 로그 ( Y ) X Y X
내 2 ¢ 1.5 ¢입니다. 나에게 가장 두드러진 특징은 데이터가 갑자기 Y 범위의 맨 아래에서 갑자기 멈추고 '집단'한다는 것입니다. 나는 두 가지 (잠재적) '클러스터'와 일반적인 부정적인 연관성을 보지만 가장 두드러진 특징은 (잠재적) 바닥 효과 및 상위 저밀도 클러스터는 X 범위의 일부에 대해서만 확장된다는 사실.
'클러스터'는 모호하게 이변 량 정규이므로, 파라 메트릭 정규 혼합 모델이 시도해 볼 수 있습니다. @Alexis의 데이터를 사용하여 세 개의 클러스터가 BIC를 최적화 한다는 것을 알았습니다 . 고밀도 '바닥 효과'는 세 번째 클러스터로 선택됩니다. 코드는 다음과 같습니다.
library(mclust)
dframe = read.table(url("http://doyenne.com/personal/files/data.csv"), header=T, sep=",")
mc = Mclust(dframe)
summary(mc)
# ----------------------------------------------------
# Gaussian finite mixture model fitted by EM algorithm
# ----------------------------------------------------
#
# Mclust VVI (diagonal, varying volume and shape) model with 3 components:
#
# log.likelihood n df BIC ICL
# -614.4713 170 14 -1300.844 -1338.715
#
# Clustering table:
# 1 2 3
# 72 72 26
이제 우리는 이것으로부터 무엇을 추론 할 것입니까? 나는 그것이 Mclust
단지 인간의 패턴 인식이 잘못 되었다고 생각하지 않습니다 . (내가 산점도를 읽었을 수도 있지만) 이것에 대해서는 사후에 의문의 여지가 없습니다 . 나는 내가 흥미로운 패턴이라고 생각하는 것을 보았고 그것을 확인하기로 결정했습니다. 알고리즘이 무언가를 찾은 다음 거기에있을 것으로 생각되는 것만 확인했기 때문에 엄지 손가락이 확실히 스케일에 도달했습니다. 때때로 이것에 대해 완화하기위한 전략을 고안하는 것이 가능할 수도 있지만 ( 여기서 @whuber의 훌륭한 답변 참조 ), 이런 경우에 그러한 프로세스를 어떻게 진행 해야할지 모르겠습니다 . 결과적으로, 나는 많은 소금으로 이러한 결과를 얻습니다.). 다음에 우리가 만날 때 내 고객에 대해 생각하고 토론 할 자료를 제공합니다. 이 데이터는 무엇입니까? 바닥 효과가있을 수 있다는 것은 어떤 의미가 있습니까? 다른 그룹이있을 수 있다는 것이 합리적입니까? 이것이 진짜라면 얼마나 의미 있고 놀랍고 흥미롭고 중요한가? 독립적 인 데이터가 존재하거나 이러한 가능성에 대한 정직한 테스트를 편리하게 수행 할 수 있습니까? 기타.
내가 보는 즉시 내가 무엇을 보는지 설명하겠습니다.
의 조건부 분포에 관심이있는 경우 (여기서 가 IV로, 가 DV 로 표시되는 경우 관심이 집중되는 경우 ) 경우 의 조건부 분포 는 상위 그룹 ( 약 70 내지 125 사이, 평균 100 미만의 비트를 의미 함) 및보다 낮은 그룹 (0 내지 약 70 사이, 평균 약 30 정도). 각 모달 그룹 내에서 와의 관계 는 거의 평평합니다. (아래 대략적인 위치 감각으로 추측되는 곳 아래에 빨간색과 파란색 선이 나타납니다)x y x ≤ 0.5 Y | x x
그런 다음 에서이 두 그룹이 어느 정도 밀도가 높은지를 살펴보면 다음 과 같이 더 말할 수 있습니다.
들면 상위 그룹의 전체 평균 만드는 완전히 사라 하강하고, 약 0.2 미만, 하부 그룹은 전체 평균 이상을, 더 적은 밀도보다 위에있다.x
이 두 효과 사이에서, 에 대해 감소하는 것처럼 보이지만 중심에서 넓고 평평한 영역을 가지기 때문에 두 가지 사이에 명백한 음의 (그러나 비선형) 관계를 유도합니다 . (보라색 점선 참조)x
의심의 여지없이 와 가 무엇인지 아는 것이 중요 할 것입니다 . 왜냐하면 대한 조건부 분포 가 범위의 대부분에 걸쳐 이봉이 될 수 있는지가 더 명확 할 수 있기 때문입니다 (실제로 두 그룹이 있음이 분명해질 수도 있습니다 에서의 분포는 에서 명백한 감소 관계를 유도한다 .X Y X Y | 엑스
이것이 바로 "눈으로"점검 한 결과입니다. 기본적인 이미지 조작 프로그램 (선을 그리는 것과 같은)에서 약간의 장난으로 우리는 더 정확한 숫자를 알아낼 수 있습니다. 우리가 데이터를 디지털화하면 (때로는 약간 지루한 경우에 적절한 도구를 사용하여 매우 간단합니다), 우리는 그런 종류의 인상에 대해 더 정교한 분석을 수행 할 수 있습니다.
이러한 종류의 탐색 적 분석은 몇 가지 중요한 질문 (때로는 데이터를 가지고 있지만 플롯 만 보여준 사람을 놀라게하는 질문)으로 이어질 수 있지만 그러한 검사를 통해 모델이 선택되는 정도에 대해주의를 기울여야합니다. 플롯의 모양을 기반으로 선택한 모델을 적용한 다음 동일한 데이터에서 해당 모델을 추정하면 동일한 데이터에서보다 공식적인 모델 선택 및 추정을 사용할 때 발생하는 것과 동일한 문제가 발생하는 경향이 있습니다. [이것은 탐색 적 분석의 중요성을 전혀 부정하는 것이 아닙니다. 단지 우리가 어떻게 진행 하는지에 관계없이 분석의 결과에주의해야 합니다. ]
Russ의 의견에 대한 답변 :
[나중에 편집 : 명확히하기 위해-나는 일반적인 예방책으로 취한 Russ의 비판에 광범위하게 동의하며, 실제로 내가 볼 수있는 것보다 더 많이 볼 가능성이 있습니다. 나는 다시 돌아와서 우리가 일반적으로 눈으로 식별하는 가짜 패턴과 최악의 상황을 피할 수있는 방법에 대한보다 광범위한 주석으로 편집 할 계획입니다. 나는 또한이 특별한 경우에 아마도 그것이 의심스럽지 않다고 생각하는 이유에 대한 정당성을 추가 할 수 있다고 생각합니다 (예 : 회귀도 또는 0 차 커널 스무스를 통해 물론 테스트 할 데이터가 더 많지 않습니다. 예를 들어, 샘플이 대표적이지 않으면 리샘플링조차도 우리를 지금까지 이끌어냅니다.]
나는 우리가 가짜 패턴을 보는 경향이 있다는 것에 완전히 동의합니다. 여기와 다른 곳에서 자주하는 것이 요점입니다.
예를 들어, 잔차 그림이나 QQ 그림을 볼 때 상황이 알려진 곳 (사물이 있어야하고 가정이 유지되지 않는 곳)에 많은 패턴을 생성하여 패턴의 양을 명확하게 파악하는 것이 좋습니다. 무시되었습니다.
다음 은 플롯이 얼마나 이례적인지 알기 위해 QQ 플롯이 24 개의 다른 것 (가정을 만족시키는) 중에 배치 된 예 입니다. 이런 종류의 운동은 모든 작은 흔들림을 해석함으로써 자신을 속이는 것을 피하는데 도움이되기 때문에 중요합니다. 대부분은 단순한 소음 일 것입니다.
몇 가지 요점을 적용하여 노출을 변경할 수있는 경우 노이즈만으로 생성 된 노출에 의존 할 수 있다고 종종 지적합니다.
[그러나, 몇 점이 아닌 많은 점에서 명백한 경우에는 존재하지 않는 것을 유지하기가 더 어렵습니다.]
whuber의 답변에있는 디스플레이는 내 인상을 지원합니다. 가우시안 블러 플롯은 의 이형성 경향과 동일한 경향을 나타 냅니다.
확인할 데이터가 더 이상 없으면 최소한 리샘플링에서 살아남는지 (2 변량 분포를 부트 스트랩하고 거의 항상 존재하는지 확인) 노출이 분명하지 않은 다른 조작을 살펴볼 수 있습니다. 단순한 소음이라면
1) 명백한 바이 모달리티가 왜도 + 잡음 이상인지 확인하는 한 가지 방법이 있습니다. 커널 밀도 추정치에 표시됩니까? 다양한 변환에서 커널 밀도 추정값을 플롯해도 여전히 표시됩니까? 여기서는 기본 대역폭의 85 %에서 더 큰 대칭으로 변환합니다 (상대적으로 작은 모드를 식별하려고 시도하고 기본 대역폭이 해당 작업에 최적화되어 있지 않기 때문에).
플롯은 , 및 입니다. 수직선은 , 및 입니다. 바이 모달리티는 줄어들지 만 여전히 잘 보입니다. 원래 KDE에서 매우 명확하기 때문에 거기에 있음을 확인하는 것 같습니다. 두 번째 및 세 번째 플롯은 적어도 다소 변형에 강합니다.√ 로그(Y)68 √ 통나무(68)
2) "소음"이상인지 확인하는 또 다른 기본 방법이 있습니다.
1 단계 : Y에서 클러스터링 수행
2 단계 : 에서 두 그룹으로 나누고 두 그룹을 개별적으로 클러스터링하여 비슷한 지 확인합니다. 두 반쪽에 아무 일도 일어나지 않는다면 모든 것을 똑같이 나눌 것으로 기 대해서는 안됩니다.
점이있는 점은 이전 그림의 "모든 세트"클러스터와 다르게 클러스터되었습니다. 나중에 좀 더하겠습니다.하지만 아마도 그 위치 근처에 수평 "분할"이있을 것 같습니다.
회귀도 또는 Nadaraya-Watson 추정기 (회귀 함수의 로컬 추정치 ) 를 사용해 보겠습니다 . 아직 생성하지는 않았지만 어떻게 진행되는지 볼 수 있습니다. 나는 아마도 데이터가 거의없는 끝을 제외시킬 것입니다.
3) 편집 : 너비 0.1의 빈에 대한 회귀도는 다음과 같습니다 (앞에서 제안한 것처럼 끝 부분 제외).
이것은 내가 줄거리에 대한 원래 인상과 완전히 일치합니다. 그것은 내 추론이 옳았다는 것을 증명하지는 않지만 내 결론은 회귀 도와 동일한 결과에 도달했습니다.
줄거리에서 본 결과와 그에 따른 추론이 의심 스럽다면 아마도 이런 식으로 를 식별하는 데 성공하지 않았을 것입니다 .
(다음으로 시도 할 것은 Nadayara-Watson 추정기입니다. 그러면 시간이 있으면 어떻게 리샘플링되는지 볼 수 있습니다.)
4) 나중에 편집 :
Nadarya-Watson, 가우스 커널, 대역폭 0.15 :
다시 말하지만, 이것은 나의 초기 인상과 놀랍게도 일치합니다. 10 개의 부트 스트랩 리 샘플을 기반으로 한 NW 추정기는 다음과 같습니다.
몇 가지 재 샘플이 전체 데이터를 기반으로 설명을 명확하게 따르지는 않지만 광범위한 패턴이 있습니다. 우리는 왼쪽 수준의 경우가 오른쪽보다 덜 확실하다는 것을 알 수 있습니다. 소음 수준 (부분적으로 약간의 관찰, 부분적으로 넓은 확산에서)은 평균이 실제로 더 높다고 주장하기가 쉽지 않습니다. 중앙보다 왼쪽.
내 전반적인 인상은 아마도 단순히 자신을 속이는 것이 아니라는 것이다. 왜냐하면 다양한 측면들이 단순히 잡음이 있다면 그것들을 가리는 경향이있는 다양한 도전들 (스무딩, 변환, 하위 그룹으로 나누기, 리샘플링)에 적당히 잘 나타나기 때문이다. 반면에, 초기 인상과 광범위하게 일치하는 효과는 상대적으로 약하며, 왼쪽에서 중앙으로 이동하는 기대에 대한 실제 변화를 주장하기에는 너무 많은 것일 수 있습니다.
OK 사람들, 나는 Alexis의 리드를 따라 데이터를 캡처했습니다. 다음은 대 의 도표입니다 .x
그리고 상관 관계 :
> cor.test(~ x + y, data = data)
Pearson's product-moment correlation
data: x and y
t = -2.6311, df = 169, p-value = 0.009298
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.33836844 -0.04977867
sample estimates:
cor
-0.1983692
> cor.test(~ x + log(y), data = data)
Pearson's product-moment correlation
data: x and log(y)
t = -2.8901, df = 169, p-value = 0.004356
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.35551268 -0.06920015
sample estimates:
cor
-0.2170188
상관 관계 테스트는 음의 의존성을 나타냅니다. 나는 어떤 이질성에 대해서도 확신하지 못합니다 (그러나 그것이 존재하지 않는다고 확신하지 않습니다).
[@whuber가 를 예측하려고했던 지점을 간과했기 때문에 이전 버전에서 가지고 있던 잔차 그림을 제거했습니다 .]
Russ Lenth는 Y 축이 로그인 경우 그래프가 어떻게 보이는지 궁금했습니다. Alexis는 데이터를 스크랩하여 로그 축으로 쉽게 그릴 수 있습니다.
로그 스케일에서는 이형성 또는 경향에 대한 힌트가 없습니다. 물론 로그 스케일이 의미가 있는지 여부는 데이터가 나타내는 세부 사항에 따라 다릅니다. 마찬가지로, whuber가 제안한 것처럼 데이터가 두 모집단의 샘플링을 나타내는 것으로 생각하는 것이 합리적인지 여부는 세부 사항에 따라 다릅니다.
부록 : 아래 의견을 바탕으로 수정 된 버전은 다음과 같습니다.
글쎄, 당신 말이 맞아요, 관계는 약하지만 제로가 아닙니다. 긍정적 인 것 같아요. 그러나 단순한 선형 회귀 (OLS 회귀)를 실행하고 알아 내십시오! 거기에 관계가 무엇인지 알려주는 xxx의 기울기가 나타납니다. 그리고 네, 결과를 편향시킬 수있는 이상 치가 있습니다. 처리 할 수 있습니다. Cook의 거리를 사용하거나 관계에 대한 특이 치의 영향을 추정하기 위해 레버리지 그림을 만들 수 있습니다.
행운을 빕니다
이것은 집안일입니다. 따라서 귀하의 질문에 대한 답변은 간단합니다. X에서 Y의 선형 회귀를 실행하면 다음과 같은 결과가 나타납니다.
Coefficient Standard Er t Stat
C 53.14404163 6.522516463 8.147781908
X -44.8798926 16.80565866 -2.670522684
따라서 t- 통계량은 99 % 신뢰도로 X 변수에서 유의합니다. 따라서 변수를 일종의 관계가있는 것으로 선언 할 수 있습니다.
선형인가요? 변수 X2 = (X-mean (X)) ^ 2를 추가하고 다시 회귀하십시오.
Coefficient Stand Err t Stat
C 53.46173893 6.58938281 8.11331508
X -43.9503443 17.01532569 -2.582985779
X2 -44.601130 114.1461801 -0.390736951
X의 계수는 여전히 중요하지만 X2는 중요하지 않습니다. X2는 비선형 성을 나타낸다. 따라서 관계가 선형 인 것처럼 보입니다.
위는 집에 일한 것입니다.
실제로는 상황이 더 복잡합니다. 이것이 한 클래스의 학생들에 대한 데이터라고 상상해보십시오. Y-파운드 단위의 벤치 프레스, X-벤치 프레스 전에 호흡을 유지 한 시간 (분). 학생들의 성별을 묻습니다. 재미를 위해서 다른 변수 Z를 추가하고 모든 Y <60에 대해 Z = 1 (여자)이고 Y> = 60 일 때 Z = 0 (소년)이라고 가정 해 봅시다. 세 가지 변수를 사용하여 회귀 분석을 실행하십시오.
Coefficient Stand Error t Stat
C 92.93031357 3.877092841 23.969071
X -6.55246715 8.977138488 -0.72990599
X2 -43.6291362 59.06955097 -0.738606194
Z -63.3231270 2.960160265 -21.39179009
어떻게 된 거예요?! X와 Y 사이의 "관계"가 사라졌습니다! 아, 혼란스러운 변수 , 성별 로 인해 관계가 의심 스러운 것 같습니다 .
이야기의 도덕은 무엇입니까? "관계"를 "설명"하거나 처음에이를 설정하려면 데이터가 무엇인지 알아야합니다. 이 경우 학생의 신체 활동에 대한 데이터는 즉시 성별을 요구하며 성별 변수를 얻지 않고 데이터를 분석하지 않아도됩니다.
반면에 산점도를 "설명"하라는 메시지가 표시되면 아무 문제가 없습니다. 상관 관계, 선형 피팅 등. 집안일의 경우 위의 두 단계만으로 충분해야합니다. X (관계) 계수, X ^ 2 (선형성) 계수를 살펴보십시오. X 변수의 평균을 제거해야합니다 (평균을 뺍니다).