이 그림에서

38

다음 그림에서 와 의 관계는 무엇입니까 ? 내 생각에는 부정적인 선형 관계가 있지만, 특이 치가 많기 때문에 관계가 매우 약합니다. 내가 맞아? 산점도를 어떻게 설명 할 수 있는지 배우고 싶습니다. $Y$ $X$

여기에 이미지 설명을 입력하십시오

self-study correlation scatterplot

— PSS
소스

3

란 무엇입니까 ? 란 무엇입니까 ? 특이 치를 생성하는 프로세스는 무엇입니까? 이들이 실제 측정이 아니라고 생각하는 이유는 무엇입니까? 이론은 무엇입니까?

X

$X$

Y

$Y$

— abaumann

4

귀하의 의견에 감사드립니다. 책에서이 음모를 보았습니다. Y는 종속 변수이고 X는 독립 변수입니다. 이론이 없습니다. 그것은 주어진 x의 Y의 관계를 보여주기 위해 산점도를 그린다. 그리고 책에 어떤 관계가 있는지를 묻는 질문이 있습니다. 선형 또는 비선형? 강하거나 약합니까?

— PSS

7

이것은 태세 그라피 의 연습입니다 . 이것은 일일 거래자들에게 매우 인기가 있으며 기술 분석 이라고합니다 . 기본적으로 데이터의 특성에 대해 전혀 알지 못하면 무익한 운동입니다

— Aksakal

1

@chl 당신은 whuber에 현상금을 기부 해주셔서 감사합니다 =)

— Cam.Davidson.Pilon 1

3

@ Aksakal 통계 언어는 일반적으로 숫자의 튜플 세트를 설명하는 것처럼 "관계"를 문자 그대로 이해합니다. 예를 들어, 상관 계수는 관계를 설명합니다. 기본 변수 사이의 기원, 성격 또는 인과 관계에 대한 의미는 없습니다. 나는 "설명"이 일반적으로 더 깊은 의미로 이해된다는 데 동의하지만, 질문에서 관계가 너무 강조되기 때문에 "설명"의 문자 적 의미를 지나치게 멀리하지 않는 것이 공평하다고 생각합니다. 산점도를 설명하는 것은 차잎 읽기가 너무 멀다는 것을 제안합니다. IMHO.

— whuber

50

이 질문은 몇 가지 개념, 즉 산점도 형태로 주어진 데이터를 평가하는 방법, 산점도를 요약하는 방법 및 관계가 선형으로 보이는지 여부를 나타냅니다. 순서대로 가져 갑시다.

그래픽 데이터 평가

탐색 적 데이터 분석 (EDA) 원칙을 사용하십시오. 이것 (적어도 원래는 연필과 종 이용으로 개발되었을 때)은 간단하고 계산하기 쉽고 강력한 데이터 요약을 강조합니다. 가장 간단한 종류의 요약 중 하나는 "일반적인"값을 설명하는 중간 값과 같은 일련의 숫자 내 위치를 기반으로 합니다. 그래픽을 통해 중간 값을 쉽게 추정 할 수 있습니다.

산점도는 숫자 쌍을 나타냅니다. 각 쌍의 첫 번째 (수평 축에 표시됨)는 단일 숫자 집합을 제공하며이를 개별적으로 요약 할 수 있습니다.

이 특정 산점도 에서 y- 값은 거의 완전히 별개의 두 그룹 ( 상단에서 을 초과하는 값 과 하단에서 을 초과 하는 값) 내에있는 것처럼 보입니다 . (이 인상은 급격한 바이 모달이지만이 단계에서 많은 작업이 될 y 값의 히스토그램을 그려서 확인됩니다.) 나는 회의론자들을 산점도에 흠집을 내도록 초대합니다. 산점도에서 점의 큰 반경, 감마 보정 가우시안 블러 (즉, 표준 빠른 이미지 처리 결과)를 사용하면 다음과 같습니다. $60$ $60$

그림 0

위와 아래의 두 그룹은 매우 분명합니다. (점수가 많기 때문에 상위 그룹이 하위 그룹보다 훨씬 밝습니다.)

따라서 y- 값 그룹을 개별적으로 요약 해 봅시다. 두 그룹의 중앙값에 수평선을 그려서 그렇게하겠습니다. 데이터 의 인상 을 강조하고 우리가 어떤 종류의 계산도하지 않음을 보여주기 위해 (a) 축과 격자 선과 같은 모든 장식을 제거하고 (b) 점을 흐리게 처리했습니다. 데이터 에서 패턴 에 대한 정보는 그래픽에서 "squinting"하여 손실됩니다.

마찬가지로, x 값의 중앙값을 세로 선 세그먼트로 표시하려고했습니다. 상단 그룹 (빨간색 선)에서는 얼룩을 계산하여이 선이 실제로 그룹을 수평과 수직으로 두 개의 동일한 절반으로 분리하는지 확인할 수 있습니다. 하위 그룹 (파란색 선)에서는 실제로 계산하지 않고 위치를 시각적으로 만 추정했습니다.

관계 평가 : 회귀

교점은 두 그룹의 중심입니다. x와 y 값 사이의 관계에 대한 훌륭한 요약은 이러한 중심 위치를보고하는 것입니다. 그런 다음 각 그룹의 데이터가 센터의 왼쪽과 오른쪽, 위, 아래에 얼마나 많이 퍼져 있는지에 대한 설명으로이 요약을 보완하려고합니다. 간결하게하기 위해 여기서는하지 않겠지 만, 내가 그린 선분의 길이는 각 그룹의 전체 스프레드를 반영한다는 점에 유의하십시오.

마지막으로 두 센터를 연결하는 (파선) 선을 그렸습니다. 이것은 합리적인 회귀선입니다. 데이터에 대한 좋은 설명입니까? 확실하지 않습니다 : 데이터가이 선에 어떻게 퍼져 있는지보십시오. 심지어 선형성의 증거입니까? 선형 설명이 너무 나쁘기 때문에 거의 관련이 없습니다. 그럼에도 불구하고 그것이 우리 앞에있는 질문이기 때문에 해결해 봅시다.

선형성 평가

관계는 선형 때 통계적 의미에서 하나 는 Y 값 선 주위 균형 무작위 방식으로 변화 하거나 는 x 값이 라인 (또는 모두) 주위 균형 무작위 방식으로 변화하는 것으로된다.

전자는 여기에 해당되지 않는 것으로 보입니다. y 값이 두 그룹으로 분류되는 것처럼 보이기 때문에 변동이 선의 위 또는 아래에 대략 대칭 적으로 분포되어 있다는 의미에서 균형 이 잡히지 않습니다 . (즉, 데이터를 선형 회귀 패키지에 덤프하고 x에 대해 y의 최소 제곱을 수행 할 가능성을 즉시 배제합니다. 답은 관련이 없습니다.)

x의 변형은 어떻습니까? 그것은 더 그럴듯하다 : 줄거리의 각 높이 에서 , 점선 주위의 점 들의 수평 분산은 꽤 균형을 이룬다. 확산 이 분산의 낮은 높이에서 약간의 이상 (낮은 Y 값을) 것 같다,하지만 어쩌면 더 많은 지점이의 때문이. (랜덤 데이터가 많을수록 극단적 인 값은 더 넓어집니다.)

또한 위에서 아래로 스캔 할 때 회귀선 주변의 수평 산란이 불균형이 심한 곳은 없습니다. 이는 비선형 성의 증거입니다. (아마도 y = 50 정도일 수 있으므로 너무 큰 x 값이 너무 많을 수 있습니다.이 미묘한 영향은 데이터를 y = 60 값 주위의 두 그룹으로 나누는 추가 증거로 볼 수 있습니다.)

결론

우리는 그것을 보았다

x를 y의 선형 함수와 "좋은"랜덤 변이로 보는 것이 합리적입니다.
y를 x + 랜덤 변이의 선형 함수로 보는 것은 의미 가 없습니다 .
회귀선은 데이터를 높은 y 값 그룹과 낮은 y 값 그룹으로 분리하고 중앙값을 사용하여 두 그룹의 중심을 찾은 다음 해당 중심을 연결하여 추정 할 수 있습니다.
결과 선은 아래쪽으로 기울어 져서 음의 선형 관계를 나타냅니다 .
선형성에서 크게 벗어난 것은 없습니다.
그럼에도 불구하고, 선 주위의 x- 값의 스프레드는 여전히 크므로 (시작할 x- 값의 전체 스프레드와 비교하여)이 음의 선형 관계를 "매우 약한"것으로 특성화해야합니다.
데이터를 두 개의 타원 모양의 구름을 형성하는 것으로 묘사하는 것이 더 유용 할 수 있습니다 (하나는 60보다 높은 y에 대한 것이고 다른 하나는 y의 낮은 값에 대한 것). 각 클라우드 내에서 x와 y 사이에는 감지 할 수있는 관계가 거의 없습니다. 구름의 중심은 (0.29, 90)과 (0.38, 30)에 가깝습니다. 구름은 비슷한 스프레드를 가지고 있지만, 위쪽 구름은 아래쪽 구름보다 데이터가 훨씬 적습니다 (20 % 정도).

이 결론들 중 두 가지는 그 자체로 약한 부정적인 관계가 있음을 확인시켜줍니다. 다른 사람들은 그러한 결론을 보완하고지지합니다.

지지하지 않는 것으로 보이는 질문에서 도출 된 한 가지 결론은 "이상치 (outlier)"가 있다는 주장이다. 보다 신중한 검사 (아래 스케치 참조)는 유효하지 않은 것으로 간주 될 수있는 개별 점 또는 작은 점 그룹을 나타내지 못합니다. 충분히 긴 분석 후, 오른쪽 중앙 근처의 두 지점 또는 왼쪽 하단의 한 지점에주의가 집중 될 수 있지만 데이터의 평가 여부는 고려 여부에 관계없이 크게 변경되지는 않습니다. 밖에 있는.

추가 지시 사항

훨씬 더 말할 수 있습니다. 다음 단계는 구름의 확산을 평가하는 것입니다. 두 클라우드 각각에서 x와 y의 관계는 여기에 표시된 동일한 기술을 사용하여 별도로 평가할 수 있습니다. 낮은 구름의 약간의 비대칭 성 (더 많은 데이터가 가장 작은 y 값에 나타나는 것 같음)은 y 값을 다시 표현하여 평가하고 조정할 수도 있습니다 (제곱근이 잘 작동 할 수 있음). 이 단계에서 설명에는 일반적인 데이터 값과 스프레드에 대한 정보가 포함되기 때문에이 단계에서는 외부 데이터를 찾는 것이 좋습니다. 이상치 (정의상)는 중간에서 너무 멀어 관측 된 확산 량으로 설명 할 수 없습니다.

상당히 양적인이 작업은 데이터 그룹의 중간을 찾아서 간단한 계산을 수행하는 것보다 훨씬 더 많은 것을 요구하지 않으므로 데이터가 그래픽 형식으로 만 제공되는 경우에도 빠르고 정확하게 수행 할 수 있습니다. 양적 값을 포함하여 여기에보고 된 모든 결과는 그래픽 위에 표시를 할 수있는 디스플레이 시스템 (예 : 하드 카피 및 연필 :-)을 사용하여 몇 초 안에 쉽게 찾을 수 있습니다.

— 우버
소스

4

와. 나는 그 두 그룹과 결과 라인을 본 적이 없었습니다. 그리고 나는 그것을 질문한다.

— rvl

4

@Russ EDA가 독특하거나 혼란스러운 사람이 없기 때문에 누군가이 탐사에 의문을 제기 한 것을 알게되어 기쁩니다. 내가 보는 것을 볼 수 있도록 다른 이미지를 포함 시켰습니다. 동등하게 또는 더 포용적이고 유용하게 설명하는 답변을 게시 해 드리겠습니다.

— whuber

12

인간으로서 우리는 패턴, 심지어 존재하지 않는 패턴을 찾기 위해 특별한 경향이 있습니다. 나는 우리가 여기에 두 개의 독립적 인 RV를 가진 것과 같은 산점도를 얻는 것이 그럴듯하다고 생각합니다. 나는 그에 대한 증거가 없으며, 관계가 거의 없거나 없다고 말하는 것 외에는 대체 분석을 제공 할 수 없습니다. 그렇습니다. 이원성이 존재할 수 있습니다. 과정을 더 관찰 할 수 있다면 어떤 일이 일어나는지 알 수 있습니다. 나는 단지 그럴듯하게 가짜 패턴에 반응하기 위해 조심해야하고 성향을 알고 있어야한다고 생각합니다.

— rvl

4

@Russ 당신이 맞습니다. 패턴을 너무 많이 읽지 않으려면 경험이 필요합니다. 내 경험에 따르면 150-200 점을 사용하면 y 좌표에서 측정 한 강력한 이정성을 얻는 것이 무작위로 어렵습니다. 이러한 경험은 오늘날 시뮬레이션으로 쉽고 빠르게 보완 할 수 있습니다. 패턴을 볼 때 (1) 패턴을 정량화하고 (2) 더 간단한 대립 가설에 따라 생성 된 임의의 샘플에서 패턴을 찾습니다. 패턴이 많이 나타나면 시각 피질을 비난 할 수 있지만 그렇지 않은 경우 무언가를 발견했을 수 있습니다.

— whuber

1

@Russ 감사합니다. 그것은 제가 설명한 잔차 도표가 아니 었습니다. x와 y의 역할이 바뀌 었습니다. 그럼에도 불구하고 유익한 정보입니다. 이분산성은 가장 두드러진 것입니다. 실제로 이분산성은 사라질 것입니다. 그 가설을 무시하고 있습니다. 여기에 쓴 모든 내용은 데이터에 대한 신중하고 강력한 설명의 원래 정신에 있습니다. 모든 이러한 데이터의 기술로서 단일 곡선 조질 아마도 불충분 할 것이다.

— whuber

31

재미있게 놀자!

우선, 나는 그래프 에서 데이터를 긁어 냈습니다.

$X=0.4$ $X$

Y = β_{0} + β_{X} X + β_{c} max (X - θ, 0) + ε

$Y = \beta_{0} + \beta_{X}X + \beta_{\text{c}}\max\left(X-\theta,0\right) + \varepsilon$

계수 추정치는 다음과 같습니다.

Y = 50.9 - 37.7 X - 26.74436 max (X - 0.46, 0)

$Y = 50.9 -37.7X -26.74436\max\left(X-0.46,0\right)$

redoubtable whuber는 강한 선형 관계가 없다고 주장하지만 힌지 항에 의해 암시 된 의 편차 는 의 기울기와 같은 순서에 있습니다 (즉, 37.7). 우리는 강한 비선형 관계가 보이지 않는다는 것에 동의하지 않을 것이다. $Y = 50.9 - 37.7X$ $X$

데이터 재생 시간

해석
(나는 종속 변수로 에만 관심이 있다고 가정 합니다.) 값은 의해 매우 약하게 예측됩니다 (Adjusted- = 0.03). 연관성은 대략 선형이며, 약 0.46에서 기울기가 약간 감소합니다. 잔차는 오른쪽으로 약간 기울어 져 있습니다. 아마도 값의 급격한 하한이기 때문일 것입니다 . 표본 크기가 이면 정규성 위반 을 용인하는 경향이 있습니다. 값에 대한 더 많은 관찰 은 기울기의 변화가 실제인지, 또는 분산이 감소 된 인공물인지를 낮추는 데 도움이됩니다. $Y$ $Y$ $X$ $R^{2}$ $Y$ $N=170$ $X>0.5$ $Y$ 그 범위에서.

그래프로 업데이트 : $\ln(Y)$

(빨간 선은 X에서 ln (Y)의 선형 회귀입니다.)

Russ Lenth의 제안에 따라 그래프로 업데이트되었습니다.

의견 러스 Lenth 썼다 : "나는 당신이 부드럽게 경우이가 보유하고 궁금 대 분포. 기울어 권리입니다." 변환 대 도 대칭 적으로 분포 된 잔차를 갖는 와 사이의 선에 비해 약간 더 잘 맞기 때문에 이것은 상당히 좋은 제안 입니다. 그러나 그의 제안 된 와 선형 힌지 모두 직선으로 설명 되지 않은 (변환되지 않은) 와 의 관계에 대한 선호를 공유합니다 . $\log Y$ $X$ $Y$ $\log Y$ $X$ $Y$ $X$ $\log(Y)$ $X$ $Y$ $X$

— 알렉시스
소스

1

vs. 를 부드럽게하면 이것이 유지되는지 궁금합니다 . 의 분포 는 왜곡되어 있으며 분포를 더 대칭 적으로 만드는 변환은 상징적 null 산점도와 비슷하게 보이지 않을 것이라고 생각합니다.

\log Y

$\log Y$

X

$X$

Y

$Y$

— rvl

1

@Russ 바이 모달 분포가 왜곡되어 로그 변환을 제안하는 것이 일반적입니다. 그러나 여기서 y 분포는 실제로 양봉이며 로그는 아마도 그것을 다시 표현하는 유용한 방법이 아닐 것입니다. 두 성분이 분리 될 때, 하부 성분은 여전히 양으로 치우쳐 있고 제곱근은 대칭 분포를 얻기 위해 변형하기에 적절한 양에 가깝습니다. 제곱근은 상위 그룹의 대칭에 영향을 미치지 않으므로 루트가 좋은 선택 일 수 있음을 나타냅니다. 그러나이 방법으로 바이 모달리티가 해결되지는 않으며이 유형의 부드러운 문제가 있습니다.

— whuber

1

알렉시스, 우리의 대답에서 우리는 정의되지 않은 방식으로 "강한"을 사용하는 것에 대해 유죄입니다. 내가 "약한"을 의미 한 의미는 나의 문구 중 일부에서 암시되었는데, 이는 y 값의 산란에 비해 기울기가 작음을 나타냅니다. 나는 당신의 분석이 그와 관련하여 다른 결론을 도출한다고 생각하지 않습니다. 나는 y에 대한 혼합 모형에 대한 장점이있을 수 있다는 가설을 받아 들일 때주의 할 필요가 있다고 느꼈다. 상위 그룹에서는 실제로 x와 y 사이에 약한 긍정적 인 관계가 있고 하위 그룹에는 관계가없는 것으로 보인다.

— whuber

3

알렉시스, Tukey의 EDA 책은 그 책들로 가득합니다. 더 많은 기술 (수학적 타당성을 갖춘 더 정교함)은 Hoaglin, Mosteller, & Tukey, Robust and Exploratory Data Analysis 이해를 참조하십시오 .

— whuber

2

@rivu 매뉴얼. 10 분 또는 15 분 정상을 차지했습니다. 처음에 각 포인트를 포인터로 배치 한 다음 화살표 키를 사용하여 정확하게 배치하십시오.

— Alexis

21

내 ~~2 ¢~~ 1.5 ¢입니다. 나에게 가장 두드러진 특징은 데이터가 갑자기 Y 범위의 맨 아래에서 갑자기 멈추고 '집단'한다는 것입니다. 나는 두 가지 (잠재적) '클러스터'와 일반적인 부정적인 연관성을 보지만 가장 두드러진 특징은 (잠재적) 바닥 효과 및 상위 저밀도 클러스터는 X 범위의 일부에 대해서만 확장된다는 사실.

'클러스터'는 모호하게 이변 량 정규이므로, 파라 메트릭 정규 혼합 모델이 시도해 볼 수 있습니다. @Alexis의 데이터를 사용하여 세 개의 클러스터가 BIC를 최적화 한다는 것을 알았습니다 . 고밀도 '바닥 효과'는 세 번째 클러스터로 선택됩니다. 코드는 다음과 같습니다.

library(mclust)
dframe = read.table(url("http://doyenne.com/personal/files/data.csv"), header=T, sep=",")

mc = Mclust(dframe)
summary(mc)
# ----------------------------------------------------
#   Gaussian finite mixture model fitted by EM algorithm 
# ----------------------------------------------------
#   
#   Mclust VVI (diagonal, varying volume and shape) model with 3 components:
#   
#   log.likelihood   n df       BIC       ICL
#        -614.4713 170 14 -1300.844 -1338.715
# 
# Clustering table:
#  1  2  3 
# 72 72 26

여기에 이미지 설명을 입력하십시오

이제 우리는 이것으로부터 무엇을 추론 할 것입니까? 나는 그것이 Mclust단지 인간의 패턴 인식이 잘못 되었다고 생각하지 않습니다 . (내가 산점도를 읽었을 수도 있지만) 이것에 대해서는 사후에 의문의 여지가 없습니다 . 나는 내가 흥미로운 패턴이라고 생각하는 것을 보았고 그것을 확인하기로 결정했습니다. 알고리즘이 무언가를 찾은 다음 거기에있을 것으로 생각되는 것만 확인했기 때문에 엄지 손가락이 확실히 스케일에 도달했습니다. 때때로 이것에 대해 완화하기위한 전략을 고안하는 것이 가능할 수도 있지만 ( 여기서 @whuber의 훌륭한 답변 참조 ), 이런 경우에 그러한 프로세스를 어떻게 진행 해야할지 모르겠습니다 . 결과적으로, 나는 많은 소금으로 이러한 결과를 얻습니다.). 다음에 우리가 만날 때 내 고객에 대해 생각하고 토론 할 자료를 제공합니다. 이 데이터는 무엇입니까? 바닥 효과가있을 수 있다는 것은 어떤 의미가 있습니까? 다른 그룹이있을 수 있다는 것이 합리적입니까? 이것이 진짜라면 얼마나 의미 있고 놀랍고 흥미롭고 중요한가? 독립적 인 데이터가 존재하거나 이러한 가능성에 대한 정직한 테스트를 편리하게 수행 할 수 있습니까? 기타.

— gung-복직 모니카
소스

1

+1 탐색 적 분석이 자연스럽게 흥미로운 질문 으로 이어지는 방법을 지적합니다 . 내 대답에서 그 요점을 더 강조했으면 좋겠다. 비록 실제로는 세 개의 별개의 그룹이 있다고 믿도록 (이 시점에서) 사물을 추진한다고 생각하지만, 클러스터 결과는 여전히 x와 y 사이에 부정적인 관계가 있음 을 보고 그 관계를 요약 하는 유효한 방법을 제시합니다 . 자동 클러스터링이 일반적으로 유용한 탐색 도구가 될 수있는 정도에 대해 궁금해졌습니다. 결과를 너무 많이 읽지 않으려는 경우.

— whuber

14

내가 보는 즉시 내가 무엇을 보는지 설명하겠습니다.

의 조건부 분포에 관심이있는 경우 (여기서 가 IV로, 가 DV 로 표시되는 경우 관심이 집중되는 경우 ) 경우 의 조건부 분포 는 상위 그룹 ( 약 70 내지 125 사이, 평균 100 미만의 비트를 의미 함) 및보다 낮은 그룹 (0 내지 약 70 사이, 평균 약 30 정도). 각 모달 그룹 내에서 와의 관계 는 거의 평평합니다. (아래 대략적인 위치 감각으로 추측되는 곳 아래에 빨간색과 파란색 선이 나타납니다) $y$ $x$ $y$ $x\leq 0.5$ $Y|x$ $x$

그런 다음 에서이 두 그룹이 어느 정도 밀도가 높은지를 살펴보면 다음 과 같이 더 말할 수 있습니다. $X$

들면 상위 그룹의 전체 평균 만드는 완전히 사라 하강하고, 약 0.2 미만, 하부 그룹은 전체 평균 이상을, 더 적은 밀도보다 위에있다. $x>0.5$ $x$

이 두 효과 사이에서, 에 대해 감소하는 것처럼 보이지만 중심에서 넓고 평평한 영역을 가지기 때문에 두 가지 사이에 명백한 음의 (그러나 비선형) 관계를 유도합니다 . (보라색 점선 참조) $E(Y|X=x)$ $x$

여기에 이미지 설명을 입력하십시오

의심의 여지없이 와 가 무엇인지 아는 것이 중요 할 것입니다 . 왜냐하면 대한 조건부 분포 가 범위의 대부분에 걸쳐 이봉이 될 수 있는지가 더 명확 할 수 있기 때문입니다 (실제로 두 그룹이 있음이 분명해질 수도 있습니다 에서의 분포는 에서 명백한 감소 관계를 유도한다 . $Y$ $X$ $Y$ $X$ $Y|x$

이것이 바로 "눈으로"점검 한 결과입니다. 기본적인 이미지 조작 프로그램 (선을 그리는 것과 같은)에서 약간의 장난으로 우리는 더 정확한 숫자를 알아낼 수 있습니다. 우리가 데이터를 디지털화하면 (때로는 약간 지루한 경우에 적절한 도구를 사용하여 매우 간단합니다), 우리는 그런 종류의 인상에 대해 더 정교한 분석을 수행 할 수 있습니다.

이러한 종류의 탐색 적 분석은 몇 가지 중요한 질문 (때로는 데이터를 가지고 있지만 플롯 만 보여준 사람을 놀라게하는 질문)으로 이어질 수 있지만 그러한 검사를 통해 모델이 선택되는 정도에 대해주의를 기울여야합니다. 플롯의 모양을 기반으로 선택한 모델을 적용한 다음 동일한 데이터에서 해당 모델을 추정하면 동일한 데이터에서보다 공식적인 모델 선택 및 추정을 사용할 때 발생하는 것과 동일한 문제가 발생하는 경향이 있습니다. [이것은 탐색 적 분석의 중요성을 전혀 부정하는 것이 아닙니다. 단지 우리가 어떻게 진행 하는지에 관계없이 분석의 결과에주의해야 합니다. ]

Russ의 의견에 대한 답변 :

[나중에 편집 : 명확히하기 위해-나는 일반적인 예방책으로 취한 Russ의 비판에 광범위하게 동의하며, 실제로 내가 볼 수있는 것보다 더 많이 볼 가능성이 있습니다. 나는 다시 돌아와서 우리가 일반적으로 눈으로 식별하는 가짜 패턴과 최악의 상황을 피할 수있는 방법에 대한보다 광범위한 주석으로 편집 할 계획입니다. 나는 또한이 특별한 경우에 아마도 그것이 의심스럽지 않다고 생각하는 이유에 대한 정당성을 추가 할 수 있다고 생각합니다 (예 : 회귀도 또는 0 차 커널 스무스를 통해 물론 테스트 할 데이터가 더 많지 않습니다. 예를 들어, 샘플이 대표적이지 않으면 리샘플링조차도 우리를 지금까지 이끌어냅니다.]

나는 우리가 가짜 패턴을 보는 경향이 있다는 것에 완전히 동의합니다. 여기와 다른 곳에서 자주하는 것이 요점입니다.

예를 들어, 잔차 그림이나 QQ 그림을 볼 때 상황이 알려진 곳 (사물이 있어야하고 가정이 유지되지 않는 곳)에 많은 패턴을 생성하여 패턴의 양을 명확하게 파악하는 것이 좋습니다. 무시되었습니다.

다음 은 플롯이 얼마나 이례적인지 알기 위해 QQ 플롯이 24 개의 다른 것 (가정을 만족시키는) 중에 배치 된 예 입니다. 이런 종류의 운동은 모든 작은 흔들림을 해석함으로써 자신을 속이는 것을 피하는데 도움이되기 때문에 중요합니다. 대부분은 단순한 소음 일 것입니다.

몇 가지 요점을 적용하여 노출을 변경할 수있는 경우 노이즈만으로 생성 된 노출에 의존 할 수 있다고 종종 지적합니다.

[그러나, 몇 점이 아닌 많은 점에서 명백한 경우에는 존재하지 않는 것을 유지하기가 더 어렵습니다.]

whuber의 답변에있는 디스플레이는 내 인상을 지원합니다. 가우시안 블러 플롯은 의 이형성 경향과 동일한 경향을 나타 냅니다. $Y$

확인할 데이터가 더 이상 없으면 최소한 리샘플링에서 살아남는지 (2 변량 분포를 부트 스트랩하고 거의 항상 존재하는지 확인) 노출이 분명하지 않은 다른 조작을 살펴볼 수 있습니다. 단순한 소음이라면

1) 명백한 바이 모달리티가 왜도 + 잡음 이상인지 확인하는 한 가지 방법이 있습니다. 커널 밀도 추정치에 표시됩니까? 다양한 변환에서 커널 밀도 추정값을 플롯해도 여전히 표시됩니까? 여기서는 기본 대역폭의 85 %에서 더 큰 대칭으로 변환합니다 (상대적으로 작은 모드를 식별하려고 시도하고 기본 대역폭이 해당 작업에 최적화되어 있지 않기 때문에).

여기에 이미지 설명을 입력하십시오

플롯은 , 및 입니다. 수직선은 , 및 입니다. 바이 모달리티는 줄어들지 만 여전히 잘 보입니다. 원래 KDE에서 매우 명확하기 때문에 거기에 있음을 확인하는 것 같습니다. 두 번째 및 세 번째 플롯은 적어도 다소 변형에 강합니다. $Y$ $\sqrt{Y}$ $\log(Y)$ $68$ $\sqrt{68}$ $\log(68)$

2) "소음"이상인지 확인하는 또 다른 기본 방법이 있습니다.

1 단계 : Y에서 클러스터링 수행

여기에 이미지 설명을 입력하십시오

2 단계 : 에서 두 그룹으로 나누고 두 그룹을 개별적으로 클러스터링하여 비슷한 지 확인합니다. 두 반쪽에 아무 일도 일어나지 않는다면 모든 것을 똑같이 나눌 것으로 기 대해서는 안됩니다. $X$

여기에 이미지 설명을 입력하십시오

점이있는 점은 이전 그림의 "모든 세트"클러스터와 다르게 클러스터되었습니다. 나중에 좀 더하겠습니다.하지만 아마도 그 위치 근처에 수평 "분할"이있을 것 같습니다.

회귀도 또는 Nadaraya-Watson 추정기 (회귀 함수의 로컬 추정치 ) 를 사용해 보겠습니다 . 아직 생성하지는 않았지만 어떻게 진행되는지 볼 수 있습니다. 나는 아마도 데이터가 거의없는 끝을 제외시킬 것입니다. $E(Y|x)$

3) 편집 : 너비 0.1의 빈에 대한 회귀도는 다음과 같습니다 (앞에서 제안한 것처럼 끝 부분 제외).

여기에 이미지 설명을 입력하십시오

이것은 내가 줄거리에 대한 원래 인상과 완전히 일치합니다. 그것은 내 추론이 옳았다는 것을 증명하지는 않지만 내 결론은 회귀 도와 동일한 결과에 도달했습니다.

줄거리에서 본 결과와 그에 따른 추론이 의심 스럽다면 아마도 이런 식으로 를 식별하는 데 성공하지 않았을 것입니다 . $E(Y|x)$

(다음으로 시도 할 것은 Nadayara-Watson 추정기입니다. 그러면 시간이 있으면 어떻게 리샘플링되는지 볼 수 있습니다.)

4) 나중에 편집 :

Nadarya-Watson, 가우스 커널, 대역폭 0.15 :

여기에 이미지 설명을 입력하십시오

다시 말하지만, 이것은 나의 초기 인상과 놀랍게도 일치합니다. 10 개의 부트 스트랩 리 샘플을 기반으로 한 NW 추정기는 다음과 같습니다.

여기에 이미지 설명을 입력하십시오

몇 가지 재 샘플이 전체 데이터를 기반으로 설명을 명확하게 따르지는 않지만 광범위한 패턴이 있습니다. 우리는 왼쪽 수준의 경우가 오른쪽보다 덜 확실하다는 것을 알 수 있습니다. 소음 수준 (부분적으로 약간의 관찰, 부분적으로 넓은 확산에서)은 평균이 실제로 더 높다고 주장하기가 쉽지 않습니다. 중앙보다 왼쪽.

내 전반적인 인상은 아마도 단순히 자신을 속이는 것이 아니라는 것이다. 왜냐하면 다양한 측면들이 단순히 잡음이 있다면 그것들을 가리는 경향이있는 다양한 도전들 (스무딩, 변환, 하위 그룹으로 나누기, 리샘플링)에 적당히 잘 나타나기 때문이다. 반면에, 초기 인상과 광범위하게 일치하는 효과는 상대적으로 약하며, 왼쪽에서 중앙으로 이동하는 기대에 대한 실제 변화를 주장하기에는 너무 많은 것일 수 있습니다.

— 글렌 _b
소스

1

내가 한 대답에 의문을 제기하지만,이 사람은 내가이없는 물건을 찾는 말에 확신

— RVL

1

나는 하향 투표를 취소하려고 노력했지만, 나는 할 수 없다고 생각합니다. 내가 당신의 대답에 정말로 동의하지 않는다고해서 반드시 그것이 토론에 기여하지 않는다는 것을 의미하지는 않습니다. 다운 투표를 사용하는 방법을 잘 모르겠으며 개인적인 의미는 없습니다 .p

— rvl

4

@Russ는 downvote에 대해 걱정하지 않으며, 내가 다루어야 할 것이 있다는 신호 외에는 중요하지 않습니다. 가짜 인터넷 포인트에 대해 걱정하는 것보다 우리가 동의하지 않는 이유를 알아내는 것이 훨씬 더 중요합니다. 당신은 토론 할 가치가있는 이의를 가지고 있으며, 나는이 짧은 토론조차하기 위해 공감할 10 배를 기꺼이 지불합니다. 동의하지 않을 때마다 이유를 말씀해 주시면 저에게 공감하십시오. 그것은 무언가를 배울 수있는 기회입니다.

— Glen_b

1

@RussLenth 하향 투표를 다시 클릭하여 하향 투표 (또는 상향 투표)를 취소 할 수 있습니다. 투표 위치가 확실하지 않은 경우 아래쪽 (또는 위쪽) 화살표 위에 커서가 표시됩니다.

— Alexis

4

+1 실제로이 분석을 많이했지만 그 결과로 내 대답을 과도하게 확장하고 싶지 않았습니다. 당신은 그것을 명확하고 읽기 쉽고 설득력있는 형태로 제시하는데 큰 일을했습니다. 또한 내가 한 것은 y에 대해 (실제로 매끄럽게) x를 회귀시키는 것입니다 (y의 "종속성"으로 특성화 되었음에도 불구하고) : 결과는 관계의 비선형 성을 평가하는 데 도움이된다고 생각합니다. 하나 또는 두 그룹으로 취급해야합니다.

— whuber

13

OK 사람들, 나는 Alexis의 리드를 따라 데이터를 캡처했습니다. 다음은 대 의 도표입니다 . $\log y$ $x$ log (Y) 대 X의 도표

그리고 상관 관계 :

> cor.test(~ x + y, data = data)

    Pearson's product-moment correlation

data:  x and y
t = -2.6311, df = 169, p-value = 0.009298
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.33836844 -0.04977867
sample estimates:
       cor 
-0.1983692 

> cor.test(~ x + log(y), data = data)

    Pearson's product-moment correlation

data:  x and log(y)
t = -2.8901, df = 169, p-value = 0.004356
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.35551268 -0.06920015
sample estimates:
       cor 
-0.2170188

상관 관계 테스트는 음의 의존성을 나타냅니다. 나는 어떤 이질성에 대해서도 확신하지 못합니다 (그러나 그것이 존재하지 않는다고 확신하지 않습니다).

[@whuber가 를 예측하려고했던 지점을 간과했기 때문에 이전 버전에서 가지고 있던 잔차 그림을 제거했습니다 .] $X|Y$

— rvl
소스

2

우연히 ... 그것은 단지 나에게 log (Y) 변환을 종속으로 취하는 것이 여전히 비선형 관계를 찾는 것과 동등하다는 것입니다 ... log (Y)는 내가 가지고있는 힌지 함수보다 잔차가 더 좋습니다 내 대답은 ...하지만 결론 중 하나는 비슷합니다 와 의 관계는 보다 더 나은 기능적 표현을 가지고 있습니다.

Y

$Y$

X

$X$

Y = a + b X

$Y=a+bX$

— Alexis

잔차 줄거리 감사합니다, 러스 이것은 요청이 아니지만, 내가 관심이 있거나 GoF를 탐색하는 데 더 큰 가치가있는 것은 x 가이 방법이 아닌 y 의 함수로서의 관계라는 것을 지적하고 싶습니다 . 상기 찾고 X의 같은 우리의 비선형 다시 표현을 통해 뭔가를 배울 수 있는지 여부와 같은 몇 가지 추가 (어쩌면 유용한) 질문에 지금까지 제기하지, 잔류 프롬프트 X (예, 우리가 할 수있는이); 두 인구 가설 (예 : 다시)과 상관없이 내 말의 견고성 (매우 강력 함)에 대해 많은 것을 말할 수 있는지 여부.

— whuber

글쎄, 아마도 당신은 그것에 대한 잔차 플롯을하고 싶을 것입니다. 나는 다른 것들로 넘어 가고 있습니다.

— rvl

5

Russ Lenth는 Y 축이 로그인 경우 그래프가 어떻게 보이는지 궁금했습니다. Alexis는 데이터를 스크랩하여 로그 축으로 쉽게 그릴 수 있습니다.

여기에 이미지 설명을 입력하십시오

로그 스케일에서는 이형성 또는 경향에 대한 힌트가 없습니다. 물론 로그 스케일이 의미가 있는지 여부는 데이터가 나타내는 세부 사항에 따라 다릅니다. 마찬가지로, whuber가 제안한 것처럼 데이터가 두 모집단의 샘플링을 나타내는 것으로 생각하는 것이 합리적인지 여부는 세부 사항에 따라 다릅니다.

부록 : 아래 의견을 바탕으로 수정 된 버전은 다음과 같습니다.

여기에 이미지 설명을 입력하십시오

— 하비 모툴 스키
소스

Russ Lenth가 몇 분 안에 글을 올렸습니다. 나는 그를 보지 못했거나 내 것을 게시하지 않았을 것입니다.

— Harvey Motulsky

Y

$Y$

9

이 그래픽은 시각화 선택이 좋지 않은 경우의 흥미로운 예를 보여줍니다. 종횡비를 줄이고 y 축을 필요한만큼 두 배 이상 연장하면 소프트웨어가 수직 분산의 시각적 인상을 자동으로 억제합니다. 시청자가 많은 것을보기 어렵게합니다. 그렇기 때문에 좋은 탐색이 그래픽 표현에 의해 유도 되기는하지만 (a) 데이터 거동을 억제하지 않고 공개 하는 적절한 시각화 방법을 사용해야 하며 (b) 추가 분석을 통해이를 지원하는 적절한 시각화 방법을 사용해야 합니다 (예 : @Glen_b의 게시물 참조). .

— whuber

문제의 Y 범위에 대해 log base 2는 Y 축에 대해 합리적인 값 범위를 갖는 것이 더 간단한 선택입니다. 또한 현재 데이터와 일치하지 않는 1과 1,000의 멋진 값에서 상위 범위를 방지합니다.

— Andy W

1

글쎄, 당신 말이 맞아요, 관계는 약하지만 제로가 아닙니다. 긍정적 인 것 같아요. 그러나 단순한 선형 회귀 (OLS 회귀)를 실행하고 알아 내십시오! 거기에 관계가 무엇인지 알려주는 xxx의 기울기가 나타납니다. 그리고 네, 결과를 편향시킬 수있는 이상 치가 있습니다. 처리 할 수 있습니다. Cook의 거리를 사용하거나 관계에 대한 특이 치의 영향을 추정하기 위해 레버리지 그림을 만들 수 있습니다.

행운을 빕니다

— 헬기 구 드문 손
소스

DGP가 비선형이 아니라 실제 이상치라고 생각하는 이유는 무엇입니까?

— abaumann

글쎄, 그럴 수도 있다고 생각합니다. 그러나 말하기가 어렵습니다. 점들이 너무 흩어져 있습니다.

— Helgi Guðmundsson

왜 OLS와 선형성을 가정합니까? 비모수 적 회귀 FTW! :)

— Alexis

1

@Alexis는 도메인 이론 또는 모델 검사에 의해 선형성과 같은 가정을 정당화해야한다는 점을 강조합니다. 그러나 이러한 값이 발생 하는 이유를주의 깊게 고려하지 않고 이상 값 을 완전히 삭제 하는 것이 통계 분석에서 매우 일반적인 오류 라고 생각합니다 .

— abaumann

그렇습니다. 잘못된 값과 같은 타당한 이유없이 특이 치를 삭제할 수 없습니다. 그러나 변환은 가치 분포를 더 잘 맞도록 조정하고 이상 치를 줄 이도록 도와줍니다. 그리고 네, 동의합니다. 정당한 이유없이 특이 치를 삭제하는 것이 일반적이라고 생각합니다.

— Helgi Guðmundsson

1

X / Y 데이터 포인트의 방향과 분산을 확인하여 질문에 대한 직관을 이미 제공했습니다. 요컨대 당신이 맞습니다.

형식적인 측면에서 방향이라고 할 수있다 상관 기호 와 같은 분산 분산 . 이 두 링크는 두 변수 간의 선형 관계 를 해석하는 방법에 대한 자세한 정보를 제공합니다 .

— 로버트 큐브릭
소스

0

이것은 집안일입니다. 따라서 귀하의 질문에 대한 답변은 간단합니다. X에서 Y의 선형 회귀를 실행하면 다음과 같은 결과가 나타납니다.

    Coefficient Standard Er t Stat
C   53.14404163 6.522516463 8.147781908
X   -44.8798926 16.80565866 -2.670522684

따라서 t- 통계량은 99 % 신뢰도로 X 변수에서 유의합니다. 따라서 변수를 일종의 관계가있는 것으로 선언 할 수 있습니다.

선형인가요? 변수 X2 = (X-mean (X)) ^ 2를 추가하고 다시 회귀하십시오.

    Coefficient Stand Err   t Stat
C   53.46173893 6.58938281  8.11331508
X   -43.9503443 17.01532569 -2.582985779
X2  -44.601130  114.1461801 -0.390736951

X의 계수는 여전히 중요하지만 X2는 중요하지 않습니다. X2는 비선형 성을 나타낸다. 따라서 관계가 선형 인 것처럼 보입니다.

위는 집에 일한 것입니다.

실제로는 상황이 더 복잡합니다. 이것이 한 클래스의 학생들에 대한 데이터라고 상상해보십시오. Y-파운드 단위의 벤치 프레스, X-벤치 프레스 전에 호흡을 유지 한 시간 (분). 학생들의 성별을 묻습니다. 재미를 위해서 다른 변수 Z를 추가하고 모든 Y <60에 대해 Z = 1 (여자)이고 Y> = 60 일 때 Z = 0 (소년)이라고 가정 해 봅시다. 세 가지 변수를 사용하여 회귀 분석을 실행하십시오.

    Coefficient Stand Error t Stat
C   92.93031357 3.877092841 23.969071
X   -6.55246715 8.977138488 -0.72990599
X2  -43.6291362 59.06955097 -0.738606194
Z   -63.3231270 2.960160265 -21.39179009

어떻게 된 거예요?! X와 Y 사이의 "관계"가 사라졌습니다! 아, 혼란스러운 변수 , 성별 로 인해 관계가 의심 스러운 것 같습니다 .

이야기의 도덕은 무엇입니까? "관계"를 "설명"하거나 처음에이를 설정하려면 데이터가 무엇인지 알아야합니다. 이 경우 학생의 신체 활동에 대한 데이터는 즉시 성별을 요구하며 성별 변수를 얻지 않고 데이터를 분석하지 않아도됩니다.

반면에 산점도를 "설명"하라는 메시지가 표시되면 아무 문제가 없습니다. 상관 관계, 선형 피팅 등. 집안일의 경우 위의 두 단계만으로 충분해야합니다. X (관계) 계수, X ^ 2 (선형성) 계수를 살펴보십시오. X 변수의 평균을 제거해야합니다 (평균을 뺍니다).

— 악사 칼
소스