십진법을 사용하여 상관 관계를 통계적으로 유효한 접근 방법으로 찾고 있습니까?


10

상관되지 않은 1,449 개의 데이터 포인트 샘플이 있습니다 (r- 제곱 0.006).

데이터를 분석 할 때 독립 변수 값을 양수 그룹과 음수 그룹으로 나누면 각 그룹의 종속 변수 평균에 큰 차이가있는 것으로 나타났습니다.

독립 변수 값을 사용하여 점을 10 개의 빈 (분위수)으로 나누면, 십진수와 평균 종속 변수 값 (r- 제곱 0.27) 사이에 더 강한 상관 관계가있는 것으로 보입니다.

통계에 대해 잘 모르므로 여기 몇 가지 질문이 있습니다.

  1. 이것이 유효한 통계적 접근입니까?
  2. 가장 많은 수의 용지함을 찾는 방법이 있습니까?
  3. Google에 접근 할 수 있도록이 방법에 대한 적절한 용어는 무엇입니까?
  4. 이 방법에 대해 배울 수있는 소개 자료는 무엇입니까?
  5. 이 데이터에서 관계를 찾는 데 사용할 수있는 다른 방법은 무엇입니까?

다음은 참조 용 Decile 데이터입니다. https://gist.github.com/georgeu2000/81a907dc5e3b7952bc90

편집 : 다음은 데이터 이미지입니다. 산업 모멘텀은 독립 변수이며, 진입 점 품질은 종속적입니다

산업 모멘텀은 독립 변수이며, 진입 점 품질은 종속적입니다


바라건대 내 답변 (특히 답변 2-4)이 의도 된 의미로 이해되기를 바랍니다.
Glen_b-복지 주 모니카

귀하의 목적이 독립과 종속 관계의 관계 양식을 탐색하는 것이라면 이것은 훌륭한 탐색 기술입니다. 통계 학자에게 불쾌감을 줄 수 있지만 항상 업계에서 사용됩니다 (예 : 신용 위험). 예측 모델을 작성하는 경우 기능 엔지니어링은 정상입니다. 훈련 세트에서 수행 한 경우 올바르게 검증됩니다.
B_Miner

결과가 "적절하게 검증"되었는지 확인하는 방법에 대한 리소스를 제공 할 수 있습니까?
B Seven 7

"상관되지 않음 (r- 제곱 0.006)"은 이들이 선형 적으로 상관 되지 않음을 의미한다 . 아마도 다른 상관 관계가있을 수 있습니다. 원시 데이터를 도표로 작성 했습니까 (종속 독립)?
Emil Friedman

데이터를 플로팅했지만 질문에 추가하려고 생각하지 않았습니다. 정말 좋은 생각입니다! 업데이트 된 질문을 참조하십시오.
B Seven 7

답변:


9

0. 상관 관계 (0.0775)는 작지만 (통계적으로) 0과 크게 다릅니다. 즉, 실제로 상관 관계가있는 것처럼 보이고 매우 작거나 약합니다 (해당 관계에 많은 노이즈가 있음).

1. 구간 내에서 평균을 구하는 것은 데이터의 변동 ( 평균의 표준 오차에 대한 효과)을 줄임 으로써 약한 상관 관계를 인위적으로 부 풀릴 수 있음을 의미합니다. 또한 (어떤) 관련 문제를 참조하십시오 .σ/n

2. 빈이 적을수록 더 많은 데이터가 평균화되고 소음이 줄어드는 것을 의미하지만 평균이 상당히 일정하지 않기 때문에 평균이 각 빈에 "후지"가 커지는 것은 트레이드 오프입니다. 선형성 및 분포를 가정하여 상관 관계를 최적화하기위한 공식을 도출 할 수 있지만 , 데이터에서 노이즈의 다소 악용 가능한 영향을 완전히 고려하지는 않습니다. 쉬운 방법은 원하는 것을 얻을 때까지 다양한 다양한 빈 경계를 시험해 보는 것입니다. 구간 너비와 구간 출처를 변경하는 것을 잊지 마십시오. 이 전략은 때때로 밀도에 놀랍게도 유용 할 수 있으며, 때때로 이러한 이점은 기능적 관계로 이어질 수 있습니다.x정확히 당신이 원하는 결과 .

예. 아마 시작 이 검색 아마도 동의어를보십시오.

4. 이곳 은 시작하기에 좋은 곳입니다. 비 통계학자를 대상으로하는 매우 인기있는 책입니다.

5. (더 진지하게 :) 관계를 조사하는 한 가지 방법으로 스무딩 (예 : 로컬 다항식 회귀 / 커널 스무딩 등)을 제안합니다. 그것은 당신이 원하는 것에 정확히 달려 있지만, 데이터 준거 문제를 피하는 한 관계의 형태를 모른다면 유효한 접근법 일 수 있습니다.


인기있는 인용문이 있는데, 그 인용자는 Ronald Coase 인 것으로 보입니다 .

"데이터를 충분히 고문하면 자연은 항상 고백 할 것이다."


포인트 1과 2는 OP의 접근법이 유효한 통계적 접근법 이 아닌 이유를 잘 설명 하지만 포인트 0 (약한 상관 관계)을 설득하는 데 유용한 휴리스틱입니다.
Assad Ebrahim

9

탐색 도구를 사용하면 도움이 될 것입니다. 데이터를 x 좌표의 십진수로 나누는 것이 그 정신으로 수행 된 것으로 보입니다. 아래 설명 된대로 수정하면 완벽하게 접근 할 수 있습니다.

많은 이변 량 탐색 방법이 발명되었습니다. John Tukey ( EDA , Addison-Wesley 1977)가 제안한 간단한 것은 그의 "방황 구조도"입니다. x 좌표를 빈으로 자르고 각 빈의 중앙값에 해당 y 데이터의 세로 상자 그림을 세우고 상자 그림의 주요 부분 (중앙값, 경첩 등)을 곡선에 연결합니다 (선택적으로 스무딩). 이러한 "방랑자 추적"은 데이터의 이변 량 분포를 보여주고 상관 관계, 선형성, 특이 치 및 한계 분포의 즉각적인 시각적 평가뿐만 아니라 모든 비선형 회귀 함수의 강력한 추정 및 적합도 평가를 가능하게합니다. .

이 아이디어에 Tukey는 boxplot 아이디어와 일치하여 데이터 분포를 조사하는 좋은 방법은 중간에서 시작하여 바깥쪽으로 작업하여 데이터 양을 절반으로 줄이는 것입니다. 즉, 빈 사용할 필요는 점에서 분위수를 반영해야 대신 등 간격 분위수하게 절단 할 수 있지만 및 에 대한 .2k12kk=1,2,3,

다양한 빈 모집단을 표시하기 위해 각 상자 그림의 너비를 나타내는 데이터 양에 비례하게 만들 수 있습니다.

결과 방황 회로도는 다음과 같습니다. 데이터 요약에서 개발 된 데이터는 배경에서 회색 점으로 표시됩니다. 이 위에 방황 회로도가 그려졌으며 5 개의 흔적이 색으로 표시되어 있고 상자 그림 (표시된 이상 값 포함)이 흑백으로 그려져 있습니다.

그림

0에 가까운 상관 관계의 특성은 즉시 명확 해집니다. 데이터가 왜곡됩니다. 에서 범위의 중심 근처 에서 강한 양의 상관 관계가 있습니다. 극단적 인 값에서 이러한 데이터는 전체적으로 음의 경향이있는 곡선 관계를 나타냅니다. 순 상관 계수 ( 이 데이터의 경우 )는 0에 가깝습니다. 그러나 "거의 상관 관계가 거의 없음"또는 "중요하지만 상관 관계가 낮음"으로 해석하는 것은 평균적으로 온도가 편안했습니다. 때로는 하나의 숫자로 상황을 설명하지 않을 수도 있습니다.x=4x=40.074

비슷한 목적을 가진 대안적인 탐색 도구에는 다양한 범위의 데이터를 사용하여 데이터의 윈도우 화 된 Quantile의 강력한 스무딩과 Quantile 회귀의 적합이 포함됩니다. 이러한 계산을 수행 할 수있는 소프트웨어가 준비되어 있기 때문에 방황 회로도 추적보다 실행하기가 쉬워졌지만, 구성의 단순성, 해석의 용이성 및 광범위한 적용 가능성은 동일하지 않습니다.


다음 R코드는 그림을 생성했으며 거의 ​​또는 전혀 변경하지 않고 원본 데이터에 적용 할 수 있습니다. (에 의해 bplt호출되는 경고는 무시하십시오 bxp. 그릴 특이 치가 없으면 불평합니다.)

#
# Data
#
set.seed(17)
n <- 1449
x <- sort(rnorm(n, 0, 4))
s <- spline(quantile(x, seq(0,1,1/10)), c(0,.03,-.6,.5,-.1,.6,1.2,.7,1.4,.1,.6),
            xout=x, method="natural")
#plot(s, type="l")
e <- rnorm(length(x), sd=1)
y <- s$y + e # ($ interferes with MathJax processing on SE)
#
# Calculations
#
q <- 2^(-(2:floor(log(n/10, 2))))
q <- c(rev(q), 1/2, 1-q)
n.bins <- length(q)+1
bins <- cut(x, quantile(x, probs = c(0,q,1)))
x.binmed <- by(x, bins, median)
x.bincount <- by(x, bins, length)
x.bincount.max <- max(x.bincount)
x.delta <- diff(range(x))
cor(x,y)
#
# Plot
#
par(mfrow=c(1,1))
b <- boxplot(y ~ bins, varwidth=TRUE, plot=FALSE)
plot(x,y, pch=19, col="#00000010", 
     main="Wandering schematic plot", xlab="X", ylab="Y")
for (i in 1:n.bins) {
  invisible(bxp(list(stats=b$stats[,i, drop=FALSE],
                     n=b$n[i],
                     conf=b$conf[,i, drop=FALSE],
                     out=b$out[b$group==i],
                     group=1,
                     names=b$names[i]), add=TRUE, 
                boxwex=2*x.delta*x.bincount[i]/x.bincount.max/n.bins, 
                at=x.binmed[i]))
}

colors <- hsv(seq(2/6, 1, 1/6), 3/4, 5/6)
temp <- sapply(1:5, function(i) lines(spline(x.binmed, b$stats[i,], 
                                             method="natural"), col=colors[i], lwd=2))

@EngrStudent 코드를 실행하기 전에이 게시물의 텍스트를 읽으십시오. 그 경고에 대해 언급하고 설명합니다.
whuber

이 벡터가 어디에서 왔는지 이해하지 못하며 c(0,.03,-.6,.5,-.1,.6,1.2,.7,1.4,.1,.6), 생성되고 데이터에 의존 x합니까? 당신은 언급 2^*(-k)하지만 이것은 관련이 없습니다.
Maximilian

@Max 그 벡터는이 특정 예제를 생성합니다.
whuber

알았어,하지만 당신은 어떻게 수치들을 처리 했습니까? 이것은 분명히 잘못되었습니다 :k <- 1:11; ifelse(quantile(g, seq(0,1,1/10))>0, 2^(-k), 1-2^(-k))
Maximilian

@Max "명확하게 잘못되었다"는 말의 의미를 짐작할 수 없습니다. 당신은 내 코드를 언급 할 수 없습니다 : 수표로, 나는 그것을 다시 실행하고 그림을 모든 세부 사항으로 재현했습니다.
whuber

6

나는 비닝이 문제에 대한 과학적 접근이라고 믿지 않습니다. 정보를 잃고 임의적입니다. 순위 (일반; 반모 수) 방법이 훨씬 우수하며 정보를 잃지 않습니다. 비록 하나가 십진 비닝에 정착하더라도, 그 방법은 데이터에 관계가있는 경우 양자화에 사용되는 많은 수의 정의 때문에 다른 방법에 의해 여전히 임의적이고 재현 불가능하다. 위의 멋진 데이터 고문 의견에서 언급했듯이 Howard Wainer는 긍정적 인 연관을 생성 할 수있는 빈을 찾는 방법과 동일한 데이터 세트에서 부정적인 연관을 생성 할 수있는 빈을 찾는 방법을 보여주는 훌륭한 논문을 가지고 있습니다.

 @Article{wai06fin,
   author =          {Wainer, Howard},
   title =       {Finding what is not there through the unfortunate
    binning of results: {The} {Mendel} effect},
   journal =     {Chance},
   year =        2006,
   volume =      19,
   number =      1,
   pages =       {49-56},
   annote =      {can find bins that yield either positive or negative
    association;especially pertinent when effects are small;``With four
    parameters, I can fit an elephant; with five, I can make it wiggle its
    trunk.'' - John von Neumann}
 }

이것이 내가 의심 한 것입니다. 다른 수의 구간을 선택하면 원하는 것을 표시하기위한 최상의 상관 관계를 찾을 수 있습니다. 그러나 결과는 재현 가능하거나 과학적으로 유효하지 않습니다. 순위에 대한 소개 리소스를 알고 있습니까?
B 일곱 7

3
이것은 지나치게 극단적 인 입장 인 것 같습니다. 물론 순위 기반 방법도 정보를 잃습니다. 실제 값에 대한 모든 정보를 버립니다. 정보 손실이 우려되는지에 대한 질문은 왜 분석이 수행 되는가에 달려 있습니다 . 그것이 발견과 탐험을위한 것이라면, 다양한 가이드 방식의 비닝이 좋은 일을 할 수 있지만 모든 등급을 대체하면 관계가 모호 해지고 왜곡 될 수 있습니다. 확인 또는 가설 테스트를위한 것이면 귀하의 의견이 더 일반적으로 적용 가능하고 방어 적입니다.
whuber

2
나는 그것에 동의하지 않습니다. 순위 기반 방법에 의해 손실 된 정보 유형은 최소이며 (예 : 가우시안 잔차의 경우 ), 더 많은 가정이 포함 된 방법에 비해 정보 를 얻을 수 있습니다 . 반모 수 모델 (예 : 비례 승산 모델)을 사용하여 의 평균 및 Quantile을 추정하는 것은 어렵지 않습니다. . 정보 손실은 탐색 중 (중요한 것을 놓칠 수 있음) 또는 공식 분석 (전력 및 정밀 손실 및 임의성) 여부에 관계없이 거의 항상 나쁜 것입니다. π3πY|X
Frank Harrell

2

관측 된 X ( "엔트리 포인트 품질")를 기준으로 데이터를 십 분위수로 분할하는 것은 X와 Y 모두 오류가 발생할 수있는 상황에 대해 Wald에 의해 처음 제안되고 나중에 다른 방법에 의해 제안 된 기존 방법의 일반화로 보입니다. (Wald는 데이터를 두 그룹으로 나누었습니다. Nair & Shrivastava와 Bartlett은 데이터를 세 그룹으로 나눕니다.) Hoaglin, Mosteller 및 Tukey (Wiley, 1983)에 의해 편집 된 강력하고 탐색적인 데이터 분석 이해의 5C 섹션에 설명되어 있습니다. 그러나 그 이후로 "측정 오류"또는 "변수 모델 오류"에 대한 많은 작업이 수행되었습니다. 내가 본 교과서는 측정 오류 : John Buonaccorsi의 모델, 방법 및 응용 프로그램입니다 (CRC Press,

산점도를 사용하면 두 관측치가 모두 랜덤 변수이고 각각에 측정 오류가 있는지 여부를 알 수 없기 때문에 상황이 다소 다를 수 있습니다. 변수는 무엇을 나타 냅니까?


진입 점 품질은 주어진 시점에 단기적으로 주식이 얼마나 많이 상승 또는 하락 하는지를 나타냅니다. Industry Momentum은 같은 시점에 주식에 대해 업계에서 "모멘텀"을 측정 한 것입니다. 가설은 산업 모멘텀과 주식의 미래 가격 사이에 상관 관계가 있다는 것입니다.
B Seven 7

1
우리는 일반적으로 수직 축에 응답을 넣습니다. 육안 검사는 실제 상관 관계가 있더라도 진입 점 품질의 변화로 인해 이것이 쓸모가 없다고 제안합니다. 그러나 주가를 다루기 때문에 시계열이 관련되어 있기 때문에 상황이 더욱 복잡해집니다.
Emil Friedman

2

localgauss 패키지가 이것에 매우 유용하다는 것을 알았습니다. https://cran.r-project.org/web/packages/localgauss/index.html

패키지 내용물

로컬 가우스 파라미터를 추정하고 시각화하기위한 계산 루틴. 로컬 가우스 파라미터는 이변 량 데이터 내에서 비선형 의존성을 특성화하고 테스트하는 데 유용합니다.

예:

library(localgauss)
x=rnorm(n=1000)
y=x^2 + rnorm(n=1000)
lgobj = localgauss(x,y)
plot(lgobj)

결과:

여기에 이미지 설명을 입력하십시오

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.