이분법과 연속 변수의 상관 관계


10

이분법과 연속 변수 사이의 상관 관계를 찾으려고합니다.

이것에 대한 나의 기초 연구에서 나는 독립적 인 t- 검정을 사용해야한다는 것을 발견했으며 그에 대한 전제 조건은 변수의 분포가 정상이어야한다는 것입니다.

나는 정규성을 테스트하기 위해 Kolmogorov-Smirnov 테스트를 수행했으며 연속 변수가 비정규이며 비대칭 적이라는 것을 알았습니다 (약 4,000 데이터 포인트).

나는 모든 변수 범위에 대해 Kolmogorov-Smirnov 테스트를 수행했습니다. 그것들을 그룹으로 나누어 테스트해야합니까? 즉, risk level( 0= 위험하지 않음, 1= 위험 함) 및 콜레스테롤 수치를 가지고 있다면 다음과 같이해야합니다.

  • 그들을 두 그룹으로 나눕니다.

    Risk level =0 (Cholestrol level) -> Apply KS
    Risk level =1 (Cholestrol level) -> Apply KS
    
  • 함께 모아서 시험을 적용 하시겠습니까? (전체 데이터 세트에서만 수행했습니다.)

그 후에도 여전히 정상이 아닌 경우 어떻게해야합니까?

편집 : 위의 시나리오는 내 문제를 제공하려고 한 설명 일뿐입니다. 1000 개가 넘는 변수와 약 4000 개의 샘플이 포함 된 데이터 세트가 있습니다. 그것들은 본질적으로 연속적이거나 범주 적입니다. 내 임무는 이러한 변수를 기반으로 이분법 변수를 예측하는 것입니다 (로지스틱 회귀 모델이 나타날 수 있음). 그래서 초기 조사에는 이분법과 연속 변수 사이의 상관 관계를 찾는 것이 필요하다고 생각했습니다.

변수의 분포가 어떻게되는지 보려고했기 때문에 t- 검정을 시도했습니다. 여기서 나는 문제로 정상 성을 발견했습니다. Kolmogorov-Smirnov 검정은 대부분의 변수에서 0.00의 유의 값을 나타 냈습니다.

여기서 정규성을 가정해야합니까? 이러한 변수의 왜곡 및 첨도는 거의 모든 경우에 데이터가 왜곡됨 (> 0)을 보여줍니다.

아래 주어진 메모에 따라 점-비교 상관 관계를 추가로 조사 할 것입니다. 그러나 변수 분포에 대해서는 여전히 확실하지 않습니다.


1
연속체와 이진 (그룹) 변수 사이의 상관 관계는 그룹 간의 평균 비교 (어떤 종류의 평균 ...)보다 훨씬 많지 않습니다. 그냥하는 것이 낫습니다!
kjetil b halvorsen 2016 년

답변:


14

조금 혼란 스러워요. 제목에는 "상관"이 표시되지만 게시물은 t- 검정을 나타냅니다. t- 검정은 중심 위치에 대한 검정입니다.보다 구체적으로 한 데이터 집합의 평균이 다른 집합의 평균과 다른가? 한편, 상관 관계는 두 변수 사이의 관계를 보여줍니다. 다양한 상관 관계 측정법이 있으며 포인트-비서 럴 상관 관계가 귀하의 경우에 적합한 것으로 보입니다.

t- 검정이 정규성을 가정하는 것이 맞습니다. 그러나 정규성 검정은 N이 4000 인 사소한 비정규성에 대해서도 상당한 결과를 제공 할 가능성이 높습니다. T- 검정은 두 데이터 집합의 분산이 대략 같고 표본 인 경우 정규성에서 약간의 편차에 대해 상당히 강력합니다. 크기는 거의 같습니다. 그러나 비모수 적 검정은 특이 치에 대해 더 강력하며 분포가 정상 일지라도 대부분 t- 검정만큼의 검정력을 갖습니다.

그러나 귀하의 예에서는 "콜레스테롤"을 위험하거나 위험하지 않은 것으로 사용합니다. 이것은 거의 확실히 나쁜 생각입니다. 연속 변수를 이분법 화하면 마법의 사고가 시작됩니다. 그것은 어떤 시점에서 콜레스테롤이 "위험하지 않은"상태에서 "위험한 상태"로 진행된다고 말합니다. 200을 컷오프로 사용했다고 가정합니다. 콜레스테롤이 201 인 사람은 400을 가진 사람과 같고 199를 가진 사람은 100을 가진 사람과 같습니다. 이것은 의미가 없습니다.


2
나는 폐기물 정보를 이분법 화하고 그것이 조잡하거나 거칠거나 서투른 방법이 될 수 있다는 데 동의한다. 나는 단지 "마 법적 사고"논증이 약간 넘어 간다고 생각합니다. 차이에 대한 광택을 선택하는 것은 차이가 없다고 믿는 것과 다릅니다. 분석이나보고 목적으로 연속 변수에서 범주를 만드는 것이 편리하고 가치가 있다고 생각할 때가있을 것으로 예상됩니다. 그냥 내 2 센트.
rolando2

2
연속 변수에서 범주를 만드는 것은 마술보다 나쁩니다. 악마는 더 나은 단어 일 수 있습니다. 모델 복잡성을 최대화하고 바이어스를 늘리며 분산을 동시에 늘리려면 이분법이 적합합니다. [분류로 인해 손실 된 정보는 동일한 를 달성하기 위해 더 많은 변수를 모델에 추가해야하기 때문에 복잡성을 극대화합니다 .]R2
Frank Harrell

6

일을 단순화합시다. 콜레스테롤 수치가 N = 4,000이면 결과가 특이 치에 의해 치우쳐지는 데 아무런 문제가 없습니다. 따라서 초기 문장에서 알 수 있듯이 상관 관계 자체를 사용할 수 있습니다. Pearson, Spearman 또는 Point-Biserial 방법을 통해 상관 관계를 평가하는지 여부는 거의 차이가 없습니다.

대신 고위험군과 저 위험군 사이의 전형적인 콜레스테롤 차이로 결과를 표현해야하는 경우 Mann-Whitney U 검사를 사용하는 것이 좋지만보다 유익한 t 검사를 사용할 수도 있습니다 . 이 N을 사용하면 (그리고 천문학적 특이점을 제외하고는 의심 할 여지가없는) 정규성이 결여되어 결과가 손상 될 염려가 없습니다.


답장을 보내 주셔서 감사합니다. 그러나 특이 치에 대해 알아야 할 경우 큰 왜곡을 일으키는 경우 첨도 및 왜곡을 사용하여 감지하는 것이 맞습니까? 이것이 첨도와 왜도의 값보다 크면 분포가 정상이 아니라고 가정해야합니다. 답장을 보내 주셔서 감사합니다
Sree Aurovindh

나는 제한된 내용 지식에 기초하여 콜레스테롤을 사용하면 다른 것보다 훨씬 큰 값을 가지지 않을 것이라고 가정합니다. 그렇기 때문에 상관 관계 나 t- 검정과 같은 파라 메트릭 방법을 사용할 수 있다고 생각합니다. 분포가 정상이라고 생각하지는 않습니다. 평소에는 필요하지 않습니다. 그건 그렇고, 피터의 대답에 비추어 볼 때, 나는 당신이 콜레스테롤 점수와 독립적 인 고 / 저 위험 상태의 출처가 있다고 믿었습니다 (그리고 희망합니다). 나는 이분법 화가 도움이되지 않을 것이라는 데 동의합니다.
rolando2

2
"EDIT : ...."로 표시된 원래 질문에 섹션을 추가하여 지금까지받은 답변과 의견으로 해결되지 않은 질문을 설명해 드리겠습니다.
rolando2

귀하의 제안에 감사드립니다. 나는 같은 것을 업데이트했습니다. 처음에 모호한 질문에 대해 죄송합니다. 감사합니다
Sree Aurovindh
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.