이분법과 연속 변수 사이의 상관 관계를 찾으려고합니다.
이것에 대한 나의 기초 연구에서 나는 독립적 인 t- 검정을 사용해야한다는 것을 발견했으며 그에 대한 전제 조건은 변수의 분포가 정상이어야한다는 것입니다.
나는 정규성을 테스트하기 위해 Kolmogorov-Smirnov 테스트를 수행했으며 연속 변수가 비정규이며 비대칭 적이라는 것을 알았습니다 (약 4,000 데이터 포인트).
나는 모든 변수 범위에 대해 Kolmogorov-Smirnov 테스트를 수행했습니다. 그것들을 그룹으로 나누어 테스트해야합니까? 즉, risk level
( 0
= 위험하지 않음, 1
= 위험 함) 및 콜레스테롤 수치를 가지고 있다면 다음과 같이해야합니다.
그들을 두 그룹으로 나눕니다.
Risk level =0 (Cholestrol level) -> Apply KS Risk level =1 (Cholestrol level) -> Apply KS
함께 모아서 시험을 적용 하시겠습니까? (전체 데이터 세트에서만 수행했습니다.)
그 후에도 여전히 정상이 아닌 경우 어떻게해야합니까?
편집 : 위의 시나리오는 내 문제를 제공하려고 한 설명 일뿐입니다. 1000 개가 넘는 변수와 약 4000 개의 샘플이 포함 된 데이터 세트가 있습니다. 그것들은 본질적으로 연속적이거나 범주 적입니다. 내 임무는 이러한 변수를 기반으로 이분법 변수를 예측하는 것입니다 (로지스틱 회귀 모델이 나타날 수 있음). 그래서 초기 조사에는 이분법과 연속 변수 사이의 상관 관계를 찾는 것이 필요하다고 생각했습니다.
변수의 분포가 어떻게되는지 보려고했기 때문에 t- 검정을 시도했습니다. 여기서 나는 문제로 정상 성을 발견했습니다. Kolmogorov-Smirnov 검정은 대부분의 변수에서 0.00의 유의 값을 나타 냈습니다.
여기서 정규성을 가정해야합니까? 이러한 변수의 왜곡 및 첨도는 거의 모든 경우에 데이터가 왜곡됨 (> 0)을 보여줍니다.
아래 주어진 메모에 따라 점-비교 상관 관계를 추가로 조사 할 것입니다. 그러나 변수 분포에 대해서는 여전히 확실하지 않습니다.