내 데이터가 불연속 적이거나 연속적인지 테스트하는 방법


11

올바른 통계 도구를 선택하려면 먼저 데이터 세트가 불연속인지 연속적인지 식별해야합니다.

데이터가 R과 이산인지 연속인지 테스트하는 방법을 가르쳐 주시겠습니까?


회귀 유형 모델에서 특정 변수를 연속 형 또는 범주 형 (이산 형) 예측 변수로 추가해야하는지 여부를 의미합니까?
Nick Sabbe

데이터가 수집되는 방법과 변수가 기록 된 방법에 대해서는 그에 대한 힌트가 될 것입니다. 또한 데이터를 연속 또는 이산 데이터로 모델링할지 여부에 따라 달라질 수 있습니다 (예 : 리 커트 항목 및 이산 스케일 분석 관련 질문 참조). 관련없는 포인트 : 계정을 모두 한 번 등록 할 수 있다면 답변을 수락하거나 이전 질문을 수정하는 것이 좋습니다.
chl

qqnorm을 수행하고 점이 모두 대각선을 따라 있으면 데이터는 연속적입니다 (영원 선인 경우 불연속)
user222362

답변:


14

내가 바로이 결정을 요구한다고 생각할 수있는 유일한 이유는 변수를 회귀에 연속적이거나 범주 적으로 포함시키는 것을 결정하는 것입니다.

우선, 때로는 선택의 여지가 없습니다 : 문자 변수 또는 요인 (data.frame을 제공하는 누군가가 당신을 위해 결정한 곳)은 분명히 범주 적입니다.

그것은 우리에게 수치 변수를 남깁니다. 변수가 정수인지 간단히 확인하고 싶을 수도 있지만, 이는 좋은 기준은 아닙니다. 아래 코드의 첫 번째 줄을보십시오 ( x1) : 와 의 두 값만 1000 번 관찰합니다 . 정수가 아니라 명백한 범주 형 변수 인 것 같습니다. 당신이 할 수있는 일은 데이터에 얼마나 많은 다른 값이 있는지 확인하는 것입니다. 이에 사용할 수있는 임계 값은 주관적이지만, 나는 추측합니다 :1.52.5x

x1<-sample(c(-1.5, 2.5), 1000)
length(unique(x1)) #absolute number of different variables
length(unique(x1))/length(x1) #relative
x2<-runif(1000)
length(unique(x2)) #absolute number of different variables
length(unique(x2))/length(x2) #relative

고유 값이 5 % 인 변수를 안전하게 이산이라고 할 수는 있지만 언급 한 것처럼 주관적입니다. 그러나 이렇게하면 모델에 범주 형 변수로 포함하기에 적합하지 않습니다. 관측치가 1000000 개이고 고유 값이 5 % 인 경우 여전히 50000 '범주'가 남습니다.이 범주를 범주 형으로 포함하면 ' 많은 자유의 지옥을 보내려고합니다.

이 호출은 더 주관적이며 샘플 크기와 선택 방법에 크게 의존합니다. 더 많은 맥락이 없으면 여기에 지침을 제공하기가 어렵습니다.

이제 모델에 범주 형으로 추가 할 있는 변수가 있을 수 있습니다. 그러나 당신 해야합니까? 이 질문은 가능성 비율 테스트를 통해 (실제로 목표에 따라 다르지만) 대답 할 수 있습니다. 변수가 범주 형인 모델은 변수가 연속 공변량 인 모델의 수퍼 모델입니다. 이를 확인하려면 변수의 선형 회귀 상상 x세 가지 값을 잡고 0, 12. 모델 피팅 : 여기서 는 더미 변수 표시기 ( 경우 1과 동일 )가 더 유연합니다. 모델 피팅 방법

이자형[와이]=β0+β11엑스1+β12엑스2
엑스나는엑스==나는
이자형[와이]=β0+β1엑스
마지막 것은
이자형[와이]=β0+β1엑스1+2β1엑스2

수퍼 / 서브 모델 구조를 사용하면 우도 비 검정 을 수행하여 데이터에 더 복잡한 구조가 필요하다는 증거가 있는지 확인할 수 있습니다 . df = 매개 변수 개수의 차이 (위 예에서 4 개의 매개 변수-3 개의 매개 변수) 로 분포를 따릅니다 .χ2


3
+1 큰 대답으로 이상한 질문을 개선하는 좋은 예입니다.

1
실제로 어떤 연속체도 이산화되어 히스토그램이 실제로 어떻게 수행되는지 보여줍니다. 아마도 카운트 데이터 (정수 값 데이터)를 범주와 혼합했을 것입니다.하지만 첫 번째 추측은 데이터 포인트 (및 범주에 실제 값을 할당하는 미친 연구원)뿐만 아니라 개별적이고 연속적인 분포에 관한 것이 었으므로 어쨌든 삭제되었습니다. 이후는 문제 (+1) 해결 생각하지 않는다
드미트리 Celov

1
@Dmitrij가 자신의 답변을 제거 한 것 같습니다.이를 반영하기 위해 답변을 다시 편집 할 수 있습니까? 존재하지 않는 컨텐츠에 대한 참조는 약간 튀어 나오므로 훌륭한 대답입니다 (+1).
mpiktas
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.