불연속 데이터와 연속 데이터의 차이점은 무엇입니까?
불연속 데이터와 연속 데이터의 차이점은 무엇입니까?
답변:
이산 데이터는 특정 값만 사용할 수 있습니다. 잠재적으로 이러한 값의 수는 무한 할 수 있지만 각각 고유하고 그 사이에 회색 영역이 없습니다. 불연속 데이터는 사과 수와 같이 숫자 일 수 있지만 빨강, 파랑, 수컷 또는 암컷과 같이 범주 형일 수도 있고 좋거나 나쁠 수도 있습니다.
연속 데이터는 정의 된 개별 값으로 제한되지 않지만 연속 범위에서 모든 값을 차지할 수 있습니다. 두 개의 연속적인 데이터 값 사이에는 무한한 수의 다른 값이있을 수 있습니다. 연속 데이터는 항상 기본적으로 숫자입니다.
한 유형의 숫자 데이터를 다른 유형의 숫자 데이터로 취급하는 것이 이치에 맞습니다. 예를 들어, 높이 와 같은 것은 연속적이지만 종종 작은 차이에 대해서는별로 신경 쓰지 않고 높이를 여러 개의 개별 빈 으로 그룹화합니다. 합니다. 반대로, 우리가 쌀, 곡물, 흰개미, 또는 경제에서 동전으로 많은 이산적인 개체를 세는 경우 2,000,006과 2,000,008을 결정적으로 다른 값으로 생각하지 않고 대신에 가까운 지점으로 생각할 수 있습니다 대략적인 연속체.
저체중, 정상, 비만과 같이 숫자 데이터를 범주 형으로 취급하는 것이 유용한 경우도 있습니다. 이것은 일반적으로 또 다른 종류의 비닝입니다.
범주 형 데이터를 연속적인 것으로 간주하는 것은 거의 이치에 맞지 않습니다.
데이터는 항상 이산 적입니다. n
변수 의 샘플 값이 주어지면 변수가 취할 수있는 고유 값의 최대 개수는 n
입니다. 이 인용문을보십시오
모든 실제 표본 공간은 불 연속적이며 모든 관측 가능한 임의 변수에는 불연속 분포가 있습니다. 연속 분포는 수학적 구성으로, 수학적 처리에는 적합하지만 실제로는 관찰 할 수 없습니다. EJG Pitman (1979, p. 1).
변수의 데이터는 일반적으로 임의 변수에서 가져온 것으로 가정합니다. 변수가 범위의 다른 두 지점 사이에서 취할 수있는 무한한 수의 값이있는 경우 임의 변수는 범위에 걸쳐 연속적입니다. 예를 들어, 신장, 체중 및 시간은 일반적으로 연속적인 것으로 가정합니다. 물론, 이러한 변수의 측정은 유한하게 정확하고 어떤 의미에서는 불 연속적입니다.
순서가 지정된 (즉, 서수), 정렬되지 않은 (즉, 명목)
및 이진 이산 변수 를 구별하는 것이 유용 합니다.
일부 입문 교과서에서는 연속 변수를 숫자 변수와 혼동합니다. 예를 들어, 컴퓨터 게임의 점수는 숫자이지만 불 연속적입니다.
일부 입문 교과서는 비율 변수와 연속 변수를 혼동합니다. 계수 변수는 비율 변수이지만 연속적이지 않습니다.
실제로는 변수가 충분히 많은 수의 다른 값을 취할 수있을 때 종종 연속적인 것으로 취급됩니다.
이산 데이터 는 특정 값만 사용할 수 있습니다.
예 : 수업에 참여한 학생 수 (반 학생 수 없음)
연속 데이터 는 범위 내에서 모든 값을 취할 수있는 데이터입니다
예 :
한편으로는 실용적인 관점에서 Jeromy Anglim의 답변에 동의합니다. 결국 이론적 인 관점에서 볼 때이 변수는 연속적이지만 불연속 변수를 다루는 데 대부분의 시간이 걸리며 이는 분류에 대한 실제 영향을 미칩니다. Strobl의 논문을 살펴보면 랜덤 포레스트가 여러 절삭 포인트 (높은 정확도이지만 잠재적으로 유사한 특성)를 갖는 변수에 편향되어 있음을 나타냅니다. 내 개인적인 경험에서 확률 적 신경망은 변수가 같은 유형 (즉, 연속)이 아닌 한 변수가 다른 정확도를 나타낼 때 편향을 일으킬 수 있습니다. 반면에 이론적 인 관점에서 고전적 분류 (예 : 연속, 불연속, 명목 등)는 IMHO입니다. M5 알고리즘을 설명하는 Quinlan 논문의 소스 이름은 이것은 '회귀 자'이며 훌륭한 선택입니다. 따라서 연속 대 이산의 정의와 의미는 '환경'에 따라 관련이 있습니다.
참조 :
Quinlan JR (1992). 지속적인 수업을 통한 학습. 에서 : AI에 관한 제 5 회 호주 공동 회의. 시드니 (호주), 343–348.
Strobl C., Boulesteix A.-L., Zeileis A., & Hothorn T. (2007). 랜덤 포레스트 변수 중요도 측정의 바이어스 : 일러스트레이션, 소스 및 솔루션. BMC Bioinformatics, 8, 25. doi : 10.1186 / 1471-2105-8-25
이산 데이터는 특정 값을 취하는 반면 연속 데이터는 별도의 값으로 제한되지 않습니다.
불연속 데이터는 서로 다르며 그 사이에 회색 영역이 없으며 연속 데이터는 연속 데이터 값보다 임의의 값을 차지합니다.
이산 데이터 특정 값을 가질 수 있으며 숫자입니다.
불연속 데이터는 정수 값만 사용할 수있는 반면 연속 데이터는 모든 값을 취할 수 있습니다. 예를 들어 매년 병원에서 치료받는 암 환자의 수는 별개이지만 체중은 지속적입니다. 일부 데이터는 연속적이지만 나이와 같이 별개의 방식으로 측정됩니다. 31 세라고 나이를 신고하는 것이 일반적입니다.