불연속 데이터와 연속 데이터의 차이점은 무엇입니까?


62

불연속 데이터와 연속 데이터의 차이점은 무엇입니까?


2
먼저 Google을 사용해 보셨습니까? 나를 위해, 그것은 이것을 제공 합니다 .
로빈 지라드

다음은 귀하의 질문에 답변하는 멋진 비디오입니다. youtube.com/watch?v=MIX3ZpzEOdM

2
디지털 대 아날로그를 생각하십시오. 같은 것-다른 이름.
Pithikos 2016 년

나는 "불연속적인"데이터와 "연속적인"데이터의 차이점이 무엇인지 정말로 모른다. 어떤 이유로, 인트로 스탯 수업은 학생들이이 두 가지를 구별하는 규칙을 암기하게 만드는 것을 정말로 좋아하는 것 같습니다. 내가 이해할 수있는 한, 차이점은 데이터가 아니라 데이터를 모델링하는 방법에 있습니다.
user795305

1
이는 @robingirard의 Google 최고 결과였습니다.
denson

답변:


58

이산 데이터는 특정 값만 사용할 수 있습니다. 잠재적으로 이러한 값의 수는 무한 할 수 있지만 각각 고유하고 그 사이에 회색 영역이 없습니다. 불연속 데이터는 사과 수와 같이 숫자 일 수 있지만 빨강, 파랑, 수컷 또는 암컷과 같이 범주 형일 수도 있고 좋거나 나쁠 수도 있습니다.

연속 데이터는 정의 된 개별 값으로 제한되지 않지만 연속 범위에서 모든 값을 차지할 수 있습니다. 두 개의 연속적인 데이터 값 사이에는 무한한 수의 다른 값이있을 수 있습니다. 연속 데이터는 항상 기본적으로 숫자입니다.

한 유형의 숫자 ​​데이터를 다른 유형의 숫자 ​​데이터로 취급하는 것이 이치에 맞습니다. 예를 들어, 높이 와 같은 것은 연속적이지만 종종 작은 차이에 대해서는별로 신경 쓰지 않고 높이를 여러 개의 개별 으로 그룹화합니다. 합니다. 반대로, 우리가 쌀, 곡물, 흰개미, 또는 경제에서 동전으로 많은 이산적인 개체를 세는 경우 2,000,006과 2,000,008을 결정적으로 다른 값으로 생각하지 않고 대신에 가까운 지점으로 생각할 수 있습니다 대략적인 연속체.

저체중, 정상, 비만과 같이 숫자 데이터를 범주 형으로 취급하는 것이 유용한 경우도 있습니다. 이것은 일반적으로 또 다른 종류의 비닝입니다.

범주 형 데이터를 연속적인 것으로 간주하는 것은 거의 이치에 맞지 않습니다.


@jeromy가 @ 심리학에서 암시하는 것처럼 @walktalky는 질문에 대한 응답과 같은 범주 형 변수가 종종 기본 특성을 나타내는 것으로 추정되기 때문에 범주 형 데이터는 때때로 연속적인 것으로 간주됩니다.
richiemorrisroe

@richiemorrisroe 하나는 데이터와 추정 특성의 차이에 대해 논할 수 있지만 물론 옳습니다. 이 후속 질문 에 대한 응답으로 매우 흥미로운 추가 사항이 제시되었습니다 .
walkytalky

링크 주셔서 감사합니다, 그 답변은 실제로 매우 흥미 롭습니다.
richiemorrisroe

> " 잠재적가 그 값을 무한대 일 수 있지만 각각 별개 사이에는 회색 영역이있을 수 없다 "-이 고유 값과 불연속 분포를 갖기 위해 실제로 완벽하게 가능하고, 동시에 아직 두 들어 선택하는 고유 한 값은 항상 그 사이에 더 많은 값을 갖습니다 ( '회색 영역'의미). 그들은 실제로는 자주 나오지 않지만, 실제로 일어날 수는 있습니다. 실제로 나는 쉽게 발생할 수있는 두 가지 (관련된 경우) 예제를 생각할 수있다.
Glen_b

재고 자산에 대해 100 억 행의 ohlc 데이터가 있더라도 여전히 불연속적인 것으로 간주됩니까? 그러나 자산의 가격이 1에서 무한대 사이가 될 수는 없습니다. 이러한 유형의 상황에서 생각하는 방법은 무엇입니까?
PirateApp

19

데이터는 항상 이산 적입니다. n변수 의 샘플 값이 주어지면 변수가 취할 수있는 고유 값의 최대 개수는 n입니다. 이 인용문을보십시오

모든 실제 표본 공간은 불 연속적이며 모든 관측 가능한 임의 변수에는 불연속 분포가 있습니다. 연속 분포는 수학적 구성으로, 수학적 처리에는 적합하지만 실제로는 관찰 할 수 없습니다. EJG Pitman (1979, p. 1).

변수의 데이터는 일반적으로 임의 변수에서 가져온 것으로 가정합니다. 변수가 범위의 다른 두 지점 사이에서 취할 수있는 무한한 수의 값이있는 경우 임의 변수는 범위에 걸쳐 연속적입니다. 예를 들어, 신장, 체중 및 시간은 일반적으로 연속적인 것으로 가정합니다. 물론, 이러한 변수의 측정은 유한하게 정확하고 어떤 의미에서는 불 연속적입니다.

순서가 지정된 (즉, 서수), 정렬되지 않은 (즉, 명목)
및 이진 이산 변수 를 구별하는 것이 유용 합니다.

일부 입문 교과서에서는 연속 변수를 숫자 변수와 혼동합니다. 예를 들어, 컴퓨터 게임의 점수는 숫자이지만 불 연속적입니다.

일부 입문 교과서는 비율 변수와 연속 변수를 혼동합니다. 계수 변수는 비율 변수이지만 연속적이지 않습니다.

실제로는 변수가 충분히 많은 수의 다른 값을 취할 수있을 때 종종 연속적인 것으로 취급됩니다.

참고 문헌

  • Pitman, EJG 1979. 통계적 추론에 대한 몇 가지 기본 이론. 런던 : 채프먼과 홀. 참고 : Murray Aitkin의 책 Statistical Inference : 2 장의 소개에서 통합 베이지안 / 접근법 접근 방식 의 인용문을 찾았습니다 .

12
확률도 "수학적 구성"이며 ​​"직접 관찰 가능"하지 않습니다. 이것은 확률이 존재하지 않음을 의미합니까? 전반적으로,이 흥미로운 응답이 데이터가 값을 특징으로해야한다는지지 할 수없는 전제 보인다 않는 수학적 모델은 그들이 가질 수있는 값보다는 오히려있다. 후자는 전자가 아닌 중요한 특성입니다. 이것은 모두 연속적이고 불연속적인 구별에서 중요한 것은 우리가 데이터에 대해 어떻게 생각하는지, 즉 우리가 데이터 를 모델링하는 방법 이라는 것을 암시합니다 .
whuber

3
@whuber의 요점을 설명하는 영리한 작은 우화가 있습니다 : Lord (1953), "축구 숫자의 통계적 처리", American Psychologist , 8 , pp750-51.
Scortchi-Monica Monica 복원

감사합니다, @Scortchi. 웹 버전은 Google 학술 검색을 통해 제공됩니다 . 주님은 "측정 이론"이 통계 분석에 영향을 미치거나 범위를 제한해야하는 정도에 관해 60 년 전에 논쟁의 여지가있는 오해를 다루고 있습니다. 필자의 요점은 모델 구성과 관찰의 차이점에 대한 다른 점이었습니다.
whuber

12

온도는 연속적입니다. 23도, 23.1도, 23.100004 도일 수 있습니다.

섹스는 별개입니다. 당신은 남자 나 여자 일 수 있습니다 (어쨌든 고전적인 사고에서). 1, 2 등과 같은 정수로 나타낼 수있는 것

많은 통계 및 데이터 마이닝 알고리즘이 한 유형을 처리 할 수 ​​있지만 다른 유형은 처리 할 수 ​​없으므로 차이점이 중요합니다. 예를 들어 정규 회귀 분석에서 Y는 연속적이어야합니다. 로지스틱 회귀 분석에서 Y는 이산 적입니다.


5
Y

8

이산 데이터 는 특정 값만 사용할 수 있습니다.

예 : 수업에 참여한 학생 수 (반 학생 수 없음)

연속 데이터 는 범위 내에서 모든 값을 취할 수있는 데이터입니다

예 :

  • 사람의 키 : 특정 고정 키뿐만 아니라 (인간의 키 범위 내) 모든 값이 될 수 있습니다.
  • 레이스 시간 : 1 초 단위로 측정 할 수도 있습니다.
  • 개의 체중,
  • 잎의 길이
  • 사람의 무게,


잘 설명되어 있습니다.
Arsman Ahmad

0

데이터베이스의 경우 데이터의 특성이 연속적 일지라도 항상 데이터를 불 연속적으로 저장합니다. 왜 데이터의 특성을 강조해야합니까? 데이터를 분석하는 데 도움이 될 수있는 데이터를 배포해야합니다. 데이터의 특성이 연속적인 경우 연속 분석으로 사용하는 것이 좋습니다.

연속적이고 불연속적인 예를 들어보십시오 : MP3. 디지털 형식으로 저장하면 "사운드"유형도 유사합니다. 우리는 항상 비슷한 방식으로 분석해야합니다.


0

한편으로는 실용적인 관점에서 Jeromy Anglim의 답변에 동의합니다. 결국 이론적 인 관점에서 볼 때이 변수는 연속적이지만 불연속 변수를 다루는 데 대부분의 시간이 걸리며 이는 분류에 대한 실제 영향을 미칩니다. Strobl의 논문을 살펴보면 랜덤 포레스트가 여러 절삭 포인트 (높은 정확도이지만 잠재적으로 유사한 특성)를 갖는 변수에 편향되어 있음을 나타냅니다. 내 개인적인 경험에서 확률 적 신경망은 변수가 같은 유형 (즉, 연속)이 아닌 한 변수가 다른 정확도를 나타낼 때 편향을 일으킬 수 있습니다. 반면에 이론적 인 관점에서 고전적 분류 (예 : 연속, 불연속, 명목 등)는 IMHO입니다. M5 알고리즘을 설명하는 Quinlan 논문의 소스 이름은 이것은 '회귀 자'이며 훌륭한 선택입니다. 따라서 연속 대 이산의 정의와 의미는 '환경'에 따라 관련이 있습니다.

참조 :

Quinlan JR (1992). 지속적인 수업을 통한 학습. 에서 : AI에 관한 제 5 회 호주 공동 회의. 시드니 (호주), 343–348.

Strobl C., Boulesteix A.-L., Zeileis A., & Hothorn T. (2007). 랜덤 포레스트 변수 중요도 측정의 바이어스 : 일러스트레이션, 소스 및 솔루션. BMC Bioinformatics, 8, 25. doi : 10.1186 / 1471-2105-8-25


-1

이산 데이터는 특정 값을 취하는 반면 연속 데이터는 별도의 값으로 제한되지 않습니다.

불연속 데이터는 서로 다르며 그 사이에 회색 영역이 없으며 연속 데이터는 연속 데이터 값보다 임의의 값을 차지합니다.


-2

이산 데이터 특정 값을 가질 수 있으며 숫자입니다.


이력서에 오신 것을 환영합니다! 답변 해 주셔서 감사합니다. 시간을내어 이전 답변을 살펴보고 유용한 정보를 추가하고 있는지 고려하십시오.
Scortchi-Monica Monica 복원

-3

불연속 데이터는 정수 값만 사용할 수있는 반면 연속 데이터는 모든 값을 취할 수 있습니다. 예를 들어 매년 병원에서 치료받는 암 환자의 수는 별개이지만 체중은 지속적입니다. 일부 데이터는 연속적이지만 나이와 같이 별개의 방식으로 측정됩니다. 31 세라고 나이를 신고하는 것이 일반적입니다.


11
정수로 제한되지 않고 데이터를 분리 할 수 ​​있습니다. 또는 그 문제에 대한 숫자. 정수로 이산 데이터 를 표현하는 것이 항상 가능 하지만 데이터가 그러한 값만 가질 수있는 것은 아닙니다.
walkytalky

-4

불연속 데이터는 유한 값에 대해 말하고 연속 데이터는 무한 값에 대해 말합니다 .....


2
정교하게 관리?
chl
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.