“시계열 분석”과“종 방향 데이터 분석”이라는 용어의 차이점은 무엇입니까


17

종 방향 데이터에 관해 말할 때, 우리는 동일한 주제 / 연구 단위에서 시간이 지남에 따라 수집 된 데이터를 참조 할 수 있으므로, 동일한 주제 내에서, 즉 주제 내 유사성에 대한 관측치에 대한 상관 관계가 있습니다.

시계열 데이터에 관해 이야기 할 때, 우리는 또한 일련의 시간에 걸쳐 수집 된 데이터를 참조하며 위에서 언급 한 세로 설정과 매우 유사 해 보입니다.

누군가이 두 용어 사이에 명확한 설명을 제공 할 수 있는지 궁금합니다. 관계는 무엇이며 차이점은 무엇입니까?


1
이것은 여론 조사로 변할 수 있습니다 ... 나는 두 가지 유형의 데이터 모두에서 일해 왔으며 한 가지 중요한 차이점은 세로 데이터가 인과 분석에 종종 사용되어 중재 또는 치료의 영향을 이해하는 반면 시계열은 종종 사용된다는 것 같습니다 의 예측 . 물론 그 차이는 분명하지 않습니다 (예측을 위해서는 기본 동인을 이해해야하며 IMO를 잘 예측할 수 없다면 동인을 이해하지 못함). 그러나 시계열에서 신호 감지를하는 사람들은 종종 예측에 관심이 많지 않으므로 아마도 내 구별을 거부 할 것입니다.
Stephan Kolassa

귀하의 의견에 감사드립니다. 그러나 여기서는 "인과 적"이라는 용어가 적합하지 않을 수 있다고 생각합니다. "연결"이라는 용어가 더 좋을까요? 데이터 분석의 목적으로 귀하의 의견이 제게 의미가 있다고 생각합니다. 그러나 종단 데이터를 사용하여 예측할 수 없습니까? 그것은 또한 시계열 데이터의 종류이기 때문에.
ask at

1
"인과 적"대 "연관"에 대한 요점을 가지고 있으며, 세로 데이터를 사용하여 예측할 수 있습니다. 두 개념을 함께 볼 수없는 경우가 많습니다. 예측자는 일반적으로 시계열에 대해 이야기합니다. 그 외에도 @gung보다 더 잘 넣을 수 없었습니다.
Stephan Kolassa

3
tt1

답변:


19

광범위한 데이터 분석가가 동의하는 엄격하고 공식적인 정의가 있는지 의심합니다.

그러나 일반적 으로 시계열 은 매우 오랜 기간에 걸쳐 일정한 간격으로 관찰되는 단일 연구 단위를 의미합니다. 프로토 타입의 예는 수십 년 또는 수백 년이 넘는 국가의 연간 GDP 성장입니다. 개인 회사에서 일하는 분석가의 경우 회사 수명 동안 월별 판매 수익 일 수 있습니다. 관측치가 너무 많기 때문에 데이터가 세부적으로 분석되어 여러 기간에 걸쳐 계절 성과 같은 것을 찾습니다 (예 : 월간 : 사람이 지불 한 직후 한 달 초에 더 많은 판매; 매년 : 11 월에 더 많은 판매 및 12 월, 사람들이 크리스마스 시즌에 쇼핑 할 때) 정권이 바뀔 수 있습니다. @StephanKolassa가 지적한 것처럼 예측은 종종 매우 중요합니다.

종 방향은 일반적으로 더 많은 수의 연구 단위에 대한 측정 수가 적습니다. 프로토 타입의 예는 기준선 (치료 전)에서 다음 3 개월 동안 매달 수백 명의 환자가 측정되는 약물 시험일 수 있습니다. 이 예제에서 각 단위를 4 번만 관찰하면 시계열 분석가가 관심을 갖는 기능의 종류를 감지하려고 시도 할 수 없습니다. 반면에 치료 및 제어 군에 무작위로 배정 된 환자의 경우 인과 관계가 한 번만 추론 될 수 있습니다 비 독립성이 해결되었습니다. 그것이 암시하는 바와 같이, 비 독립성은 종종 주요 관심 대상이 아니라 거의 성가신 것으로 간주됩니다.


9

대략 3 가지 종류의 데이터 세트가 있습니다.

  • 횡단면 : 동시에 다른 주제; 다른 주제에 해당하는 많은 열이있는 하나의 행으로 생각하십시오.
  • 시계열 : 다른 시간에 같은 주제; 다른 시점에 해당하는 행이있는 하나의 열로 생각하십시오.
  • 패널 (세로) : 다른 시간에 많은 주제, 다른 시간에 같은 주제, 동시에 많은 주제가 있습니다. 행이 시점이고 열이 주제 인 테이블로 생각하십시오.

2
귀하의 의견에 따르면, 세로 데이터는 여러 주제에서 수집 된 여러 시계열 데이터 세트 인 것 같습니다.
ask at

1
일반적으로 각 과목 데이터를 시계열로 볼 수 있습니다. 실제로는 세로 데이터에는 종종 각 주제에 대해 매우 적은 시점이 있습니다. 그들은 시점을 파도 라고 부릅니다 . 예를 들어, 각 환자가 월간 간격으로 4-5 회의 관찰을하고 수년 동안 수백 명의 환자를 대상으로하는 의학적 연구 일 수 있습니다. 이러한 방식으로 패널 데이터 세트는 종종 불균형 (매우 드문 테이블이라고 생각)되므로 종단 연구에는이를 처리하기 위해 선호하는 방법이 있습니다.
Aksakal

이것은 질문에 도움이되지만 이러한 제목에 속하지 않는 다른 많은 종류의 데이터 세트가 있습니다. 그러나 그들은 질문과 관련이없는 것처럼 보이며 가능한 모든 종류의 데이터 세트를 분류하려고하면 쓸모가 없습니다. 예 : 기본 구조가 주제 x 주제 인 모든 데이터 세트; 2 차원이 아닌 데이터 세트
Nick Cox

@NickCox, 사실이지만, 나는 계량 경제학에 있으며,이 세 가지는 이론이 발달 된 분야이며 대부분 우리 분야에서 사용됩니다.
Aksakal

2
의심의 여지가 없지만, 문제의 어느 것도 생태 학적 관점을 좁히거나 장려하지 않으며, 특정 관점이 명시 적이지도 않습니다.
Nick Cox

4

이 두 용어는 OP가 가정하는 방식과 관련이 없을 수도 있습니다. 즉, 경쟁하는 분석 모드라고 생각하지 않습니다.

대신 시계열 분석은 종단 연구에서 데이터를 분석하는 데 유용 할 수있는 일련의 하위 수준 기술을 설명합니다.

시계열 분석에서 연구 대상은 시간에 따른 신호입니다.

이러한 시간 의존적 신호를 분석 및 모델링 / 예측하는 대부분의 기술은 이러한 신호가 다양한 구성 요소로 분해 될 수 있다는 전제에 기초합니다. 가장 중요한 두 가지는 다음과 같습니다.

  • 순환 성분 (예를 들어, 매일, 매주, 매월, 계절); 과

  • 경향

다시 말해, 시계열 분석은 기본 신호를 추출하기 위해 시간 종속 신호의 주기적 특성을 활용하는 것에 기반합니다.


1

경도 데이터 란 무엇입니까?

패널 데이터라고도하는 세로 데이터는 서로 다른 시점에서 동일한 샘플을 추적합니다. 샘플은 개인, 가정, 시설 등으로 구성 될 수 있습니다. 반대로 장기 데이터를 제공하는 반복 단면 데이터는 시간이 지남에 따라 서로 다른 샘플에 동일한 조사를 제공합니다.

종 방향 데이터는 반복 단면 데이터에 비해 여러 가지 장점이 있습니다. 종단 데이터는 시간에 따른 샘플 내 변화 측정, 이벤트 지속 시간 측정 및 다양한 이벤트 타이밍 기록을 허용합니다. 예를 들어, 실업률이 오랫동안 높게 유지되었다고 가정하십시오. 종단 데이터를 사용하여 동일한 개인 그룹이 전체 기간 동안 실직 상태인지 또는 다른 개인 그룹이 해당 기간 동안 실직 상태인지 여부를 확인할 수 있습니다.

출처


0

간단하게하기 위해 개인에 대한 연구를 가정하지만 모든 분석 단위에도 동일하게 적용됩니다. 복잡하지는 않습니다. 시계열은 시간에 따라 수집 된 데이터로, 일반적으로 별도의 시간 간격으로 동등한 인구 집단에서 동일한 측정 값을 의미합니다. 또는 지속적으로 수집되지만 시간 간격으로 분석됩니다.
범위가 훨씬 넓은 세로 데이터. 동등한 인구는 동일한 인구로 대체되므로 시간이 지남에 따라 개별 데이터를 쌍으로 만들거나 결합 할 수 있습니다. 종단 데이터는 연구의 목표에 따라 측정을 반복하거나 반복하지 않을 수 있습니다. 경도 데이터가 시계열처럼 보이는 경우는 시간이 지남에 따라 동일한 것을 측정하는 것입니다. 가장 큰 차이점은 시계열에서 시간에 따라 (또는 그룹별로) 측정의 전반적인 변화를 측정 할 수 있고 종 방향 분석에서는 실제로 개별 수준에서 변화를 측정 할 수 있다는 것입니다. 따라서 분석 가능성이 훨씬 높으며 샘플링이 포함 된 경우 변화 측정에 오류가 없으므로 종단 연구가 더 정확하고 유익 할 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.