방향성 독립 변수에 의한 정규 분포 DV의 연관성 테스트?


10

정규 분포 종속 변수가 방향 분포 변수 와 연관되어 있는지에 대한 가설 검정이 있습니까?

예를 들어, 하루 중 시간 이 설명 변수 인 경우 (예 : 요일, 월 등의 항목이 관련이 없다고 가정) 11 시가 오전 1시 22 시간 보다 앞서고 2 시라 는 사실을 설명하는 방법 협회 시험에서 1am 뒤에 시간 ? 12:00 자정이 11:59 pm 이후 1 분을 따르지 않는다고 가정하지 않고 연속 시간이 종속 변수를 설명하는지 테스트 할 수 있습니까?

이 테스트는 개별 방향성 ( 모듈 식 ?) 설명 변수 에도 적용 됩니까? 아니면 별도의 테스트가 필요합니까? 예를 들어, 종속 변수가 연도 별로 설명되는지 여부를 테스트하는 방법 (일과 계절, 특정 연도 또는 10 년은 관련이 없다고 가정). 연도를 대우하면 순서대로 무시합니다. 그러나 1 월을 표준 서수 변수 (예 : Jan = 1 ... Dec = 12)로 처리하면 1 월이 11 월 이후 2 개월이된다는 것을 무시합니다.


1
답은 책을 채울 수 있습니다 (그리고 그 중 몇 가지가 있습니다). 질문을보다 구체적으로 만들면 중요한 문제에 대한 답변에 집중할 수 있습니다.
whuber

@whuber Um ... gosh ... 좁히는 방법을 알려주세요. DV 배포를 지정 하시겠습니까? 회귀가 아닌 단일 테스트로 제한합니까? 나는 약간 혼란에 빠졌고 어디에서 시작 해야할지 모르겠다 ...
Alexis

@ whuber 나는 질문을 상당히 좁히려 고 노력했으며 더 유용하게 만드는 것에 대한 조언에 감사 할 것입니다 (모듈러 예측 변수에 대해 생각하기위한 출발점을 원합니다). 이것이 괜찮은 형태라면 DV에서 배포가없는 테스트에 대해 비슷한 질문을 할 것입니다.
Alexis

@whuber 회귀 맥락에서 이산 모듈 형 IV를 멀링하는 것 : 이산 모듈 식 IV를 레벨 2 식별자로 각 레벨 2 단위를 갖는 2 단계 혼합 모델은 다음과 같은 사전 및 사후 무작위 효과 변수를 가짐 숫자 체계의 선행 및 후속 가치가 올바른 방향에 놓여 있습니까?
Alexis

여기를 참조하십시오 jstatsoft.org/article/view/v031i10/v31i10.pdf , 페이지 16.
amoeba

답변:


9

일반적으로, 나는 넓고 다른 질문을함으로써 시작하는 것이 과학적으로나 통계적으로 더 유익하다고 생각합니다. 즉, 순환 예측 변수로부터 반응을 얼마나 멀리 예측할 수 있는지입니다. 나는 방향이 아니라 여기에 원형 이라고 말합니다 . 부분적으로는 구형이고 훨씬 더 멋진 공간을 포함하기 때문에 단일 답변으로 모두 다룰 수는 없습니다. 그리고 부분적으로 당신의 예, 시간시간 이 모두 순환하기 때문입니다. 또 다른 주요 예는 나침반 방향 (바람, 동물 또는 인간의 움직임, 정렬 등)과 관련이 있으며, 이는 많은 순환 문제에서 특징이 있습니다.

때마다 사용하여, 그것은 멀리 얻을 수 있습니다 회귀 모형의 어떤 종류 시간의 사인 및 코사인 함수를 간단한을하고 쉽게 모델링 방법을 구현합니다. 많은 생물학적 및 / 또는 환경 적 예를 요구하는 첫 번째 포트입니다. (계절을 나타내는 생물 현상은 일반적으로 기후 나 날씨에 직간접 적으로 반응하기 때문에 두 종류는 종종 혼동됩니다.)

구체적으로 24 시간 또는 12 개월에 걸친 시간 측정을 상상해보십시오.

sin[2π(hour/24)],  cos[2π(hour/24)]

sin[2π(month/12)],  cos[2π(month/12)]

각각 하루 또는 연도의 한주기를 나타냅니다. 측정 된 또는 카운트 된 응답과 순환 시간 사이의 관계가없는 공식 테스트는 사인 및 코사인의 계수가 예측 변수 인 사인 및 코사인, 적절한 링크 및 패밀리를 갖는 일반 선형 모형에서 공동 제로인지 여부에 대한 표준 테스트입니다. 응답의 특성에 따라 선택됩니다.

응답의 한계 분포 (정상 또는 기타)에 대한 문제는이 접근법에서 부차적이거나 가족 선택에 의해 처리되어야합니다.

사인과 코사인의 장점은 당연히 주기적이며 자동으로 둘러싸 기 때문에 매일 또는 연도의 시작과 끝의 값은 반드시 하나이며 동일합니다. 경계가 없기 때문에 경계 조건에 문제가 없습니다.

이 접근법을 순환, 주기적, 삼각법 및 푸리에 회귀라고합니다. 하나의 입문 자습서 검토는 여기를 참조 하십시오.

실제로,

  1. 이러한 테스트는 일반적으로 계절성을 기대할 때마다 기존 수준에서 압도적으로 중요한 결과를 보여줍니다. 더 흥미로운 질문은 정확한 계절 곡선과 다른 정현파 항을 가진 더 복잡한 모형이 필요한지 여부입니다.

  2. 다른 예측 변수를 배제하는 것은 없습니다.이 경우 계절 예측을위한 사인 및 코사인, 다른 모든 예측 변수를 포함한 다른 예측 변수가 포함 된보다 포괄적 인 모델이 필요합니다.

  3. 어떤 시점에서 연구원의 데이터, 문제 및 취향과 경험에 따라 문제의 시계열 측면을 강조하고 명시적인 시간 의존성을 가진 모델을 만드는 것이 더 자연스러워 질 수 있습니다. 실제로, 일부 통계에 관심이있는 사람들은 다른 방법으로 접근 할 수 없다고 거부 할 것입니다.

추세 라고 쉽게 명명되는 (그러나 항상 쉽게 식별 할 수있는 것은 아님) # 2 또는 # 3 또는 둘 다에 해당됩니다.

시장, 국가 및 국제 경제 또는 기타 인간 현상의 계절 성과 관련이있는 많은 경제학자 및 기타 사회 과학자들은 일반적으로 매일 또는 (보다 일반적으로) 매년 더 복잡한 변동 가능성에 더 깊은 인상을받습니다. 항상은 아니지만, 계절성은 프로젝트의 주요 초점조차도 계절성을 흥미롭고 중요하게 생각하는 생물학적 및 환경 과학자와 달리, 제거하거나 조정해야 할 성가신 경우가 많습니다. 즉, 경제학자와 다른 사람들도 종종 회귀 유형 접근법을 채택하지만 탄약을 사용 하면 지표 (더미) 변수 묶음, 가장 간단하게 매월 또는 매년 4 분기마다 변수 묶음0,1. 이것은 공휴일, 휴가 기간, 학년도의 부작용 등의 영향뿐만 아니라 기후 또는 날씨 기원의 영향 또는 충격을 포착하려는 실질적인 방법입니다. 이러한 차이점을 언급하면서 위의 의견 대부분은 경제 및 사회 과학에도 적용됩니다.

이환율, 사망률, 병원 입원, 진료소 방문 등의 변화에 ​​관심이있는 역학자 및 의료 통계학 자의 태도와 접근은이 두 극단 사이에 빠지는 경향이 있습니다.

필자의 견해로는 며칠 또는 몇 년을 반으로 나누면 대개 임의적이며 인공적이며 가장 어색합니다. 또한 데이터에 일반적으로 존재하는 매끄러운 구조의 종류를 무시합니다.

편집 지금까지의 계정은 불연속 시간과 연속 시간의 차이를 다루지 않지만 실제로는 큰 경험으로 생각하지 않습니다.

그러나 정확한 선택은 데이터가 도착하는 방식과 변경 패턴에 따라 다릅니다.

데이터가 분기 별이고 사람이라면 지표 변수를 사용하는 경향이 있습니다 (예 : 분기 3과 4는 종종 다름). 매월 그리고 인간이라면 선택의 여지가 분명하지 않지만 대부분의 경제학자에게 죄와 코사인을 팔기 위해 열심히 노력해야 할 것입니다. 매월 또는 세밀하고 생물학적 또는 환경 적이라면 분명히 죄와 코사인.

편집 2 삼각 회귀에 대한 자세한 내용

삼각법 회귀 분석의 특징적인 세부 사항 (원하는 경우 다른 방법으로 명명 됨)은 거의 항상 사인과 코사인 항이 쌍으로 모델에 가장 잘 표현된다는 것입니다. 우리는 먼저 시간, 연도 또는 나침반 방향을 스케일링하여 원의 각도 로 라디안으로 표시되므로 간격 됩니다. 그런 다음 모델에 필요한만큼 쌍의 를 사용합니다. (원형 통계에서 삼각법은 통계적 규칙을 능가하는 경향이 있으므로, 와 같은 그리스어 기호 는 변수뿐만 아니라 변수에도 사용됩니다.)θ[0,2π]sinkθ,coskθ,k=1,2,3,θ,ϕ,ψ

우리가 같은 예측 한 쌍을 제공하는 경우 회귀 모델처럼, 우리는이 계수 추정치, 말 즉, 모델의 용어를, . 이것은 주기적 신호의 진폭뿐만 아니라 위상을 맞추는 방법입니다. 그렇지 않으면 와 같은 함수를 다음과 같이 다시 쓸 수 있습니다.sinθ,cosθb1,b2b1sinθ,b2cosθsin(θ+ϕ)

sinθcosϕ+cosθsinϕ,

그러나 위상을 나타내는 및 는 모형 피팅에서 추정됩니다. 그렇게하면 비선형 추정 문제를 피할 수 있습니다.sin ϕcosϕsinϕ

우리가 사용하는 경우 떨어져 순환 변동, 자동으로 최대 그 곡선의 최소 모델입니다 반 원. 그것은 종종 생물학적 또는 환경 적 변화에 대한 매우 근사치이지만, 특히 경제 계절을 포착하려면 몇 가지 용어가 더 필요할 수 있습니다. 이는 지표 변수를 대신 사용하는 매우 좋은 이유 일 수 있으며, 이는 계수의 간단한 해석으로 즉시 이어집니다.b1sinθ+b2cosθ


@Kelvin의 답변과 놀랍지 않은 중복이 있습니다.
Nick Cox

+1 (예를 들어 "멋진"을 사용하는 경우!) Nick Cox, 내 질문에 따라 이산 원형 변수 의 경우를 명시 적으로 표현할 수 있습니까? 개별 시간 측정법을 사용하여 설명하는 "삼각 모델링"접근 방식만큼 간단합니까? 아니면 어떤 종류의 "연속 보정"이 필요합니까?
Alexis

내가 아는 한, 불연속 원형 변수와 연속 원형 변수의 유일한 차이점은 원형이 아닌 변수와 마찬가지로 값을 불연속 점으로 반올림하는 것입니다 (예 : 오후 2시 대 14.12345 시간), 큰 차이는 없습니다. 전체 기간에 비해 작은 단계로 반올림을 적게 적용하는 한. 기본적으로 반올림 오류가 있는지 여부입니다. 피할 수 있다면 최선이 아닙니다.
Kelvin

나는 이산적이고 지속적인 것이 크게 다르지 않다는 데 동의합니다. 실제로 많은 측정은 분기, 반년, 월, 일 등으로보고하거나 (N.S)에서 (N, E, S, W)에 이르는 미세한 해상도에 이르기까지 다양한 방식으로보고함으로써 다소 거칠어집니다. 나침반 방향. 구체적으로, 포인트 측정 (정확한 시간의 온도)과 간격 측정 (예 : 총 월별 판매)에는 차이가 있습니다. 때로는 집계 또는 평균화와 같은 오류가 없기 때문에 반올림 오류와 같은 모든 세부 사항을 함께 묶지 않습니다.
Nick Cox

4

어쨌든 찾고있는 것이므로 배포가 필요없는 옵션이 있습니다. 그것은 순환 통계 분야에 국한되지는 않으며, 나는 상당히 무지하지만 여기와 다른 많은 설정에서 적용 할 수 있습니다.

방향 변수를 .X

다른 변수를 . 이는 (또는 실제로 유용한 커널을 정의 할 수있는 모든 유형의 객체 : 그래프, 문자열, 이미지, 확률 분포, 샘플)에 대해 에있을 수 있습니다. 확률 분포에서 ...).R d d 1YRdd1

정의 하고 관측치 가 있다고 가정하십시오 .m z i = ( x i , y i )Z:=(X,Y)mzi=(xi,yi)

이제 다음 논문과 같이 힐버트 슈미트 독립 기준 (HSIC)을 사용하여 테스트를 수행하십시오.

Gretton, Fukumizu, Teo, Song, Schölkopf 및 Smola. 커널 통계 독립성. NIPS 2008. ( pdf )

그건:

  • 커널 를 정의하십시오 . 여기서 우리는 커널 방법 , 즉 RKHS 의 커널이라는 의미에서 커널을 의미합니다 .XkX

    • 한 가지 선택은 (Kelvin의 편집에서와 같이)로 단위 원에 를 표시 하고 가우스 커널 . 여기서 는 공간의 부드러움을 정의합니다. 점 사이의 중간 거리로 설정하면 충분합니다.XR2σXk(x,x)=exp(12σ2xx2)σX
    • 다른 옵션은 를 각도로 표시하는 것입니다 ( ). von Mises 커널 . 여기서 는 매끄러움 매개 변수입니다. 1[ - π , π ] K ( X , X ' ) = EXP ( κ COS ( X - X ' ) ) κX[π,π]k(x,x)=exp(κcos(xx))κ
  • 마찬가지로 커널 을 정의하십시오 . 들어 에서 가우시안 커널, 위, 합리적인 기본값입니다.Y Y R nlYYRn

  • 하자 , 및 수 행렬되도록 , 및 되는 중심 행렬 . 그런 다음 검정 통계량 는 독립성 검정으로 사용될 때 좋은 특성을 갖습니다. 이의 널 분포는 감마 분포에 대한 모멘트 매칭 (계산 효율적) 또는 부트 스트래핑 (소규모 샘플 크기에 더 정확)에 의해 근사화 될 수 있습니다.HKLm×mKij=k(xi,xj)Lij=l(yi,yj)H H=I1m11T1m2tr(KHLH)

RBF 커널로 이것을 수행하기위한 Matlab 코드는 여기 의 첫 번째 저자로부터 얻을 수 있습니다 .


이 방법은 일반적이며 성능이 좋기 때문에 좋습니다. 주요 단점은 다음과 같습니다.

  • m2검정 통계량을 계산하기위한 계산 복잡성; 문제가 발생하면 커널 근사값으로 줄일 수 있습니다.
  • 복잡한 널 분포. 큰 경우, 감마 근사값은 좋으며 너무 번거롭지 않습니다. 작은 경우 부트 스트랩이 필요합니다.mm
  • 커널 선택. 위에서 제시 한 것처럼 커널 와 은 경험적으로 선택해야합니다. 이 백서 에서는 커널을 선택하기위한 최적의 기준이 아닙니다. 이 백서 는 불행히도 통계적 힘을 잃는 대규모 데이터 버전의 테스트에 적합한 방법을 제시합니다. 이 설정에서 거의 최적의 기준에 대해 현재 일부 작업이 진행 중이지만 불행히도 아직 대중 소비에 대한 준비가되어 있지 않습니다.kl


1. 이것은 순환 데이터에 대한 평활 커널로 자주 사용되지만 빠른 검색에서이를 RKHS 커널로 사용하는 사람을 찾지 못했습니다. 그럼에도 불구하고 시프트 불변 형태 는 평균 0 의 폰 미제스 분포 의 pdf에 비례하기 때문에 Bochner의 정리에 의해 양의 한정 이 있습니다. 특성 함수는지지에 대한 균일 분포에 비례합니다. .k(xx)[π,π]


3

예를 들어 12am에서 12pm까지의 평균 값과 12pm에서 12am까지의 평균 값을 비교하여 기간의 반대쪽 "반쪽"에서 평균 사이에 t-검정을 실행할 수 있습니다 . 그런 다음 오후 6 시부 터 오전 6 시까 지의 평균값과 오전 6 시부 터 오후 6 시까 지의 평균값을 비교하십시오.

또는 충분한 데이터가있는 경우 기간을 더 작은 (예 : 시간별) 세그먼트로 나누고 각 세그먼트 쌍 사이 에서 t- 테스트를 수행 하면서 여러 비교를 수정할 수 있습니다.

또는보다 "연속적인"분석 (예 : 임의의 세분화 없음)을 위해 방향 변수의 사인 및 코사인 함수 (올바른 주기로)에 대해 선형 회귀를 실행하면 데이터가 자동으로 "순환"됩니다.

x=sin(x2π/period)
x=cos(x2π/period)

이러한 접근 방식의 주요 문제는 모델의 위상이 최대 상관 관계를 선택하도록 설정하기가 어려우므로 여러 다른 위상을 시도하거나 공식적으로 눈으로 위상을 선택해야 할 수도 있다는 것입니다 가상의 값 :a

x=sin((x+a)2π/period)

그러나 이론적으로 가설을 정립해야합니다 (예 : 오후가 오전보다 더 활동적임) . 데이터를보기 전에 적절한 를 설정 해야합니다.a

편집 : 하나 더 생각은 당신에 대한 다중 회귀 실행할 수 있다는 것입니다 BOTH 동시에 방향 변수의 사인 및 코사인 함수 (일반 변수 사이에, 즉 플러스 및 ) 즉 고려해야로 사인과 코사인 함수가 함께 완전한 원의 x와 y 좌표를 정의하는 것과 같은 방식으로 진정한 "방향". 그러면 자동으로 처리되므로 단계 문제에 대해 별도로 신경 쓸 필요가 없습니다. 나는 이것을 전에 본 적이 없지만 왜 그것이 작동하지 않아야하는지 알지 못한다.x ' x yxx

어쨌든, 나는 당신이 기간과 관련하여 몇 가지 가정을 한 다음 그에 따라 테스트해야한다고 생각합니다.


캘빈, 당신이 묘사 한대로 순환 데이터를 "파괴"하는 것은 모듈 식 순서에 관해 제기 한 문제를 정확하게 무시하는 것처럼 보입니다 .
Alexis

다중 회귀에 의한 연속 분석을 설명하는 내 대답의 후반부를 읽었습니까?
Kelvin

당신은 사인과 코사인에 대해 옳습니다. 이것은 내 대답과 2006 년 논문에서 더 많이 설명되며 그 인용을 인용합니다.
Nick Cox

@ Nick-마지막 편집 후에 게시 한대로 귀하의 답변을 보지 못했지만 독창적 (거의 큰 소리로 생각)하고 실제로이 일을 본 적이없는 것과 독립적으로 동일한 답변을 얻었습니다.
Kelvin
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.