까다로운 데이터 세트의 모델은 무엇입니까? (수백 개의 시계열이 중첩되어 있음)

분석하기에 매우 복잡한 데이터 세트가 있으며 이에 대한 좋은 해결책을 찾을 수 없습니다.

여기에있는 것이 있습니다 :

1. 원시 데이터는 본질적으로 곤충 노래 녹음입니다. 각 노래는 여러 개의 버스트로 구성되며 각 버스트는 하위 장치로 구성됩니다. 모든 개인은 5 분 동안 기록되었습니다. 버스트 수와 레코딩에서의 위치는 버스트 당 하위 유닛 수뿐만 아니라 개인마다 매우 다를 수 있습니다.

2. 각 서브 유닛의 반송파 주파수 (기본 주파수)를 가지고 있는데 이것이 분석하고자하는 것입니다.

내 문제 :

1. 버스트 내의 주파수는 명백히 독립적이지 않습니다 (비록 안정적이지만 서브 유닛 n-1의 주파수는 서브 유닛 n에 영향을 미칩니다).

2. 버스트는 또한 레코딩 내에서 독립적이지 않습니다.

3. 시간이 지남에 따라 주파수가 떨어지면 독립성이 떨어집니다 (개인이 노래에 지치면 노래의 주파수가 점점 낮아집니다). 떨어지는 것은 선형 인 것 같습니다 .

4. 중첩 = 두 위치 A와 B에 대해 3 개의 복제 모집단이 있으므로 A1, A2, A3 & B1, B2, B3이 있습니다.

내가하고 싶은 것 :

1. 두 위치 간의 빈도 차이를 특성화합니다 (통계적으로 테스트).

2. 두 위치 사이의 주파수 하락을 특성화하십시오 (두 위치 중 하나에서 더 빨리 떨어지는 지 확인하십시오)

그것을하는 방법 :

그렇기 때문에 도움이 필요합니다. 잘 모르겠습니다. 내 경우는 일반적으로 함께 보이지 않는 문제를 결합한 것으로 보입니다. 혼합 모델, GAM, ARIMA, 임의 효과 및 고정 효과에 대해 읽었지만 가장 좋은 방법은 확실하지 않습니다. 그래도 (주파수 ~ 하위 단위 번호 n ) 그래프를 보면 두 위치 사이의 차이가 매우 분명합니다. 또한 온도 (주파수를 높이는 등)와 같은 다른 변수를 고려해야합니다.

나는 생각했다 :

복제본에서 개인을 중첩하고 위치 (개별 / 복제 / 위치) 내에 복제본을 중첩합니다.
임의의 '버스트'효과를 사용하므로 각 버스트 내의 변동성을 고려합니다.
고정 된 '레코딩 버스트 위치'효과를 사용하여 주파수 강하를 측정하십시오 (실제로 호핑 됨).

맞습니까?

이런 종류의 시나리오에 사용할 수있는 특별한 유형의 모델이 있습니까?

— 조
소스

이 사이트에 오신 것을 환영합니다. Joe. 게시물에 로그인 할 필요가 없습니다. 귀하의 이름은 항상 귀하의 그라바타 아래에 나타납니다 :)

— chl

좋아, 고마워! 아주 좋은 웹 사이트이고 아주 잘 만들어졌습니다.

— Joe

“중복되지 않은 형태와 비교할 경우 복제품 내에서 개체를 가져오고 해당 위치에 복제물을 중첩시키고 (개별 / 복제 / 위치) 중첩하는 것이 좋습니다. 6 개의 하위 인구 중 LOESS는 어떻게 생겼습니까?

— Fr.

답변 주셔서 대단히 감사합니다, 정말 감사합니다. 글쎄, 시간이 오래 걸렸지만이 (피의) 데이터 세트를 분석 할 수있었습니다. 나는 모든 것을 동시에 모델링하고 싶어서 너무 야심적이었다. 그래서 각 문제 (평균 주파수 차이, 주파수 증가 등)에 대해 여러 모델로 작업을 나누었습니다. 결론 : 때로는 작업을 나누는 것이 더 좋습니다!

— Joe

이것은 레시피보다 로드맵보다 도움이 될만한 일반적인 제안입니다.

내 본능은 반복 모델 개발에 적합하기 때문에 베이지안 계층 적 모델을 구축하는 것이 될 것입니다. 나는 당신이 당신이 따르는 모든 종과 휘파람이있는 기존 모델을 찾을 것이라고 생각하지 않습니다. 그러나 이것은 가설 검정을 어렵게 만듭니다. 가설 검정이 얼마나 필요한지 모르겠습니다.
곤충이 어떻게 행동하는지 머리에 작은 비공식 모델이있는 것 같습니다. "피곤해"와 같은 말을하고 동물이 더 많은 에너지를 가지고 있기 때문에 기온이 주파수를 더 높게 만든다는 것을 알고 있습니다. 곤충이 노래를 만드는 방법에 대해 약간의 생성 모델을 가지고있는 것처럼 들립니다.
문제는 "한 번에"모델링하기에는 너무 복잡하게 들립니다. 나는 당신이 단편적인 것을 쌓아야한다고 생각합니다. 나는 "강력한 단순한 가정"으로 시작할 것이다. 즉, 간단한 모델을 가지고 나면 나중에 다시 추가 할 계획으로 데이터 세트의 복잡성을 대부분 버린다.

먼저 버스트 단위로 하위 단위 주파수를 (평균 주파수, 주파수 추세) 쌍으로 사전 처리하는 것과 같은 작업을 수행합니다.이를 OLS로 수행하고 주파수 평균과 추세를 모델링합니다. 서브 유닛 자체보다는 버스트. 또는 소단위의 수가 곤충이 얼마나 피곤한지와 관련이 있다면 (평균, 추세, 소단위의 #) 할 수 있습니다. 그런 다음 버스트의 평균 및 추세 분포가 기록의 평균, 추세에 의해 결정되는 베이지안 계층 구조 모델을 구축하고, 이는 차례로 위치의 평균, 추세에 의해 결정됩니다.

그런 다음 기록 평균 / 추세에 대한 요소로 온도를 추가하십시오.

이 간단한 모델을 사용하면 온도와 위치에 따라 기록에서 개별 버스트의 평균과 추세를 볼 수 있습니다. 이것을 시도해보십시오.

그런 다음이 위치와 기록에 의해 결정되는 변수로 이것을 추가하여 버스트의 평균 주파수 (또는 버스트 사이의 조용한 시간을 나누어서 추세) 간의 차이를 추정하려고합니다. 다음 단계는 기록 내의 버스트 평균의 AR 모델입니다.

버스트의 특성 (모든 정보가 평균과 추세로 제공됨)에 대한 몇 가지 사전 및 매우 강력한 가정을 고려할 때이 기본 모델은 다음과 같이 알려줍니다.

버스트의 평균 주파수는 위치와 온도에 따라 다른 위치에 따라 어떻게 다른가
버스트 내 추세는 위치에 따라 위치와 온도에 따라 어떻게 다른가요?
외부 버스트 추세는 위치에 따라 위치와 온도에 따라 어떻게 다른가요?

이런 식으로 작동하면 하위 유닛 자체를 모델링하고 원래의 OLS 추정치를 버릴 때입니다. 이 시점의 데이터를보고 어떤 종류의 시계열 모델이 적합한 지에 대한 아이디어를 얻고 (평균, 추세) 쌍이 아닌 시계열 모델의 매개 변수를 모델링합니다.

— 패트릭 칼돈
소스