매우 큰 시계열 데이터 세트 다루기


10

매우 큰 데이터 세트에 액세스 할 수 있습니다. 데이터는 4 가지 장르 중 하나에서 음악 발췌를 듣는 사람들의 MEG 기록에서 가져온 것입니다. 데이터는 다음과 같습니다.

  • 6 과목
  • 3 실험 반복 (에포크)
  • 에포크 당 120 개의 평가판
  • 275 MEG 채널의 500Hz (= 4000 개 샘플)에서 시행 당 8 초의 데이터

여기의 각 "예"는 [4000x275] 크기의 행렬이며 이러한 예의 2160 개가 있으며 이는 특징 추출 이전입니다. 목표는 뇌 신호 (4 급 분류)를 기반으로 장르를 예측하는 것입니다.

여기에 몇 가지 어려운 문제가 있습니다.

  1. 데이터 세트가 메모리에 맞지 않습니다
  2. 데이터에는 강력한 시간적 상관 관계가 있으며 개체 간 변동이 클 것입니다. 결과적으로 데이터를 분리하는 방법은 명확하지 않습니다
  3. 신호 대 잡음비가 매우 낮습니다.
  4. 분류기의 올바른 기능이 무엇인지 확실하지 않습니다.

이것을 차례로 복용 :

  1. 할 수있는 여러 가지가 있습니다. 첫째, 나이키 스트 한계를 고려하더라도 뇌 활동이 실제로 100Hz 이상에서는 발생하지 않기 때문에 500Hz에서 ~ 200Hz로 안전하게 다운 샘플링 할 수 있습니다. 우리는 또한에서 채널 세트 (청각 영역을 통해 예를 들어 중앙) 표본 수 있지만, 우리는 오히려이하지 않을 것 선천적를 (정면 등)에 관심이있을 수있는 다른 영역에서 활동이 될 수 있으므로. 아마도 시간 범위의 일부를 떨어 뜨릴 수도 있습니다. 아마도 첫 번째 2만이 작업에 중요합니까? 실제로 알려지지 않았습니다. 물론 모두가 " 차원 축소를 외칠 것입니다! ", 그러나 그것은 사소한 것도 아닙니다. 첫째, 우리는 기차 / 테스트 분할에 대해 매우 조심해야 할 것입니다 (2 참조). 또한 기능 생성 전후에 이것을 수행할지 여부는 분명하지 않습니다. 교차 검증 또는 까다로운 육안 검사의 경우 적절한 방법이나 적절한 수의 차원을 선택할 수있는 확실한 방법이 없으며 PCA, ICA 또는 랜덤 프로젝션 등을 사용할 수 있습니다.

  2. 까다 롭습니다. 트레이닝 세트에 연속 샘플이있는 경우 트레이닝 세트를 과적 합할 수있는 반면, 연속 샘플을 트레인과 테스트 세트로 분할하면 트레이닝 세트를 과적 합할 수 있지만 테스트 세트를 과적 합할 수 있습니다. 여기에 다양한 옵션이있는 것 같습니다 :

    • 단일 주제 분류 . 각각의 개별 과목을 스스로 가져 와서 시대에 따라 나눕니다. 우리가 뇌를 가로 지르려고하지 않기 때문에 이것은 가장 쉬운 작업 이어야 합니다. 이 내에서 교차 검증을 위해 두 개의 남은 에포크를 사용할 수 있습니다. 완전성을 위해 모든 조합을 회전시켜야합니다. 모든 주제에 대한 평균 정확도를 간단히보고합니다. 물론 우리는 이러한 모델이 완전히 일반화 될 것으로 기대하지는 않습니다.
    • 과목 분류 내에서 . 모든 주제를 함께 가지고 시대에 따라 나눕니다. 이 우리 모두가 교육의 주체로 본 것 같이 사실, 쉬운 작업이 될. 그러나 우리는 아마도 모델이 새로운 주제로 잘 일반화 될 것으로 기대하지는 않을 것입니다. 이 내에서 교차 검증을 위해 두 개의 남은 에포크를 사용할 수 있습니다. 완전성을 위해 모든 조합을 회전시켜야합니다.
    • 과목 분류 사이 . "leave-one-out"이라고도하며, 단일 과목은 시험 데이터로 사용되며 나머지는 훈련에 사용됩니다. 그런 다음 모든 주제를 회전시킵니다. 그러면 교차 검증이 주제에 대해 수행됩니다. 우리는 매번 "새로운 두뇌"를 예측하려고 노력하기 때문에 이것이 훨씬 더 어려운 작업이 될 것으로 기대합니다. 여기서는 테스트 재시험 신뢰성 문제가 있지만 (즉, 시간적 상관 관계로 인해 과적 합이 얼마나 많이 발생하는지) 모델이 더 많은 인구에게 잘 일반화 될 것으로 예상합니다.
  3. 이것은 고전적인 "건초 더미의 바늘"문제입니다. 음악 장르 인식 또는 장르별 처리와 관련된 실제 신호는 뇌 활동의 "수프"와 비교하여 미미할 수 있습니다. 부분적으로 만 제거 할 수있는 주목할만한 인공물도 있습니다 (주로 움직임과 관련됨). 우리가 데이터에서 파생 된 기능과 데이터가 처리되는 방식은 관심 신호의 일부를 파괴하지 않아야합니다.

  4. 여기서 다양한 일을하는 것을 상상할 수 있습니다. 첫 번째는 단순히 벡터로 연결된 원시 데이터를 특징 벡터로 사용하는 것입니다. 나는 그것이 얼마나 유익한 지 확신하지 못합니다-나는이 벡터가 본질적으로 균일하게 무작위 일 것이라고 생각합니다. 이것은 실제로 신호 처리 문제이지만, 따라야 할 몇 가지 일반적인 지침이 있습니다. 하나는 슬라이딩 윈도우에 대해 표준 푸리에 분석 을 수행 하는 것인데, 여기에서 구성 요소를 별개의 주파수 대역 (알파 / 베타 / 감마 등)으로 나눌 수 있으며 이들 통계 (평균, 표준 편차)를 피처로 사용할 수 있습니다. 또는 Wavelet, Hilbert Transforms를 사용하거나 혼란스러운 유인 자를 찾으려고 할 수도 있습니다.. 물론 순열 수를 곱한 커널 (선형, 다항식, RBF 등)을 선택할 수 있습니다. 여기서 가장 좋은 방법은 가능한 많은 기능 세트를 생성 한 다음 MKL 또는 부스팅 방법을 사용하여 결합하는 것입니다.

이런 종류의 데이터 세트에 어떻게 접근 하시겠습니까? 도중에 놓친 것이 있습니까? 끝없는 연구 시간과 계산 리소스를 소비하지 않고 성공할 가능성이 가장 높은 전략은 무엇입니까?

답변:


4

@tdc. 차원 축소, 피험자 내 / 군간 분류, 신호 대 잡음비 등을 포함하여 신경 과학 데이터의 분석과 관련하여 여기에서 언급 한 모든 문제 는 구체적으로 설계된 EEGLAB 툴박스에 의해 처리되고 있습니다. 이런 종류의 신경 과학 데이터를 처리하기 위해 :

EEGLAB은 ICA (Independent Component Analysis), 시간 / 주파수 분석, 아티팩트 거부, 이벤트 관련 통계 및 평균의 몇 가지 유용한 시각화 모드를 통합 한 연속 및 이벤트 관련 EEG, MEG 및 기타 전기 생리 학적 데이터를 처리하기위한 대화식 Matlab 도구 상자입니다. 단일 시험 데이터.

따라서 귀하의 질문 "끝없이 많은 연구자 시간을 소비하지 않고 성공할 수있는 전략은 무엇입니까?"와 관련하여 EEGLAB을 온라인 워크샵 에서 시청하고 계속 진행하기를 바랍니다.

업데이트 : 더 많은 ML 자료를 보려면 (새로운) BCILAB 모델을 살펴보십시오.


1
나는 과거에 EEGLAB을 실제로 사용했지만 전체 GUI (기본적으로 약간 느리고 불안정한)보다는 기본 기능입니다. 그러나 다변량 분석보다는 질량 일 변량 분석에 주로 맞춰져 있지만 한동안 살펴 보지는 않았 음을 인정합니다. 경험이 있습니까?
tdc

나는 그들이 지난 2 년 동안 큰 진전을 이뤘다고 생각한다. 그리고 나는 GUI와 matlab 기능을 모두 사용하고있다. 2010 년이 워크샵은 매우 유용하고 많은 버그가 수정되었으며 많은 모델이 STUDY 및 기타와 같이 추가되었습니다. 시간과 비용을 절약 할 수있어 매우 기쁩니다. 그러나 MEG가 아닌 EEG 데이터를 중심으로 작업하고 있습니다.
Dov

1
알았어. 원칙적으로 인공물과 MEG의 차이점은 아티팩트 유형 및 센서 수를 제외하고 본질적으로 전기 두뇌 활동을 측정하기 때문입니다. EEGLAB과 기계 학습을 결합 했습니까?
tdc

확실한. 항상. 그것은 모두 matlab에 있습니다 ... 따라서 데이터를 EEGLAB에로드하면. PCA / ICA (이것은 내가 싫어하는 것)를 사용하고 좋아하는 분류기 / 클러스터링 SVM, 피셔 또는 k- 평균을 훈련시킬 수 있습니다.
Dov

1
이것은 그 범위에 대한 훌륭한 대답이지만 독점 시스템에 의존하는 도구 상자와 독립적으로 이러한 각 문제가 어떻게 처리되는지에 대한 요약을 보는 것이 좋습니다.
bright-star
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.