매우 큰 데이터 세트에 액세스 할 수 있습니다. 데이터는 4 가지 장르 중 하나에서 음악 발췌를 듣는 사람들의 MEG 기록에서 가져온 것입니다. 데이터는 다음과 같습니다.
- 6 과목
- 3 실험 반복 (에포크)
- 에포크 당 120 개의 평가판
- 275 MEG 채널의 500Hz (= 4000 개 샘플)에서 시행 당 8 초의 데이터
여기의 각 "예"는 [4000x275] 크기의 행렬이며 이러한 예의 2160 개가 있으며 이는 특징 추출 이전입니다. 목표는 뇌 신호 (4 급 분류)를 기반으로 장르를 예측하는 것입니다.
여기에 몇 가지 어려운 문제가 있습니다.
- 데이터 세트가 메모리에 맞지 않습니다
- 데이터에는 강력한 시간적 상관 관계가 있으며 개체 간 변동이 클 것입니다. 결과적으로 데이터를 분리하는 방법은 명확하지 않습니다
- 신호 대 잡음비가 매우 낮습니다.
- 분류기의 올바른 기능이 무엇인지 확실하지 않습니다.
이것을 차례로 복용 :
할 수있는 여러 가지가 있습니다. 첫째, 나이키 스트 한계를 고려하더라도 뇌 활동이 실제로 100Hz 이상에서는 발생하지 않기 때문에 500Hz에서 ~ 200Hz로 안전하게 다운 샘플링 할 수 있습니다. 우리는 또한에서 채널 세트 (청각 영역을 통해 예를 들어 중앙) 표본 수 있지만, 우리는 오히려이하지 않을 것 선천적를 (정면 등)에 관심이있을 수있는 다른 영역에서 활동이 될 수 있으므로. 아마도 시간 범위의 일부를 떨어 뜨릴 수도 있습니다. 아마도 첫 번째 2만이 작업에 중요합니까? 실제로 알려지지 않았습니다. 물론 모두가 " 차원 축소를 외칠 것입니다! ", 그러나 그것은 사소한 것도 아닙니다. 첫째, 우리는 기차 / 테스트 분할에 대해 매우 조심해야 할 것입니다 (2 참조). 또한 기능 생성 전후에 이것을 수행할지 여부는 분명하지 않습니다. 교차 검증 또는 까다로운 육안 검사의 경우 적절한 방법이나 적절한 수의 차원을 선택할 수있는 확실한 방법이 없으며 PCA, ICA 또는 랜덤 프로젝션 등을 사용할 수 있습니다.
까다 롭습니다. 트레이닝 세트에 연속 샘플이있는 경우 트레이닝 세트를 과적 합할 수있는 반면, 연속 샘플을 트레인과 테스트 세트로 분할하면 트레이닝 세트를 과적 합할 수 있지만 테스트 세트를 과적 합할 수 있습니다. 여기에 다양한 옵션이있는 것 같습니다 :
- 단일 주제 분류 . 각각의 개별 과목을 스스로 가져 와서 시대에 따라 나눕니다. 우리가 뇌를 가로 지르려고하지 않기 때문에 이것은 가장 쉬운 작업 이어야 합니다. 이 내에서 교차 검증을 위해 두 개의 남은 에포크를 사용할 수 있습니다. 완전성을 위해 모든 조합을 회전시켜야합니다. 모든 주제에 대한 평균 정확도를 간단히보고합니다. 물론 우리는 이러한 모델이 완전히 일반화 될 것으로 기대하지는 않습니다.
- 과목 분류 내에서 . 모든 주제를 함께 가지고 시대에 따라 나눕니다. 이 수 우리 모두가 교육의 주체로 본 것 같이 사실, 쉬운 작업이 될. 그러나 우리는 아마도 모델이 새로운 주제로 잘 일반화 될 것으로 기대하지는 않을 것입니다. 이 내에서 교차 검증을 위해 두 개의 남은 에포크를 사용할 수 있습니다. 완전성을 위해 모든 조합을 회전시켜야합니다.
- 과목 분류 사이 . "leave-one-out"이라고도하며, 단일 과목은 시험 데이터로 사용되며 나머지는 훈련에 사용됩니다. 그런 다음 모든 주제를 회전시킵니다. 그러면 교차 검증이 주제에 대해 수행됩니다. 우리는 매번 "새로운 두뇌"를 예측하려고 노력하기 때문에 이것이 훨씬 더 어려운 작업이 될 것으로 기대합니다. 여기서는 테스트 재시험 신뢰성 문제가 있지만 (즉, 시간적 상관 관계로 인해 과적 합이 얼마나 많이 발생하는지) 모델이 더 많은 인구에게 잘 일반화 될 것으로 예상합니다.
이것은 고전적인 "건초 더미의 바늘"문제입니다. 음악 장르 인식 또는 장르별 처리와 관련된 실제 신호는 뇌 활동의 "수프"와 비교하여 미미할 수 있습니다. 부분적으로 만 제거 할 수있는 주목할만한 인공물도 있습니다 (주로 움직임과 관련됨). 우리가 데이터에서 파생 된 기능과 데이터가 처리되는 방식은 관심 신호의 일부를 파괴하지 않아야합니다.
여기서 다양한 일을하는 것을 상상할 수 있습니다. 첫 번째는 단순히 벡터로 연결된 원시 데이터를 특징 벡터로 사용하는 것입니다. 나는 그것이 얼마나 유익한 지 확신하지 못합니다-나는이 벡터가 본질적으로 균일하게 무작위 일 것이라고 생각합니다. 이것은 실제로 신호 처리 문제이지만, 따라야 할 몇 가지 일반적인 지침이 있습니다. 하나는 슬라이딩 윈도우에 대해 표준 푸리에 분석 을 수행 하는 것인데, 여기에서 구성 요소를 별개의 주파수 대역 (알파 / 베타 / 감마 등)으로 나눌 수 있으며 이들 통계 (평균, 표준 편차)를 피처로 사용할 수 있습니다. 또는 Wavelet, Hilbert Transforms를 사용하거나 혼란스러운 유인 자를 찾으려고 할 수도 있습니다.. 물론 순열 수를 곱한 커널 (선형, 다항식, RBF 등)을 선택할 수 있습니다. 여기서 가장 좋은 방법은 가능한 많은 기능 세트를 생성 한 다음 MKL 또는 부스팅 방법을 사용하여 결합하는 것입니다.
이런 종류의 데이터 세트에 어떻게 접근 하시겠습니까? 도중에 놓친 것이 있습니까? 끝없는 연구 시간과 계산 리소스를 소비하지 않고 성공할 가능성이 가장 높은 전략은 무엇입니까?