내 데이터 세트는 벡터 시퀀스로 구성되어 있습니다. 각 벡터의 실제 치수는 50입니다. 시퀀스의 벡터 수는 3-5 ~ 10-15입니다. 즉, 시퀀스의 길이는 고정되어 있지 않습니다.
벡터가 아닌 일부 시퀀스에 클래스 레이블이 표시됩니다. 내 임무는 벡터 시퀀스가 주어지면 전체 시퀀스의 클래스 레이블이 계산되는 분류자를 배우는 것입니다.
나는 데이터의 정확한 본질을 말할 수 없지만 시퀀스의 본질은 일시적이지 않다. 그럼에도 불구하고 벡터 는 레이블을 변경하지 않고 벡터 와 교환 할 수 없습니다 ( ). 즉, 벡터의 순서가 중요합니다. 벡터 자체는 비슷합니다. 예를 들어 내적을 계산하고이 유사성 값을 사용하는 것이 좋습니다.
내 질문은 : 그러한 데이터를 분류하는 데 도움이되는 도구 / 알고리즘은 무엇입니까?
업데이트 : 데이터에는 하나 또는 매우 적은 벡터가 클래스 레이블에 큰 영향을 미치는 속성이 있습니다.
가능한 해결책 : 일부 연구를 거친 후에는 RNN (Recurrent Neural Networks)이 자연스럽게 법안에 맞는 것처럼 보입니다. 가장 중요한 아이디어는 컨텍스트 크기 를 선택하고 단어 벡터를 연결하며 최대 풀링을 수행하고 클래식 NN을 통해 피드를 제공하는 것입니다. 문장에서 가능한 각 상황 창 위치에 특징 벡터가 작성됩니다. 최종 특징 벡터는 예를 들어 최대 풀링을 사용하여 구축됩니다. 역전 파는 네트워크의 매개 변수를 조정하기 위해 수행됩니다. 나는 이미 몇 가지 긍정적 인 결과를 얻었습니다 (GPU는 필수입니다).