답변:
이러한 점을 누락 된 것으로 취급 할 수 있습니다. 벡터에 최대 20 (x, y) 쌍이 있고 특정 점에 5 (x, y) 쌍이 있다고 가정합니다.이 경우 나머지 쌍을 누락 된 것으로 취급 한 다음 누락 된 매개 변수에 대해 standatd 프로 시저를 적용하십시오.
이러한 표준 절차는 다음과 같습니다.
그러나 @jonsca 포인트 --- 주어진 포인트가 없으면 데이터를 분류하는 데 도움이되는 경우 예를 들어 몇 가지 모델을 작성해야하며 각 모델은 특정 포인트 수로 인스턴스를 모델링합니다.
내가 당신의 질문을 이해하는 방법에서, 데이터의 포인트는 상호 교환 가능하며 순서가 없습니다. 즉, 각 예제마다 포인트 세트가 있습니다. 이 설정은 jb의 "Missing Value"설정과 다릅니다. 설명.
나는이 문제에 일반적으로 사용되는 두 가지 방법에 대해 알고 있으며 실제로는 귀하의 아이디어를 기반으로합니다. 좋은 기준은 아마도 한 예제 내에서 모든 포인트의 평균을 계산하는 것이지만 일반적으로 제대로 작동하지 않습니다.
여러 지점을 단일 지형지 물로 집계하기 위해 컴퓨터 비전과 같은 단어 모음 (또는 기능 모음) 표현이 일반적으로 사용됩니다. 아이디어는 트레이닝 세트의 모든 포인트를 묶고 (예 : k- 평균 사용) 각 포인트를 클러스터로 설명하는 것입니다. 각 예에서 클러스터가 얼마나 자주 발생하는지에 대한 히스토그램을 얻습니다.
모든 포인트 쌍을 사용하기 위해 set kernels를 사용할 수 있습니다. 이것은 SVM을 사용하는 것이 가장 좋을 수도 있지만, 커널 화되거나 입력 사이의 호환성 기능을 사용할 수있는 모든 학습 알고리즘에서도 작동합니다. 커널 설정은 기본적으로 설정에서와 같이 두 기능 세트의 유사성을 계산하는 방법입니다.