다양한 기능을 가진 데이터 세트 다루기


14

다양한 수의 기능으로 데이터를 분류하는 방법에는 어떤 것이 있습니까?

예를 들어, 각 데이터 포인트가 x 및 y 포인트의 벡터이고 각 인스턴스에 대해 동일한 개수의 포인트가없는 문제를 고려하십시오. x와 y 포인트의 각 쌍을 특징으로 취급 할 수 있습니까? 또는 각 데이터 포인트에 고정 된 수의 기능이 있도록 포인트를 어떻게 든 요약해야합니까?


7
주어진 점의 유무가 데이터 분류에 도움이됩니까?
jonsca

답변:


5

이러한 점을 누락 된 것으로 취급 할 수 있습니다. 벡터에 최대 20 (x, y) 쌍이 있고 특정 점에 5 (x, y) 쌍이 있다고 가정합니다.이 경우 나머지 쌍을 누락 된 것으로 취급 한 다음 누락 된 매개 변수에 대해 standatd 프로 시저를 적용하십시오.

이러한 표준 절차는 다음과 같습니다.

  • 결측 매개 변수를 자연스럽게 처리하는 모델을 사용하십시오. 예를 들어 의사 결정 트리 모델이이를 처리 할 수 ​​있어야합니다.
  • 누락 된 열을 해당 열의 평균값으로 바꾸십시오.
  • 쉬운 모델을 사용하여 결 측값을 '예측'하십시오.

그러나 @jonsca 포인트 --- 주어진 포인트가 없으면 데이터를 분류하는 데 도움이되는 경우 예를 들어 몇 가지 모델을 작성해야하며 각 모델은 특정 포인트 수로 인스턴스를 모델링합니다.


10

내가 당신의 질문을 이해하는 방법에서, 데이터의 포인트는 상호 교환 가능하며 순서가 없습니다. 즉, 각 예제마다 포인트 세트가 있습니다. 이 설정은 jb의 "Missing Value"설정과 다릅니다. 설명.

나는이 문제에 일반적으로 사용되는 두 가지 방법에 대해 알고 있으며 실제로는 귀하의 아이디어를 기반으로합니다. 좋은 기준은 아마도 한 예제 내에서 모든 포인트의 평균을 계산하는 것이지만 일반적으로 제대로 작동하지 않습니다.

  • 여러 지점을 단일 지형지 물로 집계하기 위해 컴퓨터 비전과 같은 단어 모음 (또는 기능 모음) 표현이 일반적으로 사용됩니다. 아이디어는 트레이닝 세트의 모든 포인트를 묶고 (예 : k- 평균 사용) 각 포인트를 클러스터로 설명하는 것입니다. 각 예에서 클러스터가 얼마나 자주 발생하는지에 대한 히스토그램을 얻습니다.

  • 모든 포인트 쌍을 사용하기 위해 set kernels를 사용할 수 있습니다. 이것은 SVM을 사용하는 것이 가장 좋을 수도 있지만, 커널 화되거나 입력 사이의 호환성 기능을 사용할 수있는 모든 학습 알고리즘에서도 작동합니다. 커널 설정은 기본적으로 설정에서와 같이 두 기능 세트의 유사성을 계산하는 방법입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.