차원 축소와 반대되는 방법이 있습니까?


9

저는 기계 학습 분야에 익숙하지 않지만 신호 처리에 대한 부분을 다했습니다. 이 질문에 잘못 표기된 경우 알려주십시오.

시뮬레이션하기에는 너무 복잡한 비선형 모델 방식으로 적어도 3 개의 변수로 정의 된 2 차원 데이터가 있습니다.

PCA 및 ICA와 같은 방법 (python 라이브러리 Scikit-Learn에서)을 사용하여 데이터에서 두 가지 주요 구성 요소를 추출하는 데 다양한 수준의 성공을 거두었지만 이러한 방법 (또는 적어도 이러한 방법의 구현)은 제한적입니다 예를 들어 2D 점 구름에서 2 개의 구성 요소와 같이 데이터에 차원이있는만큼 많은 구성 요소를 추출합니다.

데이터를 플로팅 할 때 훈련 된 눈에는 세 가지 선형 추세가 있으며, 세 가지 색상 선은 방향을 나타냅니다.

데이터 플롯

PCA를 사용하는 경우 주 구성 요소는 컬러 라인 중 하나에 맞춰지고 다른 하나는 예상대로 90 °입니다. ICA를 사용할 때 첫 번째 구성 요소는 파란색 선과 정렬되고 두 번째 구성 요소는 빨간색과 녹색 구성 요소 사이에 있습니다. 신호에서 세 가지 구성 요소를 모두 재현 할 수있는 도구를 찾고 있습니다.

편집, 추가 정보 : 나는 더 큰 위상면의 작은 하위 집합에서 일하고 있습니다. 이 작은 하위 집합에서 각 입력 변수는 평면에서 선형 변경을 생성하지만이 변경의 방향과 진폭은 비선형이며 작업중인 더 큰 평면의 위치에 따라 다릅니다. 어떤 곳에서는 두 가지 변수가 변질 될 수 있습니다. 같은 방향으로 변화를 일으 킵니다. 예를 들어, 모델이 X, Y 및 Z에 의존한다고 가정합니다. 변수 X의 변화는 파란색 선을 따라 변화를 생성합니다. Y는 녹색 선을 따라 변화합니다. 빨간 것을 따라 Z.


3
올바르게 이해하면 찾고있는 개념이 포함 됩니다. 조회 커널 방법을 , 그리고 커널 PCA 특히있다.
Emre

1
확실하지 않으므로 답변으로 게시하지 않습니다. 신경망 유형의 모델에서는 숨겨진 레이어 차원> 입력 레이어 차원을 유지할 수 있습니다. 그런 다음 숨겨진 계층을 다른 네트워크 / 모델에 대한 입력으로 사용할 수 있습니다. 그러나 그렇게하려면 많은 데이터가 필요합니다.
Azrael

적어도 3 개의 변수로 정의 된 2 차원 데이터를 말할 때 어떤 의미에서 '가변'이라는 용어를 사용합니까? 클래스가 적합한 대체물입니까? PCA가 데이터에서 최대 변형 차원을 추출한다는 점은 주목할 가치가 있습니다. 이것이 반드시 가장 차별적 인 적용은 아닙니다. 클러스터링을 보셨습니까?
image_doctor

모형의 비선형성에 대해 알고 있습니까? 시뮬레이션하기에는 너무 복잡 할 수 있지만, 최대 3도 다항식으로 구성되어 있다는 사실을 알면 피쳐 엔지니어링이 크게 제한됩니다. 예를 들어 3도 폴리를 모두 추가 한 다음 PCA를 다시 3D로 되돌릴 수 있습니다.
AN6U5

나는 슬로프를 찾고 있기 때문에 내 데이터 의 파생물 에 커널 PCA를 사용하도록 제안한 통계 학자 친구와 이야기했습니다 . 미분 계수를 "기능 공학"으로 간주합니까?
PhilMacKay

답변:


8

짧은 대답은 그렇습니다.

기본적으로 기능 엔지니어링을 수행하게됩니다. 이것은 종종 다음과 같은 일련의 데이터 함수를 구성하는 것을 의미합니다.

ϕj(x):RpR ,  j=1,...,K

함께 묶인 길이 의 변환 된 데이터 벡터 를 정의합니다 .ϕ(x)K

이 작업을 수행하는 방법에는 여러 가지가 있습니다. 다음과 같은 용어를 찾아 볼 수 있습니다.

  1. 스플라인 및 일반화 된 첨가제 모델.
  2. 커널 트릭 ( 모델을 만드는 방법 ).K
  3. 피처 엔지니어링 (수동 종류, 예 : 데이터에 열 추가 ).x2
  4. 딥 러닝, 표현 학습

다양한 기술을 통해 알 수 있듯이 이것은 넓은 영역입니다. 실제로는 말할 것도 없지만 과적 합을 피하려면주의를 기울여야합니다.

이 백서 표현 학습 : 검토 및 새로운 관점 은 딥 러닝 관점에서 특정 기능 세트를 '좋은'것으로 만드는 것과 관련된 몇 가지 문제를 다룹니다.


-2

새로운 기능을 추출하는 기능을 찾고 있다고 생각합니다. 데이터 세트를 가장 잘 나타내는 기능입니다. 이 경우 이러한 방법을 "기능 추출"이라고합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.