비지도 학습 문제의 차원 축소에 대해 몇 가지 생각을 나누었습니다. 대답에 따르면, 귀하의 관심은 해석이 의도적으로 강조되지 않는 자동화 된 턴키, 블랙 박스 및 "로우 터치"머신 러닝 접근법과 달리 "고 터치"인간 개입 WRT 클러스터 해석에 있다고 가정했습니다. . 후자라면 왜 질문을하겠습니까? 또한 전략적 B2C 마케팅, B2B 기술 분야 및 교육 정책 (학생 및 학교 클러스터링)을 포함하여 수년에 걸쳐 광범위한 비즈니스 환경에서 클러스터 솔루션을 실행 한 경험이 많았습니다.
먼저 "다른 데이터 세트 그룹화"에 대한 귀하의 의견에 대해 질문이 있습니다. 나는 당신이 무엇을 의미하는지 또는 그것이 어떻게 접근에 영향을 줄 수 있는지 알지 못했고 당신이 자세히 설명하기를 바랐습니다.
PCA 기반 솔루션이 "해석하기 어렵다"는 위의 # 1 가정에 도전하고 싶습니다. 클러스터링의 예비 단계로 PCA를 실행하는 이유는 많은 클러스터링 알고리즘이 기능 중복성에 민감한 한 결과 솔루션 의 위생 과 관련이 있습니다. PCA는이 중복성을 관리 가능한 소수의 구성 요소로 축소하여 기능 선택과 관련하여주의해야 할 과제와 어려움을 최소화합니다. PCA에서 출력 된 구성 요소가 개별 기능의 세분성 및 특이성을 흐리게하는 것은 사실이지만 이는 전적으로 의지 할 경우 문제가됩니다결과를 분석 할 때 해당 구성 요소에 대해 다시 말해, 클러스터 해석을위한 구성 요소 만 사용하는 데 전혀 제한이 없습니다. 뿐만 아니라, 요인 차원이 무엇을 의미하는지 신경 쓰지 않아도됩니다. 그것들은 실행 가능한 솔루션을 용이하게하기위한 중간적이고 (궁극적으로) 일회용 수단 일뿐입니다. 그러나 팀이 "의미있는"요소 솔루션을 신중하게 구축 할 수 있기 때문에 몇 주를 소비 할 수 있기 때문에이 점을 고려할 때 많은 실무자와 다릅니다. 나에게 이것은 비효율적 인 고객 시간과 비용 낭비입니다.
이 시점에서 해결해야 할 기술적 고려 사항이 많이있을 것입니다. 예를 들어, PCA 알고리즘이 스케일 불변성이 아닌 경우 (예 : OLS vs ML), 결과 PCA 솔루션이 왜곡되어 높은 분산 기능에 더 많이로드됩니다. 이 경우 이러한 차이를 평탄화하기 위해 기능을 사전 처리하거나 변형해야합니다. 여기에는 평균 표준화, 범위 또는 IQR 표준화, ipsative scaling 등을 포함하여 수많은 가능성이 있습니다. 이 변환을 활용하여 가장 해석하기 쉬운 최상의 솔루션을 제공하십시오.
클러스터 솔루션이 생성되면 구성 요소를 무시하고 솔루션에 직접 사용되지 않은 추가 설명 정보와 함께 원래 기능을 축소하여 해석에 가장 동기를 부여합니다. 이 시점에서 몇 가지 휴리스틱이 정 성적 통찰력에 대한 최고의 가이드입니다. 이는 전체 샘플의 총 평균을 나타내는 추가 열뿐만 아니라 각 기능 (시트의 행), 각 클러스터 (열)의 평균 또는 중앙값을 기반으로 클러스터를 프로파일 링하는 스프레드 시트를 생성하는 것만 큼 쉽습니다. . 그런 다음 각 평균에 대한 각 지형지 물의 클러스터 평균을 총 평균에 곱하고 100을 곱하면 약 "100"이 "정상"IQ 또는 평균 동작 인 한 IQ 점수와 같은 휴리스틱이 생성됩니다. 120+의 인덱스는 클러스터의 동작에 대해 기능이 "true"일 가능성이 높음을 나타내며 80 이하의 인덱스는 클러스터의 "true"가 아닌 기능을 나타냅니다. 120+ 및 80 이하의 이러한 인덱스는 솔루션을 구동 할 때 주어진 기능의 중요성에 대한 프록시 t- 테스트와 같습니다. 물론, 유의성에 대한 그룹 테스트를 수행 할 수 있으며 샘플 크기에 따라 이러한 빠르고 더러운 규칙에 따라 다양한 답변을 얻을 수 있습니다.
그래도 모든 후에도 PCA를 클러스터링 알고리즘에 직접 입력하는 데 반대한다고 가정하면 감소 된 기능 세트를 선택하는 방법에 대한 문제가 남아 있습니다. PCA는 종속 변수없이 회귀를 실행하는 것과 같기 때문에 PCA는 여전히 유용합니다. 각 구성 요소의 최상위로드 기능은 클러스터 알고리즘의 입력이 될 수 있습니다.
많은 수의 특징과 데이터의 상대적으로 작은 표본 크기에 대한 요점으로, 많은 "전체 정보"다변량 분석의 일반적인 경험 법칙은 특징 당 최소 약 10 개의 관측치입니다. 이 문제를 해결하기 위해 활용할 수있는 몇 가지 특수한 방법이 있습니다. 예를 들어, 부분 최소 제곱 (PLS)은 Herman Wold에 의해 1990 년 에이 정확한 문제에 직면하는 화학 계량과 같은 분야에서 사용하기위한 이론적 경험론 에서 처음 개발되었습니다 . 본질적으로 팩터 분석이지만 차원을 생성하기 위해 큰 n을 요구하는 것은 훨씬 덜 엄격합니다. 다른 솔루션으로는 방대한 양의 정보와 함께 사용되는 임의의 포리스트와 같은 "분할 및 정복"기계 학습 방식이 있습니다. 이 방법들은이 PDF에서 검토됩니다http://www.wisdom.weizmann.ac.il/~harel/papers/Divide%20and%20Conquer.pdf
그러나 여전히 요인 분석과는 아무런 관련이 없으며 어떤 종류의 감독 된 "순차적"선택 프로세스를 실행하는 데 어려움이 있다고 결정했다고 가정 해보십시오. 필자의 견해로는 가장 중요한 문제는 사후 성능 메트릭 (Dunn Index)을 찾는 것이 아니라이 방법을 사용할 수 있도록 적합한 프록시 (종속 변수)를 식별하는 것입니다. 이 결정은 전적으로 귀하의 판단과 귀하의 데이터에 대한 SME 상태의 기능입니다. "모범 사례"는 없으며 이에 대한 답변이 훨씬 적으며 데이터를 설명하는 방법과 작은 어려움이 없습니다.
결정이 내려지면 문자 그대로 수백 가지의 변수 선택 솔루션을 선택할 수 있습니다. 변수 선택은 모든 통계 학자와 동생이 논문을 발표 한 주제 영역입니다. 선호하는 접근 방식은 "순차적 순방향 선택"인 것 같습니다.
알고리즘의 일부로 클러스터 솔루션에서 접히는지도 학습 모델이 존재한다는 점은 주목할 가치가 있습니다. 여기에는 잠재 클래스 모델로 알려진 크고 유연한 접근 방식이 포함됩니다. LC 모델의 핵심은 2 단계라는 것입니다. 1 단계에서 DV가 정의되고 회귀 모델이 작성됩니다. 두 번째 단계에서는 모델의 잔차 출력 (단일 잠복 벡터)의 이질성이 잠재 "클래스"로 분할됩니다. 이 CV 토론에서 LC 모델링에 대한 개요가 있습니다 ... 잠재 클래스 다항 로짓 모델 의심
도움이 되었기를 바랍니다.