통계 및 빅 데이터 mixed-type-data

6

주성분 분석을 연속 변수와 범주 변수가 혼합 된 데이터 세트에 적용 할 수 있습니까?

연속 데이터와 범주 데이터가 모두있는 데이터 세트가 있습니다. PCA를 사용하여 분석 중이며 범주 변수를 분석의 일부로 포함시키는 것이 좋은지 궁금합니다. PCA는 연속 변수에만 적용 할 수 있다는 것을 이해합니다. 그 맞습니까? 범주 형 데이터에 사용할 수없는 경우 분석에 어떤 대안이 있습니까?

147 categorical-data pca correspondence-analysis mixed-type-data

6

순서가없는 범주 형 변수와의 상관 관계

많은 관측치와 변수가있는 데이터 프레임이 있습니다. 그들 중 일부는 범주 형 (정렬되지 않음)이고 다른 일부는 숫자입니다. 이 변수들 사이의 연관성을 찾고 있습니다. 수치 변수 (Spearman의 상관 관계)에 대한 상관 관계를 계산할 수 있었지만 : 정렬되지 않은 범주 형 변수 간의 상관 관계를 측정하는 방법을 모르겠습니다. 정렬되지 않은 범주 형 변수와 …

123 r correlation categorical-data continuous-data mixed-type-data

2

혼합 유형 데이터를 사용한 계층 적 클러스터링-어떤 거리 / 유사성을 사용해야합니까?

내 데이터 세트에는 연속 및 자연 이산 변수가 있습니다. 두 가지 유형의 변수를 모두 사용하여 계층 적 클러스터링을 수행 할 수 있는지 알고 싶습니다. 그렇다면, 어떤 거리 측정이 적절한가?

34 clustering similarities distance-functions mixed-type-data

2

클러스터링에서 이진 변수와 연속 변수를 함께 사용하는 방법은 무엇입니까?

k- 평균으로 이진 변수 (값 0 및 1)를 사용해야합니다. 그러나 k- 평균은 연속 변수에서만 작동합니다. k-means가 연속 변수 전용이라는 사실을 무시하고 일부 사람들은 여전히 k-means에서이 이진 변수를 사용한다는 것을 알고 있습니다. 이것은 받아 들일 수 없습니다. 질문 : k- 평균 / 계층 군집화에서 이진 변수를 사용하는 통계적 / 수학적으로 올바른 …

27 r clustering binary-data k-means mixed-type-data

4

혼합 데이터가 유클리드 기반 클러스터링 알고리즘에 문제가되는 이유는 무엇입니까?

대부분의 고전적 군집 및 차원 축소 알고리즘 (계층 적 군집, 주요 구성 요소 분석, k- 평균, 자체 구성 맵 ...)은 숫자 데이터를 위해 특별히 설계되었으며 입력 데이터는 유클리드 공간에서 점으로 표시됩니다. 많은 실제 문제에 혼합 된 데이터가 포함되어 있기 때문에 물론 문제입니다. 예를 들어 버스를 연구하는 경우 높이와 길이 및 …

21 clustering dimensionality-reduction distance self-organizing-maps mixed-type-data

8

R을 사용한 혼합 유형 데이터 클러스터링

잠김 . 이 질문과 주제는 주제가 다르지만 역사적 의미가 있기 때문에이 질문과 답변은 잠겨 있습니다. 현재 새로운 답변이나 상호 작용을받지 않습니다. 혼합 된 데이터 변수가있는 데이터의 클러스터링을 R 내에서 수행 할 수 있는지 궁금합니다. 즉, 숫자 및 범주 형 변수가 모두 포함 된 데이터 세트가 있으며 변수를 묶는 가장 좋은 …

19 r clustering mixed-type-data

1

SVM (Support Vector Machine)에 대해 범주 형 데이터와 연속 형 데이터를 혼합해도 괜찮습니까?

나는 같은 데이터 세트를 가지고있다 +--------+------+-------------------+ | income | year | use | +--------+------+-------------------+ | 46328 | 1989 | COMMERCIAL EXEMPT | | 75469 | 1998 | CONDOMINIUM | | 49250 | 1950 | SINGLE FAMILY | | 82354 | 2001 | SINGLE FAMILY | | 88281 | 1985 | …

14 categorical-data svm mixed-type-data

2

Gower 거리는 이진 변수의 차이를 어떻게 계산합니까?

내 데이터 세트에 73 개의 샘플이있는 17 개의 숫자 및 5 개의 이진수 (0-1) 변수가 있습니다. 클러스터 분석을 실행해야합니다. Gower 거리는 변수가 혼합 된 데이터 세트에 대한 좋은 지표라는 것을 알고 있습니다. 그러나 Gower 거리가 이진 변수 간의 차이를 계산하는 방법을 이해할 수 없었습니다 . 유클리드 거리와 다르지 않은 것 …

13 clustering distance mixed-type-data

1

R의 혼합 데이터를위한 강력한 클러스터 방법

작은 데이터 세트 (4 개의 구간 변수 및 단일 3 요인 범주 형 변수에 대한 64 개의 관측치)를 군집화하려고합니다. 이제는 클러스터 분석을 처음 접했지만 계층 적 클러스터링 또는 k- 평균이 유일하게 사용 가능한 옵션이었던 시절부터 상당한 진전이 있었음을 알고 있습니다. 특히, chl 에 의해 지적 된 바와 같이 "적합성 지수를 …

12 clustering model-based-clustering mixed-type-data

1

연속 및 이진 변수가 혼합 된 t-SNE

현재 t-SNE를 사용하여 고차원 데이터의 시각화를 조사하고 있습니다. 이진 및 연속 변수가 혼합 된 일부 데이터가 있으며 이진 데이터를 너무 쉽게 클러스터링하는 것처럼 보입니다. 물론 이것은 스케일 된 (0과 1 사이) 데이터에 대해 예상됩니다. 유클리드 거리는 이진 변수 사이에서 항상 가장 크거나 작습니다. t-SNE를 사용하여 혼합 이진 / 연속 데이터 …

10 python dimensionality-reduction unsupervised-learning tsne mixed-type-data

1

개별 데이터 및 PCA의 대안

밀접하게 관련된 여러 종류의 곤충에 형태 학적 날개 문자를 설명하는 불연속 (선정적, meristic 및 명목) 변수에 대한 데이터 세트가 있습니다. 제가하고자하는 것은 형태 학적 특성에 따라 다른 종의 유사성을 시각적으로 나타내는 일종의 분석을 수행하는 것입니다. 떠올랐다 것을 우선 (이 내가 만들 찾고 있어요 시각화의 유형입니다) PCA했지만, 같은 특히 다른 질문 …

9 pca discrete-data correspondence-analysis mixed-type-data

«mixed-type-data» 태그된 질문