범주 형 변수의 대중적이거나 일반적인 조합을 찾기 위해 사용할 수있는 통계적 방법은 무엇입니까?

10

polydrug 사용에 관한 연구를하고 있습니다. 400 명의 마약 중독자에 대한 데이터 세트가 있는데, 이들은 각각 자신이 남용하는 약물을 언급했습니다. 10 가지가 넘는 약물이 있으므로 가능한 큰 조합이 있습니다. 나는 그들이 소비하는 약물의 대부분을 이진 변수로 기록했다. 2 가지 또는 3 가지 약물의 대중적이거나 일반적인 조합을 찾고 싶습니다. 사용할 수있는 통계적 방법이 있습니까?

— 다다미
소스

6

각 사용자가 적어도 하나의 약물을 사용했다고 가정 할 때 함께 사용되는 약물의 조합은 1024 가지뿐입니다 (10 가지 약물 만있는 경우). 0/1 변수를 문자열로 간단히 변환하여 연결하고 문자열에서 빈도 분석을 실행하여 어떤 조합이 가장 자주 나타나는지 확인할 수 있습니다. 장난감을 예로 들어 A, B, C의 3 가지 약물 만 연구에 참여했다고합니다. 참가자가 약물 A와 C를 사용한 경우 변수 alldrugs는 101로 코딩 될 수 있습니다. 약물 B 만 사용하는 참가자는 010으로 코딩됩니다. 이들에 대해 빈도를 실행하여 가장 자주 선택된 것을 찾으십시오. 대부분의 소프트웨어는 이것을 몇 초 안에 처리 할 수 있어야합니다.

— 통계 학생
소스

1

동의했다. 400 명 정도의 중독자가 있으므로 1024 명이 모두 발생할 수는 없습니다.

— Nick Cox

네. 이것은 케이크 한 조각이어야합니다.

— Stats 학생

5

잠재 클래스 모델링은 약물 및 약물 사용자의 기본, "숨겨진"파티션 또는 그룹을 찾기위한 하나의 감독 된 학습 접근 방식입니다. LC는 두 가지 광범위한 접근 방식을 가진 매우 유연한 방법입니다. 단일 주제에 대한 반복 측정을 기반으로하는 복제와 범주 형 변수 집합을 교차 분류하여 복제하는 경우. 귀하의 데이터는 두 번째 유형에 적합합니다.

LC의 유연성은 다양한 스케일링 (예를 들어, 범주 형 또는 연속 형)으로 변수의 "혼합물"을 흡수하는 기능입니다. 이 접근법은 데이터에서 숨겨진 파티션, 세그먼트 또는 클러스터를 찾기 때문에 차원 축소 기술로 간주 될 수도 있습니다.

모든 LC 모델에는 2 단계가 있습니다. 1 단계에서 종속 또는 대상 변수가 식별되고 회귀 모델이 작성됩니다. 2 단계에서는 1 단계 모델의 잔차 (단일 "잠재적"벡터)를 분석하고 해당 벡터의 가변성 (또는 이질성) 인 "잠재적 클래스"를 캡처하는 파티션을 만듭니다.

프리웨어는 아마도 당신에게 잘 작동하는 다운로드 용입니다. 다음 중 하나는 polCA라는 R 모듈입니다.

http://www.jstatsoft.org/article/view/v042i10

상업용 제품에 약 1,000 달러를 투자 할 경우 Latent Gold 는 www.statisticalinnovations.com에서 구할 수 있습니다. Latent Gold 를 몇 년 동안 사용 해온 결과 분석 능력과 솔루션 범위가 그 제품에 큰 관심을 갖고 있습니다. 예를 들어, polCA는 범주 정보가있는 LC 모델에만 유용하지만 LG는 전반적으로 작동하며 개발자는 항상 새로운 모듈을 추가하고 있습니다. 가장 최근의 추가 기능은 숨겨진 Markov 체인을 사용하여 LC 모델을 작성합니다. 그러나 LG는 "종단 간 (end-to-end)"데이터 플랫폼이 아니므로 데이터 조작이나 리프팅에 좋지 않다는 점을 명심하십시오.

그렇지 않으면 R, SPSS, SAS, Python 등과 같은 통계 소프트웨어에서 광범위하게 지원되는 범주 정보를 분석하는 다른 방법이 많이 있습니다. 여기에는 우발성 테이블 분석, 로그 선형 모델, 유한 혼합 모델, 베이지안 텐서 회귀, 등등. 이 지역의 문학은 광범위하고 주교로 시작, 등., 이산 다변량 분석은 1975 년, 80 년대 이후 수행 자신의 작업을 기반으로 레오 굿맨의 RC 모델을 통해 확장, Agresti의 범주 데이터 분석 , 스티븐 피엔 버그에 의해 책과 토마스 Wickens 포함 1989 년에 출판 된 사회 과학을위한 훌륭한 책 Multiway Contingency Tables Analysis . 베이지안 텐서 회귀 Duke의 David Dunson이 작성한 논문의 제목이며 대규모 다자간 우연성 테이블을 모델링하는 가장 최근의 방법 인 "최첨단"의 일종입니다.

— 마이크 헌터
소스

참고 문헌 목록을 좋아하십시오!

— Chris

3

직관적으로 당신의 생각은 무엇입니까? 조합을 세고 싶을 때 가능한 모든 조합을 찾아서 단순히 세는 것이 어떻습니까? 자주 사용하는 항목 세트 마이닝을 살펴보십시오.

위키 백과-Apriori

다음은 동일한 구현입니다.

주파수 패턴 마이닝

— 거친 니 사르
소스