종단 데이터를위한 머신 러닝 기술


11

종단 데이터 모델링을위한 머신 러닝 기술 (비 관리)이 있는지 궁금합니다. 저는 항상 혼합 효과 모델 (주로 비선형)을 사용했지만 다른 방법 (기계 학습 사용)이 있는지 궁금합니다.

머신 러닝이란 랜덤 임산, 분류 / 클러스터링, 의사 결정 트리, 심지어 딥 러닝 등을 의미합니다.


"머신 러닝"의 의미를 정의 해 주시겠습니까? 적절한 계층화 후에 LME를 향상시킬 수 있습니다. 그것은 실제로 꽤 소설 일 것입니다!
usεr11852

@ usεr11852, 나는 질문에 약간 더 많은 설명을 추가했습니다.
John_dydx

아 ... 그래서 부스팅은 당신의 정의에 따라 ML이 아닙니다. 잘 부탁해 주셔서 감사합니다. 곧 관심을 끌게 될 것입니다.
usεr11852

... 그리고 부스팅.
John_dydx

3
이 질문은 아주 모호해 보입니다. "기계 학습"은 광범위한 용어이며 심지어 "임의의 숲, 분류 / 클러스터링, 의사 결정 트리 및 심층 학습 등"의 범주입니다. 상당히 넓습니다. 관심있는 명확한 응용 프로그램이 있습니까? 예를 들어, 이분법 적 출력을 분류해야하는 경우 로지스틱 혼합 효과 모델 또는 로지스틱 GEE를 사용할 수 있습니다. 기계 학습과 통계 모델이 반드시 다른 것은 아닙니다.
Jon

답변:


7

하나의 대상으로부터 다수의 관찰 (예를 들어, 동일한 환자로부터의 다수의 방문)이있는 경우, '환자 ID'는 '그룹화'변수이다. 동일한 환자의 방문이 훈련 및 테스트 데이터 모두에 나타나지 않도록 모델 평가 중에주의를 기울여야합니다. 이는 상관 관계가 있으며 분류기 정확도의 팽창으로 이어지기 때문입니다 .

교차 검증 sklearn 문서는 그룹화 된 데이터에 대한 교차 검증 반복자가 있습니다. GroupKFold , LeaveOneGroupOutLeavePGroupsOut을 참조하십시오 .

더 좋은 방법은 Recurrent Neural Networks 또는 Hidden Markov Models을 사용해보십시오 .


4

길이를 나타내는 기능 (예 : 시간을 나타내는 기능 추가) 만 추가하면 표준 기계 학습 방법으로 길이를 모델링 할 수 있습니다. 또는 그룹, 개인 등의 멤버십을 나타내는 기능 (패널 데이터의 경우).

기능 생성 / 추출 기능이 창의적이라면 ML 알고리즘으로 무엇이든 모델링 할 수 있습니다.


1
@PhlippePro, 나는이 답변에 대해 약간 혼란 스럽습니다. (1) 훈련 세트에없는 사람을 예측하려면 어떻게해야합니까? 당신은 훈련 세트에있는 계수 만 가지고 있습니다. (2) 개인에 해당하는 기능을 추가하면 데이터 세트에 100,000 명이 있다고 가정 할 때 최대 100,000 개의 새로운 더미 변수가 추가 될 수 있습니다. 이 새로운 기능은 원래 기능과 함께 적합합니까?
user0

(1) 훈련 데이터 세트에 예측할 사람이 없으면 "개인 기능"을 사용할 수 없습니다. (2) 더미 피쳐를 만드는 대신 하나의 "범주 형"피쳐를 만들 수 있습니다 (예 : R에서 as.factor로 범주 형으로 지정). 일부 알고리즘은 너무 많은 범주를 처리 할 수 ​​없습니다 (예 : randomForest는 약 50 개만 처리 할 수 ​​있음). 실제로 변수를 더미 변수로 지정해야하며 지적한대로 많은 기능을 얻을 수 있습니다.
PhilippPro

ML은 종단 데이터로 쉽게 변환되지 않습니다
Aksakal
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.