종 방향 빅 데이터를 모델링하는 방법은 무엇입니까?


14

전통적으로 혼합 모델을 사용하여 종 방향 데이터, 즉 다음과 같은 데이터를 모델링합니다.

id obs age treatment_lvl yield
1  0   11   M  0.2
1  1   11.5 M  0.5
1  2   12   L  0.6
2  0   17   H  1.2
2  1   18   M  0.9

우리는 다른 사람에 대한 임의의 가로 채기 또는 기울기를 가정 할 수 있습니다. 그러나 내가 해결하려고하는 질문에는 거대한 데이터 세트 (수백만 명의 사람, 매일 1 개월 관찰, 즉 각 사람이 30 번 관찰)가 포함될 것입니다. 현재 패키지 가이 수준의 데이터를 수행 할 수 있는지 알 수 없습니다.

spark / mahout에 액세스 할 수 있지만 혼합 모델을 제공하지 않습니다. 제 질문은 RandomForest 또는 SVM을 사용 하여이 데이터 세트를 모델링 할 수 있도록 데이터를 수정할 수 있습니까?

RF / SVM이 자동 상관 관계를 설명하는 데 도움을 줄 수있는 기능 엔지니어링 기술은 무엇입니까?

많은 감사합니다!

몇 가지 잠재적 인 방법이지만 스파크에 쓸 시간이 없었습니다.

randomForest에 임의의 효과를 포함시키는 방법

종단 데이터를 사용한 SVM 회귀


1
데이터 세트가 그렇게 크지 않습니다. 30 개의 레코드가있는 백만 명의 주제, 레코드 당 20 바이트의 데이터가 600MB를 가져옵니다. 아무것도 아닙니다. 모든 통계 패키지는 이것을 처리합니다
Aksakal

답변:


4

예제와 같이 변수가 몇 개만없는 경우의 일부 변형에 문제가 없어야 lme4합니다.

머신 러닝 기술이 실제로 빛을 발하는 곳은 많은 변수가 있고 변수 간의 비선형 성과 상호 작용을 모델링하려는 경우입니다. 종 방향 데이터로이를 수행 할 수있는 ML 접근 방식은 거의 없습니다. RNN은 하나의 옵션이지만 일반적으로 패널 데이터가 아닌 시계열 문제에 최적화되어 있습니다.

기본적으로 피드 포워드 신경망은 입력 데이터의 비선형 함수 인 회귀자가있는 (일반화 된) 선형 모델입니다. 파생 된 회귀 분석기 (출력 전 모델의 최상위 레이어)가 비모수 적 요소로 간주되는 경우 임의 효과의 형태로 그와 함께 모수 적 구조를 추가하는 데 방해가되지 않습니다.

그러나 이것은 분류 문제에 대해 구현되지 않았으므로 SVM을 후보로 관심이 있기 때문에 귀하가하고 있다고 가정합니다.



2

종단 데이터에 랜덤 포레스트, NN 등이 정말로 필요합니까? lme4수백만 명의 개인을 처리 할 수 ​​있습니다.

https://cran.r-project.org/web/packages/lme4/vignettes/Theory.pdf

선형 혼합 모델을 쉽게 처리 할 수 ​​있으며 링크에서 볼 수 있듯이 비선형 혼합 모델도 지원합니다 (비선형 모델에서도 번개가 빨리 올 것으로 예상하지는 않지만).

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.