다변량 회귀 분석을위한 랜덤 포레스트

입력 기능 및 출력에 다중 출력 회귀 문제가 있습니다. 출력에는 복잡한 비선형 상관 구조가 있습니다. $d_x$ $d_y$

임의의 숲을 사용하여 회귀를 수행하고 싶습니다. 내가 알 수있는 한 회귀를위한 임의의 포리스트는 단일 출력에서만 작동하므로 임의의 포리스트를 각 출력마다 하나씩 훈련해야합니다 . 이것은 상관 관계를 무시합니다. $d_y$

출력 상관 관계를 고려한 임의 포리스트에 대한 확장이 있습니까? 멀티 태스킹 학습을위한 가우시안 프로세스 회귀 와 같은 것이있을 수 있습니다 .

regression multivariate-analysis random-forest

— sergeyf
소스

여기 내가 지금까지 파헤칠 수 있었던 것이있다 : scikit-learn.org/dev/modules/tree.html#multi-output-problems

— sergeyf

확실한. 펩티드의 고차원적인 "이미지"(실제로 dI / dV 스펙트럼)가 있습니다. 목표는 펩티드를 구성하는 아미노산의 위치 및 부류를 파악하는 것입니다. 첫 번째 방법은 이미지 세그먼테이션이지만 CRF 및 픽셀 단위 임의 포리스트는 실패했습니다. 이제 각 픽셀을 하나의 아미노산에만 속한다고 말하는 대신 (실제로 사실은 아님) 각 픽셀에 인접한 아미노산의 "영향"값을 지정합니다. 이는 각 픽셀 에 대한 차원 히스토그램을 . 따라서 다중 출력 회귀!

d_{y}

$d_y$

— sergeyf

Crimisini et al.에서 뒤늦은 답변 일 수 있습니다. 의사 결정 포리스트 : 분류, 회귀, 밀도 추정, 매니 폴드 학습을위한 통합 프레임 워크 이들은 장기 경계 식별에 적합한 방식으로 RF를 사용합니다.

— Simone

이 내용은 늦을 수 있지만이 게시물에 걸려 넘어지는 사람을 도울 수 있습니다. 다 변수 데이터를 사용하여 랜덤 포레스트를 쉽게 학습 할 수 있습니다. 모든 것은 같은 방식으로 발생하지만 정보 게인 계산에 분산을 사용하는 대신 여러 출력 변수의 공분산을 사용합니다. 더 중요한 것은 이제 나뭇잎에 N 차원 PDF가 포함되어 있다는 것입니다.

— masad

나는 RF가 "이것은 그들의 상관 관계를 무시한다"는 것을 모른다. RF의 앙상블 특성을 고려하면 상관 관계를 설명 할 수 있다고 생각합니다. 단 변량 입력을 받고 단 변량 출력을 제공하면 상관 관계를 고려하지 않습니다.

— EngrStudent-복직 모니카

다음은 얼굴 인식으로 수행 된 다중 출력 회귀 문제의 예입니다. 코딩 샘플도 포함되어 있으므로 방법론을 시작해야합니다. http://scikit-learn.org/stable/auto_examples/plot_multioutput_face_completion.html

— 주황색 1
소스

그것을 위해 특별히 새로운 패키지가 있습니다 (개인적으로 테스트되지 않음)

https://cran.r-project.org/package=MultivariateRandomForest

— MM
소스