randomForest에 임의 효과 (또는 반복 측정)를 포함시키는 방법


22

나는 그 질문이 많은 의미를 지니고 있다고 확신하지는 않지만, 무작위 효과를 가진 임의의 숲을 제안한 논문 제목을 보았습니다. 이것이 R에서 가능합니까?


1
예,별로 이해가되지 않습니다. 랜덤 효과 란 무엇을 의미합니까?
Simone

랜덤 효과를 (1 | effect)로 포함시킬 수있는 lmer 함수로 할 수있는 것과 비슷한 것을 생각하고 있습니다.
mguzmann 2016 년

그래서 이것은 임의의 숲에서 어닐링을 시뮬레이션 한 것입니까? econpapers.repec.org/article/bpjjqsprt/… researchgate.net/publication/…
EngrStudent-복 직원 Monica

2
주소를보고있는 방법이 어떤 종류인지 무작위인지 확실하지 않습니다. 임의의 숲은 나무를 장식하여 포장에 비해 간단한 개선입니다. 그것이 '무작위'라고 불리는 이유는 어떤 경우에, 트리에서 분할이 고려 될 때, 분할 후보는 p 예측기의 랜덤 서브 세트 m으로부터 선택되기 때문이다. 일반적으로 m ~ sqrt (p)입니다. 그리고 분할이 발생할 때마다 임의의 예측 변수 하위 집합이 선택되므로 임의 포리스트가 선택됩니다.
psteelk

답변:


13

일반적으로 함께 사용되지 않으므로 조합하기 전에주의를 기울여야합니다.

임의 포리스트는 일반적으로 분류 자로 사용됩니다. 다른 방법 (예 : K- 평균 군집) 대신 무작위 포리스트를 사용하는 이유는 분류하려는 차원의 수가 많기 때문입니다. 차원 수가 많은 문제는 모든 차원 순서의 조합을 테스트하려는 경우 선택의 폭이 다양하다는 것입니다 (차원의 계승 수보다 빠르게 증가 함).

무작위 효과는 일반적으로 같은 것을 반복 측정하여 회귀에 사용됩니다. 그것들은 일반적으로 혼합이라는 용어가 고정 효과와 임의 효과를 모두 나타내는 혼합 효과 모델에서 사용됩니다. 고정 효과는 다시 볼 수있는 매개 변수 (예 : 약물 또는 사람의 나이)를 나타내는 것으로 생각됩니다. 랜덤 효과는 다시는 볼 수없는 매개 변수 (예 : 특정 인물) 주변의 변동 사례를 나타내는 것으로 생각됩니다.

클러스터 데이터 http://dx.doi.org/10.1080/00949655.2012.741599http://www2.ims.nus.edu.sg/Programs/014swclass/files/denis.pdf 가있을 때이를 함께 사용하는 예가 있습니다 . .

이 분석을 수행 할 수있는 R 패키지를 모릅니다.


2
또한이 저작의 저자는 구현의 R 코드를 귀하와 공유하게되어 기쁩니다. 이메일로 보내주세요. 내가 한 일이야
Brash Equilibrium

Hajjam에 연락 한 Larocque에게 연락을했는데 며칠 내에 이메일을 보냈습니다.
Brash Equilibrium

2
그러나 공정한 경고는 사용 가능한 R 코드는 연속 데이터에 대한 임의의 포리스트 만 구현합니다. 범주 형 데이터를 처리하려면 확장해야합니다.
Brash Equilibrium

10

네 가능합니다. " RE-EM 트리 : 세로 및 클러스터 된 데이터에 대한 데이터 마이닝 방법 "및 관련 R 패키지 REEMtree를 확인해야 합니다.

내가 논문을보고 난 지 오래되었습니다. 저자들은 아직이 나무들의 앙상블 형성을 시도하지는 않았지만 그것이 효과가 없을 것이라고 제안한 것은 없다고 생각합니다.


1
REEMtree는 임의의 포리스트에 적용되는 임의의 효과가 아닙니다. 재귀 분할에 적용되며 이는 임의 포리스트 모델로 들어가는 것의 일부일뿐입니다. 따라서이 답변이 Bill Denney보다 높은 점수를받을 가치가 있다고 생각하지 않습니다. 불행히도, 그것에 대한 나의 공감대가 잠겨 있습니다.
Brash Equilibrium

1
나무가 완성되면 숲을 짓기가 얼마나 힘들까요? 그리고 천만에요
Ben Ogorek

1
무작위 포리스트가 부트 스트랩 샘플링에 어떻게 추가되는지, 무작위로 선택된 기능의 수를 조정하고, 트리 결과의 집계 등을 살펴보면 개별 트리의 예측이 아닌 임의의 포리스트 예측에 임의의 효과가 필요합니다. REEMtree를 확장하는 숲은 Bill 인용 기사를 읽고 작성자에게 R 코드를 요청하는 것만 큼 좋은 해결책이 아닙니다.
Brash Equilibrium

8

혼합 효과 랜덤 포레스트 (MERF)는 문제입니다. 위의 답변에서 알 수 있듯이 HEC Montreal의 Larocque 박사 그룹은 이에 대한 훌륭한 연구가 있습니다. 논문은 여기에 있습니다 : http://www.tandfonline.com/doi/abs/10.1080/00949655.2012.741599 .

본질적으로 랜덤 포레스트의 비선형 모델링과 선형 랜덤 효과를 결합하는 이론적으로 건전한 방법입니다.

우리는 방금 논문에서 위의 알고리즘을 사용하여 MERF를 구현 하는 Python오픈 소스 패키지를 출시했습니다 .

패키지 및 클러스터 된 데이터 세트에 사용하는 방법에 대한 자세한 블로그 게시물을 작성했습니다 .


1
R에서 이것을 구현하거나 부분 의존성 플롯 기능을 추가하려는 생각
OliverFishCode
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.