그룹화 된 데이터의 임의 포리스트


11

계층 적 구조를 갖는 고차원 그룹화 된 데이터 (50 개의 숫자 입력 변수)에 임의 포리스트를 사용하고 있습니다. 70 개의 서로 다른 개체의 30 개 위치에서 6 개의 복제로 데이터를 수집하여 12600 개의 데이터 포인트를 생성했으며, 이는 독립적이지 않습니다.

oob 오류는 훈련 중에 하나의 개체에서 데이터를 남기고 훈련 된 임의의 포리스트로 남은 개체의 결과를 예측할 때 발생하는 오류보다 훨씬 작기 때문에 임의 포리스트가 데이터에 너무 적합합니다. 또한 나는 상관 잔차가 있습니다.

임의 포리스트가 독립적 인 데이터를 기대하기 때문에 과적 합이 발생했다고 생각합니다. 데이터의 계층 구조에 대해 임의의 포리스트에 알릴 수 있습니까? 또는 강력한 상호 작용 구조로 고차원 그룹화 된 데이터를 처리 할 수있는 또 다른 강력한 앙상블 또는 축소 방법이 있습니까?

내가 더 잘 할 수있는 힌트가 있습니까?


계층 적 데이터의 특성은 무엇입니까? 데이터의 잎을 데이터 포인트로 사용할 수 있습니까?
casperOne

1
개인이 아닌 최상위 계층 구조의 부트 스트래핑을 고려 했습니까?
generic_user 2016 년

답변:


1

파티에도 늦었지만 몇 년 전에 한 일과 관련이 있다고 생각합니다. 그 작품은 여기에 출판되었습니다 :

http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0093379

의사 결정 트리의 앙상블에 대한 가변 상관 관계를 다루는 것입니다. 이러한 유형의 문제 ( "유전 적"영역에서 일반적 임)를 다루기위한 많은 제안을 가리키는 참고 문헌을 살펴 봐야합니다.

소스 코드는 여기에서 볼 수 있지만 더 이상 유지 관리되지는 않습니다.


-1

랜덤 포레스트의 과도한 피팅은 다른 이유로 발생할 수 있으며 RF 매개 변수에 따라 크게 달라집니다. RF 조정 방법을 게시물에서 명확하게 알 수 없습니다.

다음은 도움이 될만한 팁입니다.

  1. 나무 수를 늘리십시오

  2. 나무의 최대 깊이를 조정하십시오. 이 매개 변수는 현재 문제에 크게 의존합니다. 작은 나무를 사용하면 과적 합 문제에 도움이 될 수 있습니다.


2
파티에 매우 늦었지만이 답변은 데이터 세트의 계층 적 특성으로 인한 문제를 해결하지 못합니다.
SX에 불만족 cbeleites
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.