«random-forest» 태그된 질문

랜덤 포레스트는 많은 의사 결정 트리의 출력을 결합하는 것을 기반으로하는 기계 학습 방법입니다.

4
매우 드문 데이터로 잘 작동하는 랜덤 포레스트 구현이 있습니까?
매우 드문 데이터로 잘 작동하는 R 임의 포리스트 구현이 있습니까? 나는 수천 또는 수백만의 부울 입력 변수를 가지고 있지만 주어진 예에서 수백 개 정도만 참입니다. R을 처음 접했고 스파 스 데이터를 처리하기위한 '매트릭스'패키지가 있지만 표준 'randomForest'패키지는이 데이터 유형을 인식하지 못하는 것 같습니다. 중요한 경우 입력 데이터는 R 외부에서 생성되어 가져옵니다. …

2
다변량 회귀 분석을위한 랜덤 포레스트
입력 기능 및 출력에 다중 출력 회귀 문제가 있습니다. 출력에는 복잡한 비선형 상관 구조가 있습니다.디엑스디엑스d_x디와이디와이d_y 임의의 숲을 사용하여 회귀를 수행하고 싶습니다. 내가 알 수있는 한 회귀를위한 임의의 포리스트는 단일 출력에서만 작동하므로 임의의 포리스트를 각 출력마다 하나씩 훈련해야합니다 . 이것은 상관 관계를 무시합니다.디와이디와이d_y 출력 상관 관계를 고려한 임의 포리스트에 대한 확장이 …


5
R의 randomForest는 32 개 이상의 레벨을 처리 할 수 ​​없습니다. 해결 방법은 무엇입니까?
R의 randomForest 패키지는 32 개 이상의 레벨을 가진 요인을 처리 할 수 ​​없습니다. 32 개 이상의 레벨이 제공되면 오류 메시지가 나타납니다. 범주가 32 개 이상인 범주 형 예측 변수를 처리 할 수 ​​없습니다. 그러나 내가 가지고있는 데이터에는 몇 가지 요소가 있습니다. 그들 중 일부는 1000 + 레벨을 가지고 있고 일부는 …

3
부분 의존도의 y 축 해석
이 질문은 교차 검증에서 답변 될 수 있기 때문에 스택 오버플 로 에서 마이그레이션 되었습니다. 5 년 전에 마이그레이션 되었습니다 . 부분 의존성 플롯에 대한 다른 주제를 읽었으며 대부분은 정확하게 해석 할 수있는 방법이 아니라 다른 패키지로 실제로 플롯하는 방법에 관한 것입니다. 나는 상당한 양의 부분 의존도를 읽고 작성해 왔습니다. …

4
“반 감독 학습”– 이것이 과적입니까?
Kaggle 경쟁에서 승리 한 솔루션에 대한 보고서를 읽고있었습니다 ( Malware Classification ). 보고서는이 포럼 게시물 에서 찾을 수 있습니다 . 문제는 열차 세트에 10000 개의 요소, 테스트 세트에 10000 개의 요소가있는 분류 문제 (9 개의 클래스, 메트릭은 로그 손실)였습니다. 경쟁하는 동안 모델은 테스트 세트의 30 %에 대해 평가되었습니다. 또 다른 …

5
랜덤 포레스트 vs 회귀
5 개의 독립 변수가있는 데이터 세트에서 OLS 회귀 모델을 실행했습니다. 독립 변수와 종속 변수는 연속적이고 선형 적으로 관련되어 있습니다. R 광장은 약 99.3 %입니다. 그러나 R에서 임의의 포리스트를 사용하여 동일하게 실행하면 결과는 '% Var 설명 : 88.42'입니다. 임의의 숲 결과가 회귀보다 열등한 이유는 무엇입니까? 나는 임의의 숲이 최소한 OLS 회귀만큼 …

5
랜덤 포레스트에서 오 분류 비용을 제어하는 ​​방법은 무엇입니까?
R 패키지 randomForest 에서 오 분류 비용을 제어 할 수 있습니까? 내 자신의 연구에서 허위 부정 (예를 들어, 사람이 질병을 앓고있을 수있는 오류가 없음)은 허위 양성보다 훨씬 비쌉니다. 패키지 부품 은 사용자가 잘못 분류 된 가중치를 다르게하는 손실 매트릭스를 지정함으로써 잘못된 분류 비용을 제어 할 수 있도록합니다. 비슷한 것이 randomForest있습니까? …


3
기계 학습 모델 결합
나는 데이터 마이닝 / 기계 학습 등을 처음 사용합니다. 예측을 개선하기 위해 여러 모델과 동일한 모델의 런을 결합하는 몇 가지 방법에 대해 읽었습니다. 몇 가지 논문 (이론과 그리스 문자는 흥미롭고 훌륭하지만 코드와 실제 예제는 짧음)을 읽은 것에 대한 나의 인상은 다음과 같이 가야한다는 것입니다. 모델 ( knn, RF등)을 가져 와서 …


1
분류에서 훈련 데이터를 생성하기위한 계층화 및 무작위 샘플링의 이점
원래 데이터 세트를 분류를위한 훈련 및 테스트 세트로 분할 할 때 무작위 샘플링 대신 계층화 샘플링을 사용하면 어떤 이점이 있는지 알고 싶습니다. 또한 계층화 된 샘플링이 무작위 샘플링보다 분류기에 더 많은 편향을 가져 옵니까? 데이터 준비를 위해 계층화 된 샘플링을 사용하려는 응용 프로그램은 2에 대해 훈련 된 Random Forests 분류기입니다.2삼2삼\frac{2}{3}원래 …

2
임의의 숲이 과적입니까?
나는 scikit-learn을 사용하여 임의의 숲을 실험하고 있으며 훈련 세트의 결과는 훌륭하지만 테스트 세트에서는 상대적으로 열악한 결과를 얻습니다 ... 내가 해결하려고하는 문제 (포커에서 영감을 얻음)는 다음과 같습니다 .A 플레이어의 홀 카드, B 플레이어의 홀 카드 및 플롭 (3 카드)을 고려할 때 어떤 플레이어가 가장 좋은 핸드를 가지고 있습니까? 수학적으로 이것은 14 …

11
왜 로지스틱 회귀가 기계 학습 알고리즘이라고 불리는가?
기계 학습 알고리즘에서 올바르게 이해하면 모델은 경험에서 배워야합니다. 즉, 모델이 새로운 사례에 대해 잘못된 예측을 제공하면 새로운 관측치에 적응해야하고 시간이 지나면 모델이 점점 더 좋아집니다. . 로지스틱 회귀에는 이러한 특성이 있음을 알 수 없습니다. 그렇다면 왜 여전히 기계 학습 알고리즘으로 간주됩니까? "학습"이라는 용어에서 로지스틱 회귀 분석과 일반 회귀 분석의 차이점은 …

3
회귀에 대한 임의의 포리스트가 '진정한 회귀'입니까?
임의 포리스트가 회귀에 사용됩니다. 그러나 내가 이해 한 바에 따르면 각 리프에 평균 목표 값을 할당합니다. 각 나무에는 잎이 제한되어 있으므로 회귀 모델에서 목표를 달성 할 수있는 특정 값만 있습니다. 따라서 (단계 함수와 같은) '이산'회귀가 아니라 '연속적'인 선형 회귀와 같지 않습니까? 이것을 올바르게 이해하고 있습니까? 그렇다면 랜덤 포리스트는 회귀에서 어떤 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.