randomForest는 분류 대신 회귀를 선택합니다


12

R 에서 randomForest 패키지를 사용하고 홍채 데이터를 사용하는 경우 생성 된 임의 포리스트는 분류이지만 약 700 개의 기능이있는 데이터 세트 (28x28 픽셀 이미지의 각 픽셀)를 사용하면 레이블 열의 이름이 지정됩니다 label, randomForest생성 된 회귀입니다. 다음 줄을 사용하고 있습니다.

rf <- randomForest(label ~ ., data=train)

분류 대신 회귀 분석이 어떻게 사용됩니까? 를 통해 데이터를 읽습니다 read.csv().

답변:


10

randomForest는 변수 클래스에 따라 분류 또는 회귀로 기본 설정됩니다. 입력하면

class(iris$Species)

그것이 요인이라는 것을 알게 될 것입니다. 코드에서 'label'은 숫자 일 가능성이 높으므로 randomForest는 기본적으로 회귀입니다. 분류를위한 요소로 변환해야합니다. read.table에 colClasses를 설정하여 변환하거나 인자로 읽을 수 있습니다.


4

레이블이 범주 형 변수라는 것을 R에게 알리지 않았기 때문입니다. 이 read.csv함수는 각 열에 사용할 유형을 추측하려고 시도하고 숫자 열처럼 보이면 사용하게됩니다. str함수를 사용하여 R이 변수를 저장하는 방법을 확인할 수 있습니다 . 인수를 read.csv사용하여 colClasses변수를 인수 (또는 숫자 또는 ...)로 강제 로 읽을 수 있습니다 . 또는 factor기능 을 사용하여 레이블을 읽은 후 레이블을 인자로 변경할 수 있습니다 .

그렇지 않은 경우 데이터에 대한 추가 정보가 필요합니다. str데이터 프레임 에서 실행 한 결과 가 유용 할 것입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.