통계 학습 요소의 표 18.1은 14 개의 클래스 데이터 세트에서 여러 분류기의 성능을 요약합니다. 이러한 다중 클래스 분류 문제에 대해 새로운 알고리즘을 올가미 및 탄성 그물과 비교하고 있습니다.
사용 glmnet
버전 1.5.3 (R 2.13.0) I 포인트 제합니다 (재현 할 아니다 에 사용 된 유전자의 수 (269) 및 테스트 오차 것으로보고 테이블에 -penalized 다항식)은 13 밖으로 사용 된 데이터는이 14- 암 마이크로 어레이 데이터 세트 입니다. 내가 시도한 것이 무엇이든, 54에서 16의 테스트 오류가있는 170-180 유전자 근처에서 사용하는 최상의 성능 모델을 얻습니다.
654 페이지의 섹션 18.3의 시작 부분에서 데이터의 일부 전처리가 설명되어 있습니다.
나는 지금까지 응답없이 저자들에게 연락했으며, 누구든지 테이블을 재현하는 데 문제가 있음을 확인하거나 테이블을 재생산하는 방법에 대한 해결책을 제공 할 수 있는지 묻습니다.
1
glmnet은 최근 상당히 많은 변화를 겪어 왔으며 과거에는 숫자에 문제가있었습니다. 이 때문일 수 있습니까? 저자에게 연락 한 이후 얼마나 걸립니까? 현재 버전이 1.7이고 약 일주일 전에 CRAN에 업로드 된 것으로 보입니다.
—
추기경
@ cardinal, glmnet으로 마지막 실험을 한 지 약 4 주가 지났지 만 ESL의 표와 일치하지 않는 유사한 결과를 생성하는 다른 구현도 있습니다. 테이블이 확실히 더 오래되었으므로 테이블이 정확하지 않다고 생각하지만 확실하게 알 수 있습니다.
—
NRH
나는 그 부분들을 아주 간략하게 정리했으며, 661 페이지의 (18.19)에서 수축 매개 변수를 선택하기 위해 교차 검증이 어떻게 수행되었는지에 대한 질문이 떠 올랐습니다. 어떤 생각? 어쩌면 내가 놓쳤거나 다른 곳에 묘사되어 있습니까? 분석을 재현하려는 시도가 접근 방식의 차이에 민감 할 가능성이있는 것 같습니다.
—
추기경
@cardinal, 이것에 관심을 가져 주셔서 감사합니다. CV가 차이를 만들 수있는 것은 맞지만 저자는 실제로 웹 페이지에서 CV에 사용 된 서브 세트 (표시)를 데이터와 함께 가지고 있습니다. 어쨌든 CV는 최적의 페널티 파라미터 람다를 선택하는 데에만 사용되며 전체 훈련 데이터 세트는 모델에 맞게 사용되며 테스트 데이터에서 평가됩니다. 따라서 CV 단계가 다른 람다를 선택하더라도 해당 람다는 훈련 데이터의 솔루션 경로에 있으며 찾을 수 없습니다.
—
NRH