기능 선택을위한 랜덤 순열 테스트


9

로지스틱 회귀 컨텍스트에서 기능 선택에 대한 순열 분석에 대해 혼란스러워합니다.
랜덤 순열 테스트에 대한 명확한 설명을 제공하고이 기능이 기능 선택에 어떻게 적용됩니까? 정확한 알고리즘과 예제가있을 수 있습니다.

마지막으로 올가미 또는 LAR과 같은 다른 수축 방법과 어떻게 비교됩니까?


5
예를 들어, 설계 행렬의 단일 열 항목이 치환되고 반응 및 기타 공변량이 고정 된 위치와 같은 것을 의미합니까? 사용중인 특정 참조가 있으면 나열하는 것이 도움이 될 수 있습니다.
추기경

이 링크 citeseerx.ist.psu.edu/viewdoc/… 는 올바른 기술을 의미 한다고 생각합니다 . 나는 현재이 방법에 대해 말 해준 강사와 연락을 취하려고 노력하고 있습니다.
Ugo

그와 다시 연락 할 수 없었습니다 (Donald Geman)
Ugo

2
귀하의 질문에 명확하게 밝힐 수있는 분명하지 않은 점이 있습니다. 링크 된 논문에는 알고리즘에 대한 명확한 설명이 있습니다. 이 알고리즘에 대해 특정한 것을 묻고 싶습니까? 한계를 계산하여 기능 선택을 수행하는 아이디어입니까?당신이 설명하고 싶은 가치? 또한 논문의 정의 2 에 의문을 제기해야합니다 . 지원되지 않는 소유권 주장으로, 실제적인 가정 일 수 있지만 작은 한계-값은 일반적으로 관련성을 의미하지 않습니다. LAR은 선형 회귀 분석을 수행하며 실제로 이진 반응에 적합하지 않습니다.
NRH

답변:


10

(지금은 시간이 많지 않으므로 간단히 대답 한 다음 나중에 확장하겠습니다)

이진 분류 문제를 고려하고 있고 훈련 세트가 있다고 가정 해 봅시다. 미디엄 클래스 1 샘플 및 클래스 2 샘플. 기능 선택에 대한 순열 테스트는 각 기능을 개별적으로 확인합니다. 테스트 통계θ정보 이득 또는 평균들 사이의 정규화 된 차이와 같은 정보는 특징에 대해 계산된다. 그런 다음 지형지 물에 대한 데이터는 임의로 순열되고 크기가 하나 인 두 세트로 분할됩니다.미디엄 그리고 하나의 크기 . 테스트 통계θ 그런 다음이 새 파티션을 기반으로 계산됩니다. . 문제의 계산 복잡도에 따라 기능의 가능한 모든 파티션에서 두 세트의 순서로 반복됩니다.미디엄또는 이들 중 임의의 하위 집합입니다.

이제 우리는 배포를 설정했습니다 θ관측 된 검정 통계량의 p- 값을 계산합니다. θ기능의 임의 파티션에서 발생했습니다. 귀무 가설은 각 클래스의 표본이 동일한 기본 분포에서 나온다는 것입니다 (기능은 관련이 없음).

이 프로세스는 모든 기능에 대해 반복되며 분류에 사용되는 기능의 하위 집합은 두 가지 방법으로 선택할 수 있습니다.

  • 그만큼 p- 값이 가장 낮은 피처
  • p- 값이있는 모든 기능<ϵ
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.