그룹 올가미가 변수 그룹의 변수 선택 및 희소성에 사용된다는 것을 읽었습니다. 이 주장의 직관을 알고 싶습니다.
- 왜 올가미가 올가미보다 선호됩니까?
- 그룹 올가미 솔루션 경로가 부분적으로 선형이 아닌 이유는 무엇입니까?
그룹 올가미가 변수 그룹의 변수 선택 및 희소성에 사용된다는 것을 읽었습니다. 이 주장의 직관을 알고 싶습니다.
답변:
직관적으로 말하면, 이것은 우리를 통합하기위한 방법 (특정 유형의) 실제 계수 추정치에 대한 추가 정보 제공에 올가미 때문에 바람직 할 수 올가미 군 . 극단적 인 시나리오로서 다음을 고려하십시오.
함께 넣어 의 지지체로서 . "oracle"추정기 두 그룹이있는 그룹 올가미입니다. 하나의 보완. 하자 의 최소 값 만드는 . 그룹 올가미 페널티의 특성으로 인해 에서 에서 (소수의 경우)
실제로는 그룹을 잘 선택하지 않습니다. 그러나 그룹은 위의 극단적 인 시나리오보다 우수 함에도 불구하고 여전히 도움이 될 것입니다. 진정한 공변량 그룹과 비참 공변량 그룹 사이에서 선택이 여전히 이루어질 것입니다. 우리는 여전히 힘을 빌리고 있습니다.
이것은 여기에서 공식화 됩니다 . 그들은 어떤 조건 하에서, 그룹 올가미의 예측 오차에 대한 상한이 일반 올가미의 예측 오차에 대한 하한보다 낮음을 보여준다. 즉, 그들은 그룹화가 우리의 추정이 더 나아진다는 것을 증명했습니다.
두 번째 질문 : (일반) 올가미 페널티는 부분 선형이며, 이는 부분 선형 솔루션 경로를 발생시킵니다. 직관적으로, 올가미 그룹의 경우 패널티는 더 이상 부분적으로 선형이 아니므로 더 이상이 속성을 갖지 않습니다. 솔루션 경로의 부분 선형성에 대한 훌륭한 참조가 여기에 있습니다 . 제안 1을 참조하십시오. 및 . 그들은 올가미 그룹의 솔루션 경로가 경우에만 선형임을 보여줍니다. 는 부분적으로 상수입니다. 물론 페널티 에 글로벌 곡률이 있기 때문은 아닙니다 .
Ben의 대답이 가장 일반적인 결과입니다. 그러나 OP에 대한 직관적 인 답변은 범주 형 예측 변수의 경우 동기가 부여됩니다. 범주 형 예측 변수는 일반적으로 여러 개의 더미 변수 (각 범주마다 하나씩)로 인코딩됩니다. 많은 분석에서 이러한 더미 변수 (하나의 범주 형 예측 변수를 나타냄)를 별도로 고려하지 않고 함께 고려하는 것이 좋습니다.
예를 들어 5 단계의 범주 형 변수가있는 경우 직선형 올가미는 2 개와 3 개를 남길 수 있습니다. 원칙적으로 이것을 어떻게 처리합니까? 투표하기로 결정 하시겠습니까? 더 의미있는 범주 대신 더미 변수를 사용합니까? 더미 인코딩은 선택에 어떤 영향을 줍니까?
로지스틱 회귀 분석을위한 그룹 올가미를 소개하면서 다음 과 같이 말합니다 .
연속적 일뿐만 아니라 범주 형 예측 인자 (인자)가 존재할 때 선형 회귀 분석의 특수한 경우에 대해 올가미 솔루션은 전체 요인 대신 개별 더미 변수 만 선택하므로 만족스럽지 않습니다. 또한 올가미 솔루션은 더미 변수가 어떻게 인코딩되는지에 달려 있습니다. 범주 형 예측 변수에 대해 다른 대비를 선택하면 일반적으로 다른 솔루션이 생성됩니다.
벤이 지적한 바와 같이, 예측 변수 간에는 서로 미묘한 관계가 있음을 나타내는 더 미묘한 연결 고리가 있습니다. 그러나 범주 형 변수는 그룹 올가미의 포스터 하위입니다.