먼저 세 번째 질문에 대답하고 나중에 다른 두 가지를 다룰 것입니다.
- "올가미와 관련이 있지만 후부 배급에는 없다"고 말할 때 그가 무엇을 의미한다고 생각 하는가?
그의 슬라이드의이 그림은 그가 의미하는 바를 보여줍니다. 올가미 정규화기를 사전 배포로 표현한다는 것은 이전 배포가 라플라시안 또는 이중 지수 분포 의 형태를 취함을 의미합니다 . 이 분포는 평균에서 특성이 평활하지 않은 피크를 가지며, 희소 한 정규화 효과를 얻기 위해 0으로 설정됩니다. 올가미 정규화 결과를 직접 얻으려면 사후 분포 모드를 사용해야합니다.
그림에서 파란색 점선은 라플라시안 사전 분포를 나타냅니다. 진한 검정색의 사후 분포는 왼쪽에서 0에 약한 가능성으로 모드가 있고, 오른쪽에서 0에 가까우면서 강한 가능성이 있습니다.
그러나 전체 사후 분포는 드물지 않습니다. 표본을 추출하면 거의 0에 가까운 값을 얻을 수 없으며 실제로는 연속 분포이므로 정확하게 0을 얻지 못합니다.
올가미 접근 방식으로 희소성을 얻으려면 일반적으로 사후 모드에서 일부 차단 임계 값을 설정해야합니다. 이상적인 경우는 사후 모드가 0과 같지만 절대 값을 취한 후 사후 모드가 0.2보다 작 으면이를 완화하고 변수를 제거 할 수 있습니다.
올가미에서이 희소 화를 수행하면 제거 및 보유 된 특정 회귀 집합이 제공되는데, 이는 회귀자가 포함 또는 제외되는 "단일 결정"입니다.
변수 선택, 스파이크 및 슬래브에 대한 완전한 베이지안 접근법은 모델을 통해 어느 변수가 포함되거나 제외되어야하는지에 대한 불확실성을 유지합니다.
첫 번째 질문을 해결하려면 :
- 기본적으로 포함 가능한 회귀 기의 각 하위 집합을 테스트하는 무차별 대입 접근 방식을 사용한다는 점에서 더 나은가요?
어떤 방법도 포함 할 수있는 모든 회귀 분석을 테스트하지 않기 때문에 이것은 오해입니다.
- 그렇게 할 때 계산 시간의 단점이 있습니까?
계산 시간이 각각의 가능한 회귀 변수 서브 세트를 테스트하는 무차별 대입에 의해 지배되지 않기 때문에 이것은 또한 오해입니다.
Scott의 요점을 명확하게하기 위해, 일부 데이터를 감안할 때, 벌칙 적 가능성 가능성 희소 방식을 사용하면 정확히 한 세트의 포함 및 제외 회귀자를 얻을 수 있습니다. 그러나 스파이크 및 슬래브 희소 화 접근 방식을 사용하는 경우 각 회귀 자에 대해 전체 후방 분포가 있으며, 각 회귀 자에 대해 별도의 포함 또는 제외 가능성이 있습니다. 일부 회귀 분석기에는 70 %의 확률이 포함될 수 있고, 다른 회귀 분석기에는 25 %의 확률이 있습니다. 단일 데이터 세트가 주어지면 회귀자가 중요한지 여부에 대해 여전히 불확실성이 있기 때문에 이것은 많은 응용 분야에서 바람직 할 수 있습니다.
직관적으로, 스파이크와 슬래브는 올가미와 같은 처벌 가능성 접근법과 비교하여 포함 / 제외 회귀 기의 가능한 공간을 더 잘 나타냅니다.