확률 적 행렬에 대한 희소성 유도 정규화


10

(예를 들어, 압축 감지 분야에서) 규범이 기능을 최소화하면 (고정 행렬 및 벡터 ) 라는 의미에서 "희소성 유발" 이라는 것은 잘 알려져 있습니다 충분히 큼 \ lambda> 0 이면 A , \ vec {b}\ lambda 중 많은 항목이 결과 \ vec {x} 에 정확히 0이 아닌 항목을 많이 가질 수 있습니다.L1Ab

fA,b(x)=Axb22+λx1
λ>0Abλx

그러나 \ vec {x} 의 항목 이 양수이고 1의 합인 조건에 따라 f_ {A, \ vec {b}}를 최소화 하면 L_1 항은 아무런 영향을 미치지 않습니다 ( \ | \ vec 피아트 기준 {x} \ | _1 = 1 ). 이 경우 \ vec {x} 의 결과 가 희박 하도록 하는 유사한 L_1 유형의 정규화 기가 있습니까?fA,bx1L1x1=1L1x


" L1 항이 아무런 영향을 미치지 않습니다 ( ||x||1=1 피아트로 인한 영향) "에 대해 자세히 설명해 주 시겠습니까?
Cam.Davidson.Pilon

2
@ Cam.Davidson.Pilon : xi0ixi=1 의미 x1=1 . :)
추기경

1
저스틴 : 더 자세한 내용은 유용한 답변을 얻을 수있는 좋은 기회입니다. 다음은 설명을 읽 자마자 발생하는 몇 가지 질문입니다. ( 1 )이 모든 것에서 "확률 행렬"은 어디에 있습니까? 확률 적 벡터 와 관련된 상황만을 설명하는 것 같습니다 . 이것들은 확률 행렬의 개별 행 일 수도 있고, 더 많은 세부 사항이 제시되면 다른 구조가 분명해질 수 있습니다. ( 2 ) 확률 자체가 희박하거나 어쩌면 적절한 근거로 희박 해지 기를 원 하십니까? 첫 번째 이유는 무엇입니까? (이것은 가중 된 (가벼운) 그래프에서 무작위로 진행됩니까?)
추기경

왜 항목 이 양수 합니까? 대신 음수아니 어야합니까 ? 또한 제약 조건을 제거하기 위해 다시 매개 변수화를 고려한 적이 있습니까 (부정적이지 않다고 가정)? 즉,xxi=exp(wi)jexp(wj)
jrennie

1
@jrennie : 긍정적 인 저스틴 의 맥락에서 볼 때, 음이 아닌 것을 의미했습니다 .
추기경

답변:


2

희소 솔루션을 생성하는 일반적인 방법은 분산이 알려지지 않은 평균 평균이 0 인 MAP 추정을 사용하는 것입니다.

p(xi|σi2)N(0,σi2)

그런 다음 모드가 0 인 이전을 지정하면 일반적으로 사후 모드가 성기 게됩니다. 지수 분포 혼합을 고려하여이 방법에서 발생한다.σi2L1

p(σi2|λ)Expo(λ22)

그럼 당신은 얻을

log[p(xi|λ)]=λ|xi|+log[λ2]

일부 대안은 일반화 된 이중 파레토, 반 코시, 역 베타입니다. 어떤 의미에서는 이것들이 큰 값을 축소하지 않기 때문에 올가미보다 낫습니다. 사실 나는 일반화 된 이중 파레토가 지수의 혼합으로 쓰여질 수 있다고 확신합니다. 즉, 우리는 쓰고 앞에 감마를 배치합니다 . 우리는 얻는다 :λ=λip(λi|αβ)

p(xi|αβ)=α2β(1+|xi|β)(α+1)

좋은 전역 매개 변수를 선택하는 데 도움이되는 정규화 상수를 포함했습니다. 이제 범위 제한을 적용하면 단면을 다시 정규화해야하므로 더 복잡한 문제가 발생합니다.

희소성을 유발하는 벌칙의 또 다른 일반적인 특징은 제로에서 차별화 할 수 없다는 것입니다. 일반적으로 왼쪽과 오른쪽 한계가 반대 부호이기 때문입니다.

이것은 Nicolas Polson과 James Scott의 분산 평균 혼합 표현에 대한 훌륭한 작업을 기반으로합니다 .TIRLS를 개발하는 데 사용됩니다. 최소 제곱을 매우 큰 클래스의 손실-페널티 조합으로 확장합니다.

다른 방법으로는 심플 렉스에 정의되어 있지만 한계 분포의 모드가 0 인 사전을 사용할 수 있습니다. 한 예는 0과 1 사이의 모든 모수를 갖는 디 리틀 렛 분포입니다. 묵시적 벌점은 다음과 같습니다.

i=1n1(ai1)log(xi)(an1)log(1i=1n1xi)

여기서 입니다. 그러나 페널티에 특이점이 있기 때문에 수치 적으로 최적화하는 데주의를 기울여야합니다. 보다 강력한 추정 프로세스는 사후 평균을 사용하는 것입니다. 당신은 정확한 sparseness를 잃지 만, 제로에 가까운 많은 사후 수단을 얻을 것입니다 .p0<ai<1


비록 우리가 세부 사항을 이해할 준비가되어 있지는 않지만 이것은 매우 흥미로운 아이디어처럼 보입니다! 올바르게 이해한다면 이전에는 변수가 0에 대한 지수 분포를 따른다는 가정에서 비롯된 것입니다. 따라서 변수에 대해 더 잘 작동하는 0을 중심으로하는 분포가 필요합니다. 그러나 확실한 승자는 없습니다. "1에 합의 양수"에 대한 분포가 있습니까? 당신의 도움을 주셔서 감사합니다! L1
저스틴 솔로몬

희소성을 얻으려면 모드가 0 인 분포가 필요합니다. 그리고 dirichlet 분포는 심플 렉스 (simplex)를 넘어, 정확히 1에 해당하는 분포입니다. 또 다른 일반 클래스는log[xixn]
확률

아, Dirichlet은 우리가 관심있는 단면에 있다는 점에서 매우 흥미로워 보입니다. 언급 한 다른 두 가지가 에서 비대칭을 수 있습니다 . 내 공동 작업자와 나는 내일 Dirichlet이 내포 한 에너지 기능을 통해 작업하고 다시보고 할 것입니다! 지금까지 환자의 도움에 진심으로 감사드립니다. 이것은 일반적인 분야와는 거리가 멀지 만 우리가 해결할 수 있다면 결과는 형상 처리에서 상당한 발전을 가져올 수 있습니다! [물론 당연히 크레딧을 제공 할 것입니다!]xn
Justin Solomon

1

두 가지 옵션 :

  1. 에 페널티를 사용하십시오 . 명백한 단점은 이것이 볼록하지 않으므로 최적화하기 어렵다는 것입니다.L0x
  2. Reparameterize, 과 새 (자연) 매개 변수 벡터에 페널티 킥을 사용,. 이렇게해야 할 이유가없는 한 사건이 똑같이 일어날 수 있습니다.xi=exp(wi)jexp(wj)w

reparametrization이 희소성을 장려하는 방법을 설명 할 수 있습니까? 오히려 오히려 그 반대 를 보장 하는 것 같습니다 .
추기경

그것은 희소성에 권장 의 다른 항목에 대응하는 유도 동일한 값을 가질 것이다. wx
jrennie

예, 이해합니다 그러나 이러한 값은 0이 아닙니다. 우리가 문자 그대로 OP를 취한다면, 이것은 도움이되지 않으며 실제로 "상처"를 의미합니다. 그러나 OP가 다른 기준과 관련하여 희소성에 관심이있을 수 있으며,이 경우이 중 하나가됩니다. :)
추기경

그래서 나는 대답에 두 가지 옵션을 제공했습니다.- 에서 0을 장려하려면 볼록하지 않은 페널티가 필요하다고 생각합니다 . 언급했듯이 저스틴은 문자 그대로 자신의 말을 의미하지는 않습니다. x
jrennie

예, 불행히도 우리는 신원을 기준으로 희소성이 필요합니다. 따라서이 경우 가능한 많은 와 같기를 원합니다 . wi
저스틴 솔로몬

1

질문의 전제는 부분적으로 정확합니다. -norm이 제약 조건 하에서 상수 라는 것은 사실이지만 제약 조건 최적화 문제에는 스파 스 솔루션이있을 수 있습니다.L1

그러나이 솔루션은 선택해도 영향을받지 않으므로 스파 스 솔루션이 있는지 여부입니다. 또 다른 질문은 실제로 솔루션을 찾는 방법입니다. 물론 선형 구속 조건 하의 표준 2 차 옵티 마이저를 사용할 수 있지만 널리 사용되는 좌표계 하강 알고리즘은 기본적으로 사용할 수 없습니다.λ

하나의 제안은 다른 에 대해 조건 하에서 만 최적화 한 다음 -norm 1 을 갖도록 솔루션을 다시 정규화하는 것입니다 . 강제.λL1


0

세 가지 방법을 생각해 볼 수 있습니다.

  • 베이지안 방법 : 평균 제로 분포를 도입하고 유형 II 가능성을 사용하여 모수 및 하이퍼 모수를 추정합니다.

  • 대신 를 정규화로 사용하십시오. 그래도 차별화 할 수는 없습니다. 고차 표준을 사용하여 근사값을 구할 수 있습니다.

  • 사용 .i=1logxi

실제로 첫 번째 방법과 세 번째 방법은 동일합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.