정보를 빌린다는 것은 정확히 무엇을 의미합니까?


11

나는 종종 사람들이 베이지안 계층 모델에서 정보 차용 또는 정보 공유에 대해 이야기합니다. 이것이 실제로 무엇을 의미하는지, 이것이 베이지안 계층 모델에 고유한지에 대한 직접적인 대답을 얻을 수없는 것 같습니다. 나는 일종의 아이디어를 얻습니다. 계층의 일부 수준은 공통 매개 변수를 공유합니다. 나는 이것이 어떻게 "정보 차용"으로 해석되는지 전혀 모른다.

  1. "정보 차용"/ "정보 공유"는 사람들이 버리고 싶은 단어입니까?

  2. 이 공유 현상을 보여주는 폐쇄 형 후부 예제가 있습니까?

  3. 이것이 베이지안 분석에 고유합니까? 일반적으로 "정보 차용"의 예를 보면 혼합 모델 일뿐입니다. 어쩌면이 모델을 구식으로 배웠지 만 공유를 보지 못했습니다.

나는 방법에 대한 철학적 토론을 시작하는 데 관심이 없다. 이 용어의 사용이 궁금합니다.


1
질문 2의 경우 tjmahr.com/plotting-partial-pooling-in-mixed-effects-models 링크가 표시 될 수 있습니다 .
Isabella Ghement

나는 여기에 대한 답변에서 정보 이론에 대한 언급을보고 싶습니다.
shadowtalker

답변:


10

이것은 구체적으로 경험적 베이 즈 (EB)에서 유래 한 용어이며, 실제로 이것이 참조하는 개념은 진정한 베이지안 추론에 존재하지 않습니다. 원래 용어는 1960 년대에 존 터키 (John Tukey)에 의해 만들어지고 1970 년대와 1980 년대에 Stein의 역설과 파라 메트릭 EB에 관한 일련의 통계 기사에서 Bradley Efron과 Carl Morris에 의해 더 대중화되는 "차용 강도"였습니다. 많은 사람들이 이제 동일한 정보의 동의어로 "정보 차용"또는 "정보 공유"를 사용합니다. 혼합 모델의 상황에서들을 수있는 이유는 혼합 모델에 대한 가장 일반적인 분석에 EB 해석이 있기 때문입니다.

EB에는 많은 응용 프로그램이 있으며 많은 통계 모델에 적용되지만 항상 많은 경우 (독립적 일 수 있음) 사례가 있으며 각 경우에 특정 매개 변수 (예 : 평균 또는 분산)를 추정하려고합니다. 베이지안 추론에서는 각 사례에 대해 관측 된 데이터와 해당 모수에 대한 사전 분포를 기반으로 모수에 대한 추론을합니다. EB 추론에서 모수에 대한 사전 분포는 데이터 사례의 전체 모음에서 추정되며 그 이후에는 베이지안 추론에 대한 추론이 진행됩니다. 따라서 특정 사례에 대한 모수를 추정 할 때 해당 사례에 대한 데이터와 추정 된 사전 분포를 모두 사용하며 후자는 "정보"또는 "강도"를 나타냅니다.

이제 EB에 "차용"이 있지만 실제 Bayes에는없는 이유를 알 수 있습니다. 진정한 베이 즈에서는 이전 배포판이 이미 존재하므로 구걸하거나 빌릴 필요가 없습니다. EB에서 사전 분배는 관측 된 데이터 자체에서 작성되었습니다. 특정 사례에 대해 추론 할 때 해당 사례에서 관찰 된 모든 정보와 다른 각 사례에서 얻은 약간의 정보를 사용합니다. 다음 사례에 대한 추론을 위해 정보가 다시 제공되기 때문에 "빌려온"것입니다.

EB와 "정보 차용"의 개념은 각각의 "사례"가 일반적으로 유전자 또는 게놈 특징 일 때 통계 유전체학에 크게 사용된다 (Smyth, 2004; Phipson et al, 2016).

참고 문헌

에프론, 브래들리, 칼 모리스. 통계에서 스타 인의 역설. Scientific American 236 호 5 (1977) : 119-127. http://statweb.stanford.edu/~ckirby/brad/other/Article1977.pdf

Smyth, GK (2004). 마이크로 어레이 실험에서 차등 발현을 평가하기위한 선형 모델 및 경험적 베이 즈 방법. 유전학 및 분자 생물학 제 3 권, 제 1 호, 제 3 조의 통계적 적용 http://www.statsci.org/smyth/pubs/ebayes.pdf

Phipson, B, Lee, S, Majewski, IJ, Alexander, WS 및 Smyth, GK (2016). 강력한 하이퍼 파라미터 추정은 초 가변 유전자로부터 보호하고 차등 발현을 검출하는 능력을 향상시킵니다. 응용 통계 연표 10, 946-963. http://dx.doi.org/10.1214/16-AOAS920


1
나는이 해석이 정확하다고 생각하지 않습니다. 예를 들어, 혼합 효과 모델은 정보를 차용하지만 전통적인 베이지안 문맥에서 분석 할 수 있습니다
Cliff AB

1
@CliffAB 혼합 모델 분석을 살펴보면 분석이 실제 베이가 아닌 사실상 경험적인 베이라는 것을 알 수 있습니다. 물론 대부분의 저자는 실제로 EB 일 때 베이 즈를하고 있다고 말할 것입니다. 왜냐하면 대부분의 저자는 구별하지 않기 때문입니다. 진정한 Bayes 혼합 모델 분석의 예를 들어 줄 수 있다고 생각한다면 그렇게 권유합니다.
Gordon Smyth

1
@CliffAB 진정한 Bayes 분석이 혼합 모델에 사용되는 경우 (예 : MCMC 또는 Winbugs) "빌리 정보"라는 용어는 IMO가 아닌 것입니다. Tukey와 Efron이 "차용"의 의미에 동의하지 않을 것입니다.
Gordon Smyth

1
@CliffAB 나는 brms가 베이지안 패키지라는 것에 동의한다. 이것이 "빌리 정보"라는 용어가 brms 문서에 나타나지 않는 이유이다.
Gordon Smyth

1
단순한 Bayesian 모델은 "정보를 빌리지"않지만 다중 레벨 모델은 그렇지 않습니다. 그 분야에서 가장 많이 사용되는 용어는 "부분 풀링"입니다. 다음 은 A. Gelman의 고전적인 토론입니다. 일반적으로 혼합 효과 모델이 "차용 정보"라는 아이디어를 받아들이면 베이지안 혼합 효과가 그렇지 않다고 어떻게 말할 수 있는지 잘 모르겠습니다. 차용 된 정보 아래 레벨에 사전이 나타납니다 . 혼합 효과 모델 정보를 빌리지 못한다고 말하면 , 귀하의 주장에 대한 혼란을 설명합니다.
Cliff AB

5

여러 그룹의 평균 추정과 같은 간단한 문제를 고려하십시오. 모형이 모형을 완전히 관련이없는 것으로 취급하는 경우 각 평균에 대한 유일한 정보는 해당 그룹 내의 정보입니다. 모델이 평균을 다소 관련이있는 것으로 취급하는 경우 (예 : 일부 혼합 효과 유형 모델에서) 다른 그룹의 정보가 주어진 그룹의 추정치에 정보를 제공 (정규화, 일반 평균으로 축소)하므로 추정치가 더 정확 해집니다. 이것이 '차용 정보'의 예입니다.

개념은 신뢰성 과 관련된 보험 계리 적 작업에서 자라납니다 (그 의미에서 차용하는 것이 공식에 명시 적 임에도 불구하고 특정 '차용'이라는 용어가 반드시 필요한 것은 아님). 이것은 적어도 1 세기 전까지 거슬러 올라갑니다. 분명한 선구자들은 19 세기 중반으로 거슬러 올라갑니다. 예를 들어 Longley-Cook, LH (1962) 신용 이론 소개 PCAS, 49, 194-221을 참조하십시오.

여기 휘트니, 1918 년 (경험 이론, PCAS, 4, 274-292)이 있습니다.

예를 들어 기계 공장으로 분류 될 위험이 있습니다. 따라서 다른 정보가 없으면 기계 공장 요율, 즉이 등급의 모든 위험에 대한 평균 요율을 위조해야합니다. 반면에 위험은 자체 경험이 있습니다. 위험이 크면 클래스 경험보다 위험에 대한 더 나은 가이드가 될 수 있습니다. 어쨌든 위험이 크든 작든,이 두 요소는 모두 증거로서 가치가 있으며 두 가지 모두를 고려해야합니다. 어려움은 일반적으로 증거가 모순된다는 사실에서 발생합니다. 그러므로 문제는 각각 적절한 가중치를 부여하는 기준을 찾아 적용하는 것입니다.

여기에 차용이라는 용어는 없지만 그룹 레벨 정보를 사용 하여이 기계 공장 에 대해 알려주는 개념 이 분명히 있습니다. [이 상황에 "차용 강도"및 "차용 정보"가 적용되기 시작하면 개념은 변경되지 않습니다]


1
이 예제는 차용이하는 일을 명확하게 설명하기 때문에 고맙지 만보다 정확한 정의를 찾고 있습니다.
EliK

부정확하고 직관적 인 용어 의 정확한 정의? 그룹 전체에 매개 변수를 연결하여 분산을 줄이는 관점에서 정의 할 수도 있지만 그렇게함으로써 그 개념의 그럴듯한 사용을 매우 쉽게 배제 할 수 있다고 생각합니다.
Glen_b -Reinstate Monica

부정확 한 직관이 실제 정의를 가지고 있는지 여부는 분명하지 않았습니다.
EliK

3

σ아르 자형2

σ아르 자형2σ아르 자형2

σ아르 자형2σ아르 자형2σ아르 자형σ아르 자형2. 데이터의 정보가 적을수록 이전 정보가 더 중요해집니다. 아직 그렇게하지 않았다면 몇 가지 주제만으로 혼합 효과 모델을 시뮬레이션하는 것이 좋습니다. Frequentist 방법의 추정치가 얼마나 불안정한 지, 특히 하나 또는 두 개의 특이 치를 추가 할 때 ... 그리고 특이 치없이 실제 데이터 세트를 얼마나 자주 볼 수 있습니까? 이 문제는 Gelman 등의 Bayesian Data Analysis에서 다루고 있다고 생각하지만 슬프게도 공개적으로 사용할 수 있다고 생각하지 않으므로 하이퍼 링크가 없습니다.

마지막으로, 다단계 모델링은하지 않습니다 단지 그들이 가장 일반적인 있지만, 혼합 효과. 매개 변수가 사전 및 데이터뿐만 아니라 다른 알 수없는 매개 변수의 영향을받는 모든 모델을 다중 레벨 모델이라고합니다. 물론 이것은 매우 유연한 모델이지만 Stan, NIMBLE, JAGS 등과 같은 도구를 사용하여 최소한의 작업으로 처음부터 작성하고 적합 할 수 있습니다. 모델링은 "hype"입니다. 기본적으로 Directed Acyclic Graph 로 나타낼 수있는 모든 모델을 작성할 수 있습니다.합리적인 실행 시간이 있다고 가정하면 즉시 맞습니다. 이것은 전통적인 선택 (즉, 회귀 모델 패키지)보다 훨씬 더 강력한 힘과 창의성을 제공하지만 새로운 유형의 모델에 맞추기 위해 전체 R 패키지를 처음부터 새로 만들 필요는 없습니다.


답변 주셔서 감사합니다. 명확히하기 위해 나는 다단계 모델링이 "hype"라고 제안하지 않았다. "정보 차용"에 정확한 의미가 있는지 또는 특정 용어가 과대 광고인지 묻고있었습니다.
EliK

@EliK : 정확한 의미 가 있는지 잘 모르겠습니다 . 고든 스미스 (Gordon Smyth)는 어떤 사람들이 정확한 의미, 즉 경험적 베이 즈 (Empirical Bayes)를 고려할 수 있지만, 현재 일반적으로 사용되는 용어가 그 의미에 맞지 않는 것으로 보입니다. 개인적으로, 나는 그것이 과대 광고 용어라고 생각하지 않습니다. 표준 회귀 모델 프레임 워크를 넘어서도 고정 효과 모델보다 혼합 효과 모델을 사용하는 것이 동기 부여입니다. 저는 많은 사람들이 더 정확한 "혼합 효과 모델링"대신에 더 모호한 "다단계 모델링"이라고 말합니다.
Cliff AB

나는 과대 광고가 ML 논문과 블로그에 있다고 말하며, 여기서 다중 레벨 모델을 구현 하려면 베이지안 모델 이 필요 하다고 주장합니다 . I는 가공 한 예에 관심이있을 것 - 하나 (예측) crossvalidated 본격화 모델에 대해 비교 곳
seanv507

가치가있는 것에 대해 Bayesian의 유일한 대안은 Maximum Likelihood입니다. 그래서 그것은 잘못이 아닙니다.
shadowtalker

1
@shadowtalker : Bayesian에 MLE 방법을 고려하면 Bayesian이라는 단어는 기본적으로 통계에서 의미가 없습니다. 그러나 이것은 ML 문학에서 볼 수있는 몇 가지 실수와 일치합니다.
Cliff AB

2

나는 당신이 추론보다는 예측에 관심이 있다고 기계 학습에 태그를 달았 기 때문에 가정하고 있습니다.

나는이 경우 유행어라고 주장 할 것이다. 그룹 변수가있는 정규화 된 선형 모형은 정보를 차용합니다. 개별 수준의 예측은 그룹 평균과 개별 효과의 조합입니다. l1 / l2 정규화를 생각하는 한 가지 방법은 그룹 변수가 개별 변수보다 더 많은 샘플에 영향을 미치기 때문에 그룹 오차가 감소 할 때마다 계수 비용을 할당한다는 것입니다. 각 개별 변수에 그룹 효과.

데이터가 충분한 개별 포인트의 경우 개별 효과는 '강한'것이며, 데이터가 적은 사용자에게는 효과가 약합니다.

이것을 보는 가장 쉬운 방법은 L1 정규화와 같은 효과를 가진 같은 그룹의 3 명의 개인을 고려하는 것입니다. 비정규 화 된 문제에는 수많은 솔루션이 있으며 정규화는 고유 한 솔루션을 제공합니다.

그룹 계수에 모든 효과를 할당하는 것은 l1 표준이 가장 낮습니다. 왜냐하면 우리는 3 명의 개인을 포함하기 위해 1 개의 값만 필요하기 때문입니다. 반대로, 모든 계수를 개별 계수에 할당하는 것은 그룹 계수에 효과를 할당하는 l1 표준의 3 배가 최악입니다.

우리는 원하는만큼 많은 계층 구조를 가질 수 있으며, 상호 작용도 비슷하게 영향을받습니다 : 정규화는 드문 상호 작용이 아닌 주요 변수에 영향을 미칩니다.

블로그 tjmahr.com/plotting-partial-pooling-in-mixed-effects-models . – @IsabellaGhement에 의해 연결되어 차용 강도에 대한 견적을 제공합니다

"이러한 효과는 때로 수축이라고합니다. 더 극단적 인 값 수축이 더 합리적이고 평균적인 값으로 끌어 당겨지기 때문입니다. lme4 책 에서 Douglas Bates는 수축 [이름]에 대한 대안을 제공합니다."

"수축률"이라는 용어는 부정적인 의미를 가질 수 있습니다. 존 터키 (John Tukey)는이 과정을 개별 피험자에 대한 추정치 인“차용 강도”로 언급하는 것을 선호했습니다. 이것은 혼합 효과 모델과 엄격하게 고정 된 효과 모델의 기본 모델에서 근본적인 차이입니다. 혼합 효과 모델에서는 그룹화 요소의 수준이 모집단에서 선택한 것으로 가정하여 어느 정도 특성을 공유 할 것으로 예상 할 수 있습니다. 결과적으로 혼합 효과 모델의 예측은 엄격하게 고정 효과 모델의 예측에 비해 감쇠됩니다.


특정 종류의 추론이 아닌 경우 예측이란 무엇입니까?
shadowtalker

0

내가 특히 유익 하다고 생각하는이 주제에 대해 추천하고 싶은 또 다른 출처는 David Robinson의 Empirical Bayes 소개 입니다.

그의 실행 예는 야구 선수가 자신에게 던진 다음 공을 칠 수 있는지 여부입니다. 핵심 아이디어는 플레이어가 몇 년 동안 주변에 있었다면 얼마나 유능한 지에 대한 명확한 그림을 가지고 있으며 특히 자신의 관찰 된 타율을 다음 피치에서의 성공 확률의 추정치로 사용할 수 있다는 것입니다.

반대로 리그에서 막 시작한 선수는 아직 그의 실제 재능을 많이 밝히지 않았습니다. 따라서 처음 몇 게임에서 특히 성공 또는 실패한 경우 성공 또는 불운으로 인해 성공 확률의 추정치를 전체 평균으로 조정하는 것이 현명한 선택처럼 보입니다. .

사소한 점으로, "빌리기"라는 용어는 빌린 물건이 어느 시점에서 반환되어야한다는 의미에서 확실히 사용되지 않는 것 같습니다 ;-).

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.