로그 홀수 분포 란 무엇입니까?


11

기계 학습에 관한 교과서를 읽고 있는데 (데이터 마이닝 (Witten, et al., 2011))이 구절을 보았습니다.

또한, 다른 분포를 사용할 수 있습니다. 정규 분포는 일반적으로 숫자 속성에 적합한 선택이지만 미리 결정된 최소값은 있지만 상한이없는 속성에는 적합하지 않습니다. 이 경우 "log-normal"분포가 더 적합합니다. 위와 아래에 묶인 숫자 속성은 "log-odds" 분포 로 모델링 할 수 있습니다 .

나는이 배포판에 대해 들어 본 적이 없다. "log-odds distribution"을 검색했지만 관련 일치하는 항목을 찾을 수 없습니다. 누군가 나를 도울 수 있습니까? 이 분포는 무엇이며 위와 아래에있는 숫자에 도움이되는 이유는 무엇입니까?

추신 : 저는 통계학자가 아닌 소프트웨어 엔지니어입니다.

답변:


14

왜 위와 아래에 숫자가 도움이 되나요?

에 정의 된 분배 데이터에 대한 모델로서 적합하다 무엇 ( 0 , 1 ) . 나는 텍스트가 " ( 0 , 1 ) 에 대한 데이터 모델 "(또는 일반적으로 ( a , b ) 보다 더 중요한 의미는 없다고 생각한다 )(0,1)(0,1)(0,1)(,) ) .

이 분포는 무엇입니까?

불행하게도 'log-odds distribution'이라는 용어는 완벽하게 표준이 아니며 (그 당시에도 매우 일반적인 용어는 아님)

그 의미에 대한 몇 가지 가능성에 대해 이야기하겠습니다. 단위 간격의 값에 대한 분포를 구성하는 방법을 고려하여 시작하겠습니다.

연속 랜덤 변수 in ( 0 , 1 ) 을 모델링하는 일반적인 방법 은 베타 분포 이고 [ 0 , 1 ]의 이산 비율을 모델링하는 일반적인 방법 은 스케일 이항 ( P = X / n )입니다. 엑스(0,1)[0,1]=엑스/엑스 는 개수입니다).

베타 분포를 사용하는 것에 대한 대안은 연속적인 역 CDF ( ) 를 가져 와서 ( 0 , 1 ) 의 값을 실수 선 으로 변환 하거나 거의 사용하지 않는 것입니다. 변환 된 범위의 값을 모델링하기위한 모든 관련 분포 ( G ) 실제 선 ( F , G) 에서 연속 분포가 쌍을 이루기 때문에 많은 가능성이 열립니다.에프1(0,1)에프,변환과 모형에 ) 사용할 수 .

예를 들어, 로그-홀수 변환 (logit이라고도 함)는 이러한 역 -cdf 변환 (표준물류의 역 CDF 임) 중 하나이며Y에대한 모형으로 고려할 수있는 많은 분포가 있습니다.와이=로그(1)와이

그런 다음 실제 라인에서 간단한 2 매개 변수 패밀리 인 Y 에 대한 로지스틱 모델 을 사용할 수 있습니다 . 역 로그 홀수 변환을 통해 ( 0 , 1 )로 다시 변환 (예 : P = exp ( Y )(μ,τ)와이(0,1)P에대해 두 가지 모수 분포를 산출하는데, 하나는 단봉 형 또는 U 형 또는 J 형, 대칭 또는 스큐 일 수 있습니다. 로지스틱이 로지스틱이므로 -logistic). 다음은 서로 다른μ,τ값에 대한 몇 가지 예입니다.=특급(와이)1+특급(와이)μ,τ

여기에 이미지 설명을 입력하십시오

위튼 외 알에 의해 텍스트의 간략한 언급을 보면,이 있지만, 다른 쉽게 평균 뭔가를 수도 - "로그 확률 분포를"의도 무슨합니다.

또 다른 가능성은 로짓 정규 을 의도 한 것입니다.

그러나이 용어는 예를 들어 van Erp & van Gelder (2008) [ 1 ] 에서 베타 분포에 대한 로그-홀수 변환 (log-odds transformation)을 지칭하는 것으로 사용 된 것으로 보인다 (따라서 F 를 물류로, G 를 a의 로그의 분포 베타 프라임 랜덤 변수 또는 등가 두 카이 제곱 확률 변수의 로그)의 차분의 분포. 그러나 그들은 이것을 사용하여 모델 카운트 비율 을 수행합니다 . 이것은 물론 몇 가지 문제를 야기합니다 (0과 1에서 유한 확률로 분포를 모형화하여 ( 0 , 1 ))[1]에프(0,1))에 많은 노력을 기울이는 것 같습니다. (부적절한 모델을 피하는 것이 더 쉬울 것 같지만 어쩌면 저뿐 일 것입니다.)

몇몇 다른 문서들 (적어도 3 개 이상 발견)은 로그 홀수의 표본 분포 ( 위 의 척도 )를 "로그 홀수 분포"(일부 경우 P 가 이산 비율 *이고 일부는 연속 비율 인 경우)-따라서이 경우 확률 모델은 아니지만 실제 분포에 일부 분포 모델을 적용 할 수 있습니다.와이

* 또,이 경우, 그 문제를 가지고 정확히 0 또는 1의 값 Y는- 또는 와이 우리는이 목적을 위해 그것을 사용하는 0과 1에서 멀리 분포를 결합한다 제안하는 ... 각각.

Yan Guo (2009) [ 2 ] 의 논문 은이 용어를 로그- 분포 분포, 실제 반선의 오른쪽으로 치우친 분포를 나타냅니다.[2]

보시다시피, 이것은 단일 의미를 가진 용어가 아닙니다. Witten 또는 해당 저서의 다른 저자 중 한 사람의 명확한 표시가 없으면 의도 한 내용을 추측해야합니다.

[1] : Noel van Erp & Pieter van Gelder, (2008),
"고장 발생시 베타 분포를 해석하는 방법" , 다름슈타트
제 6 회 국제 확률론 워크샵 진행
pdf 링크

[2] : Yan Guo (2009),
NDE 시스템 포드 기능 평가 및 견고성에 관한 새로운 방법
, 미시건 주 디트로이트 웨인 주립 대학 대학원 논문 제출


1
(+1) 책 전체를 검색하면 설명이 명확하지 않을 것입니다. 문맥에서 "log-odds distribution"은 이전 문장에서 "lognormal"이 모든 음수가 아닌 값에 대한 보편적 분포로 제안 된 것처럼 특정 모델을 의미한다고 제안합니다 (!).
whuber

1
@ whuber 나는 책의 내용에 대한 당신의 특성에 동의합니다-다른 문맥에서 용어를 사용하여 샘플 배포를 언급하는 것에 대한 나의 의견은 그것이 책의 의도라는 것을 암시한다고 의도하지 않았습니다. 여러 의미를 가진 용어임을 나타냅니다. 문제가되는 구절에서, (많은 것들에서와 같이)이 자료를 배우는 사람들에 대한 나의 충고는 둘 이상의 책을 읽는 것입니다.
Glen_b-복귀 모니카

2

통계 전문가가 아닌 소프트웨어 엔지니어이며 최근 통계 학습 소개 (Introduction to Statistical Learning)라는 책을 읽었습니다. R의 응용 프로그램으로

나는 당신이 읽고있는 것이 로그 홀수 또는 로짓이라고 생각합니다. 132 페이지

http://www-bcf.usc.edu/~gareth/ISL/ISLR%20Fourth%20Printing.pdf

화려한 책-나는 그것을 책을 읽었다. 도움이 되었기를 바랍니다


포인터 주셔서 감사합니다. log-odds 배포가 "logistic distribution"과 같다고 가정하면 후자를 Wikipedia에서 찾아 보았습니다. PDF에 하한 또는 상한이없는 것 같습니다. 그래서 나는 아직도 인용 한 교과서가 왜 위와 아래에 묶인 숫자 형 속성을 모델링 할 수 있다고 말했는지 궁금합니다.
stackoverflowuser2010 년

범위가 0.0 (불가능)에서 1.0 (정확한) 인 함수의 출력에 대해 이야기하고 있다고 생각합니다. (내가 완전히 잘못 여기에있을 수 있음)
JasonEdinburgh

모델이 임의로 큰 양수 또는 음수 결과를 생성 할 수 있습니다. 이것들은 확률과 같은 범위의 범위로 해석 할 수 없지만, 로짓 함수와 그 로지스틱 함수를 사용하여 로그 홀수로 해석 할 수 있습니다.
Henry
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.