비율 대 백분율에 대한 선형 모델을 작성 하시겠습니까?


20

어떤 종류의 비율이나 백분율을 예측하는 모델을 만들고 싶다고 가정 해보십시오. 예를 들어, 파티에 참석할 소년 대 소녀의 수를 예측하고 모델에서 사용할 수있는 파티의 기능은 파티의 광고량, 행사장의 크기, 장소와 같은 것들입니다. 파티 등에서 술을 마시 게됩니다. (이것은 단지 예일 뿐이며 기능은 중요하지 않습니다.)

내 질문은 비율과 백분율을 예측하는 것의 차이점은 무엇이며 선택한 모델에 따라 모델이 어떻게 변경됩니까? 하나는 다른 것보다 낫습니까? 다른 것보다 다른 기능이 더 좋습니까? (비율과 백분율의 특정 숫자에 대해서는 실제로 신경 쓰지 않습니다. 나는 어떤 당사자가 "소년 파티"와 "소녀 파티"가 될 가능성이 더 높은지를 식별하고 싶습니다.) 예를 들어, 저는 생각:

  • 백분율을 예측하려면 (예를 들어, # boys / (# boys + # girls)종속 피처가 0과 1 사이에 있기 때문에 선형 회귀 대신 로지스틱 회귀와 같은 것을 사용해야합니다.
  • 비율을 예측하려면 (예 : # boys / # girls또는 # boys / (1 + # girls)0으로 나누기 오류를 피하려면) 종속 피처가 긍정적이므로 선형 회귀를 사용하기 전에 일종의 (로그?) 변환을 적용해야합니까? (또는 다른 모델? 계수가 아닌 긍정적 인 데이터에는 어떤 종류의 회귀 모델이 사용됩니까?)
  • 일반적으로 비율 대신 백분율을 예측하는 것이 더 낫습니까? 그렇다면 그 이유는 무엇입니까?

특정 응용 프로그램과 모델링하려는 대상에 따라 컴포지션 데이터 분석 ( en.wikipedia.org/wiki/Compositional_data ) 사용을 고려해야합니다 . 피처 (독립 변수)가 단일 일 때 고려해야 할 미묘한 사항이 있습니다. John Aitchison의 작품을 참조하십시오.
ctbrown

답변:


9

나는 이전에 비율에 대한 회귀 모델을 본 적이 없지만 백분율 (또는 더 일반적으로 분수)에 대한 회귀는 매우 일반적입니다. 그 이유는 분수 또는 확률 측면에서 가능성 (파라미터가 주어진 데이터의 확률)을 쉽게 기록하기 때문일 수 있습니다 . 각 요소의 확률 는 범주 (vs. )에있을 수 있습니다. 의 추정치 다음 추정 된 분획이다.

그러나 분수에 대한 선형 모델 을 만드는 것은 표준이 아닙니다 . 일반화 된 선형 모형 이 더 일반적입니다. 이 모형은 원하는 모형의 범위를 제어하는 ​​뒤집을 수있는 비선형 '링크'기능과 함께 선형 모형입니다 (여기서는 ).[0,1]

분수에 대한 가장 일반적인 모델은 로지스틱 회귀입니다 (실제 라인에서는 회귀자를 사용할 수 있지만 분수는 [0,1]에 구속 됨). 그러나 로지스틱 회귀는 기술적으로 이진 데이터의 모델입니다. 즉, 각 입력 (독립 변수 세트)이 또는 의 독립 관측치를 생성하는 일련의 이벤트를 관찰합니다 . 모집단이 두 개의 다른 클래스로 나뉘어져있는 경우 (즉, 모집단의 각 구성원에 대해 별도의 회귀자가없는 경우) 이항 회귀를 원할 수 있습니다 . 01

즉, 비율에 대한 일반 선형 모델 (GLM)을 작성하는 것을 막을 수있는 방법이 없을 것입니다. 로지스틱 및 이항 회귀도 GLM입니다. 입력 공간에서 가능한 비율의 공간 (예 : ) 으로 함수 매핑을 선택한 다음 결과 비율로 가능성을 적어야합니다.로그


15

첫 번째 답변을 에코. 변환을 귀찮게하지 마십시오-카운트와 공변량을 직접 모델링하십시오.

그렇게하고 이항 회귀 모델을 소년 소녀 수에 맞추는 경우 , 그러한 모델에 대한 일반적인 링크 기능을 선택하면 암시 적으로 이미 소년 대 소녀의 (공변량 평활 로그) 비율에 적합합니다. 이것이 선형 예측 변수입니다.

비율이나 비율이 아닌 직접 계수를 모델링하는 주된 이유는 정보를 잃지 않기 때문입니다. 직관적으로 당신은 2와 2를 보는 것보다 100 명의 남자와 100 명의 여자를봤을 때 관찰 된 1의 비율 (남자 대 여자)의 추론에 대해 훨씬 더 자신감을 가질 것입니다. 결과적으로 공변량을 가지면 더 많은 것을 갖게 될 것입니다 효과 및 잠재적으로 더 나은 예측 모델에 대한 정보.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.