어떤 종류의 비율이나 백분율을 예측하는 모델을 만들고 싶다고 가정 해보십시오. 예를 들어, 파티에 참석할 소년 대 소녀의 수를 예측하고 모델에서 사용할 수있는 파티의 기능은 파티의 광고량, 행사장의 크기, 장소와 같은 것들입니다. 파티 등에서 술을 마시 게됩니다. (이것은 단지 예일 뿐이며 기능은 중요하지 않습니다.)
내 질문은 비율과 백분율을 예측하는 것의 차이점은 무엇이며 선택한 모델에 따라 모델이 어떻게 변경됩니까? 하나는 다른 것보다 낫습니까? 다른 것보다 다른 기능이 더 좋습니까? (비율과 백분율의 특정 숫자에 대해서는 실제로 신경 쓰지 않습니다. 나는 어떤 당사자가 "소년 파티"와 "소녀 파티"가 될 가능성이 더 높은지를 식별하고 싶습니다.) 예를 들어, 저는 생각:
- 백분율을 예측하려면 (예를 들어,
# boys / (# boys + # girls)
종속 피처가 0과 1 사이에 있기 때문에 선형 회귀 대신 로지스틱 회귀와 같은 것을 사용해야합니다. - 비율을 예측하려면 (예 :
# boys / # girls
또는# boys / (1 + # girls)
0으로 나누기 오류를 피하려면) 종속 피처가 긍정적이므로 선형 회귀를 사용하기 전에 일종의 (로그?) 변환을 적용해야합니까? (또는 다른 모델? 계수가 아닌 긍정적 인 데이터에는 어떤 종류의 회귀 모델이 사용됩니까?) - 일반적으로 비율 대신 백분율을 예측하는 것이 더 낫습니까? 그렇다면 그 이유는 무엇입니까?