백분위 수를 예측 변수로 사용-좋은 생각입니까?


9

선형 회귀를 사용하여 고객의 로그 (지출)를 예측하는 문제에 대해 생각하고 있습니다.

입력으로 사용할 기능을 고려하고 변수의 백분위 수를 입력으로 사용할 수 있는지 궁금합니다.

예를 들어 회사 수입을 입력으로 사용할 수 있습니다. 내가 궁금한 것은 회사 매출 백분위 수를 대신 사용할 수 있는지 여부입니다.

또 다른 예는 범주 형 산업 분류기 (NAICS)입니다. NAICS 코드 당 평균 지출을보고 각 NAICS 코드를 'NAICS Percentile'에 할당하려는 경우 사용할 수있는 유효한 설명 변수가 있습니까?

백분위 수를 사용할 때 알아야 할 문제가 있는지 궁금하십니까? 어떤 방식으로 기능 스케일링 유형과 동등합니까?


2
원래 데이터가있는 경우 왜 백분위 수를 사용 하시겠습니까? 백분위 수는 미터법이 아닌 서수일 뿐이므로 좋은 생각이 아닙니다. 그러나 나는 편견 / 효율성에 대해 확신하지 못한다.
hplieninger

9
백분위 수 엑스s의 방식과 일치하지 않습니다. 엑스효과가 있습니다. 일반적인 오류는 건강 결과를 예측할 때 백분위 수 무게 또는 BMI입니다. 체중의 물리학은 샘플에서 한 피험자의 체중 또는 BMI 아래에있는 사람의 수가 아니라 신체 기능과 관련된 사람의 신체적 치수임을 나타냅니다.
Frank Harrell

1
산업 변수를 그룹 (예 : 4)으로 합리적으로 군집화 할 수있는 경우 더미 코딩 (또는 다른 적절한 코딩 체계)을 사용하면됩니다. 그것이 내가 할 방식입니다.
hplieninger

3
백분위 수가 종속 변수와 선형으로 관련된 이유를 생각할 수 없습니다 . 하나 생각할 수 있다면, 그것은 확인을 할 수 (당신의 이유가 귀하의 질문에 업데이트하십시오) 수
피터 Flom에

1
NAICS 코드를 회사 지출의 프록시로 사용하려는 경우 NAICS 코드의 평균 지출을 사용하여 백분위 수를 사용할 필요가 없습니다.
Scortchi-Monica Monica 복원

답변:


1

모델에 확고한 수익이 발생하면 백분위 수를 사용할 수 있습니다. 로그 백분위 수가 더 의미있는 것처럼 보이거나 Quantile은 선형 적으로 가치가 없을 것입니다.

이 스토리에는 관찰 회사에서 수익이있는 회사의 ln (%)이 포함됩니다. 이야기는 매출이 높을수록 수익이 낮은 회사보다 평판이 좋고 "경쟁보다 더 많은 것"이라는 관계는 수익 자체가 아니라 관련이 있다는 것입니다. 나는 이것을 회사의 인정과 브랜딩의 중요한 부분으로 볼 수있었습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.