선형 회귀를 사용하여 고객의 로그 (지출)를 예측하는 문제에 대해 생각하고 있습니다.
입력으로 사용할 기능을 고려하고 변수의 백분위 수를 입력으로 사용할 수 있는지 궁금합니다.
예를 들어 회사 수입을 입력으로 사용할 수 있습니다. 내가 궁금한 것은 회사 매출 백분위 수를 대신 사용할 수 있는지 여부입니다.
또 다른 예는 범주 형 산업 분류기 (NAICS)입니다. NAICS 코드 당 평균 지출을보고 각 NAICS 코드를 'NAICS Percentile'에 할당하려는 경우 사용할 수있는 유효한 설명 변수가 있습니까?
백분위 수를 사용할 때 알아야 할 문제가 있는지 궁금하십니까? 어떤 방식으로 기능 스케일링 유형과 동등합니까?
2
원래 데이터가있는 경우 왜 백분위 수를 사용 하시겠습니까? 백분위 수는 미터법이 아닌 서수일 뿐이므로 좋은 생각이 아닙니다. 그러나 나는 편견 / 효율성에 대해 확신하지 못한다.
—
hplieninger
백분위 수 s의 방식과 일치하지 않습니다. 효과가 있습니다. 일반적인 오류는 건강 결과를 예측할 때 백분위 수 무게 또는 BMI입니다. 체중의 물리학은 샘플에서 한 피험자의 체중 또는 BMI 아래에있는 사람의 수가 아니라 신체 기능과 관련된 사람의 신체적 치수임을 나타냅니다.
—
Frank Harrell
산업 변수를 그룹 (예 : 4)으로 합리적으로 군집화 할 수있는 경우 더미 코딩 (또는 다른 적절한 코딩 체계)을 사용하면됩니다. 그것이 내가 할 방식입니다.
—
hplieninger
백분위 수가 종속 변수와 선형으로 관련된 이유를 생각할 수 없습니다 . 하나 생각할 수 있다면, 그것은 확인을 할 수 (당신의 이유가 귀하의 질문에 업데이트하십시오) 수
—
피터 Flom에
NAICS 코드를 회사 지출의 프록시로 사용하려는 경우 NAICS 코드의 평균 지출을 사용하여 백분위 수를 사용할 필요가 없습니다.
—
Scortchi-Monica Monica 복원