머신 러닝에서 전력 또는 로그 변환이 많이 배우지 않는 이유는 무엇입니까?


24

기계 학습 (ML)은 선형 및 로지스틱 회귀 기술을 많이 사용합니다. 또한 기능 공학 기술 (에 의존 feature transform, kernel등).

이유는 없다 아무것도 에 대한 variable transformation(예 power transformation) ML에서 언급은? (예를 들어, 루트 또는 로그를 피처로 가져 오는 것에 대해 들어 본 적이 없으며 일반적으로 다항식 또는 RBF 만 사용합니다.) ML 전문가가 왜 종속 변수의 피처 변환에 신경 쓰지 않습니까? (예를 들어, 나는 y의 로그 변환을 취하는 것에 대해 들어 본 적이 없으며 y를 변환하지 않습니다.)

편집 : 아마도 질문이 확실하지 않을 수도 있습니다. 제 진짜 질문은 "ML에서 변수로의 전력 변환이 중요하지 않습니까?"입니다.


4
왜 이것이 다운 보트인지 알고 싶습니다. 실제로 흥미로운 질문입니다.
shadowtalker

1
나는 대부분의 사람들이 첫 ML 과정 전에 선형 회귀 과정을 밟았을 것이라고 생각합니다. 확실히 스톡 LR 코스에는 이러한 것들에 대한 장이 포함되어 있습니다 (변환). Btw, 나는 그 질문을 무시하지 않았다.
user603

답변:


12

이 책 응용 예측 모델링 쿤와 존슨은 박스 콕스를 포함하여 변수 변화에 큰 섹션 고도로 간주 실제 기계 학습 책이다. 저자는 기능에 대칭 및 단수 분포가있는 경우 많은 머신 러닝 알고리즘이 더 잘 작동한다고 주장합니다. 이와 같은 기능 변환은 "기능 엔지니어링"의 중요한 부분입니다.


8

내 자신의 관점에서 볼 때 나는 종종 조건부 평균이 아닌 반응 변수의 예측 분포에 관심이 있으며,이 경우 목표 분포를보다 정확하게 나타내는 가능성을 사용하는 것이 좋습니다. 예를 들어, 원하는 경우 포아송 우도를 사용할 수 있기 때문에 벡터 회귀를 지원하지 않고 커널 화 된 선형 모델 을 사용하는 것이 좋습니다. 많은 기계 학습 사람들이 베이지안이기 때문에 다른 가능성을 사용하는 것이 변형보다 더 우아하게 보일 것이라고 생각합니다 (적절한 가능성을 선택하는 것이 일반적으로 첫 번째 단계입니다).


0

여기에 나의 생각이 있습니다.

ML이 분류를 주로 다루고 있기 때문에 분류가 y를 변환 할 필요가 없기 때문에 (y는 범주 형)라고 생각합니다. ML은 일반적으로 큰 독립 변수 (예 : NLP의 수천)를 처리하며 로지스틱 회귀 분석에는 정규성이 필요하지 않습니다. 그것이 속도 고려로 인해 Box-Cox 전력 변환을 사용하지 않는 이유라고 생각합니다. (참고 : 저는 전력 변환에 익숙하지 않습니다.)

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.