내가 이해 한 바에 따르면 훈련 데이터 간격 내에있는 회귀 함수 만 작성할 수 있습니다.
예를 들어 (패널 중 하나만 필요합니다) :
KNN 회귀자를 사용하여 미래를 어떻게 예측할 수 있습니까? 다시 말하지만, 훈련 데이터의 간격 내에있는 함수에 근사한 것으로 보입니다.
내 질문 : KNN 회귀자를 사용하면 어떤 이점이 있습니까? 분류를위한 매우 강력한 도구이지만 회귀 시나리오에서 성능이 떨어지는 것 같습니다.
내가 이해 한 바에 따르면 훈련 데이터 간격 내에있는 회귀 함수 만 작성할 수 있습니다.
예를 들어 (패널 중 하나만 필요합니다) :
KNN 회귀자를 사용하여 미래를 어떻게 예측할 수 있습니까? 다시 말하지만, 훈련 데이터의 간격 내에있는 함수에 근사한 것으로 보입니다.
내 질문 : KNN 회귀자를 사용하면 어떤 이점이 있습니까? 분류를위한 매우 강력한 도구이지만 회귀 시나리오에서 성능이 떨어지는 것 같습니다.
답변:
일부 상황에서는 K-NN과 같은 로컬 방법이 적합합니다.
제가 학교에서했던 한 가지 예는 다양한 시멘트 성분 혼합물의 압축 강도를 예측하는 것과 관련이있었습니다. 이들 성분은 모두 반응 또는 서로에 대해 상대적으로 비 휘발성이었고 KNN은 이에 대한 신뢰할만한 예측을했다. 다시 말해서, 독립 변수 중 어느 것도 개별적으로 또는 상호 상호 작용에 의해 모델에 부여하기 위해 불균형 적으로 큰 분산을 갖지 않았다.
결정적으로 이것을 보여주는 데이터 조사 기술을 모르지만 직관적으로 귀하의 기능에 비례 정도의 차이가있는 경우 어떤 비율을 알지 못하는지 합리적으로 보입니다. KNN 후보. 이 효과를 위해 몇 가지 연구와 결과 기술이 개발되었는지 알고 싶습니다.
일반화 된 도메인 관점에서 생각하면 비슷한 '레시피'가 비슷한 결과를 산출하는 광범위한 응용 프로그램 클래스가 있습니다. 이것은 시멘트 혼합의 결과를 예측하는 상황을 설명하는 것처럼 보였습니다. 이 설명에 따라 동작하는 데이터가 있고 거리 측정이 해당 도메인에 당연한 것이며 마지막으로 충분한 데이터가있는 경우 KNN 또는 다른 로컬 방법으로 유용한 결과를 얻을 수 있다고 생각합니다. .
로컬 방법을 사용할 때 극도로 낮은 편향의 이점도 얻습니다. 때로는 KNN을 사용하여 각 개별 변수를 피팅하여 GAM (Generalized Additive Model) 균형 바이어스 및 분산을 계산합니다.
나는 KNN을 그렇게 빨리 쓰지 않을 것이다. 그 자리가 있습니다.
나는 그것을 말하고 싶지는 않지만 실제로 짧은 대답은 "미래에 대한 예측"은 knn이나 현재 존재하는 다른 분류 자 또는 회귀자가 아니라 실제로 불가능하다는 것입니다.
물론 선형 회귀선 또는 SVM의 초평면을 외삽 할 수 있지만 결국 미래가 무엇인지 알지 못합니다. 우리가 아는 모든 선은 매력적인 현실의 작은 부분 일 수 있습니다. 예를 들어 가우시안 프로세스와 같은 베이지안 방법을 살펴보면 "알려진 입력 도메인"을 떠나 자마자 큰 불확실성을 알 수 있습니다.
물론 오늘 발생한 일부터 내일 일어날 일까지 일반화를 시도 할 수 있습니다. 이는 knn 회귀자를 사용하여 쉽게 수행 할 수 있습니다 (예 : 크리스마스 기간 동안 작년 고객 번호가 올해 수치에 대한 힌트를 줄 수 있습니다). 다른 방법으로는 추세 등이 포함될 수 있지만 결국 주식 시장이나 장기 날씨 예측과 관련하여 얼마나 잘 작동하는지 확인할 수 있습니다.
먼저 "KNN 회귀자를 사용하여 미래를 어떻게 예측할까요?"에 대한 예입니다.
가중치를 조정하십시오 (예 :
역 거리 가중 -idw 보간-파이썬 )
및 7d의 "가장 가까운 이웃"에 대한 거리 측정법을 참조하십시오.
"KNN 회귀자를 사용하면 어떤 이점이 있습니까?"
다른 사람들의 좋은 의견에 코딩하고 이해하기 쉽게 추가하고 빅 데이터로 확장합니다.
단점 : 데이터 및 튜닝에 민감하며 이해가 부족 합니다.
따라서 첫 번째 줄은 "훈련 데이터 간격 내에있는 회귀 함수 만 작성할 수 있습니다"는 혼란스러운 단어 "회귀"에 관한 것입니다.)