25 가지 기능을 갖춘 가상의 데이터 세트를 작업 중입니다. 두 가지 특징은 장소의 위도 및 경도이며, 다른 범위는 다양한 범위의 pH 값, 고도, 풍속 등입니다. 다른 기능에서 정규화를 수행 할 수 있지만 위도 / 경도 기능에 어떻게 접근합니까?
편집 : 이것은 농업 생산량을 예측하는 문제입니다. 위도 / 경도는 매우 중요하다고 생각합니다. 위치는 예측에 중요하므로 딜레마입니다.
이러한 기능을 정규화 할 수 있다고 생각하지 않는 이유를 분명히 설명해 주시겠습니까? 아마도 그것들은 다른 특징들과 같은 숫자이므로 아마도 평균 / sd를 취할 수 있습니까? 위치 간 거리를 자연스럽게 측정하는 데 관심이 있습니까? 그렇다면 데이터가 작은 영역 (유사한 값)을 포함합니까 아니면 전역입니까?
—
닐 슬레이터
@NeilSlater 직관적으로 이러한 기능을 정규화하는 것은 의미가 없습니다. 정상화되면 정보가 손실되지 않습니까? 미국 카운티를 포괄하는 데이터 집합이 있습니다.
—
AllThingsScience
어떤 정보가 손실 될 것이라고 생각하십니까? 실제로 손실되지는 않지만 질문에 문제가 무엇인지 설명하면 누군가가 대답 할 수 있습니다. 더 이상 알지 못하면 전 세계 값과 일부 문제 (점 사이의 거리가 중요한 경우)에 관계없이 정규화하고 싶습니다. 긴 / 위도에서 3D 직교 좌표 피쳐를 만들 수 있습니다.
—
닐 슬레이터
당신의 질문은 무엇입니까? 데이터에서 무엇을 찾으려고합니까? 상관 관계? 클러스터링? 분류? 예측? 보간? 모델에서 위치가 어떻게 중요합니까?
—
Spacedman
@Spacedman 편집을 참조하십시오.
—
AllThingsScience