GPS 좌표 (위도 및 경도)를 선형 모델의 피쳐로 사용할 수 있습니까?


10

많은 기능 중에서 GPS 좌표 (위도 및 경도)를 포함하는 데이터 세트가 있습니다. 이 데이터 세트를 사용하여 다음과 같은 문제를 탐색하고 싶습니다. (1) ETA를 계산하여 시작 지점과 끝 지점 사이를 이동합니다. 및 (2) 특정 지점에 대한 범죄의 양을 추정.

선형 회귀 모델을 사용하고 싶습니다. 그러나 이러한 GPS 좌표를 선형 모델에서 직접 사용할 수 있습니까?

위도와 경도 에는 사람의 나이와 같은 서수 속성 이 없습니다 . 예를 들어 두 점 (40.805996, -96.681473) 및 (41.226682, -95.986587)은 의미있는 순서가없는 것 같습니다. 그들은 공간의 포인트 일뿐입니다. 나는 그것들을 범주 형 미국 우편 번호로 대체 한 다음 원 핫 인코딩 을 수행하려고 생각 했지만 많은 변수 가 생길 것 입니다.


1
직접 사용해야 합니까? S. Openshaw의 AZP 알고리즘과 같은 구역 지정 도구에 대해 들어 보셨습니까? 면적이 비교적 일치하는 경우지도에서 지역을 수동으로 구분하여 지역 / 지역을 분리 할 수도 있습니다.
Mephy

@Mephy : 위도 / 경도를 영역으로 변환한다는 의미입니까? 그러나 우편 번호와 마찬가지로 수백 또는 수천 개의 범주 영역이 있습니다. 나는 그것들을 모두 핫 인코딩해야합니다.
stackoverflowuser2010 년

물론 구역을 자르는 방법에 따라 다릅니다. "적도 선의 남쪽 / 적도 선의 북쪽"을 선택하면 2입니다. 많은 구역화 알고리즘에는 구역 수 또는 최소 구역 크기와 같은 수량을 정의하기위한 일부 하이퍼 파라미터가 있습니다.
Mephy

나는 같은 문제가있다. 나는 사람들의 입장을 예측하고 싶다. 교육 데이터의 모든 위치 정보 기능을 지오 해시했습니다. 그런 다음 LabelDecoder를 사용하여 범주 위치 기능을 변환합니다. 마지막으로 결과는 끔찍합니다. 공간 예측을 다루는 좋은 아이디어가 있습니까?
berisfu

답변:


5

누군가가 "동쪽 또는 북쪽으로 얼마나 멀리"있을지 예측하지 않는 한 진정한 선형 관계가 없을 가능성이 있으므로 직접 사용할 수는 없습니다. 주석에서 언급했듯이 주석을 영역으로 변환해야합니다. 실제로 간단하게 유지하려면 잠재적 인 클러스터 수가 적은 kNN 클러스터링 알고리즘을 사용하고 각 인스턴스에 클러스터 ID를 사용하여 새 기능을 할당 한 다음 원-핫 인코딩 할 수 있습니다.

사람들이 전체지도에서 값을 예측하기 위해 좌표를 보간하는 방법에 대해 읽을 수도 있습니다. 첫 번째 예는 온도 관측소를 사용하는 것이지만 범죄로 인해 "핫존"이라고 상상할 수도 있습니다.

( DOCS )


2

당신이 원하는 것은 무엇이든 할 수 있지만, 모델이 온도 나 시차를 예측하지 않으면 좌표에만 의존하는 다른 목표 변수를 생각 해낼 수 없습니다.

아마도 당신이하고 싶은 것은 외부 데이터 소스를 사용하고 국가 / 우편 번호 / 기후 / 모델이 수행하는 데 도움이되는 다른 지리적 기능으로 데이터를 풍부하게하는 것입니다.


0

GPS 좌표는 geohash 로 직접 변환 할 수 있습니다 . Geohash는 자릿수에 따라 지구를 다른 크기의 "버킷"으로 나눕니다 (짧은 Geohash 코드는 큰 영역을 만들고 작은 영역의 경우 더 긴 코드를 만듭니다).

지오 해시는 모델의 기능으로 사용할 수있는 단일 숫자입니다.

Geohash는 전 세계에만 적용되며 우편 번호는 적용되지 않습니다.


지오 해 셔의 결과는 단일 숫자가 아닌 문자열입니다. 지오 해시가 문자열이라면, 원핫 인코딩을해야하는데, 이는 원핫 인코딩 된 zipcode와 마찬가지로 많은 변수를 야기 할 것입니다.
stackoverflowuser2010

geohash는 32 진수로 인코딩 된 단일 숫자입니다. 1- 핫 인코딩 할 이유가 없습니다. 정밀도를 선택하고 관련 자리수를 사용하십시오.
Brian Spiering

지오 해시의 문자열 표현 만 보았습니다. 그러나 지오 해시가 long int로 표시 되더라도 선형 모델에 사용하기 위해 이들 사이에 선형 관계가 있습니까? 그것이 바로 나의 원래 질문의 요점입니다.
stackoverflowuser2010 년

지오 해시 간의 관계는 약간 복잡합니다. en.wikipedia.org/wiki/Geohash#Design
Brian Spiering

1
선형 및 원-핫 인코딩 외에 다양한 기능 엔지니어링 방법이 있습니다. 예를 들어 커널 트릭 또는 Helmert 변환입니다.
Brian Spiering
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.