환경 데이터를 기반으로 작물 수확량을 예측하기위한 기계 학습 모델 구축


10

10 년 동안 농장의 온도, 강수량 및 콩 수확량에 대한 데이터가 포함 된 데이터 세트가 있습니다 (2005-2014). 이 데이터를 바탕으로 2015 년의 수익률을 예측하고 싶습니다.

작물 수확은 작물 재배시기가 끝날 때 발생하기 때문에 데이터 세트에는 온도 및 강수량에 대한 일일 값이 있지만 수확량에 대해 연간 1 개의 값만 있습니다.

지난 몇 년 동안 수율과 온도와 강수량의 관계를 연구하여 얻은 회귀 / 일부 다른 모델을 기반으로 2015 년 수율을 예측하기 위해 회귀 또는 다른 기계 학습 기반 모델을 구축하고 싶습니다.

scikit-learn을 사용하여 기계 학습을 수행하는 데 익숙합니다. 그러나이 문제를 나타내는 방법을 잘 모르겠습니다. 여기서 까다로운 부분은 온도와 강수량이 매일이지만 생산량은 연간 1 값에 불과하다는 것입니다.

어떻게 접근합니까?


심지어 농작물 수확량을 예측하는 모델을 만들려고합니다. 당신이 따르고있는 접근법에 대한 세부 사항을 공유해 주시겠습니까?
Nitz

완전한 답변을 얻을 수있었습니다. 그렇지 않은 경우 알려 주시면 동일한 도메인에서 일하는 경우 어떻게해야하는지에 대한 자세한 답변을
보내 드리겠습니다.

@ Crop89, 그거 좋겠다! 답변을 기대합니다
user308827 2016 년

알아 냈어? 나는 같은 문제에 직면하고있다. 세부 사항을 해결 한 경우 세부 정보를 공유 할 수 있습니까? 대단히 감사합니다
eric huang

답변:


3

우선 전년도 일일 데이터를 기반으로 다가오는 연도의 수익률을 예측할 수 있습니다. 매년 가치있는 데이터를 하나의 "포인트"로 고려하여 모델 매개 변수를 추정 한 다음 교차 검증을 사용하여 모델의 유효성을 검증 할 수 있습니다. 지난 1 년 이상을 고려하여이 모델을 확장 할 수 있지만 너무 멀리 되돌아 보면 모델 및 초과 적합성을 검증하는 데 어려움이 있습니다.


@Emre에게 감사합니다. 혼동은 1 년 분량의 데이터를 어떻게 1 포인트로 처리 할 수 ​​있습니까? 각 데이터 행 (하루를 나타내는)이 scikit-learn 명명법의 샘플을 구성하지 않습니까? 1 년 내내 365가 아닌 하나의 샘플로 어떻게 취급합니까?
user308827

1
나는 sklearn의 세부 사항을 다루지 않았지만 당신이 요청한 후 sklearn.cross_validation.LabelKFoldsklearn.cross_validation 와 같이 이름에 "Label"이 있는 메소드를 사용하고 싶습니다 .
Emre

감사합니다 @ Emre, 그래서 아이디어는 매년 하나의 레이블을 할당하는 것입니다.
user308827

예, @ user308827입니다.
Emre

다시 @Emre에게 감사드립니다. 다음 질문을 살펴보십시오 : datascience.stackexchange.com/questions/9612/…
user308827


1

365 개 (매일 온도) + 365 (매일 강수량) 차원을 갖는 각 데이터 포인트에 10 개의 데이터 포인트가 있습니다. 이상적으로는 먼저 PCA와 같은 기계 학습 방법을 통해 치수를 줄입니다. 그런 다음 기계 학습 방법을 사용하여 예측 모델을 작성하십시오. 그러나 작은 데이터 세트로 인해 기계 학습 기술이 귀하의 문제에 적합하다고 생각하지 않습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.