최근에 비슷한 문제가 발생했습니다. 대용량 데이터 세트에서 다양한 기능 추출을 관리하는 방법은 무엇인지 미리 알지 못했습니다. (평균값을 반복해서 계산하더라도 계산 비용이 많이 듭니다.) 또한 다른 기능 세트를 기반으로 예측을 관리하려면 어떻게해야합니까? 새로운 기능을 추가 한 경우 어떤 기능을 새로운 기능에 대해 학습해야하는지 어떻게 알 수 있습니까? 눈덩이가 빨리 엉망이 될 수 있습니다.
내 현재 솔루션은 로컬 NoSQL 데이터베이스 (MongoDB)에서 모든 것을 추적하는 것입니다. 예를 들어, features
각 항목에 이름, 기능 계산 방법에 대한 설명, 추출을 실행 한 python 파일 등 이있는 collection이있을 수 있습니다 .
마찬가지로 컬렉션 models
에는 데이터에서 실행되는 모델이 포함됩니다. 각 항목에는 이름, 모델 학습에 사용 된 기능 목록, 최종 매개 변수, 보류 된 테스트 세트의 예상 값, 모델 수행 방법에 대한 메트릭 등이있을 수 있습니다.
내 관점에서 볼 때, 이것은 많은 이점이 있습니다.
- 예측을 저장함으로써 나중에 앙상블 예측에서 사용할 수 있습니다.
- 사용 된 기능을 추적하기 때문에 더 많은 기능을 추출 할 때 재교육이 필요한 기능을 알고 있습니다.
- 모델 설명을 저장하면 내가 시도한 것을 항상 알 수 있습니다. "그리드 검색 CV에서 설정 한 정규화 매개 변수를 사용하여 LASSO를 사용해 보셨습니까?" 나는 항상 그것을 찾아보고 그것이 얼마나 성공했는지 볼 수 있습니다.
귀하의 질문 에서이 접근법을 문제의 워크 플로우에 적용 할 수있는 것처럼 들립니다. Mongo 또는 선택한 다른 데이터베이스를 설치 한 다음 각 실험 실행, 입력, 결과 및 프로젝트 진행 과정에서 추적하고자하는 모든 것을 저장하십시오. 최소한 스프레드 시트보다 쿼리하기가 훨씬 쉬워야합니다.