실험 실행 및 결과의 책 보관


11

나는 연구원에 손을 잡고 실행 가능한 솔루션을 테스트하는 것을 좋아하므로 많은 실험을하는 경향이 있습니다. 예를 들어, 문서 간의 유사성 점수를 계산하는 경우 많은 측정 값을 시도 할 수 있습니다. 실제로 각 측정에 대해 일부 매개 변수의 효과를 테스트하기 위해 여러 번 실행해야 할 수도 있습니다.

지금까지 입력에 대한 정보가 많은 파일에 결과를 작성하여 실행 입력 및 결과를 추적했습니다. 문제는 입력 정보를 파일 이름에 추가하려고해도 특정 결과를 검색하는 것이 때때로 문제가된다는 것입니다. 결과에 대한 링크가있는 스프레드 시트를 사용해 보았지만 큰 차이는 없습니다.

실험의 책 보관에 어떤 도구 / 프로세스를 사용합니까?


1
태그 모범 사례를 추가하고 싶었지만 평판 점수가 150 개가 아니기 때문에 사용할 수 없습니다. 솔직히 말해서, 새로운 이민자가 그러한 규칙을 모두 사용하여 사이트에 효과적으로 기여하는 방법을 이해하지 못합니다. 답변을 알고있는 많은 질문이 있지만 답변이 이미있는 경우 답변을하거나 투표에 참여할 수 없습니다.
machine-wisdom

나는 이것이 일반적인 프로그래밍 질문이라고 생각하므로 StackOverflow가 더 좋을 수도 있습니다. 당신이하려는 일과 느린 이유를 포함하고 제안 된 최적화를 요청할 수 있습니다.
Sean Owen

실제로 opendata.stackexchange.com 이 더 적합 할 것이라고 생각 합니다.
Emre

1
나는 최근에 그 제품에 도움이 될 제품을 시장에서 빠르게 살펴 보았으며, 그 결과를 공유하고 싶다. Data Science 팀이 Python 및 R에서 수행 한 분석을 공유하는 데 도움이되는 두 가지 SAAS 제품이 있습니다. 둘 다 IDE와 같은 IPython 노트북이 있으며 작업 실행 및 공유를위한 많은 기능을 빌드합니다. [Domino Data Lab] [1]과 [Sense.io] [2] [1] : dominodatalab.com [2] : sense.io
machine-wisdom 2

작업 실행을 추적하는 Hadoop 용 머신 러닝 환경도 있습니다. [h2o.ai] [3]. 데이터 팀의 작업을 간소화하기위한 도구가 아니라 신중한 명명 규칙을 통해 많은 도움이 될 수 있습니다. 이것은 [3]와 가장 잘 어울립니다 : h2o.ai
machine-wisdom

답변:



5

최근에 비슷한 문제가 발생했습니다. 대용량 데이터 세트에서 다양한 기능 추출을 관리하는 방법은 무엇인지 미리 알지 못했습니다. (평균값을 반복해서 계산하더라도 계산 비용이 많이 듭니다.) 또한 다른 기능 세트를 기반으로 예측을 관리하려면 어떻게해야합니까? 새로운 기능을 추가 한 경우 어떤 기능을 새로운 기능에 대해 학습해야하는지 어떻게 알 수 있습니까? 눈덩이가 빨리 엉망이 될 수 있습니다.

내 현재 솔루션은 로컬 NoSQL 데이터베이스 (MongoDB)에서 모든 것을 추적하는 것입니다. 예를 들어, features각 항목에 이름, 기능 계산 방법에 대한 설명, 추출을 실행 한 python 파일 등 이있는 collection이있을 수 있습니다 .

마찬가지로 컬렉션 models에는 데이터에서 실행되는 모델이 포함됩니다. 각 항목에는 이름, 모델 학습에 사용 된 기능 목록, 최종 매개 변수, 보류 된 테스트 세트의 예상 값, 모델 수행 방법에 대한 메트릭 등이있을 수 있습니다.

내 관점에서 볼 때, 이것은 많은 이점이 있습니다.

  • 예측을 저장함으로써 나중에 앙상블 예측에서 사용할 수 있습니다.
  • 사용 된 기능을 추적하기 때문에 더 많은 기능을 추출 할 때 재교육이 필요한 기능을 알고 있습니다.
  • 모델 설명을 저장하면 내가 시도한 것을 항상 알 수 있습니다. "그리드 검색 CV에서 설정 한 정규화 매개 변수를 사용하여 LASSO를 사용해 보셨습니까?" 나는 항상 그것을 찾아보고 그것이 얼마나 성공했는지 볼 수 있습니다.

귀하의 질문 에서이 접근법을 문제의 워크 플로우에 적용 할 수있는 것처럼 들립니다. Mongo 또는 선택한 다른 데이터베이스를 설치 한 다음 각 실험 실행, 입력, 결과 및 프로젝트 진행 과정에서 추적하고자하는 모든 것을 저장하십시오. 최소한 스프레드 시트보다 쿼리하기가 훨씬 쉬워야합니다.


공감하고 싶지만 허용되지 않습니다.
machine-wisdom 22
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.