Numer.ai 는 얼마 동안 사용되어 왔으며 웹에는 게시물이나 다른 토론이 거의없는 것 같습니다.
시스템이 수시로 변경되었으며 오늘 설정은 다음과 같습니다.
- [0,1]의 연속 값과 이진 목표를 가진 21 개의 피처로 트레인 (N = 96K) 및 테스트 (N = 33K) 데이터.
- 데이터가 깨끗하고 (결 측값 없음) 2 주마다 업데이트됩니다. 테스트 세트에 예측을 업로드하고 로그 손실을 볼 수 있습니다. 테스트 데이터의 일부는 실시간 데이터이며 좋은 예측에 대한 대가를받습니다.
내가 논의하고 싶은 것 :
기능이 완전히 익명이기 때문에 우리가 할 수있는 기능 엔지니어링이 많지 않다고 생각합니다. 그래서 내 접근 방식은 매우 기계적입니다.
- 영감 이 내가 가장 내 테스트 데이터에 맞게 그 훈련 데이터를 필터링 할 분류 알고리즘을 사용합니다.
- 좋은 전처리 방법을 찾아라
- 멋진 분류 알고리즘 훈련
- 그것들의 앙상블을 쌓아 라 (스태킹, ..).
구체적인 질문 :
1 단계와 관련하여 : 이러한 접근 방식에 대한 경험이 있습니까? 기차 샘플이 테스트에 속할 확률 (일반적으로 0.5 미만)을 주문한 다음 K 확률이 가장 크다고 가정합니다. K를 어떻게 선택 하시겠습니까? 나는 15K로 시도했지만 3 단계에서 훈련 속도를 높이기 위해 주로 작은 훈련 데이터를 설정하려고했습니다.
2 단계 : 데이터는 이미 0.1 스케일에 있습니다. (PCA와 같은) 선형 변환을 적용하면이 스케일을 깨뜨릴 수 있습니다. 수치 데이터가 있고 이것이 실제로인지 모른다면 전처리에서 무엇을 시도하겠습니까?
추신 : numer.ai가 사람들에게 이것을 논의하면 돈을 벌 수 있다는 것을 알고 있습니다. 그러나 이것은 공개되어 있으므로 누군가를 도울 것입니다 ...
PPS : 오늘 순위표에는 흥미로운 패턴이 있습니다. logloss가 0.64xx 인 상위 2 개, 0.66xx가있는 3 번, 대부분의 예측 변수는 0.6888x에 도달합니다.
따라서 매우 작은 탑 필드와 적당히 성공한 많은 사람들 (나 포함)이있는 것 같습니다.