익명의 수치 예측 자와 함께 numer.ai 경쟁에 접근하는 방법?


9

Numer.ai 는 얼마 동안 사용되어 왔으며 웹에는 게시물이나 다른 토론이 거의없는 것 같습니다.

시스템이 수시로 변경되었으며 오늘 설정은 다음과 같습니다.

  1. [0,1]의 연속 값과 이진 목표를 가진 21 개의 피처로 트레인 (N = 96K) 및 테스트 (N = 33K) 데이터.
  2. 데이터가 깨끗하고 (결 측값 없음) 2 주마다 업데이트됩니다. 테스트 세트에 예측을 업로드하고 로그 손실을 볼 수 있습니다. 테스트 데이터의 일부는 실시간 데이터이며 좋은 예측에 대한 대가를받습니다.

내가 논의하고 싶은 것 :

기능이 완전히 익명이기 때문에 우리가 할 수있는 기능 엔지니어링이 많지 않다고 생각합니다. 그래서 내 접근 방식은 매우 기계적입니다.

  1. 영감 내가 가장 내 테스트 데이터에 맞게 그 훈련 데이터를 필터링 할 분류 알고리즘을 사용합니다.
  2. 좋은 전처리 방법을 찾아라
  3. 멋진 분류 알고리즘 훈련
  4. 그것들의 앙상블을 쌓아 라 (스태킹, ..).

구체적인 질문 :

1 단계와 관련하여 : 이러한 접근 방식에 대한 경험이 있습니까? 기차 샘플이 테스트에 속할 확률 (일반적으로 0.5 미만)을 주문한 다음 K 확률이 가장 크다고 가정합니다. K를 어떻게 선택 하시겠습니까? 나는 15K로 시도했지만 3 단계에서 훈련 속도를 높이기 위해 주로 작은 훈련 데이터를 설정하려고했습니다.

2 단계 : 데이터는 이미 0.1 스케일에 있습니다. (PCA와 같은) 선형 변환을 적용하면이 스케일을 깨뜨릴 수 있습니다. 수치 데이터가 있고 이것이 실제로인지 모른다면 전처리에서 무엇을 시도하겠습니까?

추신 : numer.ai가 사람들에게 이것을 논의하면 돈을 벌 수 있다는 것을 알고 있습니다. 그러나 이것은 공개되어 있으므로 누군가를 도울 것입니다 ...

PPS : 오늘 순위표에는 흥미로운 패턴이 있습니다. logloss가 0.64xx 인 상위 2 개, 0.66xx가있는 3 번, 대부분의 예측 변수는 0.6888x에 도달합니다.

따라서 매우 작은 탑 필드와 적당히 성공한 많은 사람들 (나 포함)이있는 것 같습니다.

답변:


2

나는 접근법을 보았고 5k, 10k, 15k 등의 범위를 시도한 다음 최상의 결과가 떨어지는 범위를 탐색하여 K를 선택했습니다. 최고의 결과는 15k라고 말하면 13, 14, 15, 16, 17 등.

지금까지 전처리가 효과적이라는 것을 발견하지 못했습니다.

댓글 답변 :

LogisticRegression, SVM, Neural Networks, RandomForests, Multinomial NB, Extra Trees를 사용해 보았습니다. 신경망을 제외한 모든 것은 sklearn의 구현을 사용합니다. NN 용 PyBrain.


더 자세한 정보를 추가 할 수 있습니까? 예, 우리는 다양한 크기의 훈련 데이터를 시도합니다. 어떤 전처리를 시도 했습니까? 어떤 분류기? 감사!
Richard
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.