매우 높은 차원 분류를위한 무료 데이터 세트 [닫기]

35

1000 개 이상의 피쳐 (또는 커브가 포함 된 경우 샘플 포인트) 로 분류 할 수 있는 무료 데이터 세트 는 무엇입니까 ?

무료 데이터 세트에 대한 커뮤니티 위키가 이미 있습니다. 자유롭게 사용 가능한 데이터 샘플 찾기

그러나 여기서는 보다 편리하게 사용할 수 있는 보다 집중적 인 목록을 작성하는 것이 좋으며 다음 규칙을 제안합니다.

데이터 세트당 하나의 게시물
데이터 세트에 대한 링크가 없습니다
각 데이터 세트는 해야 와 연관 될
- 이름 과 데이터 세트에 대한 링크 (그것은 무슨 일인지 알아 내기가) (R 데이터 세트는 패키지 이름으로 이름을 지정할 수 있습니다)
- 지형지 물의 수 ( p 라고 말함 ) 데이터 세트의 크기 ( n 이라고 말함 ) 및 레이블 / 클래스 수 ( k 라고 함 )
- 경험 (사용 된 알고리즘을 단어로 표현) 또는 문학 (이 경우에는 종이 링크) 의 일반적인 오류율

machine-learning classification dataset large-data

— 로빈 지라드
소스

+1이지만 NIPS2003의 기차표에는 train.labels 만 있습니다. NIPS2003 논문에 "유효성 및 테스트 세트 레이블은 보류되어 있습니다"라고 명시되어 있습니다.

— 데니스

감사. NIPS에 대한 의견은 @mbq의 답변입니다.

— Robin girard

여기에 둘 이상의 클래스 레이블이있는 고차원 데이터 세트가 있습니까?

— hlin117

3

도로테아
N = 1950
= 100,000 P (0.1M 반 인위적 잡음 첨가)
K = 2 (불평형 ~ 10 배)
에서 NIPS2003 .

— 개정 사용자 88
소스

이것이 어떻게 100000 기능인지 설명 할 수 있습니까? 나는 훈련 데이터를보고 각 줄은 한 줄에 2500 정수를 가질 수 있습니다.

— JeremyKun

희소 배열이고, 정수 N은 속성 N 값이 1임을 의미합니다.

3

Gisette
N = 13,500
p = 5000 (반 인위적 잡음 첨가)
K (균형) = 2
에서 NIPS2003 .

— 사용자 88
소스

3

덱스터
N = 2,600
p = 20000 (10K + 53 인공 잡음)
(밸런스) K = 2
에서 NIPS2003 .

— 개정 사용자 88
소스

이해가 안됩니다 ... 한 사람당 한 세트?

@ robin & @ mbq 게시물 당 하나의 데이터 세트를 유지하는 것이 좋습니다. 이것은 사람들이 투표로 제안 할 수있는 제안들 중 어느 것이 제안 / 지원을하는지 표시 할 수 있도록합니다

— Peter Smit

@ 피터, 네, 당신의 아이디어를 따라, 나는 그에 따라 질문을 변경했습니다.

— 로빈 지라드

3

Arcene
N = 900
, P = 10000 (3K 인위적 잡음 첨가)
K = 2 (~ 균형)
에서 NIPS2003 .

— 개정 , 2 사용자 68 % 사용자 88
소스

2

전립선 (유전자 발현 배열)

R 패키지 spls 를 통해 사용 가능 데이터 세트의 이름 : 전립선

오류율 = 3/102 ( 여기 참조 ) 또한 1/102 오류율을 나타내는 용지가 있다고 생각합니다. 나는 이것이 쉬운 테스트 사례라고 말할 것이다.

— 로빈 지라드
소스