매우 높은 차원 분류를위한 무료 데이터 세트 [닫기]


35

1000 개 이상의 피쳐 (또는 커브가 포함 된 경우 샘플 포인트) 로 분류 할 수 있는 무료 데이터 세트 는 무엇입니까 ?

무료 데이터 세트에 대한 커뮤니티 위키가 이미 있습니다. 자유롭게 사용 가능한 데이터 샘플 찾기

그러나 여기서는 보다 편리하게 사용할 수 있는 보다 집중적 인 목록을 작성하는 것이 좋으며 다음 규칙을 제안합니다.

  1. 데이터 세트당 하나의 게시물
  2. 데이터 세트에 대한 링크가 없습니다
  3. 각 데이터 세트는 해야 와 연관 될

    • 이름 과 데이터 세트에 대한 링크 (그것은 무슨 일인지 알아 내기가) (R 데이터 세트는 패키지 이름으로 이름을 지정할 수 있습니다)

    • 지형지 물의 수 ( p 라고 말함 ) 데이터 세트의 크기 ( n 이라고 말함 ) 및 레이블 / 클래스 수 ( k 라고 함 )

    • 경험 (사용 된 알고리즘을 단어로 표현) 또는 문학 (이 경우에는 종이 링크) 의 일반적인 오류율


+1이지만 NIPS2003의 기차표에는 train.labels 만 있습니다. NIPS2003 논문에 "유효성 및 테스트 세트 레이블은 보류되어 있습니다"라고 명시되어 있습니다.
데니스

감사. NIPS에 대한 의견은 @mbq의 답변입니다.
Robin girard

여기에 둘 이상의 클래스 레이블이있는 고차원 데이터 세트가 있습니까?
hlin117

답변:


3

도로테아
N = 1950
= 100,000 P (0.1M 반 인위적 잡음 첨가)
K = 2 (불평형 ~ 10 배)
에서 NIPS2003 .


이것이 어떻게 100000 기능인지 설명 할 수 있습니까? 나는 훈련 데이터를보고 각 줄은 한 줄에 2500 정수를 가질 수 있습니다.
JeremyKun

희소 배열이고, 정수 N은 속성 N 값이 1임을 의미합니다.


3

덱스터
N = 2,600
p = 20000 (10K + 53 인공 잡음)
(밸런스) K = 2
에서 NIPS2003 .


이해가 안됩니다 ... 한 사람당 한 세트?

@ robin & @ mbq 게시물 당 하나의 데이터 세트를 유지하는 것이 좋습니다. 이것은 사람들이 투표로 제안 할 수있는 제안들 중 어느 것이 제안 / 지원을하는지 표시 할 수 있도록합니다
Peter Smit

@ 피터, 네, 당신의 아이디어를 따라, 나는 그에 따라 질문을 변경했습니다.
로빈 지라드


2

전립선 (유전자 발현 배열)

  • k = 2
  • n = 48 + 52
  • p = 6033

R 패키지 spls 를 통해 사용 가능 데이터 세트의 이름 : 전립선

오류율 = 3/102 ( 여기 참조 ) 또한 1/102 오류율을 나타내는 용지가 있다고 생각합니다. 나는 이것이 쉬운 테스트 사례라고 말할 것이다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.