"아이리스"데이터 세트의 어떤 측면이 예제 / 교육 / 테스트 데이터 세트로서 성공을 거두었습니까?


28

"아이리스" 데이터 세트는 아마 여기에 대부분의 사람들에게 익숙한 - 그것은 정규 테스트 데이터 세트 및 데이터 시각화에서 기계 학습에 이르기까지의 예를 이동-에 데이터 세트입니다. 예를 들어, 이 질문의 모든 사람들은 치료로 분리 된 산점도에 대해 토론하기 위해 그것을 사용했습니다.

아이리스 데이터 세트가 유용한 이유는 무엇입니까 ? 그게 먼저 있었어? 누군가가 유용한 예제 / 테스트 데이터 세트 를 만들 려고한다면 어떤 교훈을 얻을 수 있습니까?


13
작지만 사소한 것은 아닙니다. 간단하지만 도전적입니다. 실제 데이터. 그의 데이터는 아니지만 Fisher의 명성. 전통. 관성. 연속성. 당신은 그것을 철자 꽃 그림을 찾을 수 있습니다.
Nick Cox

이제 시계처럼 작동합니다.
Michael M

@NickCox가 바로 마크에 있다고 말합니다.
Marc Claesen

@NickCox 답변으로 조금 더 확장하고 싶습니까?
Fomite

6
'아이리스'데이터 세트는 설명을 위해 식별되지 않은 분류 (모델 기반 또는 모델이없는 클러스터링)뿐만 아니라 판별 분석에 사용할 수 있습니다. 이 질문 은 통계 분석의 특정 측면을 설명하기 위해 좋은 데이터 세트 란 무엇입니까?에
chl

답변:


40

아이리스 데이터 세트는 당연히 널리 특히 통계 그래픽, 다변량 통계 및 기계 학습의 다양한 문제를 설명하기 위해, 통계 과학 전반에 걸쳐 사용된다.

  • 150 개의 관측치가 포함되어 있지만 작지만 사소한 것은 아닙니다.

  • 꽃잎과 꽃받침의 측정에서 세 종의 홍채 를 구별하는 작업 은 간단하지만 도전적입니다.

  • 데이터는 실제 데이터이지만 품질은 양호합니다. 원칙적으로 그리고 실제로, 테스트 데이터 세트는 종합적 일 수 있으며 포인트를 만드는 데 필요하거나 유용 할 수 있습니다. 그럼에도 불구하고 실제 데이터에 반대하는 사람은 거의 없습니다.

  • 이 데이터는 1936 년 영국의 유명한 통계 학자 로널드 피셔 (Ronald Fisher)가 사용했습니다. (나중에 기사를 썼고 로널드 경이되었습니다.) 적어도 일부 교사들은 현장에서 잘 알려진 사람과 연결되어있는 데이터 세트 아이디어를 좋아합니다. 이 데이터는 원래 통계적 식물학자인 Edgar S. Anderson에 의해 출판되었지만, 그 초기의 출처는 연관성을 축소하지 않습니다.

  • 몇 가지 유명한 데이터 세트를 사용하는 것은 우리가 전승하는 전통 중 하나입니다. 예를 들어, 학생이 기네스를 위해 일했거나 많은 유명한 통계 학자들이 서로 빠졌다고 이야기합니다. 관성처럼 들릴지 모르지만, 기존 방법과 새로운 방법을 비교하고 모든 방법을 평가할 때 알려진 데이터 세트에서 시도해 보는 것이 도움이되는 것으로 간주되어 방법을 평가하는 방법에있어 일부 연속성을 유지합니다.

  • 마지막으로, 아이리스 데이터 셋은 예를 들어 데이터 셋의 유용한 위키 백과 엔트리 에서와 같이 해당 꽃의 그림과 즐겁게 결합 될 수 있습니다 .

노트. 관련 식물을 조심스럽게 인용하면서 생물학적 정확성을 위해 조금만 노력하십시오. 홍채 setosa , 홍채 versicolor홍채 virginica 는 3 종 (일부 통계적 설명과 같이 품종이 아님)입니다. 이항식은 여기에서 이탤릭체로 표시되어야합니다. 와 아이리스 속 이름과 특정 종을 나타내는 다른 이름으로 각각 대문자와 소문자로 시작해야합니다.


3
(+1) 의견을 답변으로 확장 해 주셔서 감사합니다.
추기경

5
생물학적 정확성을 원칙으로 할 수 있다면 +1을 더 줄 것입니다.
Fomite

6

데이터 세트는 사소하지 않을만큼 충분히 크고 흥미롭지 만 "주머니에 맞을만큼"작고 실험 속도가 느리지 않습니다.

핵심적인 측면은 과도한 피팅에 대해 가르치는 것입니다. 완벽한 점수를 줄 수있는 열이 충분하지 않습니다. 우리는 산점도를 볼 때 이것을 즉시보고 서로 겹치게됩니다. 따라서 완벽한 점수를 얻는 모든 기계 학습 접근법은 의심스러운 것으로 간주 될 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.