머신 러닝 모델을 훈련시키기에 충분한 데이터가 있습니까?


11

저는 머신 러닝과 생물 정보학을 한동안 연구 해 왔으며, 오늘 저는 데이터 마이닝의 주요 일반 문제에 대해 동료와 대화를 나누었습니다.

기계 학습 전문가 인 제 동료는 머신 러닝의 가장 중요한 실질적인 측면은 머신 러닝 모델을 훈련시키기에 충분한 데이터를 수집했는지 여부를 이해하는 방법이라고 말했습니다 .

이 말은 내가이면에서 그토록 큰 중요성을 부여하지 않았기 때문에 나를 놀라게했다 ...

그런 다음 인터넷에 대한 자세한 정보를 찾았으며 FastML.com 보고 에 대한이 게시물을 경험의 대략 10 배 많은 데이터 인스턴스 가 필요하다는 사실을 발견했습니다 .

두 가지 질문 :

1-이 문제는 특히 머신 러닝 과 관련 이 있습니까?

2 - 10 시간 작동 규칙입니다? 이 테마와 관련된 다른 소스가 있습니까?


1. 네. 2. 좋은 기준이지만 효과적인 자유도 를 줄이기 위해 정규화로 해결할 수 있습니다 . 이것은 특히 딥 러닝과 잘 작동합니다. 3. 표본 크기의 학습 곡선을 오류 또는 점수에 대해 표시하여 문제의 상황을 진단 할 수 있습니다.
Emre

감사합니다! 읽을 논문이나 자료를 제게 제안 해 주시겠습니까?
DavideChicco.it 2012 년

이것은 일반적으로 교과서에서 교차 검증 및 기타 모델 검증 기술과 함께 다루어집니다.
Emre

10 배 규칙은 달성 할 수 있으면 좋지만 일부 비즈니스 환경에서는 실용적이지 않습니다. 기능의 수가 데이터 인스턴스보다 훨씬 많은 상황이 있습니다 (p >> n). 이러한 상황을 처리하기 위해 특별히 설계된 기계 학습 기술이 있습니다.
데이터 과학 사람

학습 곡선 그래프를 이해하는 데 도움이되는 자세한 설명이 필요하면 다음을 확인하십시오. scikit-yb.org/en/latest/api/model_selection/learning_curve.html
shrikanth singh

답변:


6

열 배 규칙은 나에게 경험의 규칙처럼 보이지만 충분한 학습 데이터를 제공하지 않으면 기계 학습 알고리즘의 성능이 저하 될 수 있습니다.

학습 데이터가 충분한 지 여부를 판단하는 실용적이고 데이터 중심적인 방법은 아래 예와 같이 학습 곡선을 그리는 것입니다.

학습 곡선

학습 곡선은 학습 세트의 크기가 증가함에 따라 학습 및 테스트 오류의 진화를 나타냅니다.

  • 훈련 세트의 복잡성 / 변동성 증가를 설명하는 모델을 맞추기가 더 어려워 지므로 데이터 세트의 크기를 늘리면 훈련 오류가 증가합니다.
  • 더 많은 양의 정보에서 모델을 일반화 할 수 있으므로 데이터 세트의 크기를 늘리면 테스트 오류가 줄어 듭니다.

플롯의 가장 오른쪽 부분에서 볼 수 있듯이 플롯의 두 줄은 도달하고 점근하는 경향이 있습니다. 따라서 결국 데이터 세트의 크기를 늘리면 훈련 된 모델에 영향을 미치지 않는 지점에 도달하게됩니다.

테스트 오류와 훈련 오류 증상 사이의 거리는 모델의 과적 합을 나타냅니다. 그러나 더 중요한 것은이 플롯은 더 많은 데이터가 필요한지 여부를 말하는 것입니다. 기본적으로, 훈련 데이터의 더 큰 부분 집합을 증가시키는 데 대한 테스트 및 훈련 오류를 나타내고 선이 점근선에 도달하지 않는 경우 더 많은 데이터를 계속 수집해야합니다.


learning_curve 함수에서 통과해야합니다X_train, y_train: Only train subsetX, y: the entire dataset
Rookie_123

이 곡선은 샘플 수를 늘릴 때 교차 검증을 적용한 결과입니다. 따라서 전체 데이터 세트가 필요합니다.
Pablo Suau

4
  1. 그렇습니다. 문제는 모델에 맞는 능력이 가지고있는 데이터의 양에 따라 다르지만, 더 중요한 것은 예측 변수의 품질에 달려 있기 때문에 문제는 확실히 관련이 있습니다.
  2. 10 배 규칙은 경험의 규칙 일 수 있지만 다른 규칙이 많을 수도 있지만 실제로는 기능의 예측 유틸리티에 따라 다릅니다. 예를 들어, 홍채 데이터 세트는 상당히 작지만 쉽게 해결할 수 있습니다. 특징은 대상을 잘 분리하기 때문입니다. 반대로, 천만 개의 예가있을 수 있으며 기능이 약한 경우 적합하지 않습니다.

감사! 읽을 논문이나 자료를 제게 제안 해 주시겠습니까?
DavideChicco.it 2012 년
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.