데이터를 시험과 훈련으로 나누는 것이 순전히 "통계"인가?


11

나는 기계 학습 / 데이터 과학을 공부하는 물리학 학생 이므로이 질문이 충돌을 시작한다는 의미는 아닙니다.) 그러나 물리 학부 프로그램의 대부분은 실험실 / 실험을 수행하는 것입니다. 이는 많은 데이터를 의미합니다. 처리 및 통계 분석. 그러나 물리학 자들이 데이터를 다루는 방식과 데이터 과학 / 통계 학습서가 데이터를 다루는 방식 사이에는 큰 차이가 있습니다.

가장 큰 차이점은 물리 실험에서 얻은 데이터에 회귀를 수행하려고 할 때 회귀 알고리즘이 WHOLE 데이터 세트에 적용 되며 훈련 및 테스트 세트로 분리되지 않는다는 것입니다. 물리 세계에서 R ^ 2 또는 일부 유형의 의사 R ^ 2는 전체 데이터 세트를 기반으로 모델에 대해 계산됩니다. 통계 세계에서 데이터는 거의 항상 80-20, 70-30 등으로 나뉘며 모델은 테스트 데이터 세트에 대해 평가됩니다.

이 데이터 분할을 수행하지 않는 주요 물리 실험 (ATLAS, BICEP2 등)도 있으므로 물리학 자 / 실험가가 통계를 수행하는 방식과 데이터 과학자가 수행하는 방식 사이에 왜 그렇게 큰 차이가 있는지 궁금합니다. 통계를 수행하십시오.


1
(+1) 아주 좋은 질문입니다 (제대로 대답 할 시간이 없습니다). 코멘트 : 물리학에는 "실제 실험"의 사치가 있습니다. 일반적으로 통제 된 / 실험실 조건, 대부분 잘 정의 된 결과 / 변수 및 가정 된 반복성. 일반적인 공중 보건 / 경제 계량 / 측량 통계 프로젝트 (몇 가지 명백한 하위 분야 언급)는이를 얻지 못합니다. , 계절 (시간 의존) 일반적 개념 드리프트를 혼란 것은 유행 이 "데이터의 분할이"완전히 바보 결과를 방지 할 수있는 확실한 방법 중 하나입니다 그래서 통계있다. 또한 모든 추정기가 똑같이 효율적으로 생성되는 것은 아닙니다. :)
usεr11852

3
Stanford의 통계 교수 David Donoho의 최근 토론 논문에서 풍부한 관련 토론과 배경을 찾을 수 있습니다. course.csail.mit.edu/18.337/2015/docs/50YearsDataScience.pdf "예측 문화에 대한 토론 "기존 통계와는 대조적입니다.
Gordon Smyth

1
"이론이 없을 때의 예측"이라고 생각합니다. "통계"의 작은 부분 집합이고 머신 러닝의 큰 부분 집합입니다.
Laconic

통계학
자도

@rep_ho 샘플 예측이 중요하지 않은 상황과 관련된 일부 통계 학자 (아마도 많은 통계 학자)도 그렇게합니다 (일부는 오랫동안 수행했습니다). 예를 들어 교차 검증 및 휴가 일회성 통계와 같은 아이디어는 오랫동안 사용되어 왔습니다. 그러나 피할 수없는 한 통계 학자들은 한 번만 분할하지 않는 경향이 있습니다. 어떤 통계 학자와 대화를 하느냐에 따라 달라질 수 있습니다.
Glen_b -Reinstate Monica

답변:


6

모든 통계 절차가 "교차 유효성 검사"라고도하는 훈련 / 테스트 데이터로 분리되는 것은 아닙니다 (전체 절차에 약간의 차이가 있지만).

오히려, 이것은 샘플 외부 오차 를 추정 하는 데 특히 사용되는 기술입니다 . 즉, 모델이 새로운 데이터 세트를 사용하여 새로운 결과를 얼마나 잘 예측할 수 있습니까? 예를 들어 데이터 세트의 표본 수에 비해 매우 많은 예측 변수가있는 경우 이는 매우 중요한 문제가됩니다. 이러한 경우, 표본 내 오차가 크지 만 표본 오차에서 끔찍한 ( "과도 적합"이라고 함) 모델을 작성하는 것은 실제로 쉽습니다. 많은 수의 예측 변수와 많은 수의 샘플이 모두있는 경우 교차 검증은 새 데이터를 예측할 때 모델이 얼마나 잘 작동하는지 평가하는 데 필요한 도구입니다. 또한 경쟁 예측 모델 중에서 선택할 때 중요한 도구입니다.

다른 말로, 교차 검증은 예측 모델 을 만들 때 거의 항상 사용됩니다 . 일반적으로 일부 치료의 효과를 추정하려고 할 때 모델에는별로 도움이되지 않습니다. 예를 들어, 재료 A와 B 사이의 인장 강도 분포 (재료 유형 인 "처리")를 비교하는 경우 교차 검증이 필요하지 않습니다. 우리는 치료 효과 추정치가 표본을 일반화하기를 희망하지만, 대부분의 문제에서 고전적인 통계 이론은 교차 검증보다 정확하게 이것에 답할 수 있습니다 (즉, 추정치의 "표준 오차") . 불행히도, 고전적인 통계 방법론 1과적 합의 경우 표준 오차가 유지되지 않습니다. 이 경우 교차 유효성 검사가 종종 훨씬 더 좋습니다.

다른 한편으로, 100,000 개의 관측치에 기초하여 일부 머신 러닝 모델에 던지는 10,000 개의 측정 변수를 기반으로 재료가 파손되는 시점을 예측하려고하면 교차 검증없이 훌륭한 모델을 구축하는 데 많은 어려움이 있습니다!

나는 많은 물리 실험에서 추측하고 있습니다. 일반적으로 효과 추정에 관심이 있습니다. 이 경우 교차 검증이 거의 필요하지 않습니다.

1 사전 정보가있는 베이지안 방법은 과적 합을 다루는 고전적인 통계 방법론이라고 주장 할 수 있습니다. 그러나 그것은 또 다른 토론입니다.

참고 사항 : 교차 유효성 검사는 통계 문헌에 처음 나타나고 통계학 자라고하는 사람들이 확실히 사용하지만 머신 러닝 커뮤니티에서 필수적인 필수 도구가되었습니다. 많은 통계 모델은 교차 검증을 사용하지 않고도 잘 작동하지만 "기계 학습 예측 모델"로 간주되는 거의 모든 모델은 종종 조정 매개 변수를 선택 해야하므로 교차 검증 없이는 거의 불가능 하므로 교차 검증이 필요합니다. -확인.



@ usεr11852 : 그렇습니다. 그러나 교차 검증없이 합당한 정규화 페널티를 선택하는 것은 거의 불가능합니다 (베이지 이전과 같은 페널티에 대해 생각하는 것 외에는 블랙 박스 모델에서는 어렵습니다!). 우리는 A와 B를 비교하여 결과를 표본에서 제외하기를 원하지만, 이는 일반적으로 모델 튜닝이 필요한 문제가 아니며 (예측이 자주하는 것처럼) 상대적으로 적은 수의 매개 변수를 사용하면 고전적인 통계 이론이이를 처리 할 수 ​​있습니다 교차 검증을 사용하지 않고
Cliff AB

이는 순환 인수이며 정규화는 교차 유효성 검사를 사용하지만 정규화에는 교차 유효성 검사가 수행됩니다. 그렇기 때문에 처음에는 반대 의견을 제시했습니다. 나는 통계적 추론 / 인과 관계가이 비 모델링 튜닝 접근법에서 멀어 졌다고 생각한다 (예를 들어, 2016 Johansson et al. "상대적 추론에 대한 학습 표현"-지저분한 지저분한 논문 참조). 마지막으로 근본적인 물리학 연구는 어려운 문제를 제시했을 때 ML (예 : Higgs Boson Machine Learning Challenge ) 접근 방식에 의존 할 수 있습니다 .
usεr11852

@ usεr11852 정규화는 교차 검증을 "사용"하지 않지만 정규화를위한 조정 매개 변수는 교차 검증을 사용하여 선택됩니다. 예를 들어, 참조 glment이야 ' cv.glmnet멋진 컴팩트 한 기능의 전체 절차.
Cliff AB

1
또한 물리 연구에서 ML 접근 방식이나 교차 검증을 사용할 수 없다는 주장을 한 적이 없습니다! 교차 검증은 일반적으로 예측 모델에서 복잡한 모델 / 튜닝 매개 변수를 선택하기 위해 특별히 사용되며 많은 고전 물리학 실험에서는 교차 검증이 필요하지 않다고 설명했습니다. 물리학 자들이 그 데이터로하는 일이 통계 학자들이 그 데이터로하는 일과 반드시 ​​상충되는 것은 아닙니다. 저는 이것이 OP의 질문의 핵심이라고 믿습니다.
Cliff AB

3

(분석적) 화학자 인 저는 두 가지 접근법, 즉 대부분의 일 변량 회귀 분석에 대한 유능한 인물의 분석적 계산과 유능한 예측 적 인물의 직접적인 측정에 직면합니다.
나에게 나누어지는 기차 / 테스트는 예측 품질을 측정하기위한 검증 실험의 "형제"입니다.


긴 대답 :

학부 물리 화학에서 우리가하는 전형적인 실험은 일 변량 회귀를 사용합니다. 관심있는 특성은 종종 모델 매개 변수, 예를 들어 반응 속도론을 측정 할 때의 시간 상수이지만 때로는 예측 (예 : 관심있는 일부 값을 예측 / 측정하기위한 일 변량 선형 교정)입니다.
이러한 상황은 과적 합하지 않는면에서 매우 양성입니다. 일반적으로 모든 매개 변수를 추정 한 후에는 편안한 자유도가 남아 있으며, 고전적 자신감 또는 예측 간격 계산 및 고전적 오류를 가진 학생들을 교육시키는 데 사용됩니다. 전파-이러한 상황을 위해 개발되었습니다. 그리고 상황이 완전히 교과서와 같지 않더라도 (예를 들어 내 데이터에 구조가 있습니다 (예 : 운동학) 데이터가 반응 실행 간격의 차이 + 측정 간격 사이의 차이에 의해 더 잘 설명됩니다. 평범한 단일 분산 전용 접근법), 나는 여전히 유용한 결과를 얻을 수있는 실험을 충분히 실행할 수 있습니다.

<에프고전적인 접근법은 효과가 없습니다. 그러나 주로 예측을 수행 할 때 항상 모델의 예측 능력을 측정 할 수있는 매우 직접적인 가능성이 있습니다. 예측을 수행하고이를 참조 값과 비교합니다.

이 접근법은 훈련 / 보정 데이터에서 다루지 않은 조건에 대해서도 예측 품질을 조사 할 수있게 해주므로 (실험적인 노력으로 인해 비용이 많이 들지만) 실제로 매우 강력합니다. 예를 들어 외삽 법으로 예측 품질이 저하되는 방식을 측정 할 수 있습니다 (외삽 법에는 예를 들어 훈련 데이터를 수집 한 후 한 달 동안의 측정도 포함됨). 중요한 것으로 예상되는 혼란스러운 요소에 대해 견고성을 조사 할 수 있습니다. , 우리는 다른 시스템의 행동을 연구하는 것처럼 모델의 행동을 연구 할 수 있습니다. 특정 점을 조사하거나 교란시키고 시스템의 응답 변화 등을 봅니다.

예측 품질이 중요할수록 (과적 합의 위험이 높을수록) 분석적으로 도출 된 수치보다는 예측 품질의 직접적인 측정을 선호하는 경향이 있습니다. (물론 우리는 그 모든 혼란 자들을 훈련 실험의 디자인에도 포함시킬 수있었습니다). 의료 진단과 같은 일부 영역에서는 실제 환자에 대해 모델이 "느슨해지기"전에 적절한 검증 연구를 수행해야합니다.

열차 / 테스트 분할 (홀드 아웃 * 또는 교차 검증 또는 부트 스트랩 부족 또는 ...)이 한 단계 더 쉬워집니다. 우리는 여분의 실험을 저장하고 외삽하지 않습니다 (우리는 훈련 데이터의 동일한 분포에 대해 알려지지 않은 독립적 사례를 예측하는 것으로 일반화합니다). 나는 이것을 검증보다는 검증 으로 설명 할 것이다 (여기서 검증은 여기서 용어에 깊이 있지만). 이것은 성과 지표의 정밀도에 대한 요구가 너무 높지 않은 경우에 실제로 실천적인 방법입니다 (개념 증명 시나리오에서 매우 정확하게 알 필요는 없습니다).

* 단일 무작위 스플릿을 열차로 혼동하지 말고 예측 품질을 측정하기 위해 올바르게 설계된 연구와 테스트하십시오.


2
검증과 검증의 차이를 지적한 +1
예측 자
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.