통계 및 빅 데이터

7

오래 전에 저는 두 개의 표본 T- 검정을 사용하기 위해 정규 분포가 필요하다는 것을 배웠습니다. 오늘 동료는 N> 50의 정규 분포가 필요하지 않다는 것을 알게되었다고 말했습니다. 그게 사실입니까? 사실이라면 중앙 제한 정리 때문입니까?

77 normal-distribution t-test central-limit-theorem

26

모든 통계학자가 읽어야 할 가장 영향력있는 책은 무엇입니까?

시간을 거슬러 올라가서 통계 학자로서 경력을 시작할 때 특정 책을 읽도록 지시한다면 어떤 책이 될까요?

77 references

7

통계에서 '큰 문제'는 무엇입니까?

수학에는 유명한 밀레니엄 문제 (및 역사적으로 힐버트의 23 )가 있으며, 필드의 방향을 결정하는 데 도움이되는 질문이 있습니다. 그래도 리만 가설과 P 대 NP의 통계가 무엇인지 전혀 알지 못합니다. 통계에서 가장 중요한 공개 질문은 무엇입니까? 추가를 위해 편집 : 내가 찾고있는 대답의 일반적인 정신 (특별하지는 않지만)의 예로서, David Donoho의 "Hilbert 's …

77 history

9

수학자는 품질 통계 학위와 동등한 지식을 원합니다

나는 사람들이 복제본을 닫는 것을 좋아하므로 통계 학습 을 시작 하기위한 참조를 요구 하지 않습니다 ( here ). 나는 수학 박사 학위를 받았지만 통계를 배우지 못했습니다. 최고 수준의 BS 통계학 학위에 대한 동등한 지식으로의 최단 경로는 무엇이며 어떻게 달성했는지 측정하는 방법은 무엇입니까? 책 목록만으로도 충분하다면 (내가 운동을한다고 가정하면) 훌륭합니다. 예, …

77 references careers

5

일반 영어로 교차 검증?

데이터 분석 배경이없는 사람에게 교차 검증 을 어떻게 설명 하시겠습니까?

77 cross-validation

14

"모든 모델이 잘못되었지만 일부는 유용합니다"의 의미는 무엇입니까?

"실제로 모든 모델이 잘못되었지만 일부 모델이 유용합니다." --- 박스, 조지 EP; Norman R. Draper (1987). 경험적 모델 구축 및 반응 표면, p. 424, 와일리. ISBN 0471810339. 위 문구의 의미는 정확히 무엇입니까?

76 modeling

5

단계별 회귀에 대한 현대적이고 쉽게 사용되는 대안은 무엇입니까?

약 30 개의 독립 변수가있는 데이터 세트가 있으며 GLM (Generalized Linear Model)을 구성하여 변수와 종속 변수 간의 관계를 탐색하려고합니다. 나는이 상황에 대해 배운 방법, 단계적 회귀가 이제 통계적 죄로 간주된다는 것을 알고 있습니다. 이 상황에서 어떤 현대적인 모델 선택 방법을 사용해야합니까?

76 regression generalized-linear-model model-selection stepwise-regression

3

기능 선택 및 교차 검증

나는 최근에이 사이트 (@Aniko, @Dikran Marsupial, @Erik)와 교차 검증에서 발생하는 과잉 적합 문제에 대해 많은 것을 읽었습니다. 제안은이다 모든 감독 기능 선택 (클래스 라벨 상관을 이용)을 초래할 수 overfitting 교차 검증 (또는 부트 스트랩으로 추정 방식의 다른 모델)을 사용하여 모델의 성능 평가의 외부에서 수행. 이것은 직관적이지 않은 것 같습니다. 특징 …

76 cross-validation feature-selection

1

Support Vector Machines 이해를 도와주세요

Support Vector Machines의 목표가 입력 집합을 여러 클래스로 분류한다는 점의 기본 사항을 이해하지만 이해하지 못하는 것은 몇 가지 중요한 세부 사항입니다. 우선, Slack Variables를 사용하면 약간 혼란 스럽습니다. 그들의 목적은 무엇입니까? 신발 깔창에 놓은 센서에서 압력 측정 값을 캡처하는 분류 문제를 겪고 있습니다. 압력 데이터가 기록되는 동안 피험자는 몇 분 …

76 machine-learning classification svm

6

머신 러닝에서 교차 검증을 수행 할 때 "최종"모델을위한 기능 선택

기능 선택 및 기계 학습에 대해 약간 혼란스러워하며 도움이되는지 궁금합니다. 두 그룹으로 분류되고 1000 개의 기능을 가진 마이크로 어레이 데이터 세트가 있습니다. 내 목표는 이론적으로 다른 데이터 세트에 적용하여 해당 샘플을 최적으로 분류 할 수있는 서명으로 소수의 유전자 (내 특징) (10-20)를 얻는 것입니다. 샘플 수가 많지 않기 때문에 (<100), 테스트 …

76 machine-learning classification cross-validation feature-selection genetics

3

올가미가 변수 선택을 제공하는 이유는 무엇입니까?

나는 통계 학습의 요소를 읽고 있었고 , 올가미가 변수 선택을 제공하고 능선 회귀가 그렇지 않은 이유를 알고 싶습니다. 두 방법 모두 잔차 제곱합을 최소화하고 매개 변수 의 가능한 값을 제한합니다 . 올가미의 경우 제약 조건은 이며, 능선의 경우 일부 입니다.ββ\beta||β||1≤t||β||1≤t||\beta||_1 \le t||β||2≤t||β||2≤t||\beta||_2 \le tttt 나는 책에서 다이아몬드 대 타원 그림을 …

76 regression feature-selection lasso regularization

3

왜 로지스틱 회귀가 로지스틱 분류라고하지 않습니까?

이후 로지스틱 회귀는 통계적되는 분류 모델은 범주 형 종속 변수로 취급, 왜 호출되지 않습니다 물류 분류 ? 연속 회귀 변수를 다루는 모델에 "회귀"이름을 예약해서는 안됩니까?

75 regression machine-learning logistic classification terminology

3

간행물에 임의의 포리스트를 표시하는 가장 좋은 방법은 무엇입니까?

1000 개의 기능을 갖춘 마이크로 어레이 연구에서 랜덤 포레스트 알고리즘을 두 그룹의 강력한 분류 자로 사용하고 있습니다. 논문에서 재현 할 수 있도록 충분한 정보가있을 수 있도록 임의의 숲을 제시하는 가장 좋은 방법은 무엇입니까? 피처 수가 적을 경우 실제로 트리를 그리는 플롯 방법이 있습니까? 오류율의 OOB 추정치는 인용하기 가장 좋은 통계입니까?

75 r machine-learning classification random-forest microarray

5

기다리는 역설을 설명 해주세요

몇 년 전 저는 사건을 세는 것이 아니라 측정하는 간격을 측정하여 작동하는 방사선 검출기를 설계했습니다. 비 연속 샘플을 측정 할 때 평균적으로 실제 간격의 절반을 측정한다고 가정했습니다. 그러나 교정 된 소스로 회로를 테스트했을 때 판독 값이 너무 높기 때문에 전체 간격을 측정하고있었습니다. 확률과 통계에 관한 오래된 책에서 "The Waiting Paradox"에 …

75 poisson-process paradox

3

로지스틱 회귀 분석?

선형 회귀 분석의 경우 진단 그림 (잔류 그림, 정규 QQ 그림 등)을 확인하여 선형 회귀 가정이 위반되었는지 확인할 수 있습니다. 로지스틱 회귀 분석의 경우 로지스틱 회귀 모델 적합을 진단하는 방법을 설명하는 리소스를 찾는 데 문제가 있습니다. GLM에 대한 몇 가지 교육 과정 노트를 살펴보면 잔차를 확인하는 것이 로지스틱 회귀 적합에 …

74 regression logistic