통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

7
N> 50 일 때 비정규 T- 테스트?
오래 전에 저는 두 개의 표본 T- 검정을 사용하기 위해 정규 분포가 필요하다는 것을 배웠습니다. 오늘 동료는 N> 50의 정규 분포가 필요하지 않다는 것을 알게되었다고 말했습니다. 그게 사실입니까? 사실이라면 중앙 제한 정리 때문입니까?


7
통계에서 '큰 문제'는 무엇입니까?
수학에는 유명한 밀레니엄 문제 (및 역사적으로 힐버트의 23 )가 있으며, 필드의 방향을 결정하는 데 도움이되는 질문이 있습니다. 그래도 리만 가설과 P 대 NP의 통계가 무엇인지 전혀 알지 못합니다. 통계에서 가장 중요한 공개 질문은 무엇입니까? 추가를 위해 편집 : 내가 찾고있는 대답의 일반적인 정신 (특별하지는 않지만)의 예로서, David Donoho의 "Hilbert 's …
77 history 

9
수학자는 품질 통계 학위와 동등한 지식을 원합니다
나는 사람들이 복제본을 닫는 것을 좋아하므로 통계 학습 을 시작 하기위한 참조를 요구 하지 않습니다 ( here ). 나는 수학 박사 학위를 받았지만 통계를 배우지 못했습니다. 최고 수준의 BS 통계학 학위에 대한 동등한 지식으로의 최단 경로는 무엇이며 어떻게 달성했는지 측정하는 방법은 무엇입니까? 책 목록만으로도 충분하다면 (내가 운동을한다고 가정하면) 훌륭합니다. 예, …



5
단계별 회귀에 대한 현대적이고 쉽게 사용되는 대안은 무엇입니까?
약 30 개의 독립 변수가있는 데이터 세트가 있으며 GLM (Generalized Linear Model)을 구성하여 변수와 종속 변수 간의 관계를 탐색하려고합니다. 나는이 상황에 대해 배운 방법, 단계적 회귀가 이제 통계적 죄로 간주된다는 것을 알고 있습니다. 이 상황에서 어떤 현대적인 모델 선택 방법을 사용해야합니까?

3
기능 선택 및 교차 검증
나는 최근에이 사이트 (@Aniko, @Dikran Marsupial, @Erik)와 교차 검증에서 발생하는 과잉 적합 문제에 대해 많은 것을 읽었습니다. 제안은이다 모든 감독 기능 선택 (클래스 라벨 상관을 이용)을 초래할 수 overfitting 교차 검증 (또는 부트 스트랩으로 추정 방식의 다른 모델)을 사용하여 모델의 성능 평가의 외부에서 수행. 이것은 직관적이지 않은 것 같습니다. 특징 …

1
Support Vector Machines 이해를 도와주세요
Support Vector Machines의 목표가 입력 집합을 여러 클래스로 분류한다는 점의 기본 사항을 이해하지만 이해하지 못하는 것은 몇 가지 중요한 세부 사항입니다. 우선, Slack Variables를 사용하면 약간 혼란 스럽습니다. 그들의 목적은 무엇입니까? 신발 깔창에 놓은 센서에서 압력 측정 값을 캡처하는 분류 문제를 겪고 있습니다. 압력 데이터가 기록되는 동안 피험자는 몇 분 …

6
머신 러닝에서 교차 검증을 수행 할 때 "최종"모델을위한 기능 선택
기능 선택 및 기계 학습에 대해 약간 혼란스러워하며 도움이되는지 궁금합니다. 두 그룹으로 분류되고 1000 개의 기능을 가진 마이크로 어레이 데이터 세트가 있습니다. 내 목표는 이론적으로 다른 데이터 세트에 적용하여 해당 샘플을 최적으로 분류 할 수있는 서명으로 소수의 유전자 (내 특징) (10-20)를 얻는 것입니다. 샘플 수가 많지 않기 때문에 (<100), 테스트 …

3
올가미가 변수 선택을 제공하는 이유는 무엇입니까?
나는 통계 학습의 요소를 읽고 있었고 , 올가미가 변수 선택을 제공하고 능선 회귀가 그렇지 않은 이유를 알고 싶습니다. 두 방법 모두 잔차 제곱합을 최소화하고 매개 변수 의 가능한 값을 제한합니다 . 올가미의 경우 제약 조건은 이며, 능선의 경우 일부 입니다.ββ\beta||β||1≤t||β||1≤t||\beta||_1 \le t||β||2≤t||β||2≤t||\beta||_2 \le tttt 나는 책에서 다이아몬드 대 타원 그림을 …


3
간행물에 임의의 포리스트를 표시하는 가장 좋은 방법은 무엇입니까?
1000 개의 기능을 갖춘 마이크로 어레이 연구에서 랜덤 포레스트 알고리즘을 두 그룹의 강력한 분류 자로 사용하고 있습니다. 논문에서 재현 할 수 있도록 충분한 정보가있을 수 있도록 임의의 숲을 제시하는 가장 좋은 방법은 무엇입니까? 피처 수가 적을 경우 실제로 트리를 그리는 플롯 방법이 있습니까? 오류율의 OOB 추정치는 인용하기 가장 좋은 통계입니까?

5
기다리는 역설을 설명 해주세요
몇 년 전 저는 사건을 세는 것이 아니라 측정하는 간격을 측정하여 작동하는 방사선 검출기를 설계했습니다. 비 연속 샘플을 측정 할 때 평균적으로 실제 간격의 절반을 측정한다고 가정했습니다. 그러나 교정 된 소스로 회로를 테스트했을 때 판독 값이 너무 높기 때문에 전체 간격을 측정하고있었습니다. 확률과 통계에 관한 오래된 책에서 "The Waiting Paradox"에 …

3
로지스틱 회귀 분석?
선형 회귀 분석의 경우 진단 그림 (잔류 그림, 정규 QQ 그림 등)을 확인하여 선형 회귀 가정이 위반되었는지 확인할 수 있습니다. 로지스틱 회귀 분석의 경우 로지스틱 회귀 모델 적합을 진단하는 방법을 설명하는 리소스를 찾는 데 문제가 있습니다. GLM에 대한 몇 가지 교육 과정 노트를 살펴보면 잔차를 확인하는 것이 로지스틱 회귀 적합에 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.