통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

4
Cumming (2008)은 복제에서 얻은 p- 값의 분포는 원래의 p- 값에만 의존한다고 주장합니다. 그것은 어떻게 사실 일 수 있습니까?
필자는 Geoff Cumming의 2008 년 논문 복제 및 간격을pppppp p p 읽었습니다 . 값은 미래를 모호하게 예측하지만 신뢰 간격은 훨씬 더 우수합니다 [Google Scholar에서 ~ 200 개의 인용] . 이것은 Cumming이 에 대해 논쟁 하고 신뢰 구간을 선호 하는 일련의 논문 중 하나입니다 . 그러나 내 질문 은이 논쟁에 관한 …


5
신경 네트워크 대 지원 벡터 머신 : 두 번째는 확실히 우수합니까?
필자가 읽은 많은 저자들은 SVM이 회귀 / 분류 문제에 직면 할 수있는 우수한 기술이며, NN을 통해 유사한 결과를 얻을 수 없다는 것을 알고 있습니다. 종종 비교는 NN 대신 SVM 강력한 창립 이론을 가지고 2 차 프로그래밍으로 글로벌 최적 달성 적절한 수의 매개 변수를 선택하는 데 문제가 없습니다 과적 합의 경향이 …

6
랜덤 포레스트 모델의 예측에는 예측 간격이 있습니까?
randomForest모델을 실행하면 모델을 기반으로 예측할 수 있습니다. 모델의 답이 얼마나 "확실"한지 알 수 있도록 각 예측의 예측 간격을 얻는 방법이 있습니까? 이것이 가능하다면 전체 모델에 대한 종속 변수의 변동성에 기초한 것일까 요? 아니면 특정 예측에 따른 특정 의사 결정 트리에 따라 더 넓고 좁은 간격을 가질 것입니까?

2
폐쇄 형 올가미 용액의 유도
올가미 문제 경우 \ | \ beta \ | _1 \ leq t 입니다. 소프트 임계 값 결과가 자주 나타납니다. \ beta_j ^ {\ text {lasso}} = \ mathrm {sgn} (\ beta ^ {\ text {LS}} _ j) (| \ beta_j ^ {\ text {LS}} | 직교 정규 X 사례의 …
52 lasso 

3
분산 분석의 가정 정규성 / 정규 분포
ANOVA 의 Wikipedia 페이지에는 세 가지 가정이 나열되어 있습니다 . 사례의 독립성 – 이것은 통계 분석을 단순화하는 모델의 가정입니다. 정규성 – 잔차 분포가 정상입니다. 균일 성이라고하는 분산의 평등 (또는 "균질성") 여기서 관심 지점은 두 번째 가정입니다. 여러 출처에서 가정을 다르게 나열합니다. 일부는 원시 데이터의 정규성을 말하고 일부는 잔차를 주장합니다. 몇 …

2
카이 제곱 검정과 동일한 비율의 검정 사이의 관계는 무엇입니까?
상호 배타적 인 특성을 가진 네 명의 인구가 있다고 가정합니다. 각 모집단에서 무작위 표본을 추출하여 측정중인 특성에 대한 크로스 탭 또는 빈도 표를 구성합니다. 내가 말하는 것이 맞습니까? 모집단과 특성간에 관계가 있는지 여부를 테스트하려면 (예 : 한 모집단이 특성 중 하나의 빈도가 높은지 여부) 카이 제곱 검정을 실행하고 결과가 유의한지 …

8
통계 워크 벤치로서의 Excel
많은 사람들 (나를 포함하여)은 Excel에서 탐색 적 데이터 분석을 좋아하는 것 같습니다. 스프레드 시트에서 허용되는 행 수와 같은 일부 제한 사항은 고통 스럽지만 대부분의 경우 Excel을 사용하여 데이터를 처리하는 것이 불가능하지는 않습니다. 그러나 McCullough와 Heiser의 논문은 실제로 Excel을 사용하려고하면 결과가 잘못 될 수도 있고, 아마도 지옥에서도 불 타올 것이라고 비명을 …

14
가우스 분포 (가상 분포)의 가장 놀라운 특징은 무엇입니까?
의 표준화 된 가우스 분포 는 밀도를 명시 적으로 지정하여 정의 할 수 있습니다. RR\mathbb{R}12π−−√e−x2/212πe−x2/2 \frac{1}{\sqrt{2\pi}}e^{-x^2/2} 또는 그 특징적인 기능. 이 질문 에서 상기 한 것처럼 표본 평균과 분산이 독립적 인 유일한 분포이기도합니다. 알고있는 Gaussian 측정 값의 다른 놀라운 대안은 무엇입니까? 가장 놀라운 답변을 받아들입니다

10
거리 매트릭스를 사용한 클러스터링
M각 노드 쌍 사이의 거리를 나타내는 (대칭) 행렬 이 있습니다. 예를 들어 ABCDEFGHIJKL 0 20 20 20 40 60 60 60100120120120 B 20 20 20 60 80 80 80120140140140 C 20 20 20 60 80 80 80120140140140 D 20 20 20 60 80 80 80120140140140 E 40 60 60 60 …
52 clustering 

6
강하게 불균형이있는 이진 분류
(기능, 이진 출력 0 또는 1) 형식의 데이터 세트가 있지만 1은 거의 발생하지 않으므로 항상 0을 예측하면 70 %에서 90 % 사이의 정확도를 얻습니다 (내가 보는 특정 데이터에 따라 다름) ). ML 방법은 동일한 정확도를 제공하며,이 상황에서 적용 할 표준 방법이 있어야 분명한 예측 규칙보다 정확도를 향상시킬 수 있다고 생각합니다.

2
인공 신경망 ANN을 어떻게 감독되지 않은 클러스터링에 사용할 수 있습니까?
나는 artificial neural network (ANN)예측에서 오류를 줄임으로써 피팅을 개선하기 위해 역 전파를 사용하여 감독 방식으로 훈련 될 수있는 방법을 이해합니다 . 나는 ANN이 비지도 학습에 사용될 수 있다고 들었지만 최적화 단계를 안내하기 위해 일종의 비용 함수없이 어떻게 할 수 있습니까? k- 평균 또는 EM 알고리즘에는 각 반복이 증가하도록 검색하는 기능이 …



5
기계 학습에서 불균형 데이터가 실제로 문제가되는시기는 언제입니까?
로지스틱 회귀 , SVM , 의사 결정 트리 , 배깅 및 기타 여러 가지 유사한 질문을 사용할 때 불균형 데이터에 대한 여러 가지 질문이 이미있었습니다 . 불행히도, 각 질문은 알고리즘에 특정한 것으로 보이며 불균형 데이터를 다루는 일반적인 지침을 찾지 못했습니다. Marc Claesen의 답변 중 하나를 인용 하여 불균형 데이터 처리 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.