통계 및 빅 데이터

4

Cumming (2008)은 복제에서 얻은 p- 값의 분포는 원래의 p- 값에만 의존한다고 주장합니다. 그것은 어떻게 사실 일 수 있습니까?

필자는 Geoff Cumming의 2008 년 논문 복제 및 간격을pppppp p p 읽었습니다 . 값은 미래를 모호하게 예측하지만 신뢰 간격은 훨씬 더 우수합니다 [Google Scholar에서 ~ 200 개의 인용] . 이것은 Cumming이 에 대해 논쟁 하고 신뢰 구간을 선호 하는 일련의 논문 중 하나입니다 . 그러나 내 질문 은이 논쟁에 관한 …

52 hypothesis-testing p-value power replicability

8

Tukey의 탐색 적 데이터 분석의 현대 후계자?

Tukey의 저서 "탐색 데이터 분석"을 읽었습니다. 1977 년에 쓰여진이 책은 종이 / 연필 방법을 강조합니다. 이제 대규모 데이터 세트를 즉시 플롯 할 수 있다는 점을 고려한 '현대적인'후계자가 있습니까?

52 data-visualization references descriptive-statistics eda

5

신경 네트워크 대 지원 벡터 머신 : 두 번째는 확실히 우수합니까?

필자가 읽은 많은 저자들은 SVM이 회귀 / 분류 문제에 직면 할 수있는 우수한 기술이며, NN을 통해 유사한 결과를 얻을 수 없다는 것을 알고 있습니다. 종종 비교는 NN 대신 SVM 강력한 창립 이론을 가지고 2 차 프로그래밍으로 글로벌 최적 달성 적절한 수의 매개 변수를 선택하는 데 문제가 없습니다 과적 합의 경향이 …

52 machine-learning svm neural-networks

6

랜덤 포레스트 모델의 예측에는 예측 간격이 있습니까?

randomForest모델을 실행하면 모델을 기반으로 예측할 수 있습니다. 모델의 답이 얼마나 "확실"한지 알 수 있도록 각 예측의 예측 간격을 얻는 방법이 있습니까? 이것이 가능하다면 전체 모델에 대한 종속 변수의 변동성에 기초한 것일까 요? 아니면 특정 예측에 따른 특정 의사 결정 트리에 따라 더 넓고 좁은 간격을 가질 것입니까?

52 r confidence-interval random-forest

2

폐쇄 형 올가미 용액의 유도

올가미 문제 경우 \ | \ beta \ | _1 \ leq t 입니다. 소프트 임계 값 결과가 자주 나타납니다. \ beta_j ^ {\ text {lasso}} = \ mathrm {sgn} (\ beta ^ {\ text {LS}} _ j) (| \ beta_j ^ {\ text {LS}} | 직교 정규 X 사례의 …

52 lasso

3

분산 분석의 가정 정규성 / 정규 분포

ANOVA 의 Wikipedia 페이지에는 세 가지 가정이 나열되어 있습니다 . 사례의 독립성 – 이것은 통계 분석을 단순화하는 모델의 가정입니다. 정규성 – 잔차 분포가 정상입니다. 균일 성이라고하는 분산의 평등 (또는 "균질성") 여기서 관심 지점은 두 번째 가정입니다. 여러 출처에서 가정을 다르게 나열합니다. 일부는 원시 데이터의 정규성을 말하고 일부는 잔차를 주장합니다. 몇 …

52 anova residuals assumptions normality-assumption

2

카이 제곱 검정과 동일한 비율의 검정 사이의 관계는 무엇입니까?

상호 배타적 인 특성을 가진 네 명의 인구가 있다고 가정합니다. 각 모집단에서 무작위 표본을 추출하여 측정중인 특성에 대한 크로스 탭 또는 빈도 표를 구성합니다. 내가 말하는 것이 맞습니까? 모집단과 특성간에 관계가 있는지 여부를 테스트하려면 (예 : 한 모집단이 특성 중 하나의 빈도가 높은지 여부) 카이 제곱 검정을 실행하고 결과가 유의한지 …

52 chi-squared proportion contingency-tables z-test

8

통계 워크 벤치로서의 Excel

많은 사람들 (나를 포함하여)은 Excel에서 탐색 적 데이터 분석을 좋아하는 것 같습니다. 스프레드 시트에서 허용되는 행 수와 같은 일부 제한 사항은 고통 스럽지만 대부분의 경우 Excel을 사용하여 데이터를 처리하는 것이 불가능하지는 않습니다. 그러나 McCullough와 Heiser의 논문은 실제로 Excel을 사용하려고하면 결과가 잘못 될 수도 있고, 아마도 지옥에서도 불 타올 것이라고 비명을 …

52 software computational-statistics excel

14

가우스 분포 (가상 분포)의 가장 놀라운 특징은 무엇입니까?

의 표준화 된 가우스 분포 는 밀도를 명시 적으로 지정하여 정의 할 수 있습니다. RR\mathbb{R}12π−−√e−x2/212πe−x2/2 \frac{1}{\sqrt{2\pi}}e^{-x^2/2} 또는 그 특징적인 기능. 이 질문 에서 상기 한 것처럼 표본 평균과 분산이 독립적 인 유일한 분포이기도합니다. 알고있는 Gaussian 측정 값의 다른 놀라운 대안은 무엇입니까? 가장 놀라운 답변을 받아들입니다

52 probability normal-distribution mathematical-statistics characteristic-function

10

거리 매트릭스를 사용한 클러스터링

M각 노드 쌍 사이의 거리를 나타내는 (대칭) 행렬 이 있습니다. 예를 들어 ABCDEFGHIJKL 0 20 20 20 40 60 60 60100120120120 B 20 20 20 60 80 80 80120140140140 C 20 20 20 60 80 80 80120140140140 D 20 20 20 60 80 80 80120140140140 E 40 60 60 60 …

52 clustering

6

강하게 불균형이있는 이진 분류

(기능, 이진 출력 0 또는 1) 형식의 데이터 세트가 있지만 1은 거의 발생하지 않으므로 항상 0을 예측하면 70 %에서 90 % 사이의 정확도를 얻습니다 (내가 보는 특정 데이터에 따라 다름) ). ML 방법은 동일한 정확도를 제공하며,이 상황에서 적용 할 표준 방법이 있어야 분명한 예측 규칙보다 정확도를 향상시킬 수 있다고 생각합니다.

52 machine-learning classification binary-data unbalanced-classes

2

인공 신경망 ANN을 어떻게 감독되지 않은 클러스터링에 사용할 수 있습니까?

나는 artificial neural network (ANN)예측에서 오류를 줄임으로써 피팅을 개선하기 위해 역 전파를 사용하여 감독 방식으로 훈련 될 수있는 방법을 이해합니다 . 나는 ANN이 비지도 학습에 사용될 수 있다고 들었지만 최적화 단계를 안내하기 위해 일종의 비용 함수없이 어떻게 할 수 있습니까? k- 평균 또는 EM 알고리즘에는 각 반복이 증가하도록 검색하는 기능이 …

52 clustering neural-networks unsupervised-learning self-organizing-maps

5

회귀 분석을위한 스케일링 기능 외에도 목표 값을 스케일링해야합니까?

회귀 모델을 작성 중입니다. 전처리 단계로서 기능 값을 평균 0과 표준 편차 1로 조정합니다. 목표 값도 정규화해야합니까?

52 regression machine-learning

4

리 커트 척도를 서수 또는 구간 데이터로 사용해야하는 조건은 무엇입니까?

사회 과학에 관한 많은 연구는 리 커트 척도를 사용합니다. Likert 데이터를 서수로 사용하는 것이 적절한시기와 간격 데이터로 사용하는 것이 적절한시기는 언제입니까?

52 ordinal-data likert scales measurement

5

기계 학습에서 불균형 데이터가 실제로 문제가되는시기는 언제입니까?

로지스틱 회귀 , SVM , 의사 결정 트리 , 배깅 및 기타 여러 가지 유사한 질문을 사용할 때 불균형 데이터에 대한 여러 가지 질문이 이미있었습니다 . 불행히도, 각 질문은 알고리즘에 특정한 것으로 보이며 불균형 데이터를 다루는 일반적인 지침을 찾지 못했습니다. Marc Claesen의 답변 중 하나를 인용 하여 불균형 데이터 처리 …

52 machine-learning classification predictive-models unbalanced-classes