통계 및 빅 데이터

2

Kolmogorov-Smirnov 검정 (python)의 p- 값을 해석하는 방법은 무엇입니까?

동일한 분포에서 가져온 두 가지 샘플 (파이썬 사용)을 테스트하려고합니다. 이를 위해 scipy.stats의 통계 함수 ks_2samp를 사용합니다. 2 개의 값을 반환하고 해석하는 데 어려움이 있습니다. 도와주세요!

30 python

7

통계의 분기는 무엇입니까?

수학에는 대수, 분석, 토폴로지 등과 같은 분기가 있습니다. 기계 학습에는 감독, 비지도 및 강화 학습이 있습니다. 이러한 각 브랜치에는 방법을 더 세분화하는 더 미세한 브랜치가 있습니다. 통계와 평행을 그리는 데 문제가 있습니다. 통계 (및 하위 분기)의 주요 분기는 무엇입니까? 완벽한 파티션은 가능하지 않지만 큰 빈 맵보다 더 좋습니다. 시각적 예 …

30 self-study classification

3

생일 역설을 2 명 이상으로 확대

전통적인 생일 역설에서 문제는 " 명 그룹의 둘 이상의 사람들 이 생일을 공유 할 가능성은 무엇인가 "입니다. 나는 이것의 확장 인 문제에 갇혀있다.nnn 두 사람이 생일을 공유 할 확률을 아는 대신, 명 이상의 사람들이 생일을 공유 할 확률을 알기 위해 질문을 확장해야합니다 . 를 사용하면 두 사람이 생일을 공유 하지 …

29 probability combinatorics birthday-paradox

6

수치 최적화에 3 차 도함수를 사용하지 않는 이유는 무엇입니까?

만약 Hessians가 최적화에 너무 좋다면 (예를 들어 Newton의 방법 참조 ) 왜 거기서 멈추는가? 3 차, 4 차, 5 차 및 6 차 도함수를 사용하자 왜 안돼?

29 optimization gradient-descent hessian

5

통계 및 기계 학습에서 두 그룹 간 구별 : 가설 검정 vs. 분류 대 군집

A와 B라는 레이블이 붙은 두 개의 데이터 그룹 (예 : 200 개의 샘플과 1 개의 기능을 포함)이 있고 서로 다른지 알고 싶습니다. 나는 할 수 있었다 : a) 통계 테스트 (예 : t- 테스트)를 수행하여 통계적으로 다른지 확인하십시오. b) 감독 머신 러닝 (예 : 지원 벡터 분류기 또는 임의 포리스트 …

29 machine-learning hypothesis-testing t-test unsupervised-learning supervised-learning

3

X와 Y가 서로 관련이 없으면 X ^ 2와 Y도 서로 관련이 없습니까?

두 개의 임의 변수 와 가 서로 관련이없는 경우 와 서로 관련이 없음을 알 수 있습니까? 내 가설은 예입니다.XXXYYYX2X2X^2와이YY 엑스, YX,YX, Y 상관되지 은 를 의미하거나이자형[ X와이] = E[ X] 전자[ Y]E[XY]=E[X]E[Y]E[XY]=E[X]E[Y] 이자형[ X와이] = ∫x y에프엑스( x ) f와이( y) dx d와이= ∫x f엑스( x ) dx ∫와이에프와이( y) …

29 random-variable independence

4

교육 데이터 세트에서 수업의 균형을 언제 조정해야합니까?

나는 온라인 교육 과정을 통해 훈련 데이터의 불균형 수업이 문제를 일으킬 수 있다는 점을 배웠다. 불균형이 너무 클 경우 분류 알고리즘이 많은 규칙을 따르기 때문에 좋은 결과를 얻을 수 있기 때문이다. 과제에서 대다수 클래스를 언더 샘플링하여 데이터의 균형을 조정해야했습니다. 그러나이 블로그에서 누군가는 균형 잡힌 데이터가 더 나쁘다고 주장합니다. https://matloff.wordpress.com/2015/09/29/unbalanced-data-is-a-problem-no-balanced-data-is-worse/ 그래서 …

29 machine-learning classification unbalanced-classes

7

시계열 분석 포인트는 무엇입니까?

시계열 분석 포인트는 무엇입니까? 회귀 및 기계 학습과 같은 다른 유스 케이스가있는 다른 통계적 방법이 많이 있습니다. 회귀는 두 변수 간의 관계에 대한 정보를 제공 할 수 있지만 기계 학습은 예측에 유용합니다. 그러나 시계열 분석이 어떤 것인지 알 수 없습니다. 물론, ARIMA 모델을 적합하게하여 예측에 사용할 수 있지만 해당 예측의 …

29 time-series arima

3

통계적으로 중요하지 않은 연구에 대한 메타 분석이 "중요한"결론으로 이어질 수 있습니까?

메타 분석에는 여러 연구가 포함되어 있으며, 모두 0.05 이상의 P 값을보고했습니다. 전체 메타 분석이 P 값을 0.05 미만으로보고 할 수 있습니까? 어떤 상황에서? (나는 대답이 예라고 확신하지만 참조 나 설명을 원합니다.)

29 statistical-significance meta-analysis combining-p-values

1

이미지를 CNN에 넣기 전에 이미지를 정규화해야하는 이유는 무엇입니까?

(image-mean_image)에 의해 CNN의 이미지를 정규화하는 이유가 확실하지 않습니까? 감사!

29 deep-learning conv-neural-network image-processing

5

정규 분포를 따르는 자연 현상이 너무 많은 이유에 대한 설명이 있습니까?

나는 이것이 매혹적인 주제라고 생각하며 그것을 완전히 이해하지 못한다. 많은 자연 현상이 정규 분포를 갖도록 물리 법칙은 무엇입니까? 그것들이 균일 한 분포를 갖는 것이 더 직관적 인 것처럼 보일 것입니다. 이해하기가 너무 어려워서 정보가 누락 된 것 같습니다. 누군가 좋은 설명을하도록 도와 주거나 책 / 비디오 / 문서로 연결시킬 수 …

29 distributions normal-distribution normality-assumption uniform

3

최소값 / 최대 값 만 알려진 데이터의 통계적 방법

정확한 값을 알 수없는 데이터를 다루는 통계 분기가 있습니까? 그러나 각 개인 에 대해 값에 대한 최대 값 또는 최소값을 알고 있습니까? 나는 내 문제가 통계적 용어로 표현하기 위해 고군분투하고 있다는 사실에서 비롯된 것으로 의심되지만, 예를 들어 명확하게 설명하는 데 도움이되기를 바랍니다. 세이가 연결된 두 개체군 및 되도록, 어떤 시점에서, …

29 biostatistics population bounds interval-censoring

4

사이언스 저널은 '정원 정원 분석'을 승인 했습니까?

적응 형 데이터 분석 의 개념은 데이터에 대해 자세히 알아볼 때 데이터 분석 계획을 변경하는 것입니다. 탐색 적 데이터 분석 (EDA)의 경우, 이것은 일반적으로 좋은 생각입니다 (데이터에서 예기치 않은 패턴을 찾는 경우가 많지만). 단계는 명확하게 정의되고 고급으로 적절히 계획됩니다). 즉, 적응 형 데이터 분석 은 일반적으로 통계학 자의 불만에 대해 …

29 hypothesis-testing overfitting eda out-of-sample differential-privacy

3

왜 신경망에서 바이어스 노드가 사용됩니까?

왜 신경망에서 바이어스 노드가 사용됩니까? 몇 개를 사용해야합니까? 어떤 레이어에서 사용해야합니까 : 모든 숨겨진 레이어와 출력 레이어?

29 machine-learning neural-networks bias-node

5

머신 러닝에서 계층 적 / 중첩 된 데이터를 처리하는 방법

예를 들어 내 문제를 설명하겠습니다. {나이, 성별, 국가, 지역, 도시}와 같은 속성이 주어진 개인의 소득을 예측한다고 가정합니다. 당신은 이와 같은 훈련 데이터 세트를 가지고 있습니다 train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials