통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A


7
통계의 분기는 무엇입니까?
수학에는 대수, 분석, 토폴로지 등과 같은 분기가 있습니다. 기계 학습에는 감독, 비지도 및 강화 학습이 있습니다. 이러한 각 브랜치에는 방법을 더 세분화하는 더 미세한 브랜치가 있습니다. 통계와 평행을 그리는 데 문제가 있습니다. 통계 (및 하위 분기)의 주요 분기는 무엇입니까? 완벽한 파티션은 가능하지 않지만 큰 빈 맵보다 더 좋습니다. 시각적 예 …

3
생일 역설을 2 명 이상으로 확대
전통적인 생일 역설에서 문제는 " 명 그룹의 둘 이상의 사람들 이 생일을 공유 할 가능성은 무엇인가 "입니다. 나는 이것의 확장 인 문제에 갇혀있다.nnn 두 사람이 생일을 공유 할 확률을 아는 대신, 명 이상의 사람들이 생일을 공유 할 확률을 알기 위해 질문을 확장해야합니다 . 를 사용하면 두 사람이 생일을 공유 하지 …


5
통계 및 기계 학습에서 두 그룹 간 구별 : 가설 검정 vs. 분류 대 군집
A와 B라는 레이블이 붙은 두 개의 데이터 그룹 (예 : 200 개의 샘플과 1 개의 기능을 포함)이 있고 서로 다른지 알고 싶습니다. 나는 할 수 있었다 : a) 통계 테스트 (예 : t- 테스트)를 수행하여 통계적으로 다른지 확인하십시오. b) 감독 머신 러닝 (예 : 지원 벡터 분류기 또는 임의 포리스트 …

3
X와 Y가 서로 관련이 없으면 X ^ 2와 Y도 서로 관련이 없습니까?
두 개의 임의 변수 와 가 서로 관련이없는 경우 와 서로 관련이 없음을 알 수 있습니까? 내 가설은 예입니다.XXXYYYX2X2X^2와이YY 엑스, YX,YX, Y 상관되지 은 를 의미하거나이자형[ X와이] = E[ X] 전자[ Y]E[XY]=E[X]E[Y]E[XY]=E[X]E[Y] 이자형[ X와이] = ∫x y에프엑스( x ) f와이( y) dx d와이= ∫x f엑스( x ) dx ∫와이에프와이( y) …

4
교육 데이터 세트에서 수업의 균형을 언제 조정해야합니까?
나는 온라인 교육 과정을 통해 훈련 데이터의 불균형 수업이 문제를 일으킬 수 있다는 점을 배웠다. 불균형이 너무 클 경우 분류 알고리즘이 많은 규칙을 따르기 때문에 좋은 결과를 얻을 수 있기 때문이다. 과제에서 대다수 클래스를 언더 샘플링하여 데이터의 균형을 조정해야했습니다. 그러나이 블로그에서 누군가는 균형 잡힌 데이터가 더 나쁘다고 주장합니다. https://matloff.wordpress.com/2015/09/29/unbalanced-data-is-a-problem-no-balanced-data-is-worse/ 그래서 …

7
시계열 분석 포인트는 무엇입니까?
시계열 분석 포인트는 무엇입니까? 회귀 및 기계 학습과 같은 다른 유스 케이스가있는 다른 통계적 방법이 많이 있습니다. 회귀는 두 변수 간의 관계에 대한 정보를 제공 할 수 있지만 기계 학습은 예측에 유용합니다. 그러나 시계열 분석이 어떤 것인지 알 수 없습니다. 물론, ARIMA 모델을 적합하게하여 예측에 사용할 수 있지만 해당 예측의 …



5
정규 분포를 따르는 자연 현상이 너무 많은 이유에 대한 설명이 있습니까?
나는 이것이 매혹적인 주제라고 생각하며 그것을 완전히 이해하지 못한다. 많은 자연 현상이 정규 분포를 갖도록 물리 법칙은 무엇입니까? 그것들이 균일 한 분포를 갖는 것이 더 직관적 인 것처럼 보일 것입니다. 이해하기가 너무 어려워서 정보가 누락 된 것 같습니다. 누군가 좋은 설명을하도록 도와 주거나 책 / 비디오 / 문서로 연결시킬 수 …

3
최소값 / 최대 값 만 알려진 데이터의 통계적 방법
정확한 값을 알 수없는 데이터를 다루는 통계 분기가 있습니까? 그러나 각 개인 에 대해 값에 대한 최대 값 또는 최소값을 알고 있습니까? 나는 내 문제가 통계적 용어로 표현하기 위해 고군분투하고 있다는 사실에서 비롯된 것으로 의심되지만, 예를 들어 명확하게 설명하는 데 도움이되기를 바랍니다. 세이가 연결된 두 개체군 및 되도록, 어떤 시점에서, …

4
사이언스 저널은 '정원 정원 분석'을 승인 했습니까?
적응 형 데이터 분석 의 개념은 데이터에 대해 자세히 알아볼 때 데이터 분석 계획을 변경하는 것입니다. 탐색 적 데이터 분석 (EDA)의 경우, 이것은 일반적으로 좋은 생각입니다 (데이터에서 예기치 않은 패턴을 찾는 경우가 많지만). 단계는 명확하게 정의되고 고급으로 적절히 계획됩니다). 즉, 적응 형 데이터 분석 은 일반적으로 통계학 자의 불만에 대해 …


5
머신 러닝에서 계층 적 / 중첩 된 데이터를 처리하는 방법
예를 들어 내 문제를 설명하겠습니다. {나이, 성별, 국가, 지역, 도시}와 같은 속성이 주어진 개인의 소득을 예측한다고 가정합니다. 당신은 이와 같은 훈련 데이터 세트를 가지고 있습니다 train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.