통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A


1
glmnet이 Zou & Hastie 원본 용지의“순진한”탄성 그물을 사용하는 이유는 무엇입니까?
Zou & Hastie (2005) 최초의 탄성 그물 종이 탄성 그물을 통한 정규화 및 변수 선택 은 선형 회귀에 대한 탄성 그물 손실 함수를 도입했습니다 (여기서 모든 변수가 단위 분산에 중심을두고 스케일링되었다고 가정) : 이지만 "순진 탄력적 그물"이라고합니다. 그들은 이중 수축 (라소와 릿지)을 수행하고, 과도하게 수축하는 경향이 있으며, 다음과 같이 결과 …

1
Deborah Mayo는 Birnbaum의 가능성 원칙에 대한 증거를 반박 했습니까?
이것은 내 이전 질문과 다소 관련이 있습니다. 가능성 원칙이 실제로 중요한 예는 무엇입니까? 분명히 Deborah Mayo는 Birnbaum의 가능성 원리에 대한 증거를 반박하는 통계 과학에 관한 논문을 발표 했습니다 . Birnbaum의 주요 주장과 Mayo의 반론에 대해 누구나 설명 할 수 있습니까? 그녀는 (논리적으로) 맞습니까?

3
"규정 화"라는 용어의 기원
학생들에게 개념을 소개 할 때, 용어가 어디에서 나오는지 말하는 것이 재미 있다는 것을 알게됩니다 (예 : "회귀"는 흥미로운 기원을 가진 용어입니다). 통계 / 머신 러닝에서 "정규화"라는 용어의 이력 / 배경을 밝힐 수 없었습니다. 그렇다면 정규화 라는 용어의 기원은 무엇 입니까?

1
자유도는 정수가 아닌 숫자 일 수 있습니까?
GAM을 사용할 때 잔여 DF는 (코드의 마지막 줄). 그게 무슨 뜻이야? GAM 예제를 넘어 서면 일반적으로 자유도는 정수가 아닌 숫자 일 수 있습니까?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

2
흡연으로 인해 폐암이 얼마나 발생합니까? [닫은]
담배 제품에서는 종종 폐암 10 개 중 9 개가 흡연으로 인한 통계이지만이 수치는 정확한가? 두 가지 이유로이 통계에 대해 회의적입니다. 먼저 , 미국과 노르웨이의 시간에 따른 담배 소비율을 비교하고 남성 폐암 률과 비교하면 다음 차트를 구성 할 수 있습니다. 여기서 미국 및 노르웨이 의 담배 소비 데이터 와 여기 에서 …

3
딥 러닝 모델을 해석 할 수 없다고 말할 수 있습니까? 노드 기능이 있습니까?
통계 및 머신 러닝 모델의 경우 1) 알고리즘 전체, 2) 알고리즘의 일부, 3) 특정 입력의 알고리즘 부분,이 3 가지 레벨은 각각 두 부분으로 나뉘어져 있습니다. 하나는 훈련 용이고 다른 하나는 기능 평가 용입니다. 마지막 두 부분은 첫 부분보다 훨씬 더 가깝습니다. 나는 # 2에 대해 묻고 있는데, 이것은 일반적으로 # …

3
분류에서 다른 손실 함수를 선택하면 약 0-1 손실에 미치는 영향은 무엇입니까?
우리는 일부 객관적인 기능이 최적화하기 쉽고 일부는 어렵다는 것을 알고 있습니다. 그리고 우리가 사용하고자하지만 사용하기 어려운 많은 손실 함수가 있습니다 (예 : 0-1 손실). 그래서 우리 는 작업을 수행하기 위해 프록시 손실 기능을 찾습니다 . 예를 들어 힌지 손실 또는 로지스틱 손실을 사용하여 0-1 손실을 "대략적인"수준으로 만듭니다. 다음은 Chris Bishop의 …

2
코사인 유사성이 l2 정규화 된 유클리드 거리와 동일합니까?
동일한 의미, 이는 벡터 u 와 벡터 세트 V 사이의 유사성 순위에 대해 동일한 결과를 생성 할 것 입니다. 거리 측정 (유클리드 거리, 코사인 유사성) 및 정규화 기술 (없음, l1, l2)을 매개 변수로 사용하는 벡터 공간 모델이 있습니다. 내 이해에서, 설정 [코사인, 없음]의 결과는 [유클리드, l2]와 동일하거나 적어도 실제로는 유사해야하지만, …

9
인과 관계없이 언제 상관 관계가 유용한가?
많은 통계 학자들에 대한 애완 동물의 말은 "상관이 원인을 암시하지는 않는다"는 것입니다. 이것은 확실히 사실이지만, 여기서 DOES가 암시하는 것처럼 보이는 것은 상관 관계가 거의 또는 전혀 가치가 없다는 것입니다. 이것이 사실입니까? 두 변수가 서로 관련되어 있다는 것을 아는 것은 쓸모가 없습니까? 나는 그것이 사실이라고 상상할 수 없다. 예측 분석에별로 익숙하지는 …

1
아름답게 작성된 논문
데이비드 Salsburg의 책에서 차를 맛보는 여자 : 독자는 그것을 믿지 못할 수도 있지만, 문학 스타일은 수학적 연구에서 중요한 역할을합니다. 일부 수학적 작가는 이해하기 쉬운 기사를 만들 수없는 것 같습니다. 다른 사람들은 피카 유네에서 일반적인 개념을 잃어버린 세부 사항으로 가득 찬 많은 상징적 표기법을 생성하는 것에 대해 이상한 즐거움을 얻는 것처럼 …

2
변동이 분산과 동일합니까?
이것은 Cross Validated에 대한 첫 번째 질문이므로 사소한 것처럼 보일지라도 도와주세요 .-) 우선, 언어 차이의 결과이거나 통계에 실제로 결함이있는 것일 수 있습니다. 그럼에도 불구하고 여기 있습니다 : 모집단 통계에서 변동과 분산은 같은 항입니까? 그렇지 않다면 둘 사이의 차이점은 무엇입니까? 분산이 표준 편차의 제곱이라는 것을 알고 있습니다. 또한 데이터가 얼마나 드문 …

3
선형 회귀 모델과 비선형 회귀 모델의 차이점을 어떻게 알 수 있습니까?
비 선형 회귀 SAS Non Linear 에서 다음 링크를 읽었습니다 . 첫 번째 섹션 "Nonlinear Regression vs. Linear Regression"을 읽은 것을 이해하면 아래 방정식이 실제로 선형 회귀라는 것입니다. 맞습니까? 그렇다면 왜? y=b1x3+b2x2+b3x+cy=b1x3+b2x2+b3x+기음y = b_1x^3 + b_2x^2 + b_3x + c 비선형 회귀 분석에서 다중 공선 성이 문제가되지 않음을 이해하고 있습니까? …

2
랜덤 워크는 왜 서로 관련이 있습니까?
평균적으로 Pearson 상관 계수의 절대 값은 보행 길이에 관계없이 독립적 인 임의의 보행 쌍에 대해 일정한 상수라는 것을 관찰했습니다 .0.560.42 누군가이 현상을 설명 할 수 있습니까? 임의의 시퀀스와 같이 보행 길이가 길어질수록 상관 관계가 더 작아 질 것으로 예상했습니다. 내 실험에서는 스텝 평균 0과 스텝 표준 편차 1을 갖는 임의 …


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.