통계 및 빅 데이터

5

로지스틱 회귀 모형을 과적 합할 수 있습니까? ROC 곡선 아래의 면적이 95 %보다 높으면 과적 합 될 가능성이 높지만 로지스틱 회귀 모형을 과적 합시킬 수 있다는 비디오를 보았습니다.

28 logistic overfitting regression-strategies

1

glmnet이 Zou & Hastie 원본 용지의“순진한”탄성 그물을 사용하는 이유는 무엇입니까?

Zou & Hastie (2005) 최초의 탄성 그물 종이 탄성 그물을 통한 정규화 및 변수 선택 은 선형 회귀에 대한 탄성 그물 손실 함수를 도입했습니다 (여기서 모든 변수가 단위 분산에 중심을두고 스케일링되었다고 가정) : 이지만 "순진 탄력적 그물"이라고합니다. 그들은 이중 수축 (라소와 릿지)을 수행하고, 과도하게 수축하는 경향이 있으며, 다음과 같이 결과 …

27 regression regularization glmnet elastic-net shrinkage

1

Deborah Mayo는 Birnbaum의 가능성 원칙에 대한 증거를 반박 했습니까?

이것은 내 이전 질문과 다소 관련이 있습니다. 가능성 원칙이 실제로 중요한 예는 무엇입니까? 분명히 Deborah Mayo는 Birnbaum의 가능성 원리에 대한 증거를 반박하는 통계 과학에 관한 논문을 발표 했습니다 . Birnbaum의 주요 주장과 Mayo의 반론에 대해 누구나 설명 할 수 있습니까? 그녀는 (논리적으로) 맞습니까?

27 mathematical-statistics likelihood-principle

3

"규정 화"라는 용어의 기원

학생들에게 개념을 소개 할 때, 용어가 어디에서 나오는지 말하는 것이 재미 있다는 것을 알게됩니다 (예 : "회귀"는 흥미로운 기원을 가진 용어입니다). 통계 / 머신 러닝에서 "정규화"라는 용어의 이력 / 배경을 밝힐 수 없었습니다. 그렇다면 정규화 라는 용어의 기원은 무엇 입니까?

27 terminology regularization history tikhonov-regularization

1

자유도는 정수가 아닌 숫자 일 수 있습니까?

GAM을 사용할 때 잔여 DF는 (코드의 마지막 줄). 그게 무슨 뜻이야? GAM 예제를 넘어 서면 일반적으로 자유도는 정수가 아닌 숫자 일 수 있습니까?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

2

흡연으로 인해 폐암이 얼마나 발생합니까? [닫은]

담배 제품에서는 종종 폐암 10 개 중 9 개가 흡연으로 인한 통계이지만이 수치는 정확한가? 두 가지 이유로이 통계에 대해 회의적입니다. 먼저 , 미국과 노르웨이의 시간에 따른 담배 소비율을 비교하고 남성 폐암 률과 비교하면 다음 차트를 구성 할 수 있습니다. 여기서 미국 및 노르웨이 의 담배 소비 데이터 와 여기 에서 …

27 epidemiology population-attributable-fraction

3

딥 러닝 모델을 해석 할 수 없다고 말할 수 있습니까? 노드 기능이 있습니까?

통계 및 머신 러닝 모델의 경우 1) 알고리즘 전체, 2) 알고리즘의 일부, 3) 특정 입력의 알고리즘 부분,이 3 가지 레벨은 각각 두 부분으로 나뉘어져 있습니다. 하나는 훈련 용이고 다른 하나는 기능 평가 용입니다. 마지막 두 부분은 첫 부분보다 훨씬 더 가깝습니다. 나는 # 2에 대해 묻고 있는데, 이것은 일반적으로 # …

27 neural-networks deep-learning interpretation

3

분류에서 다른 손실 함수를 선택하면 약 0-1 손실에 미치는 영향은 무엇입니까?

우리는 일부 객관적인 기능이 최적화하기 쉽고 일부는 어렵다는 것을 알고 있습니다. 그리고 우리가 사용하고자하지만 사용하기 어려운 많은 손실 함수가 있습니다 (예 : 0-1 손실). 그래서 우리 는 작업을 수행하기 위해 프록시 손실 기능을 찾습니다 . 예를 들어 힌지 손실 또는 로지스틱 손실을 사용하여 0-1 손실을 "대략적인"수준으로 만듭니다. 다음은 Chris Bishop의 …

27 machine-learning classification optimization loss-functions

2

코사인 유사성이 l2 정규화 된 유클리드 거리와 동일합니까?

동일한 의미, 이는 벡터 u 와 벡터 세트 V 사이의 유사성 순위에 대해 동일한 결과를 생성 할 것 입니다. 거리 측정 (유클리드 거리, 코사인 유사성) 및 정규화 기술 (없음, l1, l2)을 매개 변수로 사용하는 벡터 공간 모델이 있습니다. 내 이해에서, 설정 [코사인, 없음]의 결과는 [유클리드, l2]와 동일하거나 적어도 실제로는 유사해야하지만, …

27 normalization natural-language euclidean cosine-distance cosine-similarity

9

인과 관계없이 언제 상관 관계가 유용한가?

많은 통계 학자들에 대한 애완 동물의 말은 "상관이 원인을 암시하지는 않는다"는 것입니다. 이것은 확실히 사실이지만, 여기서 DOES가 암시하는 것처럼 보이는 것은 상관 관계가 거의 또는 전혀 가치가 없다는 것입니다. 이것이 사실입니까? 두 변수가 서로 관련되어 있다는 것을 아는 것은 쓸모가 없습니까? 나는 그것이 사실이라고 상상할 수 없다. 예측 분석에별로 익숙하지는 …

27 correlation predictive-models causality

1

아름답게 작성된 논문

데이비드 Salsburg의 책에서 차를 맛보는 여자 : 독자는 그것을 믿지 못할 수도 있지만, 문학 스타일은 수학적 연구에서 중요한 역할을합니다. 일부 수학적 작가는 이해하기 쉬운 기사를 만들 수없는 것 같습니다. 다른 사람들은 피카 유네에서 일반적인 개념을 잃어버린 세부 사항으로 가득 찬 많은 상징적 표기법을 생성하는 것에 대해 이상한 즐거움을 얻는 것처럼 …

27 references communication

2

변동이 분산과 동일합니까?

이것은 Cross Validated에 대한 첫 번째 질문이므로 사소한 것처럼 보일지라도 도와주세요 .-) 우선, 언어 차이의 결과이거나 통계에 실제로 결함이있는 것일 수 있습니다. 그럼에도 불구하고 여기 있습니다 : 모집단 통계에서 변동과 분산은 같은 항입니까? 그렇지 않다면 둘 사이의 차이점은 무엇입니까? 분산이 표준 편차의 제곱이라는 것을 알고 있습니다. 또한 데이터가 얼마나 드문 …

27 variance descriptive-statistics definition

3

선형 회귀 모델과 비선형 회귀 모델의 차이점을 어떻게 알 수 있습니까?

비 선형 회귀 SAS Non Linear 에서 다음 링크를 읽었습니다 . 첫 번째 섹션 "Nonlinear Regression vs. Linear Regression"을 읽은 것을 이해하면 아래 방정식이 실제로 선형 회귀라는 것입니다. 맞습니까? 그렇다면 왜? y=b1x3+b2x2+b3x+cy=b1x3+b2x2+b3x+기음y = b_1x^3 + b_2x^2 + b_3x + c 비선형 회귀 분석에서 다중 공선 성이 문제가되지 않음을 이해하고 있습니까? …

27 regression multiple-regression nonlinear-regression multicollinearity

2

랜덤 워크는 왜 서로 관련이 있습니까?

평균적으로 Pearson 상관 계수의 절대 값은 보행 길이에 관계없이 독립적 인 임의의 보행 쌍에 대해 일정한 상수라는 것을 관찰했습니다 .0.560.42 누군가이 현상을 설명 할 수 있습니까? 임의의 시퀀스와 같이 보행 길이가 길어질수록 상관 관계가 더 작아 질 것으로 예상했습니다. 내 실험에서는 스텝 평균 0과 스텝 표준 편차 1을 갖는 임의 …

27 time-series correlation stationarity random-walk

6

'비선형'이란 무엇입니까?

나는 종종 함수가 '높은 비선형 적'인 것에 대해 읽었습니다. 내 이해에는 "선형"과 "비선형"이 있는데 이것이 무엇에 대한 것입니까? 비선형과 공식적인 차이점이 있습니까? 어떻게 정의 되나요?

27 terminology nonlinear mathematical-statistics