통계 및 빅 데이터

2

Stein 's Example 은 평균 μ 1 , … , μ n 및 분산 1을 갖는 정규 분포 변수 의 최대 우도 추정값이 제곱 손실 함수에서 iff n ≥ 3 인 것을 허용하지 않음을 보여 줍니다. 깔끔한 증거를 보려면 Bradley Effron의 대규모 추론 : 추정, 테스트 및 예측 을 위한 …

46 maximum-likelihood unbiased-estimator intuition steins-phenomenon

8

시계열 분석의 함정

시계열 분석에서 자체 학습을 시작하고 있습니다. 일반 통계에 적용 할 수없는 여러 가지 잠재적 함정이 있음을 알게되었습니다. 그렇다면 일반적인 통계적 죄는 무엇입니까? , 전 물어보고 싶습니다: 시계열 분석에서 일반적인 함정 또는 통계적 죄는 무엇입니까? 이것은 커뮤니티 위키로서, 답변 당 하나의 개념이며, 일반적인 통계적 죄는 무엇입니까?에 열거되어 있거나 있어야하는보다 일반적인 통계적 …

46 time-series self-study

4

대비 행렬이란 무엇입니까?

무엇 정확히 대비 매트릭스 (용어, 범주 예측과 분석에 관한)이며 어떻게 정확히 대비 행렬을 지정? 즉, 열이란 무엇이며, 행은 무엇이며, 해당 행렬의 제약 조건은 무엇이며 열 j및 행의 숫자는 무엇을 i의미합니까? 나는 문서와 웹을 살펴 보려고했지만 모든 사람들이 그것을 사용하지만 아직 어디에도 정의가없는 것 같습니다. 사용 가능한 사전 정의 된 대비를 …

46 regression categorical-data definition contrasts categorical-encoding

6

두 정규 분포의 겹치는 영역 백분율

및 정규 분포가 두 개인 경우 궁금합니다.σ1, μ1σ1, μ1\sigma_1,\ \mu_1σ2, μ2σ2, μ2\sigma_2, \ \mu_2 두 분포의 중첩 영역 백분율을 어떻게 계산할 수 있습니까? 이 문제에 특정 이름이 있다고 가정합니다.이 문제를 설명하는 특정 이름을 알고 있습니까? 이 구현 (예 : Java 코드)을 알고 있습니까?

46 normal-distribution similarities metric bhattacharyya

5

R의 로지스틱 회귀 분석에서 의사

R의 로지스틱 회귀 분석에 대한 Christopher Manning의 글 은 다음과 같이 R의 로지스틱 회귀 분석을 보여줍니다. ced.logr <- glm(ced.del ~ cat + follows + factor(class), family=binomial) 일부 출력 : > summary(ced.logr) Call: glm(formula = ced.del ~ cat + follows + factor(class), family = binomial("logit")) Deviance Residuals: Min 1Q Median 3Q …

46 r logistic log-likelihood

5

회귀 이해-모델의 역할

매개 변수를 얻으려는 함수를 모르는 경우 회귀 모델을 어떻게 사용할 수 있습니까? 나는 한 자녀가 모유를 먹인 어머니가 후기에 당뇨병에 걸릴 가능성이 적다는 연구 결과를 보았다. 이 연구는 약 1000 명의 어머니를 대상으로 한 조사에서 이루어졌으며 기타 요인에 대한 통제가 이루어졌으며 로그 선형 모델이 사용되었습니다. 이것은 당뇨병의 가능성을 결정하는 훌륭한 …

46 regression modeling epidemiology log-linear

4

왜 우리가 때때로 부정적인 (로그) 가능성을 사용하는지 궁금합니다.

이 질문은 오랫동안 당황했습니다. 나는 가능성을 극대화하기 위해 '로그'의 사용을 이해하므로 '로그'에 대해 묻지 않습니다. 내 질문은 로그 가능성을 최대화하는 것이 "음성 로그 가능성"(NLL)을 최소화하는 것과 같기 때문에 왜이 NLL을 발명합니까? 왜 "긍정적 우도"를 항상 사용하지 않습니까? 어떤 상황에서 NLL이 선호됩니까? 여기에 약간의 설명이 있습니다. https://quantivity.wordpress.com/2011/05/23/why-minimize-negative-log-likelihood/ 이지만 명백한 동등성을 설명하는 …

46 maximum-likelihood likelihood

1

두 개의 다변량 가우스 간의 KL 분기

두 개의 다변량 정규 분포를 가정하여 KL 발산 공식을 도출하는 데 문제가 있습니다. 일 변량 사례를 상당히 쉽게 수행했습니다. 그러나 수학 통계를 취한 지 꽤 오래되었으므로 다변량 사례로 확장하는 데 문제가 있습니다. 나는 단순한 것을 놓치고 있다고 확신합니다. 여기 내가 가진 것이 있습니다 ... 와 q 가 각각 평균 μ …

46 normal-distribution kullback-leibler proof

6

추정과 예측의 차이점은 무엇입니까?

예를 들어, 나는 과거의 손실 데이터를 가지고 있으며 극단적 인 수량을 계산하고 있습니다 (위험 가치 또는 가능한 최대 손실). 결과는 손실을 추정하거나 예측하기위한 것입니까? 어디에서 선을 그릴 수 있습니까? 혼란 스러워요.

46 estimation predictor prediction-interval

7

파이썬에서 생존 분석 도구 [닫기]

생존 분석을 수행 할 수있는 파이썬 패키지가 있는지 궁금합니다. R에서 생존 패키지를 사용하고 있지만 내 작업을 파이썬으로 이식하고 싶습니다.

46 survival python

3

로그 변환 예측 변수 및 / 또는 응답의 해석

종속 변수, 종속 변수 및 독립 변수 또는 독립 변수 만 로그 변환인지 해석에 차이가 있는지 궁금합니다. 의 경우를 고려 log(DV) = Intercept + B1*IV + Error IV를 백분율 증가로 해석 할 수 있지만 log(DV) = Intercept + B1*log(IV) + Error 또는 내가있을 때 DV = Intercept + B1*log(IV) + …

46 regression data-transformation interpretation regression-coefficients logarithm r dataset stata hypothesis-testing contingency-tables hypothesis-testing statistical-significance standard-deviation unbiased-estimator t-distribution r functional-data-analysis maximum-likelihood bootstrap regression change-point regression sas hypothesis-testing bayesian randomness predictive-models nonparametric terminology parametric correlation effect-size loess mean pdf quantile-function bioinformatics regression terminology r-squared pdf maximum multivariate-analysis references data-visualization r pca r mixed-model lme4-nlme distributions probability bayesian prior anova chi-squared binomial generalized-linear-model anova repeated-measures t-test post-hoc clustering variance probability hypothesis-testing references binomial profile-likelihood self-study excel data-transformation skewness distributions statistical-significance econometrics spatial r regression anova spss linear-model

1

"거의 모든 지역 최소값은 전체 최적 값과 매우 유사한 기능 값을 가짐"이해

Rong Ge 의 최근 블로그 게시물 에서 다음과 같이 말했습니다. 딥넷 학습을 포함한 많은 문제의 경우 거의 모든 지역 최소값이 전역 최적 값과 매우 유사한 기능 값을 가지므로 지역 최소값을 찾는 것으로 충분합니다. 이 믿음은 어디에서 왔습니까?

45 machine-learning neural-networks optimization deep-learning

3

Y를 정규 분포해야한다는 오해는 어디에서 오는가?

겉보기에 평판이 좋은 소스는 종속 변수가 정상적으로 분포되어야한다고 주장합니다. 모형 가정 : 는 정규 분포, 오차는 정규 분포 및 독립적이며 는 고정되어 있으며 상수 분산은 입니다.YYYei∼N(0,σ2)ei∼N(0,σ2)e_i \sim N(0,\sigma^2)XXXσ2σ2\sigma^2 Penn State, STAT 504 불연속 데이터 분석 둘째, 선형 회귀 분석에서는 모든 변수가 다변량 정규이어야합니다. 통계적 해법, 선형 회귀 가정 이것은 반응 …

45 regression least-squares linear-model dependent-variable

6

머신 (딥) 학습의 주요 정리는 무엇입니까?

Al Rahimi는 최근 NIPS 2017에서 현재 기계 학습과 연금술을 비교 하여 매우 도발적인 연설을 했습니다. 그의 주장 중 하나는 우리가 이론적 발전으로 되돌아 가서 기초적인 결과를 입증하는 간단한 이론을 가져야한다는 것이다. 그가 말했을 때, ML에 대한 주요 정리를 찾기 시작했지만 주요 결과를 이해하는 좋은 참고 자료를 찾을 수 없었습니다. ML …

45 machine-learning deep-learning theory

1

그래프의 y 축이 0에서 시작해야하는지 여부를 결정하는 방법은 무엇입니까?

"데이터에 거짓말을하는"한 가지 일반적인 방법은 y 축 스케일을 사용하여 변경이 실제보다 더 중요한 것처럼 보이게하는 것입니다. 과학 출판물이나 학생의 실험실 보고서를 검토 할 때 종종이 "데이터 시각화 죄"(저는 저자가 의도하지 않은 커밋을 믿지만 여전히 오해의 소지가있는 프레젠테이션)에 좌절합니다. 그러나 "항상 y 축을 0으로 시작"하는 것은 어려운 규칙이 아닙니다. 예를 들어 …

45 data-visualization