통계 및 빅 데이터

2

배경 : 저는 가설 테스트 작업에서 동료들에게 프리젠 테이션을하고 있으며, 대부분의 내용을 잘 이해하고 있지만, 이해하고 다른 사람들에게 설명하기 위해 매듭을 짓고있는 한 가지 측면이 있습니다. 이것이 내가 생각하는 것입니다 (잘못되면 수정하십시오!) 분산이 알려진 경우 정상적인 통계 , 분산을 알 수없는 경우 ttt 분포를 따릅니다. CLT (Central Limit Theorem) : …

20 hypothesis-testing normal-distribution t-test assumptions z-test

2

여러 기간으로 차이 모델의 차이 지정

두 개의 기간으로 차이 모형의 차이를 추정하면 동등한 회귀 모형은 ㅏ. Yist=α+γs∗Treatment+λdt+δ∗(Treatment∗dt)+ϵistYist=α+γs∗Treatment+λdt+δ∗(Treatment∗dt)+ϵistY_{ist} = \alpha +\gamma_s*Treatment + \lambda d_t + \delta*(Treatment*d_t)+ \epsilon_{ist} 여기서 는 관찰이 처리 그룹에서 온 경우 1과 동일한 더미입니다.TreatmentTreatmentTreatment 및 치료가 발생한 후 기간 1과 동일 더미는ddd 따라서 방정식은 다음 값을 갖습니다. 치료 전 대조군 :αα\alpha 치료 후 …

20 regression modeling econometrics panel-data difference-in-difference

2

캐럿 학습 기능은 알파 및 람다 모두에 대해 glmnet 교차 검증 기능을 수행합니까?

R caret패키지 가 모델 alpha과 모델 모두 에 lambda대해 교차 검증 glmnet됩니까? 이 코드를 실행하면 eGrid <- expand.grid(.alpha = (1:10) * 0.1, .lambda = (1:10) * 0.1) Control <- trainControl(method = "repeatedcv",repeats = 3,verboseIter =TRUE) netFit <- train(x =train_features, y = y_train, method = "glmnet", tuneGrid = eGrid, trControl = …

20 r machine-learning cross-validation caret glmnet

4

정규 분포의 혼합에서 랜덤 변수 생성

혼합 분포, 특히 정규 분포의 혼합에서 표본을 추출하려면 어떻게 R해야합니까? 예를 들어 다음에서 샘플링하려는 경우 : 0.3×N(0,1)+0.5×N(10,1)+0.2×N(3,.1)0.3×N(0,1)+0.5×N(10,1)+0.2×N(3,.1) 0.3\!\times\mathcal{N}(0,1)\; + \;0.5\!\times\mathcal{N}(10,1)\; + \;0.2\!\times\mathcal{N}(3,.1) 내가 어떻게 할 수 있습니까?

20 r random-generation mixture

3

베이지안 통계에 대한 젠틀 러 접근

나는 최근 Bolstad의 "Bayesian Statistics에 대한 소개"2 판을 읽기 시작했다. 나는 주로 통계 테스트를 다루고 거의 회귀 분석 수업을 거친 입문 통계 수업을 받았습니다. 이 책에 대한 이해를 돕기 위해 어떤 다른 책을 사용할 수 있습니까? 나는 처음 100-125 페이지를 훌륭하게 만들었습니다. 그 후이 책은 가설 테스트에 대해 이야기하기 시작합니다. …

20 hypothesis-testing bayesian

2

회귀에 제곱 변수를 포함 시키면 어떻게됩니까?

나는 OLS 회귀로 시작합니다 : 여기서 D는 더미 변수이고 p 값이 낮 으면 추정값이 0과 다릅니다. 그런 다음 Ramsey RESET 테스트를 수행하고 방정식의 오탈자가 있음을 발견합니다. 따라서 제곱 x를 포함합니다 .y = β 0 + β 1 x 1 + β 2 x 2 1 + β 3 D + …

20 regression multiple-regression interpretation least-squares polynomial

2

가중치를 동일한 값으로 초기화 할 때 역 전파가 작동하지 않는 이유는 무엇입니까?

왜 모든 가중치를 동일한 값 (예 : 0.5)으로 초기화 할 때 역 전파가 작동하지 않지만 임의의 숫자가 주어지면 제대로 작동합니까? 가중치가 초기에 동일하다는 사실에도 불구하고 알고리즘이 오류를 계산하고 거기서부터 작동해서는 안됩니까?

20 machine-learning neural-networks backpropagation

3

GLM에서 절편 용어를 해석하는 방법은 무엇입니까?

R을 사용하고 있으며 Binomial 링크가있는 GLM으로 데이터를 분석하고 있습니다. 출력 테이블에서 인터셉트의 의미가 무엇인지 알고 싶습니다. 내 모델 중 하나에 대한 절편은 크게 다르지만 변수는 다릅니다. 이것은 무엇을 의미 하는가? 요격이란 무엇입니까? 나는 단지 자신을 혼란스럽게하지만 인터넷을 검색했는지 모르겠습니다. 단지 말하는 것이 없습니다. 매우 좌절 한 학생을 도와주세요 glm(formula = …

20 r generalized-linear-model

2

확률 분포가 물결표로 표시되는 이유는 무엇입니까?

확률 분포를 지정할 때 물결표의 의미는 무엇입니까? 예를 들면 다음과 같습니다. Z∼Normal(0,1).Z∼Normal(0,1).Z \sim \mbox{Normal}(0,1).

20 probability distributions notation

5

왜 근사치가 낮은가?

n 개의 행과 m 개의 열이있는 행렬이있는 경우 SVD 또는 다른 방법을 사용 하여 주어진 행렬의 낮은 순위 근사값 을 계산할 수 있습니다 . 그러나 낮은 순위 근사는 여전히 n 개의 행과 m 개의 열을 갖습니다. 동일한 수의 기능이 남아 있다고 가정 할 때 기계 학습 및 자연어 처리에 낮은 …

20 r matrix approximation

4

통계적 직관 / 데이터 감지

저는 수학을 전공하는 2 학년생이며 수학 능력과 통계 능력의 차이에 대해 많은 교수들과 이야기를 나누었습니다. 그가 제기 한 주요 차이점 중 하나는 비공식적으로 "상식 제한"이라고하는 일련의 기능 내에서 작동하면서 기술적 능력의 조합으로 설명하는 "데이터 감지"였습니다. 많은 이론. 이것은 내가 말하는 것에 대한 예입니다. Gowers의 블로그에 나타났습니다. 영국의 여러 지역에서 경찰은 …

20 references philosophical

5

코사인 상이 행렬을 계산하는 R 함수가 있습니까? [닫은]

닫은. 이 질문은 주제에 맞지 않습니다 . 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 교차 검증에 대한 주제가 되도록 질문을 업데이트하십시오 . 작년에 문을 닫았 습니다 . 코사인 거리를 기반으로 행 클러스터링으로 히트 맵을 만들고 싶습니다. 나는 R을 사용 heatmap.2()하고 그림을 만들기 위해 사용하고 있습니다. 나는이 있다고 볼 수 dist있는 …

20 r clustering similarities

4

포아송 랜덤 변수의 반올림 평균 분포는 무엇입니까?

변수 λ 1 , λ 2 , … , λ n 으로 포아송 분포 된 랜덤 변수 X1,X2,…,XnX1,X2,…,XnX_1,X_2,\ldots,X_n 있으면 Y = ⌊ ∑ n i = 1 X i 의 분포는 무엇입니까?λ1,λ2,…,λnλ1,λ2,…,λn\lambda_1, \lambda_2,\ldots, \lambda_nY=⌊∑ni=1Xin⌋Y=⌊∑i=1nXin⌋Y=\left\lfloor\frac{\sum_{i=1}^n X_i}{n}\right\rfloor(즉, 평균의 정수 층)? Poissons의 합계도 Poisson이지만 위의 경우와 동일한 지 여부를 결정할 통계에 대해서는 확신이 …

20 poisson-distribution average

2

로지스틱 회귀 분석에서 예측 된 확률에 대한 신뢰 구간 표시

좋아, 나는 로지스틱 회귀를 가지고 predict()있으며 내 추정값을 기반으로 확률 곡선을 개발하는 함수를 사용했습니다 . ## LOGIT MODEL: library(car) mod1 = glm(factor(won) ~ as.numeric(bid), data=mydat, family=binomial(link="logit")) ## PROBABILITY CURVE: all.x <- expand.grid(won=unique(won), bid=unique(bid)) y.hat.new <- predict(mod1, newdata=all.x, type="response") plot(bid<-000:1000,predict(mod1,newdata=data.frame(bid<-c(000:1000)),type="response"), lwd=5, col="blue", type="l") 이것은 훌륭하지만 확률에 대한 신뢰 구간을 그리는 것이 …

20 r logistic confidence-interval

1

R에서 qqline ()에 의해 생성 된 라인의 용도는 무엇입니까?

qqnorm()R 함수는 통상 QQ 플롯을 생성하고 qqline()첫 번째와 세 번째 분위수 통과 라인을 추가한다. 이 줄의 기원은 무엇입니까? 정규성을 확인하는 것이 도움이됩니까? 이것은 고전적인 선이 아닙니다 ( 선형 스케일링 후 대각선 ).와이= xy=xy=x 다음은 예입니다. 우선은 이론적 인 분포 함수와 경험적 분포 함수 비교 : 이제 광고와 QQ 플롯 플롯 …

20 r normal-distribution qq-plot