통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

2
-test와
배경 : 저는 가설 테스트 작업에서 동료들에게 프리젠 테이션을하고 있으며, 대부분의 내용을 잘 이해하고 있지만, 이해하고 다른 사람들에게 설명하기 위해 매듭을 짓고있는 한 가지 측면이 있습니다. 이것이 내가 생각하는 것입니다 (잘못되면 수정하십시오!) 분산이 알려진 경우 정상적인 통계 , 분산을 알 수없는 경우 ttt 분포를 따릅니다. CLT (Central Limit Theorem) : …

2
여러 기간으로 차이 모델의 차이 지정
두 개의 기간으로 차이 모형의 차이를 추정하면 동등한 회귀 모형은 ㅏ. Yist=α+γs∗Treatment+λdt+δ∗(Treatment∗dt)+ϵistYist=α+γs∗Treatment+λdt+δ∗(Treatment∗dt)+ϵistY_{ist} = \alpha +\gamma_s*Treatment + \lambda d_t + \delta*(Treatment*d_t)+ \epsilon_{ist} 여기서 는 관찰이 처리 그룹에서 온 경우 1과 동일한 더미입니다.TreatmentTreatmentTreatment 및 치료가 발생한 후 기간 1과 동일 더미는ddd 따라서 방정식은 다음 값을 갖습니다. 치료 전 대조군 :αα\alpha 치료 후 …

2
캐럿 학습 기능은 알파 및 람다 모두에 대해 glmnet 교차 검증 기능을 수행합니까?
R caret패키지 가 모델 alpha과 모델 모두 에 lambda대해 교차 검증 glmnet됩니까? 이 코드를 실행하면 eGrid <- expand.grid(.alpha = (1:10) * 0.1, .lambda = (1:10) * 0.1) Control <- trainControl(method = "repeatedcv",repeats = 3,verboseIter =TRUE) netFit <- train(x =train_features, y = y_train, method = "glmnet", tuneGrid = eGrid, trControl = …

4
정규 분포의 혼합에서 랜덤 변수 생성
혼합 분포, 특히 정규 분포의 혼합에서 표본을 추출하려면 어떻게 R해야합니까? 예를 들어 다음에서 샘플링하려는 경우 : 0.3×N(0,1)+0.5×N(10,1)+0.2×N(3,.1)0.3×N(0,1)+0.5×N(10,1)+0.2×N(3,.1) 0.3\!\times\mathcal{N}(0,1)\; + \;0.5\!\times\mathcal{N}(10,1)\; + \;0.2\!\times\mathcal{N}(3,.1) 내가 어떻게 할 수 있습니까?

3
베이지안 통계에 대한 젠틀 러 접근
나는 최근 Bolstad의 "Bayesian Statistics에 대한 소개"2 판을 읽기 시작했다. 나는 주로 통계 테스트를 다루고 거의 회귀 분석 수업을 거친 입문 통계 수업을 받았습니다. 이 책에 대한 이해를 돕기 위해 어떤 다른 책을 사용할 수 있습니까? 나는 처음 100-125 페이지를 훌륭하게 만들었습니다. 그 후이 책은 가설 테스트에 대해 이야기하기 시작합니다. …



3
GLM에서 절편 용어를 해석하는 방법은 무엇입니까?
R을 사용하고 있으며 Binomial 링크가있는 GLM으로 데이터를 분석하고 있습니다. 출력 테이블에서 인터셉트의 의미가 무엇인지 알고 싶습니다. 내 모델 중 하나에 대한 절편은 크게 다르지만 변수는 다릅니다. 이것은 무엇을 의미 하는가? 요격이란 무엇입니까? 나는 단지 자신을 혼란스럽게하지만 인터넷을 검색했는지 모르겠습니다. 단지 말하는 것이 없습니다. 매우 좌절 한 학생을 도와주세요 glm(formula = …


5
왜 근사치가 낮은가?
n 개의 행과 m 개의 열이있는 행렬이있는 경우 SVD 또는 다른 방법을 사용 하여 주어진 행렬의 낮은 순위 근사값 을 계산할 수 있습니다 . 그러나 낮은 순위 근사는 여전히 n 개의 행과 m 개의 열을 갖습니다. 동일한 수의 기능이 남아 있다고 가정 할 때 기계 학습 및 자연어 처리에 낮은 …

4
통계적 직관 / 데이터 감지
저는 수학을 전공하는 2 학년생이며 수학 능력과 통계 능력의 차이에 대해 많은 교수들과 이야기를 나누었습니다. 그가 제기 한 주요 차이점 중 하나는 비공식적으로 "상식 제한"이라고하는 일련의 기능 내에서 작동하면서 기술적 능력의 조합으로 설명하는 "데이터 감지"였습니다. 많은 이론. 이것은 내가 말하는 것에 대한 예입니다. Gowers의 블로그에 나타났습니다. 영국의 여러 지역에서 경찰은 …

5
코사인 상이 행렬을 계산하는 R 함수가 있습니까? [닫은]
닫은. 이 질문은 주제에 맞지 않습니다 . 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 교차 검증에 대한 주제가 되도록 질문을 업데이트하십시오 . 작년에 문을 닫았 습니다 . 코사인 거리를 기반으로 행 클러스터링으로 히트 맵을 만들고 싶습니다. 나는 R을 사용 heatmap.2()하고 그림을 만들기 위해 사용하고 있습니다. 나는이 있다고 볼 수 dist있는 …

4
포아송 랜덤 변수의 반올림 평균 분포는 무엇입니까?
변수 λ 1 , λ 2 , … , λ n 으로 포아송 분포 된 랜덤 변수 X1,X2,…,XnX1,X2,…,XnX_1,X_2,\ldots,X_n 있으면 Y = ⌊ ∑ n i = 1 X i 의 분포는 무엇입니까?λ1,λ2,…,λnλ1,λ2,…,λn\lambda_1, \lambda_2,\ldots, \lambda_nY=⌊∑ni=1Xin⌋Y=⌊∑i=1nXin⌋Y=\left\lfloor\frac{\sum_{i=1}^n X_i}{n}\right\rfloor(즉, 평균의 정수 층)? Poissons의 합계도 Poisson이지만 위의 경우와 동일한 지 여부를 결정할 통계에 대해서는 확신이 …

2
로지스틱 회귀 분석에서 예측 된 확률에 대한 신뢰 구간 표시
좋아, 나는 로지스틱 회귀를 가지고 predict()있으며 내 추정값을 기반으로 확률 곡선을 개발하는 함수를 사용했습니다 . ## LOGIT MODEL: library(car) mod1 = glm(factor(won) ~ as.numeric(bid), data=mydat, family=binomial(link="logit")) ## PROBABILITY CURVE: all.x <- expand.grid(won=unique(won), bid=unique(bid)) y.hat.new <- predict(mod1, newdata=all.x, type="response") plot(bid<-000:1000,predict(mod1,newdata=data.frame(bid<-c(000:1000)),type="response"), lwd=5, col="blue", type="l") 이것은 훌륭하지만 확률에 대한 신뢰 구간을 그리는 것이 …

1
R에서 qqline ()에 의해 생성 된 라인의 용도는 무엇입니까?
qqnorm()R 함수는 통상 QQ 플롯을 생성하고 qqline()첫 번째와 세 번째 분위수 통과 라인을 추가한다. 이 줄의 기원은 무엇입니까? 정규성을 확인하는 것이 도움이됩니까? 이것은 고전적인 선이 아닙니다 ( 선형 스케일링 후 대각선 ).와이= xy=xy=x 다음은 예입니다. 우선은 이론적 인 분포 함수와 경험적 분포 함수 비교 : 이제 광고와 QQ 플롯 플롯 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.