통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

3
비정규 표본의 표본 분산에 대한 점근 분포
이것은 이 질문 에 의해 제기 된 문제에 대한보다 일반적인 처리입니다 . 표본 분산의 점근 분포를 도출 한 후 델타 방법을 적용하여 표준 편차의 해당 분포에 도달 할 수 있습니다. 크기가 인 iid 비정규 랜덤 변수 , 평균 및 분산 . 표본 평균과 표본 분산을 { X i } ,nnn{Xi},i=1,...,n{Xi},i=1,...,n\{X_i\},\;\; …

1
순서 형 로지스틱 회귀 분석 플로팅 및 해석
1 (쉽지 않음)에서 5 (매우 쉽지 않음) 범위의 서수 종속 변수, 용이성을 가지고 있습니다. 독립 요인의 값이 증가하면 용이성 등급이 높아집니다. 내 독립 변수 중 두 개 ( condA및 condB)는 범주 형이며, 각각 2 개의 레벨이 있으며 2 ( abilityA, abilityB)는 연속적입니다. R 에서 서수 패키지를 사용하고 있습니다. logit(p(Y⩽g))=lnp(Y⩽g)p(Y>g)=β0g−(β1X1+⋯+βpXp)(g=1,…,k−1)logit(p(Y⩽g))=ln⁡p(Y⩽g)p(Y>g)=β0g−(β1X1+⋯+βpXp)(g=1,…,k−1)\text{logit}(p(Y \leqslant …

2
블랙 박스로서 신경망의 의미?
나는 사람들이 신경망에 대해 블랙 박스와 같은 것을 말하는 것을 종종 듣습니다. 나는 그들이 의미하는 바를 이해할 수 없습니다! 역 전파 작동 방식을 이해하면 어떻게 블랙 박스입니까? 그들은 우리가 어떻게 무게를 계산했는지 또는 무엇을 이해하지 못한다는 것을 의미합니까?

5
“우연성은 비례의 배수 상수까지만 정의된다”는 것은 실제로 무엇을 의미 하는가?
저자가 최대 가능성 추정에 대한 토론에서 베이 즈 정리에 이르는 논문을 읽고 있습니다. 우연한 예로, 이항 분포로 시작합니다. p ( x | n , θ ) = ( n엑스) θ엑스( 1 − θ )n - xp(x|n,θ)=(nx)θx(1−θ)n−xp(x|n,\theta) = \binom{n}{x}\theta^x(1-\theta)^{n-x} 그런 다음 양쪽에 기록하십시오 ℓ ( θ | x , n ) …

2
요인 / 변수를 어떻게“통제”합니까?
내가 이해하기에 "통제"는 통계에서 두 가지 의미를 가질 수 있습니다. 대조군 : 실험에서 대조군의 구성원에게는 치료가 제공되지 않았다. 예 : 위약 대 약물 : 한 그룹에 약물을 투여하고 다른 그룹에는 약물을 투여하지 않습니다 (대조군). "제어 된 실험"이라고도합니다. 변수 제어 : 특정 독립 변수의 효과를 분리하는 기술. 이 기법들에 주어진 다른 …

4
lme4 (> 1.0)가 장착 된 이항 GLMM의 적합성을 평가하는 방법은 무엇입니까?
나는 이항 분포와 로짓 링크 함수를 가진 GLMM을 가지고 있으며 데이터의 중요한 측면이 모델에 잘 표현되지 않았다고 생각합니다. 이것을 테스트하기 위해 데이터가 로짓 스케일의 선형 함수에 의해 잘 설명되어 있는지 여부를 알고 싶습니다. 따라서 잔차가 제대로 작동하는지 알고 싶습니다. 그러나 어떤 잔차 플롯을 플롯하고 플롯을 해석하는 방법을 알 수 없습니다. …

2
R의 로지스틱 성장 곡선을 맞추는 가장 고통스럽지 않은 방법은 무엇입니까?
분명히 이것은 회귀를 사용하여 범주 형 변수를 예측한다는 의미에서 로지스틱 회귀에 대해 이야기하고 있지 않은 것처럼 Google에게는 쉽지 않습니다. 주어진 데이터 포인트에 로지스틱 성장 곡선을 맞추는 것에 대해 이야기하고 있습니다. 구체적으로 말하면, 는 1958 년부터 2012 년까지 주어진 연도이며, 는 년 11 월의 추정 된 CO2 ppm (이산화탄소 백만 분율)입니다 …


2
기능 엔지니어링을위한 학습서
모두에게 알려진 바와 같이, 피처 엔지니어링은 기계 학습에 매우 중요하지만이 분야와 관련된 자료는 거의 없습니다. 나는 Kaggle 에서 여러 경쟁에 참여했으며 경우에 따라 좋은 분류 기가 좋은 분류기보다 더 중요하다고 생각합니다. 누구나 기능 엔지니어링에 대한 자습서를 알고 있습니까, 아니면이 순수한 경험입니까?

5
1과 0을 포함한 비율 데이터의 베타 회귀
0과 1 사이의 비율 인 응답 변수가있는 모델을 만들려고하는데 여기에는 꽤 많은 0과 1이 있지만 그 사이의 많은 값이 포함됩니다. 베타 회귀 분석을 시도하고 있습니다. R (betareg)에 대해 찾은 패키지는 0과 1 사이의 값만 허용하지만 0이나 1은 포함하지 않습니다. 이론적으로 베타 분포가 0 또는 1의 값을 처리 할 수 ​​있어야한다는 …

1
콕스베이스 라인 위험
"신장 카테터"데이터 세트가 있다고 가정하겠습니다. Cox 모델을 사용하여 생존 곡선을 모델링하려고합니다. Cox 모형을 고려하면 : 기준 위험 추정치가 필요합니다. 내장 패키지 R 함수 를 사용하면 다음과 같이 쉽게 할 수 있습니다.h ( t , Z) = h0특급( b'지) ,h(t,Z)=h0exp⁡(b′Z),h(t,Z) = h_0 \exp(b'Z),survivalbasehaz() library(survival) data(kidney) fit <- coxph(Surv(time, status) ~ age …
19 r  cox-model  hazard 

1
R의 auto.arima ()에서 xreg 인수를 설정하는 방법은 무엇입니까? [닫은]
닫은. 이 질문은 주제에 맞지 않습니다 . 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 교차 검증에 대한 주제가 되도록 질문을 업데이트하십시오 . 휴일 육년 전 . 고객 방문 데이터 (매일)를 측정하는 시계열이있는 작은 프로젝트를 진행하고 있습니다. 제 공변량은 Day데이터 수집 첫날 이후 경과 된 일수와 그 날이 크리스마스인지, 요일 등의 …

1
로그 정규 확률 변수에 대해 달성 가능한 상관 관계
log ( X 1 ) ∼ N ( 0 , 1 ) 및 로그 정규 확률 변수 X1X1X_1 및 X2X2X_2 를 고려하십시오 .log(X1)∼N(0,1)log⁡(X1)∼N(0,1)\log(X_1)\sim \mathcal{N}(0,1)log(X2)∼N(0,σ2)log⁡(X2)∼N(0,σ2)\log(X_2)\sim \mathcal{N}(0,\sigma^2) \ rho (X_1, X_2)에 대해 \ rho 및 \ rho _ {\ min} 을 계산하려고합니다 . 주어진 솔루션의 한 단계는 다음과 같습니다.ρmaxρmax\rho_{\max}ρminρmin\rho_{\min}ρ(X1,X2)ρ(X1,X2)\rho (X_1,X_2) ρmax=ρ(exp(Z),exp(σZ))ρmax=ρ(exp⁡(Z),exp⁡(σZ))\rho_{\max}=\rho (\exp(Z),\exp(\sigma …

2
분산에 대한 회귀는 왜 발생합니까?
이 메모를 읽고 있습니다. 2 페이지에 다음과 같이 표시되어 있습니다. "데이터의 분산이 주어진 회귀 모델로 얼마나 설명되어 있습니까?" "회귀 해석은 계수의 평균에 관한 것이며 추론은 ​​분산에 관한 것입니다." 이러한 진술에 대해 여러 번 읽었습니다. 왜 데이터의 분산이 주어진 회귀 모델에 의해 설명됩니까? "... 더 구체적으로, 왜"분산 "에 관심이 있습니까?

2
경험적 엔트로피 란 무엇입니까?
공동으로 전형적인 세트의 정의 ( "정보 요소의 요소", 7.6, p. 195)에서 우리는 −1nlogp(xn)−1nlog⁡p(xn)-\frac{1}{n} \log{p(x^n)} 은 의 시퀀스 의 경험적 엔트로피 로 . 나는이 용어를 전에 본 적이 없다. 책의 색인에 따라 명시 적으로 정의되어 있지 않습니다.p ( x n ) = ∏ n i = 1 p ( x i …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.