통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

2
Jeffreys와 달리 이전 버전의 예는 변하지 않는 후부로 이어집니다.
2 주 전에 여기에했던 질문에 대한 "답변"을 다시 게시하고 있습니다. 왜 Jeffreys가 이전에 유용합니까? 그것은 실제로 질문이었습니다 (그리고 당시에 의견을 게시 할 권리도 없었습니다). 그래서 나는 이것을 할 수 있기를 바랍니다. 위의 링크에서 Jeffreys의 흥미로운 특징은 모델을 다시 매개 변수화 할 때 결과로 발생하는 후방 분포가 변형에 의해 부과 된 …

2
표본이 어떤 (대칭) 분포에 대해 표본 중앙값보다 효율적인 추정기를 의미합니까?
나는 표본 중앙값이 특이 치를 무시하기 때문에 표본 평균보다 중심 경향의 더 강력한 척도라는 신념 아래 노력했다. I 따라서 (에 대한 대답에서 배울 놀랐다 또 다른 질문 정규 분포에서 가져온 샘플, 표본 평균의 분산은 (대형위한 최소한 적은 표본 평균의 분산보다 있음) ).nnn 왜 이것이 사실인지 수학적으로 이해합니다. 다른 분포에 대한 …

2
분배 기능
각각 4 개의 독립적으로 균일하게 분포 된 변수 있습니다. 의 분포를 계산하고 . I는 분포 계산 할 (따라서 ), 그리고 는 이제 합계 의 분포 는 ( 입니다. 독립) 때문에a,b,c,da,b,c,da,b,c,d[0,1][0,1][0,1](a−d)2+4bc(a−d)2+4bc(a-d)^2+4bcu2=4bcu2=4bcu_2=4bcf2(u2)=−14lnu24f2(u2)=−14ln⁡u24f_2(u_2)=-\frac{1}{4}\ln\frac{u_2}{4}u2∈(0,4]u2∈(0,4]u_2\in(0,4]u1=(a−d)2u1=(a−d)2u_1=(a-d)^2f1(u1)=1−u1−−√u1−−√.f1(u1)=1−u1u1.f_1(u_1)=\frac{1-\sqrt{u_1}}{\sqrt{u_1}}.u1+u2u1+u2u_1+u_2u1,u2u1,u2u_1,\, u_2fu1+u2(x)=∫+∞−∞f1(x−y)f2(y)dy=−14∫401−x−y−−−−√x−y−−−−√⋅lny4dy,fu1+u2(x)=∫−∞+∞f1(x−y)f2(y)dy=−14∫041−x−yx−y⋅ln⁡y4dy,f_{u_1+u_2}(x)=\int_{-\infty}^{+\infty}f_1(x-y)f_2(y)dy=-\frac{1}{4}\int_0^4\frac{1-\sqrt{x-y}}{\sqrt{x-y}}\cdot\ln\frac{y}{4}dy,와이∈ ( 0 , 4 ]와이∈(0,4]y\in(0,4]. 여기서 적분은 f_ {u_1 + u_2} (x) =-\ frac {1} {4} \ int_0 ^ …


3
PCA를 수행하기 전에 다른 표준화 요소가 아닌 표준 편차로 나누는 이유는 무엇입니까?
원시 데이터를 표준 편차로 나누는 이유에 대한 다음과 같은 정당성을 읽었습니다 (cs229 코스 노트에서). 설명이 말하는 것을 이해하더라도 표준 편차로 나누는 것이 왜 그러한 목표를 달성 할 수 있는지는 분명하지 않습니다. 그것은 모두가 같은 "규모"에 더 가깝도록 말합니다. 그러나 왜 표준 편차로 나누는 것이 그렇게되는지 완전히 명확하지는 않습니다 . 분산으로 …

2
잉크 대 데이터 비율 및 플롯 배경
나는 많은 "최첨단"플로팅 패키지와 테마와 많은 저명한 데이터 사람들이 그들의 플롯에 회색 배경을 사용한다는 것을 알았습니다. 몇 가지 예는 다음과 같습니다. ggplot2: 네이트 실버의 fivethirtyeight.com : 위의 첫 번째 예 (ggplot2)에서 회색 배경을 사용하면 그리드 선에 필요한 잉크가 줄어든다고 주장 할 수 있지만, 두 번째 경우에는 그렇지 않습니다. 흰색 또는 …

1
로그 확률 대 확률의 곱
이 Wikipedia 기사 에 따르면 계산의 계산을보다 최적 x⋅y으로 -log(x) - log(y)만드는 확률의 곱을 나타낼 수 있습니다 . 그러나 예제를 시도하면 다음과 같이 말합니다. p1 = 0.5 p2 = 0.5 p1 * p2 = 0.25 -log(p1) - log(p2) = 2 p3 = 0.1 p4 = 0.1 p3 * p4 = …

2
추가 된 변수 그림 (부분 회귀 그림)은 다중 회귀 분석에서 무엇을 설명합니까?
Movies 데이터 집합 모델이 있고 회귀를 사용했습니다. model <- lm(imdbVotes ~ imdbRating + tomatoRating + tomatoUserReviews+ I(genre1 ** 3.0) +I(genre2 ** 2.0)+I(genre3 ** 1.0), data = movies) library(ggplot2) res <- qplot(fitted(model), resid(model)) res+geom_hline(yintercept=0) 어떤 결과를 얻었습니까? 이제 Added Variable Plot이라는 것을 처음 시도했지만 다음과 같은 결과가 나타납니다. car::avPlots(model, id.n=2, id.cex=0.7) …

1
특이 치를 드러내 기 위해 평균과 표준 편차를 하나만 남겨 둘 수 있습니까?
정규적으로 데이터를 분산했다고 가정합니다. 데이터의 각 요소에 대해 평균에서 얼마나 많은 SD가 있는지 확인하고 싶습니다. 데이터에 특이 치가있을 수 있지만 (하나만 가능하지만 2 ~ 3 일 수도 있음),이 특이 치는 기본적으로 내가 찾고있는 것입니다. 현재보고있는 요소를 평균 및 SD 계산에서 일시적으로 제외하는 것이 합리적입니까? 내 생각은 그것이 평균에 가까워지면 아무런 …

3
구조 계량 학에 대한 소개 텍스트
최근에, 감소 된 형태 계량 경제학에 비해 계량 경제학에 대한 구조적 접근이보다 대중화되었다. 여기에는 관심 매개 변수를 추정하기 위해 이론적 경제 모델과 통계의 긴밀한 조합이 포함됩니다. 우리가 데이터와 통계적 방법을 사용하는 방식으로 더 이론적 인 구조를 강요하는 것은 지침을 제공하고 때로는 축소 된 양식 방법으로는 쉽게 추정 할 수없는 매개 …

1
Gibbs Sampling 알고리즘은 자세한 균형을 보장합니까?
Gibbs Sampling은 Markov Chain Monte Carlo 샘플링을위한 Metropolis-Hastings 알고리즘의 특별한 사례라는 것이 최고 권위 1 입니다. MH 알고리즘은 항상 상세 밸런스 특성으로 전이 확률을 제공합니다. 깁스도 그래야한다고 생각합니다. 다음 간단한 경우 어디에서 잘못 되었습니까? 두 개의 이산 (간단 함) 변수에서 목표 분포 경우 전체 조건부 분포는 다음과 같습니다. q 1 …
17 mcmc  gibbs 

3
Hosmer et al.을 이용한 모델 구축 및 선택 2013. R의 로지스틱 회귀 적용
이것은 StackExchange에 대한 첫 번째 게시물이지만 꽤 오랫동안 리소스로 사용 해 왔으며 적절한 형식을 사용하고 적절한 편집을 위해 최선을 다할 것입니다. 또한 이것은 여러 부분으로 구성된 질문입니다. 질문을 여러 개의 다른 게시물 또는 하나의 게시물로 나눌 것인지 확실하지 않았습니다. 질문은 모두 같은 텍스트에서 한 섹션에 있기 때문에 하나의 질문으로 게시하는 …

1
AR의 정상성에 대한 증거 (2)
평균 중심 AR (2) 공정을 고려 Xt=ϕ1Xt−1+ϕ2Xt−2+ϵtXt=ϕ1Xt−1+ϕ2Xt−2+ϵtX_t=\phi_1X_{t-1}+\phi_2X_{t-2}+\epsilon_t 여기서 ϵtϵt\epsilon_t 되는 표준 백색 잡음 프로세스. 간단히하기 위해 ϕ1=bϕ1=b\phi_1=b 및 a 라고하겠습니다 . 내가 얻은 특성 방정식의 근본을 중심으로 교재의 고전적인 조건은 다음과 같습니다.ϕ2=aϕ2=a\phi_{2}=az1,2=−b±b2+4a−−−−−−√2az1,2=−b±b2+4a2az_{1,2}=\frac{-b\pm\sqrt{b^2+4a}}{2a}{|a|&lt;1a±b&lt;1{|a|&lt;1a±b&lt;1\begin{cases}|a|<1 \\ a\pm b<1 \end{cases} 나는 루트의 불평등, 즉 시스템 수동으로 (Mathematica의 도움으로) 풀려고했습니다. 단지 획득 ± B를 &lt; …

1
로지스틱 회귀 분석 : 포화 모형을 얻는 방법
로지스틱 회귀에 대한 이탈도 측정에 대해 읽었습니다. 그러나 포화 모델이라는 부분은 명확하지 않습니다. 광범위한 Google 검색을 수행했지만 그 결과 중 어느 것도 내 질문에 대답하지 못했습니다. 지금까지 포화 모형에는 각 관측치에 대한 매개 변수가 있으며 결과적으로 완벽하게 적합합니다. 이것은 나에게 분명하다. 그러나 (포화 모델의) 적합치가 관측치와 동일합니다. 내 지식으로는 로지스틱 …

3
특이한 특이 치를 가진 상자 그림을 제시하는 방법은 무엇입니까?
일부 데이터를 제시하는 데 대한 지침을 사용할 수 있습니다. 이 첫 번째 줄거리는 사이토 카인 IL-10에 대한 사례-대조 비교입니다. 99 %의 데이터를 포함하도록 y 축을 수동으로 설정했습니다. 내가 수동으로 설정 한 이유는 사례 그룹에 특이 치가 있기 때문입니다. 내 공동 작업자는 데이터 세트에서 이상치 제거를 수행하는 것을 주저합니다. 나는 괜찮지 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.