통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

2
p- 값의 QQ 플롯을 해석하는 방법
plink ( http://pngu.mgh.harvard.edu/~purcell/plink/download.shtml ) 소프트웨어를 사용하여 질병에 대한 GWAS SNP 연관 연구를하고 있습니다 . 연관 결과를 통해 분석 된 모든 SNP에 대한 p- 값을 얻습니다. 이제 p- 값의 QQ- 플롯을 사용하여 매우 낮은 p- 값이 예상되는 p- 값 분포 (균일 한 분포)와 다른지 여부를 보여줍니다. p- 값이 예상 분포에서 벗어나면 …
17 qq-plot 

2
LDA에서“선형 판별 계수”는 무엇입니까?
에서 라이브러리의 함수를 R사용 하여 분류를 수행합니다. LDA를 이해하면 입력 x 에 레이블 y 가 할당되어 p ( y | x ) 를 최대화 합니까?ldaMASS엑스엑스x와이와이yp ( y| x)피(와이|엑스)p(y|x) 그러나 X = ( L의 경우 → g1 , L의 경우 → g2 )엑스=(엘ㅏ지1,엘ㅏ지2)x=(Lag1,Lag2)와이= D i r e c t i o …

1
동일한 모멘트를 갖는 분포가 동일한 지 여부
다음은 여기 및 여기의 이전 게시물과 비슷하지만 다릅니다. 모든 주문의 모멘트를 허용하는 두 개의 분배가 주어지면 두 분배의 모든 모멘트가 동일하면 동일한 분배 ae입니까? 모멘트 생성 기능을 허용하는 두 개의 분포가 주어지면 모멘트가 동일한 경우 모멘트 생성 기능이 동일합니까?

2
회귀에 날짜 변수를 사용하는 것이 합리적입니까?
R에서 날짜 형식의 변수를 사용하는 데 익숙하지 않습니다. 선형 회귀 모델에서 날짜 변수를 설명 변수로 추가 할 수 있는지 궁금합니다. 가능하다면 계수를 어떻게 해석 할 수 있습니까? 결과 변수에 대한 하루의 영향입니까? 내가하려는 일을 예로 들어 요점 을 참조하십시오 .

4
누적 위험 함수에 대한 직감 (생존 분석)
보험 계리 과학의 각 주요 기능 (특히 Cox 비례 위험 모델)에 대한 직감을 얻으려고합니다. 여기까지 내가 가진 것입니다 : f(x)f(x)f(x) : 시작 시간에 시작하여 사망 할 확률 분포. F(x)F(x)F(x) : 누적 분포입니다. 시간 , 인구의 몇 %가 죽을 것인가?TTT S(x)S(x)S(x) : . 시간 에 인구의 몇 %가 살아 있습니까?1−F(x)1−F(x)1-F(x)TTT h(x)h(x)h(x) …

8
통계에 대한 좋은 학부 입문 교과서에 대한 제안?
나는 당신이 나에게 몇 가지 제안을 줄 수 있기를 바랍니다. 저는 매우 다양한 (소수 그룹으로 구성된) 대학에서 가르치고 있으며 학생들은 대부분 심리학 전공입니다. 대부분의 학생들은 고등학교를 다니지 만 신입생은 40 세 이상입니다. 대부분의 학생들은 동기 부여 문제와 수학에 대한 혐오감을 가지고 있습니다. 그러나 나는 여전히 기본 커리큘럼을 다루는 책을 찾고 …

3
절편 / 드리프트 및 선형 추세로 모델링 된 시계열에 대해 어떤 Dickey-Fuller 테스트를 수행합니까?
짧은 버전 : 나는 정상 성을 테스트하고있는 일련의 기후 데이터를 가지고 있습니다. 이전 연구에 따르면, 데이터의 기초가되는 (또는 "생성하기 위해") 모델이 절편 항과 양의 선형 시간 추세를 가질 것으로 기대합니다. 이러한 데이터의 정상 성을 테스트하려면 인터셉트 및 시간 추세 (예 : 방정식 # 3) 가 포함 된 Dickey-Fuller 테스트를 사용해야 …

2
ggplot2에서 회귀선을 예측하거나 확장하는 방법은 무엇입니까?
Emacs 및 Firefox 릴리스의 날짜 및 버전 번호라는 두 가지 시계열이 포함 된 데이터 프레임이 있습니다. 하나의 ggplot2 명령을 사용하면 loess를 사용하여 차트를 쉽게 만들 수 있습니다 (약간 재미있어 보이지는 않지만). 미래의 선을 어떻게 확장 할 수 있습니까? Emacs와 Firefox 버전 번호가 어디에서 언제 교차하는지 결정하고 오류 범위를 표시하는 방법이 …

2
포스터 프리젠 테이션을 어떻게 구성해야합니까?
현재 포스터 프레젠테이션을 진행 중이며 그래픽의 일부 측면에 대한 조언 (또는 조언 참조)을 원합니다. 내가 말하는 포스터의 예 는 전산 및 그래픽 통계 저널 제 20 권 2 호에 실린 ASA 데이터 엑스포 기사의 보충 자료를 참조하십시오 (또 다른 예는 여기에 있습니다 ( Hendrix et al., 2008 )). 또한 중요한 …

1
잠재 된 디 리클 렛 할당을 사용한 주제 예측
나는 문서 모음에서 LDA를 사용했으며 몇 가지 주제를 발견했습니다. 내 코드의 출력은 확률을 포함하는 두 개의 행렬입니다. 하나의 의사 주제 확률과 다른 단어 주제 확률. 그러나 실제로 이러한 결과를 사용하여 새 문서의 주제를 예측하는 방법을 모르겠습니다. Gibbs 샘플링을 사용하고 있습니다. 아무도 방법을 알고 있습니까? 감사

1
나무 부스팅 및 배깅 (XGBoost, LightGBM)
나무 를 꾸리 거나 부스팅 하는 아이디어에 대한 많은 블로그 게시물, YouTube 비디오 등이 있습니다. 내 일반적인 이해는 각각에 대한 의사 코드는 다음과 같습니다. 포장 : 표본의 x %와 특징의 y %의 N 개의 랜덤 표본 추출 각 N에 모델 (예 : 의사 결정 트리)을 적합 각 N으로 예측 최종 …

2
더미 변수의 기능 중요도
더미 변수로 분류 된 범주 형 변수의 기능 중요성을 얻는 방법을 이해하려고합니다. R 또는 h2o 가하는 방식으로 범주 변수를 처리하지 않는 scikit-learn을 사용하고 있습니다. 범주 형 변수를 더미 변수로 분류하면 해당 변수의 클래스마다 별도의 기능 중요도가 있습니다. 내 질문은, 더미 변수의 중요도를 단순히 범주화하여 범주 변수의 중요도 값으로 재결합하는 것이 …

5
"샘플 내"와 "샘플 외"예측의 차이점은 무엇입니까?
"샘플 내"와 "샘플 외"예측의 차이점이 정확히 무엇인지 이해하지 못합니까? 표본 내 예측은 사용 가능한 데이터 의 하위 집합 을 사용하여 추정 기간 이외의 값을 예측합니다. 샘플에서 벗어난 예측은 사용 가능한 모든 데이터를 대신 사용 합니다. 맞 습니까? 다음의 정의는 매우 정확합니까? 내부 샘플 예측은 사용 가능한 데이터 의 서브 세트를 …

2
R의 Kolmogorov-Smirnov 테스트 이해
Kolmogorov-Smirnov 테스트 기능 (두 샘플, 양면)의 출력을 이해하려고합니다. 다음은 간단한 테스트입니다. x <- c(1,2,2,3,3,3,3,4,5,6) y <- c(2,3,4,5,5,6,6,6,6,7) z <- c(12,13,14,15,15,16,16,16,16,17) ks.test(x,y) # Two-sample Kolmogorov-Smirnov test # #data: x and y #D = 0.5, p-value = 0.1641 #alternative hypothesis: two-sided # #Warning message: #In ks.test(x, y) : cannot compute exact p-value …

2
그라디언트 부스팅을 사용한 분류 : [0,1]의 예측 유지 방법
질문 그라디언트 부스팅을 사용하여 이진 분류를 수행 할 때 예측이 간격 내에 유지되는 방식을 이해하기 위해 고심 하고 있습니다.[0,1][0,1][0,1] 이진 분류 문제에 대해 작업 목적 함수가 로그 손실 . 여기서 대상 변수 이고 는 현재 모델입니다.y ∈ { 0 , 1 } H−∑yilog(Hm(xi))+(1−yi)log(1−Hm(xi))−∑yilog⁡(Hm(xi))+(1−yi)log⁡(1−Hm(xi))-\sum y_i \log(H_m(x_i)) + (1-y_i) \log(1-H_m(x_i))yyy∈{0,1}∈{0,1}\in \{0,1\}HHH 우리의 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.