통계 및 빅 데이터

5

베이지안 네트워크와 마르코프 프로세스의 차이점은 무엇입니까? 나는 둘 다의 원리를 이해했다고 믿었지만 지금은 두 가지를 비교해야 할 때 잃어버린 느낌이 든다. 그들은 나에게 거의 같은 의미입니다. 분명히 그들은 아닙니다. 다른 자료에 대한 링크도 높이 평가됩니다.

28 bayesian references modeling markov-process bayesian-network

1

다른 거리와 방법으로 얻은 계층 적 군집 덴드로 그램 비교

[초기 제목 "계층 적 클러스터링 트리의 유사성 측정"은 나중에 주제를 더 잘 반영하기 위해 @ttnphns에 의해 변경됨] 환자 기록의 데이터 프레임에서 여러 계층 적 클러스터 분석 을 수행하고 있습니다 (예 : http://www.biomedcentral.com/1471-2105/5/126/figure/F1?highres=y 와 유사 ) 나무의 최종 군집 / 구조 /보기 (dendrogram)에 미치는 영향을 이해하기 위해 다른 거리 측정, 다른 …

28 r clustering distance-functions similarities dendrogram

3

혼합 모형 (lme4)에서 범주 형 요인에 대한 "전체"p- 값 및 효과 크기를 얻는 방법은 무엇입니까?

독립적 인 범주 형 변수 (여러 수준)의 p- 값과 효과 크기를 얻고 싶습니다. 즉, "전체"이며 각 수준에 대해 개별적으로는 아닙니다 ( lme4R 의 일반 출력 과 동일). 분산 분석을 실행할 때 사람들이보고하는 것. 어떻게 구할 수 있습니까?

28 r hypothesis-testing anova mixed-model lme4-nlme

1

Taylor 확장을 통한 XGBoost 손실 기능 근사

예를 들어, 번째 반복 에서 XGBoost 모델의 목적 함수를 사용하십시오 .ttt L(t)=∑i=1nℓ(yi,y^(t−1)i+ft(xi))+Ω(ft)L(t)=∑i=1nℓ(yi,y^i(t−1)+ft(xi))+Ω(ft)\mathcal{L}^{(t)}=\sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)}+f_t(\mathbf{x}_i))+\Omega(f_t) 여기서 은 손실 함수이고, 는 번째 트리 출력이고 \ Omega 는 정규화입니다. 빠른 계산을위한 (다수) 주요 단계 중 하나는 근사치입니다.ℓℓ\ellftftf_ttttΩΩ\Omega L(t)≈∑i=1nℓ(yi,y^(t−1)i)+gtft(xi)+12hif2t(xi)+Ω(ft),L(t)≈∑i=1nℓ(yi,y^i(t−1))+gtft(xi)+12hift2(xi)+Ω(ft),\mathcal{L}^{(t)}\approx \sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)})+g_tf_t(\mathbf{x}_i)+\frac{1}{2}h_if_t^2(\mathbf{x}_i)+\Omega(f_t), 여기서 gigig_i 및 hihih_i 는 손실 함수의 1 차 및 2 차 미분입니다. 내가 요구하는 것은 …

28 optimization loss-functions boosting xgboost taylor-series

7

플립의 수가 증가함에 따라 꼬리와 같은 수의 머리를 뒤집을 가능성이 적은 이유를 설명하는 통계 개념?

저는 몇 권의 책을 읽고 코드를 작성하여 확률과 통계를 배우고 있습니다. 동전 뒤집기를 시뮬레이션하는 동안 나는 순진한 직관에 약간 반하는 것으로 나타났습니다. 공정한 동전을 번 뒤집 으면 머리와 꼬리의 비율 은 예상 대로 증가함에 따라 1로 수렴 합니다. 그러나 다른 한편으로, 증가함에 따라 꼬리와 같은 수의 머리를 뒤집을 가능성 이 …

28 probability computational-statistics

1

잘린 분포에 대한 최대 가능성 추정기

알려진 최소값 및 최대 값 a 및 b는 있지만 알 수없는 매개 변수 μ 및 σ 2 의 잘린 분포 (예 : 잘린 정규 분포 ) 를 따르는 것으로 가정 되는 랜덤 변수 X 에서 얻은 독립 샘플 S를 고려하십시오 . 경우 X는 비 절단 분포를 따라 최대 우도 추정기 …

28 distributions estimation mathematical-statistics maximum-likelihood truncation

7

R 패키지를 작성하는 이유와시기

나는이 질문이 상당히 광범위하다는 것을 이해하지만, R을위한 새로운 패키지를 만들거나 결정하지 않을 때 결정적인 포인트가 무엇인지 궁금합니다. 다양한 스크립트를 컴파일하고 새로운 패키지에 통합하기로 결정한 것에 대해 R 자체를 사용하십시오. 이러한 결정으로 이어질 수있는 요점들 중에서 나는 다음과 같은 생각을했습니다. 동일한 서브 필드에 다른 패키지가 존재하지 않는 것; 다른 연구자들과 교류하고 …

28 r software

2

EM과 Gradient Ascent의 차이점은 무엇입니까?

알고리즘 EM (예상 최대화)과 기울기 상승 (또는 하강) 알고리즘의 차이점은 무엇입니까? 그것들이 동등한 조건이 있습니까?

28 gradient-descent expectation-maximization

3

무작위 표본이 명확하지 않은 경우 어떻게해야합니까?

당신은 무작위로 샘플을 채취하고 그것이 같이 명확하게 반영하지 않고 볼 수있는 경우에는 어떻게 최근 질문 . 예를 들어 모집단 분포가 0을 기준으로 대칭 인 것으로 가정하고 무작위로 추출한 표본에 불균형 긍정적 및 부정적 관측치가 있고 불균형이 통계적으로 유의하면 어디에서 벗어날 수 있습니까? 치우친 표본을 기반으로 모집단에 대해 어떤 합리적인 진술을 …

28 sampling experiment-design inference sample

3

가우스 비율 분포 : 미분 계수

나는 두 개의 독립적 인 정규 분포 XXX 와 작업하고 있는데 YYY, 평균 μxμx\mu_x 및 μyμy\mu_y 및 분산 σ2xσx2\sigma^2_x 및 σ2yσy2\sigma^2_y 입니다. 나는 그들의 비율 의 분포에 관심이 Z=X/YZ=X/YZ=X/Y있습니다. 나도 XXX 나 YYY , 그래서 0의 평균이 없습니다 ZZZ 코시로 배포되지 않습니다. 의 CDF를 찾은 다음 μ x , μ …

28 distributions normal-distribution references mathematical-statistics cdf

3

강화하면서 왜 학습자가“약한”가?

stats.SE에서 비슷한 질문을 참조하십시오 . 에서 증폭 과 같은 알고리즘 에이다 부스트 및 LPBoost를 "약한"학습자가 위키 백과에서 유용 할 더 나은 기회가보다 더 수행에만 결합하는 것으로 알려져있다 : 사용하는 분류기는 약할 수 있지만 (실질적인 오류율을 표시) 성능이 임의적이지 않은 한 (이진 분류의 경우 오류율이 0.5 인 경우) 최종 모델이 향상됩니다. …

28 machine-learning theory boosting

5

방정식보다 더 많은 이미지를 사용하는 방법을 설명하는 통계 책

나는 통계에 관심을 가지게되었지만 수학을 진지하게 사용한 지 오래되었다는 것을 인정해야한다. 때로는 방정식의 의미를 이해하지만 때로는 따라갈 수 없습니다. 화살표가있는 이미지를 사용하는 여기에 주어진 대답이 마음에 듭니다. 루트 평균 제곱 오차 및 평균 바이어스 편차의 개념 이해 . 방정식보다 많은 수치를 사용하는 모델링, PCA, 시뮬레이션 등에 관한 심각한 통계 책에 …

28 references

5

공통 분포의 실제 예

통계에 관심을 갖고있는 대학원생입니다. 나는 자료 전체를 좋아하지만 때로는 실생활에서의 응용에 대해 생각하기가 어렵다. 특히, 내 질문은 일반적으로 사용되는 통계 분포 (정상-베타 감마 등)에 관한 것입니다. 어떤 경우에는 분포를 아주 좋게 만드는 특정 속성을 얻습니다-예를 들어 지수가없는 메모리리스 속성. 그러나 다른 많은 경우에는 교과서에서 볼 수있는 공통 배포판의 중요성과 적용 …

28 normal-distribution references gamma-distribution beta-distribution application

5

선형 회귀에 대한 동성애 가정을 위반하면 어떤 위험이 있습니까?

예를 들어 ChickWeightR의 데이터 세트를 고려하십시오 . 분산은 시간이 지남에 따라 분명히 커지므로 다음과 같은 간단한 선형 회귀를 사용하면 다음과 같습니다. m <- lm(weight ~ Time*Diet, data=ChickWeight) 내 질문 : 모델의 어떤 측면에 의문이 생길까요? 문제가 Time범위를 벗어나는 것으로 제한 됩니까? 이 가정의 위반에 대한 선형 회귀는 얼마나 관대합니까 (즉,이 …

28 r regression heteroscedasticity assumptions

7

임의의 이산 분포를 기반으로 숫자를 생성하는 방법은 무엇입니까?

임의의 이산 분포를 기반으로 숫자를 생성하려면 어떻게합니까? 예를 들어, 생성하려는 숫자 세트가 있습니다. 다음과 같이 1-3에서 레이블이 지정되어 있다고 가정하십시오. 1 : 4 %, 2 : 50 %, 3 : 46 % 기본적으로 백분율은 난수 생성기의 출력에 나타날 확률입니다. 간격 [0, 1]에서 균일 분포를 생성하는 의사 난수 생성기가 있습니다. 이 …

28 distributions