통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

1
LDA 의사 결정 경계 계산 및 그래프
통계 학습의 요소 에서 결정 경계가있는 LDA (선형 판별 분석) 플롯을 보았습니다 . 데이터가 저 차원 부분 공간에 투영된다는 것을 이해합니다. 그러나 의사 결정 경계를 낮은 차원의 하위 공간 (위의 이미지의 검은 선과 같은)에 투영 할 수 있도록 원래 차원에서 결정 경계를 얻는 방법을 알고 싶습니다. 원래 (높은) 차원에서 의사 …

2
동일한 데이터 세트에 대한 PCA 및 탐색 적 요인 분석 : 차이점 및 유사성; 요인 모델 대 PCA
동일한 데이터 세트에서 주성분 분석 (PCA)과 탐색 적 요인 분석 (EFA)을 수행하는 것이 논리적으로 합리적인지 알고 싶습니다. 전문가가 다음과 같이 명시 적으로 추천하는 것을 들었습니다. 분석 목표가 무엇인지 이해하고 데이터 분석을 위해 PCA 또는 EFA를 선택하십시오. 하나의 분석을 수행하면 다른 분석을 수행 할 필요가 없습니다. 둘 사이의 동기 차이를 이해하지만 …

2
모든 합리성을지지하는 이산 rv 구성
이것이이 질문 의 구성주의 속편이다 . 구간 에서 모든 합리성을 지원하는 불연속 균일 랜덤 변수를 가질 수 없다면 다음으로 가장 좋은 것은 다음과 같습니다. [ 0 , 1 ][0,1][0,1] 확률 변수 구조체 이 지원 갖는다 , 그것은 다음 것을 일부 분포. 그리고 저의 장인은이 랜덤 변수가 우리가 얻고 자하는 것을 …

3
상자 그림에서 왜도를 평가하는 방법?
이 데이터로 작성된 상자 그림을보고 왜도를 결정하는 방법 : 340, 300, 520, 340, 320, 290, 260, 330 한 책은 "하위 사 분위수가 위 사 분위수보다 중앙값에서 더 멀면 분포가 부정적으로 왜곡된다"고 말합니다. 다른 여러 출처는 거의 동일하다고 말했다. R을 사용하여 상자 그림을 만들었습니다. 다음과 같습니다. 나는 그것의 것을 가지고 부정적으로 …

2
견고한 선형 모형 의 가중
MASS 패키지를 R사용하여 MM 가중치 로 강력한 선형 모델을 추정했습니다 rlm(). `R``은 모델에 값을 제공하지 않지만 의미있는 수량이라면 값을 원합니다. 또한 관측치가 강력한 회귀 분석에서 가중치를 적용한 것과 같은 방식으로 총 및 잔류 분산을 측정 하는 R 2 값을 갖는 데 어떤 의미가 있는지 알고 싶습니다 . 나의 일반적인 생각은, …

2
부트 스트랩-특이 치를 먼저 제거해야합니까?
우리는 새로운 제품 기능에 대한 분할 테스트를 실행했으며 수익 향상이 중요한지 측정하려고합니다. 우리의 관찰은 확실히 정상적으로 배포되지 않습니다 (대부분의 사용자는 지출하지 않으며, 그 범위 내에서 많은 소규모 지출 자와 약간의 지출로 크게 왜곡됩니다). 우리는 부트 스트랩을 사용하여 평균을 분배하지 않는 데이터 문제를 해결하기 위해 수단을 비교하기로 결정했습니다 (질문 : 부트 …

1
분석 야 코비안을 사용할 수있는 경우
합계 제곱 잔차를 최소화하는 일부 모델 매개 변수를 계산하고 있으며 오류가 가우시안이라고 가정합니다. 내 모델은 분석적 미분을 생성하므로 옵티마이 저는 유한 차분을 사용할 필요가 없습니다. 피팅이 완료되면 피팅 된 파라미터의 표준 오차를 계산하려고합니다. 일반적으로이 상황에서 오류 함수의 Hessian은 다음과 같이 공분산 행렬과 관련이 있습니다. 여기서 는 잔차의 분산입니다.σ 2σ2H−1=Cσ2H−1=C \sigma^2 …

4
GEE : 적절한 작업 상관 관계 구조 선택
나는 코호트 연구 (로그 링크와 함께 포아송 회귀를 사용하여 상대 위험을 추정)를 제대로 분석하기 위해 GEE를 이해하려고 노력하는 역학자입니다. "작업 상관 관계"에 대해 몇 가지 질문이 있습니다. (1) 같은 개인에서 측정을 반복 한 경우, 교환 가능한 구조를 취하는 것이 가장 합리적입니까? (또는 측정 값이 추세를 나타내는 경우 자동 회귀)? 독립성은 …
19 gee 

4
실제로 데이터가 가정을 완전히 충족하지 못하는 경우 사람들이 어떻게 분산을 처리합니까?
이것은 엄격하게 통계적인 질문이 아닙니다. 나는 분산 분석 가정에 대한 모든 교과서를 읽을 수 있습니다. 실제로 작동하는 분석가가 가정을 충족시키지 못하는 데이터를 어떻게 처리하는지 파악하려고합니다. 나는이 사이트에서 많은 답변을 찾고 있으며 ANOVA를 사용하지 않을 때 (추상적이고 이상적인 수학적 상황에서) 또는 R에서 아래에 설명 된 것들 중 일부를 수행하는 방법에 대한 …

1
캐럿 및 계수 (glmnet)
특정 데이터 세트에 대한 추론을 위해 캐럿을 사용하는 데 관심이 있습니다. 다음을 수행 할 수 있습니까? 캐럿에서 훈련 한 glmnet 모델의 계수를 생성합니다. glm에 있다고 생각하지 않는 고유 한 기능 선택으로 인해 glmnet을 사용하고 싶습니다. ROC 측정 항목 외에 모델의 적합도를 평가하는 데 사용할 수있는 다른 측정 항목이 있습니까? 조정 …
19 caret  glmnet 

3
능선 회귀와 PCA 회귀의 관계
나는 (와 능선 회귀 사이의 연결 웹에서 읽기 어딘가를 가진 기억 ℓ2ℓ2\ell_2 와 PCA 회귀 정규화가) 사용하는 동안 ℓ2ℓ2\ell_2 hyperparameter의와 -regularized 회귀 분석을 λλ\lambda , 경우 λ→0λ→0\lambda \to 0 , 다음 회귀와 PC 변수를 제거하는 것과 같습니다 가장 작은 고유 값. 왜 이것이 사실입니까? 이것이 최적화 절차와 관련이 있습니까? 순진하게, …


2
임의의 숲이 과적입니까?
나는 scikit-learn을 사용하여 임의의 숲을 실험하고 있으며 훈련 세트의 결과는 훌륭하지만 테스트 세트에서는 상대적으로 열악한 결과를 얻습니다 ... 내가 해결하려고하는 문제 (포커에서 영감을 얻음)는 다음과 같습니다 .A 플레이어의 홀 카드, B 플레이어의 홀 카드 및 플롭 (3 카드)을 고려할 때 어떤 플레이어가 가장 좋은 핸드를 가지고 있습니까? 수학적으로 이것은 14 …

4
최상의 예측 변수로서 조건부 기대 증명 문제
증명에 문제가 있습니다 E(Y|X)∈argming(X)E[(Y−g(X))2]E(Y|X)∈arg⁡ming(X)E[(Y−g(X))2]E(Y|X) \in \arg \min_{g(X)} E\Big[\big(Y - g(X)\big)^2\Big] 이는 기대와 조건부 기대에 대한 더 깊은 오해를 드러 낼 가능성이 높습니다. 내가 아는 증거는 다음과 같습니다 (이 증거의 다른 버전은 여기 에서 찾을 수 있습니다 ) ===argming(X)E[(Y−g(x))2]argming(X)E[(Y−E(Y|X)+E(Y|X)−g(X))2]argming(x)E[(Y−E(Y|X))2+2(Y−E(Y|X))(E(Y|X)−g(X))+(E(Y|X)−g(X))2]argming(x)E[2(Y−E(Y|X))(E(Y|X)−g(X))+(E(Y|X)−g(X))2]arg⁡ming(X)E[(Y−g(x))2]=arg⁡ming(X)E[(Y−E(Y|X)+E(Y|X)−g(X))2]=arg⁡ming(x)E[(Y−E(Y|X))2+2(Y−E(Y|X))(E(Y|X)−g(X))+(E(Y|X)−g(X))2]=arg⁡ming(x)E[2(Y−E(Y|X))(E(Y|X)−g(X))+(E(Y|X)−g(X))2]\begin{align*} &\arg \min_{g(X)} E\Big[\big(Y - g(x)\big)^2\Big]\\ = &\arg \min_{g(X)} E \Big[ \big(Y - …

1
R (nnet 패키지)에서 "multinom"에 대한 p- 값 얻기
패키지 multinom기능을 사용하여 p- 값을 얻으려면 어떻게해야 합니까?nnetR 결과 변수로 "병리학 점수"(Absent, Mild, Severe)와 나이 (두 가지 요소 : 20/30 일) 및 치료 그룹 (4 가지 요소 : ATB없이 감염 됨; 감염된 +)으로 구성된 데이터 세트가 있습니다. ATB1; 감염된 + ATB2; 감염된 + ATB3). 먼저 서수 회귀 모형을 적합 시키려고했는데, …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.