통계 및 빅 데이터

2

R을 사용한 Faraway의 선형 모형 (2005, p. 59)에서 다음 그림을 고려하십시오. 첫 번째 그림은 잔차와 적합치 값이 정규 분포 오차를 갖는 정사각형 선형 모형이어야하므로 잔차와 적합치가 서로 관련이 없음을 나타냅니다. 따라서 잔차와 적합치 간의 종속성을 나타내는 두 번째 및 세 번째 그림은 다른 모형을 제안합니다. 그러나 왜 Faraway가이 분산 선형 …

34 regression residuals assumptions graphical-model

1

다운 샘플링은 로지스틱 회귀 계수를 변경합니까?

매우 드물게 양수 클래스가있는 데이터 세트가 있고 음수 클래스를 다운 샘플링 한 다음 로지스틱 회귀를 수행하는 경우 양수 클래스의 보급률을 변경했다는 사실을 반영하기 위해 회귀 계수를 조정해야합니까? 예를 들어, Y, A, B 및 C의 변수가 4 개인 데이터 집합이 있다고 가정 해 보겠습니다. Y, A 및 B는 이진수이고 C는 연속적입니다. …

34 logistic unbalanced-classes case-control-study

3

상관 행렬이 양의 반 정밀도 여야하는 이유는 무엇입니까?

상관 관계 또는 공분산 행렬의 반 정밀도 속성의 의미를 연구하고 있습니다. 에 대한 정보를 찾고 있습니다 양의 반정의 정의; 중요한 특성, 실제적 의미; 부정적 결정 요인, 다변량 분석 또는 시뮬레이션 결과에 미치는 영향 등

34 covariance-matrix eigenvalues determinant correlation-matrix

2

모델 선택 및 교차 검증 : 올바른 방법

CrossValidated에는 모델 선택 및 교차 검증 주제에 대한 수많은 스레드가 있습니다. 몇 가지가 있습니다 : 내부 대 외부 교차 검증 및 모델 선택 DikranMarsupial의 @ 상단의 대답 에 기능 선택과 교차 검증 그러나 이러한 스레드에 대한 답변은 상당히 일반적이며 교차 검증 및 모델 선택에 대한 특정 접근 방식의 문제를 강조합니다. …

34 cross-validation model-selection

2

Benjamini & Hochberg (1995)와 Benjamini & Yekutieli (2001) 허위 발견 률 절차의 실제 차이점은 무엇입니까?

저의 통계 프로그램은 Benjamini & Hochberg (1995)와 Benjamini & Yekutieli (2001) FDR (False Discovery Rate) 절차를 모두 구현합니다. 나는 나중의 논문을 읽기 위해 최선을 다했지만, 그것은 수학적으로 밀도가 높으며 절차의 차이점을 이해한다고 합리적으로 확신하지 못한다. 통계 프로그램의 기본 코드에서 실제로는 다르며 후자는 FDR과 관련하여 언급 한 수량 q를 포함하지만 파악할 …

34 post-hoc false-discovery-rate

5

베타 배포판에 접합체가 있습니까?

나는 베타 분포가 이항에 켤레라는 것을 알고있다. 그러나 베타 이전의 접합체는 무엇입니까? 감사합니다.

34 beta-distribution conjugate-prior

3

종속 변수의 정규성 = 잔차의 정규성?

이 문제는 항상 추악한 머리를 뒤로하는 것처럼 보이며, 나는 통계 (그리고 온전함)에 대한 내 자신의 이해를 위해 그것을 왜곡하려고합니다. 일반 선형 모형 (t- 검정, 분산 분석, 회귀 등)의 가정에는 "정상 가정"이 포함되지만, 이것이 명확하게 설명되지는 않습니다. 나는 종종 "정규 가정"이 각 그룹 (즉, 범주 형 X 변수)에 적용된다는 통계 교과서 …

34 normal-distribution residuals normality-assumption

5

신경망 훈련을위한 역 전파 vs 유전자 알고리즘

나는 각 방법의 장단점을 논의하는 몇 가지 논문을 읽었으며 일부는 GA가 최적의 솔루션을 찾는 데 아무런 개선이 없지만 다른 사람들은 그것이 더 효과적이라는 것을 보여줍니다. GA는 일반적으로 문학에서 선호되는 것처럼 보이지만 (대부분 사람들은 필요한 결과를 얻기 위해 어떤 방식 으로든 수정하지만) 대부분의 소프트웨어 솔루션이 역 전파 만 사용하는 이유는 무엇입니까? …

34 neural-networks genetic-algorithms backpropagation

3

임의 효과가 유의한지 여부를 어떻게 테스트 할 수 있습니까?

임의의 효과를 사용해야 할 때와 그것이 언제 필요한지 이해하려고합니다. 내가 경험 한 4 개 이상의 그룹 / 개인이 있다면 (15 개의 개별 무스) 경험에 근거한 경험이있다. 이 무스 중 일부는 총 29 회 시험을 위해 2 번 또는 3 번 실험되었습니다. 위험도가 높은 환경에있을 때와 다르게 작동하는지 알고 싶습니다. 그래서 …

34 mixed-model lme4-nlme random-effects-model glmm

3

다중 대치 후 성향 점수 일치

나는 이 논문을 참조한다 : Hayes JR, Groner JI. "다중 대치 및 성향 점수를 사용하여 외상 레지스트리 데이터로 인한 부상 심각도에 대한 카시트 및 시트 벨트 사용의 효과를 테스트합니다." J Pediatr Surg. 2008 년 5 월; 43 (5) : 924-7. 이 연구에서는 15 개의 완전한 데이터 세트를 얻기 위해 다중 …

34 missing-data propensity-scores

3

방사형 기저 함수가 커널임을 증명하는 방법?

방사형 기저 함수 가 커널 임을 증명하는 방법 은 무엇입니까? 내가 이해하는 한, 이것을 증명하기 위해 우리는 다음 중 하나를 증명해야합니다.k(x,y)=exp(−||x−y||2)2σ2)k(x,y)=exp⁡(−||x−y||2)2σ2)k(x, y) = \exp(-\frac{||x-y||^2)}{2\sigma^2}) 벡터 집합 행렬 = 은 양의 반정의입니다.x1,x2,...,xnx1,x2,...,xnx_1, x_2, ..., x_nK(x1,x2,...,xn)K(x1,x2,...,xn)K(x_1, x_2, ..., x_n)(k(xi,xj))n×n(k(xi,xj))n×n(k(x_i, x_j))_{n \times n} = 과 같은 매핑 가 제공 될 수 있습니다 .ΦΦ\Phik(x,y)k(x,y)k(x, …

34 svm kernel-trick

3

일반화 선형 모형과 일반화 선형 혼합 모형의 차이점

혼합 GLM과 혼합 GLM의 차이점이 무엇인지 궁금합니다. 예를 들어 SPSS에서 드롭 다운 메뉴를 사용하면 다음 중 하나에 맞출 수 있습니다. analyze-> generalized linear models-> generalized linear models & analyze-> mixed models-> generalized linear 결 측값을 다르게 처리합니까? 내 종속 변수는 이진이며 여러 범주적이고 연속적인 독립 변수가 있습니다.

34 mixed-model generalized-linear-model glmm gee

5

CV / Bootstrap을 사용하여 기계 학습 알고리즘을 훈련하여 과적 합할 수 있습니까?

이 질문은 결정적인 대답을 얻기에는 너무 개방적 일 수 있지만, 그렇지 않을 수 있습니다. SVM, GBM, 랜덤 포레스트 등과 같은 머신 러닝 알고리즘은 일반적으로 일부 경험 법칙을 넘어서 각 데이터 세트에 맞게 조정해야하는 자유 매개 변수를 갖습니다. 이것은 일반적으로 최상의 일반화 오류를 제공하는 매개 변수 세트에 맞추기 위해 일종의 리샘플링 …

34 machine-learning cross-validation bootstrap optimization resampling

4

X와 Y는 상관 관계가 없지만 X는 다중 회귀 분석에서 Y의 중요한 예측 변수입니다. 무슨 뜻인가요?

X와 Y는 상관되지 않습니다 (-.01). 그러나 X를 Y를 예측하는 다중 회귀 분석에 배치 할 때 3 개 (A, B, C) 다른 (관련) 변수와 함께 X와 2 개의 다른 변수 (A, B)는 Y의 중요한 예측 변수입니다. A, B) 변수는 회귀 외부의 Y와 유의 한 상관 관계가 있습니다. 이러한 결과를 어떻게 해석해야합니까? …

34 regression correlation interpretation causality

4

데이터에는 두 가지 추세가 있습니다. 독립적 인 추세선을 추출하는 방법?

특정 방식으로 정렬되지 않은 데이터 세트가 있지만 명확하게 표시되면 두 가지 뚜렷한 경향이 있습니다. 간단한 선형 회귀 분석은 두 계열 사이의 명확한 구분 때문에 실제로는 적합하지 않습니다. 두 개의 독립적 인 선형 추세선을 얻는 간단한 방법이 있습니까? 레코드를 위해 파이썬을 사용하고 있으며 기계 학습을 포함하여 프로그래밍 및 데이터 분석에 상당히 …

34 time-series python curve-fitting