통계 및 빅 데이터

5

유한 한 인구에서 희귀 사건을 연구하고 싶습니다. 어떤 전략이 가장 적합한 지 잘 모르겠 기 때문에이 문제와 관련된 팁과 참고 자료를 높이 평가할 것입니다. 나는 어디서부터 시작 해야할지 정말로 모른다. 내 문제는 정치 과학 문제이며 515,843 개의 기록으로 구성된 유한 한 인구가 있습니다. 이 변수는 513,334 "0"및 2,509 "1"의 이진 …

27 logistic rare-events

3

차원 에서 두 개의 임의 단위 벡터의 스칼라 곱 분포

경우 xx\mathbf{x} 및 yy\mathbf{y} 두 개의 독립적 인 임의의 단위 벡터이다 RDRD\mathbb{R}^D (균일 단위 구에 분포)는, 그 내적의 분포 (내적) 무엇 x⋅yx⋅y\mathbf x \cdot \mathbf y ? 나는 DDD 빠르게 분포를 증가함에 따라 (?) 평균이 0이되고 되고 더 큰 차원에서 분산이 감소 limD→∞σ2(D)→0,limD→∞σ2(D)→0,\lim_{D\to\infty}\sigma^2(D) \to 0,하지만 \ sigma ^ 2 (D)에 …

27 mathematical-statistics linear-algebra beta-distribution

7

Naive Bayes에서 테스트 세트에 알 수없는 단어가있을 때 Laplace 스무딩을 방해하는 이유는 무엇입니까?

나는 오늘 Naive Bayes Classification을 읽고있었습니다. 매개 변수 추정 이라는 제목 아래 에 1 스무딩을 추가했습니다 . 하자 ccc (같은 양 또는 음 등) 클래스를 참조하고,하자 www 토큰 또는 단어를 참조하십시오. P(w|c)P(w|c)P(w|c) 의 최대 우도 추정값 은 c o u n t ( w , c )c o u n …

27 machine-learning classification text-mining naive-bayes laplace-smoothing

1

유사도 행렬을 (유클리드) 거리 행렬로 변환

랜덤 포레스트 알고리즘에서 Breiman (저자)은 다음과 같이 유사성 매트릭스를 구성합니다. 모든 학습 예제를 숲의 각 나무 아래로 보냅니다. 두 개의 예제가 동일한 리프에 도달하면 유사성 매트릭스의 해당 요소가 1 씩 증가합니다. 나무 수로 행렬 정규화 그는 말한다 : 케이스 n과 k 사이의 근접성은 행렬 {prox (n, k)}를 형성합니다. 그들의 정의에 …

27 random-forest distance similarities euclidean

4

표준 편차를 사용하여 특이 값 탐지

내 질문에 따라 여기 , 내가 또는 아웃 라이어를 감지하는 표준 편차의 사용에 대한 강력한 견해가 있는지 궁금 (예를 들어 2 개 이상의 표준 편차가 특이하다 모든 데이터 포인트를). 나는 이것이 연구의 맥락에 의존한다는 것을 알고있다. 예를 들어, 48kg의 데이터 포인트는 확실히 아기의 체중에 대한 연구에서 특이하지만 성인의 체중에 대한 …

27 outliers

3

미백은 항상 좋은가요?

머신 러닝 알고리즘의 일반적인 전처리 단계는 데이터 미백입니다. 데이터의 상관 관계를 해제하여 모델링하기가 더 간단하기 때문에 항상 미백을 수행하는 것이 좋습니다. 미백은 언제 권장되지 않습니까? 참고 : 데이터의 상관 관계를 언급하고 있습니다.

27 data-transformation

1

일반화 된 추정 방정식과 GLMM의 차이점은 무엇입니까?

로짓 링크를 사용하여 3 수준의 불균형 데이터에서 GEE를 실행하고 있습니다. 혼합 효과 (GLMM) 및 로짓 링크가있는 GLM과 이것이 어떻게 다른지 (내가 그릴 수있는 결론과 계수의 의미 측면에서) 어떻게 다릅니 까? 자세한 내용은 단일 베르누이 시험입니다. 그들은 교실과 학교로 묶여 있습니다. R의 경우. NA의 Casewise 생략. 6 개의 예측 변수도 상호 …

27 logistic mixed-model generalized-linear-model interpretation gee

2

k- 폴드 교차 검증의 분산 추정치

K- 폴드 교차 검증은 주어진 분류기의 일반화 능력을 추정하는 데 사용될 수 있습니다. 분산의 더 나은 추정치를 얻기 위해 모든 검증 실행에서 풀링 된 분산을 계산할 수 있습니까? 그렇지 않다면 왜? 교차 검증 실행에서 풀링 된 표준 편차를 사용하는 논문을 발견했습니다 . 나는 또한 검증 분산에 대한 보편적 추정기 가 …

27 machine-learning cross-validation

3

미가공 데이터 또는 잔차와 같은 정규성에 대해 무엇을 확인해야합니까?

나는 원시 데이터가 아닌 잔차에 대한 정규성을 테스트해야한다는 것을 배웠습니다. 잔차를 계산 한 다음 Shapiro–Wilk의 W 검정을 수행해야합니까? 잔차는 다음과 같이 계산됩니다. ?Xi−meanXi−meanX_i - \text{mean} 내 데이터와 디자인에 대한 이 이전 질문 을 참조하십시오 .

27 normality-assumption residuals assumptions

2

for 루프에서 변수 이름 목록을 생성 한 후 값을 지정하십시오.

for 루프를 사용하여 변수 목록을 생성하고 그 값을 제공하는 간단한 방법이 있는지 궁금합니다. for(i in 1:3) { noquote(paste("a",i,sep=""))=i } 위의 코드에서, 내가 만들려고 a1, a2, a3, 1, 2, 3. 그러나, R는 오류 메시지를 제공의 값으로하는 할당합니다. 당신의 도움을 주셔서 감사합니다.

27 r

5

99 백분위 수 또는 100 백분위 수가 있습니까? 그리고 그들은 숫자의 그룹입니까, 또는 개별 숫자에 대한 분배기 또는 포인터입니까?

99 백분위 수 또는 100 백분위 수가 있습니까? 그리고 그들은 숫자 그룹, 구분선 또는 개별 숫자에 대한 포인터입니까? 동일한 질문이 사 분위수 또는 임의의 분위수에 적용될 것이라고 가정합니다. n 개의 항목이 주어지면 특정 백분위 수 (p)의 숫자 색인이 다음과 같다는 것을 읽었습니다. i = (p / 100) * n 그것은 …

27 quantiles

2

분산과 평균 제곱 오차의 차이는 무엇입니까?

이것이 이전에 요청되지 않은 것에 놀랐지 만 stats.stackexchange에서 질문을 찾을 수 없습니다. 정규 분포 표본의 분산을 계산하는 공식입니다. ∑(X−X¯)2n−1∑(X−X¯)2n−1\frac{\sum(X - \bar{X}) ^2}{n-1} 다음은 간단한 선형 회귀 분석에서 관측치의 평균 제곱 오차를 계산하는 공식입니다. ∑(yi−y^i)2n−2∑(yi−y^i)2n−2\frac{\sum(y_i - \hat{y}_i) ^2}{n-2} 이 두 공식의 차이점은 무엇입니까? 내가 볼 수있는 유일한 차이점은 MSE가 사용한다는 것 …

27 variance error

3

감독 된 머신 러닝 모델이 과적 합인지 판단하는 방법?

감독 된 머신 러닝 모델이 과적 합인지 판단하는 방법을 아는 사람이 있습니까? 외부 검증 데이터 세트가없는 경우 10 배 교차 검증의 ROC를 사용하여 과적 합을 설명 할 수 있는지 알고 싶습니다. 외부 유효성 검사 데이터 집합이있는 경우 다음에 어떻게해야합니까?

27 machine-learning

4

고정 테스트와 단위 루트 테스트의 차이점은 무엇입니까?

Kwiatkowski–Phillips–Schmidt–Shin (KPSS) 테스트와 증강 된 Dickey-Fuller (ADF) 테스트의 차이점은 무엇입니까? 그들은 같은 것을 테스트하고 있습니까? 아니면 다른 상황에서 사용해야합니까?

27 time-series stationarity unit-root augmented-dickey-fuller kpss-test

4

확률 표기법의 의미

많은 책과 논문에서 일반적으로 사용되는 표기법 와 의미 차이는 무엇입니까?P(z;d,w)P(z;d,w)P(z;d,w)P(z|d,w)P(z|d,w)P(z|d,w)

27 probability notation