통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

5
드문 이벤트 로지스틱 회귀를 처리하는 전략
유한 한 인구에서 희귀 사건을 연구하고 싶습니다. 어떤 전략이 가장 적합한 지 잘 모르겠 기 때문에이 문제와 관련된 팁과 참고 자료를 높이 평가할 것입니다. 나는 어디서부터 시작 해야할지 정말로 모른다. 내 문제는 정치 과학 문제이며 515,843 개의 기록으로 구성된 유한 한 인구가 있습니다. 이 변수는 513,334 "0"및 2,509 "1"의 이진 …

3
차원 에서 두 개의 임의 단위 벡터의 스칼라 곱 분포
경우 xx\mathbf{x} 및 yy\mathbf{y} 두 개의 독립적 인 임의의 단위 벡터이다 RDRD\mathbb{R}^D (균일 단위 구에 분포)는, 그 내적의 분포 (내적) 무엇 x⋅yx⋅y\mathbf x \cdot \mathbf y ? 나는 DDD 빠르게 분포를 증가함에 따라 (?) 평균이 0이되고 되고 더 큰 차원에서 분산이 감소 limD→∞σ2(D)→0,limD→∞σ2(D)→0,\lim_{D\to\infty}\sigma^2(D) \to 0,하지만 \ sigma ^ 2 (D)에 …

7
Naive Bayes에서 테스트 세트에 알 수없는 단어가있을 때 Laplace 스무딩을 방해하는 이유는 무엇입니까?
나는 오늘 Naive Bayes Classification을 읽고있었습니다. 매개 변수 추정 이라는 제목 아래 에 1 스무딩을 추가했습니다 . 하자 ccc (같은 양 또는 음 등) 클래스를 참조하고,하자 www 토큰 또는 단어를 참조하십시오. P(w|c)P(w|c)P(w|c) 의 최대 우도 추정값 은 c o u n t ( w , c )c o u n …

1
유사도 행렬을 (유클리드) 거리 행렬로 변환
랜덤 포레스트 알고리즘에서 Breiman (저자)은 다음과 같이 유사성 매트릭스를 구성합니다. 모든 학습 예제를 숲의 각 나무 아래로 보냅니다. 두 개의 예제가 동일한 리프에 도달하면 유사성 매트릭스의 해당 요소가 1 씩 증가합니다. 나무 수로 행렬 정규화 그는 말한다 : 케이스 n과 k 사이의 근접성은 행렬 {prox (n, k)}를 형성합니다. 그들의 정의에 …

4
표준 편차를 사용하여 특이 값 탐지
내 질문에 따라 여기 , 내가 또는 아웃 라이어를 감지하는 표준 편차의 사용에 대한 강력한 견해가 있는지 궁금 (예를 들어 2 개 이상의 표준 편차가 특이하다 모든 데이터 포인트를). 나는 이것이 연구의 맥락에 의존한다는 것을 알고있다. 예를 들어, 48kg의 데이터 포인트는 확실히 아기의 체중에 대한 연구에서 특이하지만 성인의 체중에 대한 …
27 outliers 

3
미백은 항상 좋은가요?
머신 러닝 알고리즘의 일반적인 전처리 단계는 데이터 미백입니다. 데이터의 상관 관계를 해제하여 모델링하기가 더 간단하기 때문에 항상 미백을 수행하는 것이 좋습니다. 미백은 언제 권장되지 않습니까? 참고 : 데이터의 상관 관계를 언급하고 있습니다.

1
일반화 된 추정 방정식과 GLMM의 차이점은 무엇입니까?
로짓 링크를 사용하여 3 수준의 불균형 데이터에서 GEE를 실행하고 있습니다. 혼합 효과 (GLMM) 및 로짓 링크가있는 GLM과 이것이 어떻게 다른지 (내가 그릴 수있는 결론과 계수의 의미 측면에서) 어떻게 다릅니 까? 자세한 내용은 단일 베르누이 시험입니다. 그들은 교실과 학교로 묶여 있습니다. R의 경우. NA의 Casewise 생략. 6 개의 예측 변수도 상호 …

2
k- 폴드 교차 검증의 분산 추정치
K- 폴드 교차 검증은 주어진 분류기의 일반화 능력을 추정하는 데 사용될 수 있습니다. 분산의 더 나은 추정치를 얻기 위해 모든 검증 실행에서 풀링 된 분산을 계산할 수 있습니까? 그렇지 않다면 왜? 교차 검증 실행에서 풀링 된 표준 편차를 사용하는 논문을 발견했습니다 . 나는 또한 검증 분산에 대한 보편적 추정기 가 …

3
미가공 데이터 또는 잔차와 같은 정규성에 대해 무엇을 확인해야합니까?
나는 원시 데이터가 아닌 잔차에 대한 정규성을 테스트해야한다는 것을 배웠습니다. 잔차를 계산 한 다음 Shapiro–Wilk의 W 검정을 수행해야합니까? 잔차는 다음과 같이 계산됩니다. ?Xi−meanXi−meanX_i - \text{mean} 내 데이터와 디자인에 대한 이 이전 질문 을 참조하십시오 .

2
for 루프에서 변수 이름 목록을 생성 한 후 값을 지정하십시오.
for 루프를 사용하여 변수 목록을 생성하고 그 값을 제공하는 간단한 방법이 있는지 궁금합니다. for(i in 1:3) { noquote(paste("a",i,sep=""))=i } 위의 코드에서, 내가 만들려고 a1, a2, a3, 1, 2, 3. 그러나, R는 오류 메시지를 제공의 값으로하는 할당합니다. 당신의 도움을 주셔서 감사합니다.
27 r 

5
99 백분위 수 또는 100 백분위 수가 있습니까? 그리고 그들은 숫자의 그룹입니까, 또는 개별 숫자에 대한 분배기 또는 포인터입니까?
99 백분위 수 또는 100 백분위 수가 있습니까? 그리고 그들은 숫자 그룹, 구분선 또는 개별 숫자에 대한 포인터입니까? 동일한 질문이 사 분위수 또는 임의의 분위수에 적용될 것이라고 가정합니다. n 개의 항목이 주어지면 특정 백분위 수 (p)의 숫자 색인이 다음과 같다는 것을 읽었습니다. i = (p / 100) * n 그것은 …
27 quantiles 

2
분산과 평균 제곱 오차의 차이는 무엇입니까?
이것이 이전에 요청되지 않은 것에 놀랐지 만 stats.stackexchange에서 질문을 찾을 수 없습니다. 정규 분포 표본의 분산을 계산하는 공식입니다. ∑(X−X¯)2n−1∑(X−X¯)2n−1\frac{\sum(X - \bar{X}) ^2}{n-1} 다음은 간단한 선형 회귀 분석에서 관측치의 평균 제곱 오차를 계산하는 공식입니다. ∑(yi−y^i)2n−2∑(yi−y^i)2n−2\frac{\sum(y_i - \hat{y}_i) ^2}{n-2} 이 두 공식의 차이점은 무엇입니까? 내가 볼 수있는 유일한 차이점은 MSE가 사용한다는 것 …
27 variance  error 

3
감독 된 머신 러닝 모델이 과적 합인지 판단하는 방법?
감독 된 머신 러닝 모델이 과적 합인지 판단하는 방법을 아는 사람이 있습니까? 외부 검증 데이터 세트가없는 경우 10 배 교차 검증의 ROC를 사용하여 과적 합을 설명 할 수 있는지 알고 싶습니다. 외부 유효성 검사 데이터 집합이있는 경우 다음에 어떻게해야합니까?



당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.