통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

2
임의 포리스트의 상관 관계가 높은 변수가 정확도와 기능 선택을 왜곡하지 않습니까?
내 이해에서, 상관 관계가 높은 변수는 임의 포리스트 모델에서 다중 공선 성 문제를 일으키지 않습니다 (잘못되면 수정하십시오). 그러나 다른 방법으로, 비슷한 정보를 포함하는 변수가 너무 많으면 다른 모델이 아닌이 세트에서 모델 가중치가 너무 커 집니까? 예를 들어, 동일한 예측 검정력을 가진 두 세트의 정보 (A, B)가 있습니다. 변수 , , …

2
엔트로피는 우리에게 무엇을 말합니까?
엔트로피 에 대해 읽고 있으며 연속 사례에서 의미하는 바를 개념화하는 데 어려움을 겪고 있습니다. 위키 페이지는 다음을 나타냅니다. 모든 이벤트의 정보량과 결합 된 이벤트의 확률 분포는 예상 값이이 분포에 의해 생성 된 평균 정보량 또는 엔트로피 인 랜덤 변수를 형성합니다. 연속적인 확률 분포와 관련된 엔트로피를 계산하면 실제로 무엇을 알 수 …
32 entropy 

5
왜 "이 분산"또는 "이 분산"의 두 가지 철자가 있습니까?
나는 종종 철자법 "heteroskedastic"과 "heteroscedastic"과 "homoscedastic"과 "homoskedastic"을 모두 볼 수있다. "c"와 "k"변형 사이의 의미에는 차이가없는 것, 단순히 단어의 그리스어 어원과 관련된 직교상의 차이가 있습니다. 두 가지 다른 철자의 기원은 무엇입니까? 하나의 사용법이 다른 것보다 더 일반적이며 지역이나 연구 분야 간의 차이를 반영합니까, 아니면 권위 (또는 실제로 편집) 선호도를 반영합니까? 한편, …

2
로지스틱 회귀 분석 : Bernoulli 대 이항 반응 변수
다음 이항 반응과 예측 변수로 및 를 사용하여 로지스틱 회귀를 수행하고 싶습니다 . X1X1X_1X2X2X_2 Bernoulli 응답과 동일한 데이터를 다음 형식으로 표시 할 수 있습니다. 이 두 데이터 세트에 대한 로지스틱 회귀 출력은 거의 동일합니다. 이탈 잔차와 AIC가 다릅니다. (널 이탈과 잔차 이탈의 차이는 두 경우 모두-0.228입니다.) 다음은 R의 회귀 출력입니다. …


3
관찰 된 데이터 (일명 낚시 원정)와 일치하도록 가설을 변경하고 제 1 종 오류의 증가를 피할 수 있습니까?
연구자들은 가설을 형성하기 전에 기존 데이터 와 연구를 관찰하고 탐색 한 다음 그 가설을 검정하기 위해 데이터를 수집하는 데 시간 을 소비 해야한다는 것이 잘 알려져 있습니다 (널-가설 유의성 테스트 참조). 많은 기본 통계 책은 가설 이 선험적 으로 형성되어야하며 데이터 수집 후 변경 될 수 없다고 경고합니다 . 그렇지 …

5
모델 선택의 AIC 지침
필자는 일반적으로 BIC를 AIC보다 parsimony를 더 중요하게 생각한다는 점을 이해하고 있습니다. 그러나 지금은보다 포괄적 인 접근 방식을 사용하기로 결정했으며 AIC도 사용하고 싶습니다. 나는 Raftery (1995)가 BIC 차이에 대한 훌륭한 지침을 제시했다는 것을 알고있다. 나는 교과서를 보았고 AIC에서 이상하게 보였습니다 (더 큰 차이는 약하고 AIC의 작은 차이는 하나의 모델이 더 좋습니다). …


1
임시 네트워크에서 링크 이상 탐지
나는 트랜드 주제를 예측하기 위해 링크 이상 감지를 사용하는이 논문을 발견했으며,이 논문은 "링크 이상 감지를 통해 소셜 스트림에서 신흥 주제 발견" 이라는 놀라운 흥미를 발견했다 . 다른 데이터 세트에 복제하고 싶지만 사용 방법을 알 수있는 방법에 익숙하지 않습니다. 6 개월 동안 일련의 노드 네트워크에 대한 스냅 샷이 있다고 가정 해 …

1
R에서 anova () 함수를 사용하여 두 모델 비교
의 설명서에서 anova(): 일련의 객체가 주어지면 'anova'는 지정된 순서대로 모델을 테스트합니다. 모델을 서로 테스트한다는 것은 무엇을 의미합니까? 왜 순서가 중요합니까? 다음은 GenABEL 튜토리얼 의 예입니다 . > modelAdd = lm(qt~as.numeric(snp1)) > modelDom = lm(qt~I(as.numeric(snp1)>=2)) > modelRec = lm(qt~I(as.numeric(snp1)>=3)) anova(modelAdd, modelGen, test="Chisq") Analysis of Variance Table Model 1: qt ~ as.numeric(snp1) …
32 r  anova 

3
커널 로지스틱 회귀 분석 vs SVM
모두에게 알려진 바와 같이, SVM은 커널 방법을 사용하여 더 높은 공간에서 데이터 지점을 투영하여 지점을 선형 공간으로 분리 할 수 ​​있습니다. 그러나 로지스틱 회귀를 사용하여 커널 공간에서이 경계를 선택할 수 있으므로 SVM의 장점은 무엇입니까? SVM은 예측시 지원 벡터 만 기여하는 희소 모델을 사용하므로 예측시 SVM이 더 빨라 집니까?
32 svm 


5
정치 여론 조사에 왜 이렇게 큰 표본 크기가 있습니까?
뉴스를 보았을 때 대통령 선거와 같은 것들에 대한 갤럽 여론 조사에서 표본 크기가 1,000 개가 넘는 것으로 나타났습니다. 내가 대학 통계에서 기억하는 것으로부터 표본 크기 30은 "상당히 큰"표본이라는 것이 었습니다. 반품 감소로 인해 30을 초과하는 샘플 크기는 의미가없는 것으로 보입니다.

3
알려진 그룹 분산, 평균 및 표본 크기를 고려하여 둘 이상의 그룹의 풀 분산을 계산하는 방법은 무엇입니까?
요소가 두 그룹 ( 과 ) 으로 나뉘어 있다고 가정 합니다. 첫 번째 그룹의 분산은 이고 두 번째 그룹의 분산은 입니다. 요소 자체는 알 수없는 것으로 가정되지만 및 수단을 알고 있습니다.m+n엠+엔m+nm엠mn엔nσ2mσ엠2\sigma_m^2σ2nσ엔2\sigma^2_nμmμ엠\mu_mμnμ엔\mu_n 결합 분산 을 계산하는 방법이 있습니까?σ2(m+n)σ(엠+엔)2\sigma^2_{(m+n)} 분모가되도록 분산 바이어스 될 필요가 없다 아닌 .(m+n)(엠+엔)(m+n)(m+n−1)(엠+엔−1)(m+n-1)
32 variance  pooling 

3
결합 된 표준 편차를 찾을 수 있습니까?
내가 2 세트가 있다고 가정하십시오. 세트 A : 항목 수 n=10n=10n= 10 , μ=2.4μ=2.4\mu = 2.4 , σ=0.8σ=0.8\sigma = 0.8 B 설정 : 항목 수 n=5n=5n= 5 , μ=2μ=2\mu = 2 , σ=1.2σ=1.2\sigma = 1.2 결합 평균 ( μμ\mu )을 쉽게 찾을 수 있지만 결합 표준 편차를 어떻게 구해야합니까?

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.