통계 및 빅 데이터

30

저는 교육 통계학자가 아니며 소프트웨어 엔지니어입니다. 그러나 통계가 많이 나옵니다. 실제로 Certified Software Development Associate 시험 (수학 및 통계는 시험의 10 %)을 공부하는 과정에서 Type I 및 Type II 오류에 대한 질문이 많이 나옵니다. 나는 항상 유형 I 및 유형 II 오류에 대한 올바른 정의를 제시하는 데 어려움을 겪고 있습니다. …

88 terminology type-i-and-ii-errors

14

일반 시계열의 온라인 이상 값 탐지를위한 간단한 알고리즘

많은 시계열로 작업하고 있습니다. 이 시계열은 기본적으로 10 분마다 오는 네트워크 측정이며, 일부는 주기적 (예 : 대역폭)이고 다른 일부는 그렇지 않습니다 (예 : 라우팅 트래픽의 양). 온라인 "이상 점 탐지"를위한 간단한 알고리즘을 원합니다. 기본적으로 각 시계열에 대한 전체 기록 데이터를 메모리 (또는 디스크)에 유지하고 라이브 시나리오에서 새 이상 치를 캡처하려고합니다 …

88 time-series outliers mathematical-statistics real-time

2

lme4의 수렴 경고에 대해 얼마나 두려워해야합니까?

우리가 글머를 다시 장착하면 모델이 수렴하기 어려운 시간을 찾고 있다는 경고를받을 수 있습니다 ... 예 : >Warning message: In checkConv(attr(opt, "derivs"), opt$par, ctrl = control$checkConv, : Model failed to converge with max|grad| = 0.00389462 (tol = 0.001) @Ben Bolker 가이 스레드 에서 설명한 수렴을 확인하는 다른 방법 은 다음과 같습니다. …

88 r mixed-model lme4-nlme

3

계급 부족이란 무엇이며 어떻게 처리합니까?

사용하여 로지스틱 회귀 피팅 lme4가 로 끝을 Error in mer_finalize(ans) : Downdated X'X is not positive definite. 이 오류의 가능한 원인은 명백히 순위 부족입니다. 계급 부족이란 무엇이며 어떻게 해결해야합니까?

87 r logistic lme4-nlme

5

K- 평균과 K- 최근 접 이웃의 주요 차이점은 무엇입니까?

k-means는 감독되지 않으며 클러스터링 등에 사용되며 k-NN은 감독됨을 알고 있습니다. 그러나 나는 둘 사이의 구체적인 차이점을 알고 싶습니까?

86 machine-learning k-means k-nearest-neighbour

2

요즘 컴퓨터의 힘을 감안할 때 Fisher의 정확한 테스트보다는 카이 제곱 테스트를 수행해야 할 이유가 있습니까?

소프트웨어가 오늘날 피셔의 정확한 테스트 계산을 매우 쉽게 수행 할 수 있다고 가정하면 이론적으로나 실제로 카이 제곱 테스트가 피셔의 정확한 테스트보다 선호되는 상황이 있습니까? Fisher의 정확한 테스트의 장점은 다음과 같습니다. 2x2보다 큰 우발 상황 테이블로 스케일링 (즉, 모든 r x c 테이블) 정확한 p- 값을 제공합니다 최소 예상 셀 수를 …

86 chi-squared contingency-tables fishers-exact

3

"순진한 부트 스트랩"이 실패하는 예는 무엇입니까?

알 수 없거나 복잡한 분포의 표본 데이터 집합이 있고 데이터의 통계적 에 대해 약간의 추론을 수행하려고한다고 가정 합니다. 내 기본 성향은 교체와 부트 스트랩 샘플의 무리를 생성하고, 내 통계 계산하는 것입니다 위한 추정 분포를 생성하기 위해 각각의 부트 스트랩 샘플 .TTTTTTTTT 이것이 나쁜 생각의 예는 무엇입니까? 예를 들어,이 부트 스트랩을 …

86 hypothesis-testing confidence-interval bootstrap

9

정확하게 신뢰 구간은 무엇입니까?

나는 신뢰 구간이 대략적이고 비공식적으로 알고 있습니다. 그러나 한 가지 중요한 세부 사항으로 머리를 감쌀 수는 없습니다. Wikipedia에 따르면 : 신뢰 구간은 모수의 실제 값이 실제로 얻은 데이터를 감안할 때 신뢰 구간에있을 확률이 있음을 예측하지 않습니다. 이 사이트의 여러 곳에서 비슷한 점을 보았습니다. Wikipedia에서보다 정확한 정의는 다음과 같습니다. 반복 된 …

86 confidence-interval definition

9

선형 회귀 분석에서 다중 공선 성이 문제인 이유에 대한 직관적 인 설명이 있습니까?

이 위키에서는 다중 공선 성 이 선형 회귀 문제 일 때 발생하는 문제에 대해 설명합니다 . 기본 문제는 다중 공선 성으로 인해 모수 추정값이 불안정하여 종속 변수에 대한 독립 변수의 영향을 평가하기가 매우 어렵다는 것입니다. 내가 문제 뒤에있는 기술적 인 이유를 이해 (반전 할 수 없습니다 , 악조건의 등) 그러나 …

85 regression intuition multicollinearity

17

모형의 주 효과는 아니지만 상호 작용 포함

주요 효과를 포함하지 않고 모델에 양방향 상호 작용을 포함시키는 것이 유효한가요? 가설이 상호 작용에 관한 것이라면 여전히 주 효과를 포함해야합니까?

85 regression modeling interaction regression-coefficients

16

상관 관계는 어떤 조건에서 인과 관계를 암시합니까?

우리는 모두 1 학년 통계 학생들에게 드러난 "상관이 인과 관계를 암시하지는 않는다"라는 만트라를 알고 있습니다. 아이디어를 설명하기위한 몇 가지 좋은 예가 있습니다 . 그러나 때때로 상관 관계 는 인과 관계를 암시합니다. 다음 예제는이 Wikipedia 페이지 에서 가져 왔습니다 . 예를 들어, 테스트에서 지속적으로 동일한 성적을 얻는 것으로 알려진 동일한 쌍둥이에 …

85 correlation causality

24

"현대"통계를위한 경험 법칙

나는에 G 반 벨의 책처럼 엄지 손가락의 통계 규칙 , 그리고 정도는 덜 통계의 일반적인 오류 (및이를 방지하는 방법) 필립 나는 좋은 제임스 W. 하딘에서. 실험 및 관찰 연구 결과를 해석 할 때의 일반적인 함정을 다루고 통계적 추론 또는 탐색 적 데이터 분석에 대한 실제 권장 사항을 제공합니다. 그러나 나는 …

85 modeling eda rule-of-thumb

4

혼합 효과 모델을 위해 nlme 또는 lme4 R 라이브러리를 선택하는 방법은 무엇입니까?

내가 사용하는 몇 가지 혼합 효과 모델 (특히 세로 모델)에 맞게이 lme4에서를 R하지만 정말 모델과 그들과 함께가는 코드를 마스터하고 싶습니다. 그러나 두 발로 다이빙하기 전에 (그리고 책을 사기 전에) 올바른 라이브러리를 배우고 있는지 확인하고 싶습니다. lme4방금보다 쉽게 발견했기 때문에 지금까지 사용 nlme했지만 nlme내 목적에 더 좋으면 사용해야한다고 생각합니다. 나는 단순한 …

85 r mixed-model lme4-nlme

8

평균이 너무 민감한 경우, 처음에 왜 사용합니까?

중앙값이 특이 치에 내성이 있다는 것은 알려진 사실입니다. 그렇다면 언제, 왜 우리는 처음부터 평균을 사용합니까? 내가 생각할 수있는 한 가지는 특이 치의 존재를 이해하는 것입니다. 즉, 중앙값이 평균과 거리가 먼 경우 분포가 왜곡되고 특이 치로 수행 할 작업을 결정하기 위해 데이터를 검사해야 할 수도 있습니다. 다른 용도가 있습니까?

84 mathematical-statistics mean median

1

시계열 예측에 신경망을 적용하는 방법은 무엇입니까?

저는 기계 학습에 익숙하지 않고 신경망을 시계열 예측에 적용하는 방법을 알아 내려고 노력했습니다. 쿼리와 관련된 리소스를 찾았지만 여전히 약간 손실 된 것 같습니다. 너무 자세하지 않은 기본적인 설명이 도움이 될 것이라고 생각합니다. 몇 년에 걸쳐 매월 가격 값이 있고 새로운 가격 값을 예측하고 싶다고 가정 해 봅시다. 지난 몇 달 …

83 time-series forecasting neural-networks