통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

30
유형 I 및 유형 II 오류의 정의를 기억하는 방법이 있습니까?
저는 교육 통계학자가 아니며 소프트웨어 엔지니어입니다. 그러나 통계가 많이 나옵니다. 실제로 Certified Software Development Associate 시험 (수학 및 통계는 시험의 10 %)을 공부하는 과정에서 Type I 및 Type II 오류에 대한 질문이 많이 나옵니다. 나는 항상 유형 I 및 유형 II 오류에 대한 올바른 정의를 제시하는 데 어려움을 겪고 있습니다. …

14
일반 시계열의 온라인 이상 값 탐지를위한 간단한 알고리즘
많은 시계열로 작업하고 있습니다. 이 시계열은 기본적으로 10 분마다 오는 네트워크 측정이며, 일부는 주기적 (예 : 대역폭)이고 다른 일부는 그렇지 않습니다 (예 : 라우팅 트래픽의 양). 온라인 "이상 점 탐지"를위한 간단한 알고리즘을 원합니다. 기본적으로 각 시계열에 대한 전체 기록 데이터를 메모리 (또는 디스크)에 유지하고 라이브 시나리오에서 새 이상 치를 캡처하려고합니다 …

2
lme4의 수렴 경고에 대해 얼마나 두려워해야합니까?
우리가 글머를 다시 장착하면 모델이 수렴하기 어려운 시간을 찾고 있다는 경고를받을 수 있습니다 ... 예 : >Warning message: In checkConv(attr(opt, "derivs"), opt$par, ctrl = control$checkConv, : Model failed to converge with max|grad| = 0.00389462 (tol = 0.001) @Ben Bolker 가이 스레드 에서 설명한 수렴을 확인하는 다른 방법 은 다음과 같습니다. …



2
요즘 컴퓨터의 힘을 감안할 때 Fisher의 정확한 테스트보다는 카이 제곱 테스트를 수행해야 할 이유가 있습니까?
소프트웨어가 오늘날 피셔의 정확한 테스트 계산을 매우 쉽게 수행 할 수 있다고 가정하면 이론적으로나 실제로 카이 제곱 테스트가 피셔의 정확한 테스트보다 선호되는 상황이 있습니까? Fisher의 정확한 테스트의 장점은 다음과 같습니다. 2x2보다 큰 우발 상황 테이블로 스케일링 (즉, 모든 r x c 테이블) 정확한 p- 값을 제공합니다 최소 예상 셀 수를 …

3
"순진한 부트 스트랩"이 실패하는 예는 무엇입니까?
알 수 없거나 복잡한 분포의 표본 데이터 집합이 있고 데이터의 통계적 에 대해 약간의 추론을 수행하려고한다고 가정 합니다. 내 기본 성향은 교체와 부트 스트랩 샘플의 무리를 생성하고, 내 통계 계산하는 것입니다 위한 추정 분포를 생성하기 위해 각각의 부트 스트랩 샘플 .TTTTTTTTT 이것이 나쁜 생각의 예는 무엇입니까? 예를 들어,이 부트 스트랩을 …

9
정확하게 신뢰 구간은 무엇입니까?
나는 신뢰 구간이 대략적이고 비공식적으로 알고 있습니다. 그러나 한 가지 중요한 세부 사항으로 머리를 감쌀 수는 없습니다. Wikipedia에 따르면 : 신뢰 구간은 모수의 실제 값이 실제로 얻은 데이터를 감안할 때 신뢰 구간에있을 확률이 있음을 예측하지 않습니다. 이 사이트의 여러 곳에서 비슷한 점을 보았습니다. Wikipedia에서보다 정확한 정의는 다음과 같습니다. 반복 된 …

9
선형 회귀 분석에서 다중 공선 성이 문제인 이유에 대한 직관적 인 설명이 있습니까?
이 위키에서는 다중 공선 성 이 선형 회귀 문제 일 때 발생하는 문제에 대해 설명합니다 . 기본 문제는 다중 공선 성으로 인해 모수 추정값이 불안정하여 종속 변수에 대한 독립 변수의 영향을 평가하기가 매우 어렵다는 것입니다. 내가 문제 뒤에있는 기술적 인 이유를 이해 (반전 할 수 없습니다 , 악조건의 등) 그러나 …


16
상관 관계는 어떤 조건에서 인과 관계를 암시합니까?
우리는 모두 1 학년 통계 학생들에게 드러난 "상관이 인과 관계를 암시하지는 않는다"라는 만트라를 알고 있습니다. 아이디어를 설명하기위한 몇 가지 좋은 예가 있습니다 . 그러나 때때로 상관 관계 는 인과 관계를 암시합니다. 다음 예제는이 Wikipedia 페이지 에서 가져 왔습니다 . 예를 들어, 테스트에서 지속적으로 동일한 성적을 얻는 것으로 알려진 동일한 쌍둥이에 …

24
"현대"통계를위한 경험 법칙
나는에 G 반 벨의 책처럼 엄지 손가락의 통계 규칙 , 그리고 정도는 덜 통계의 일반적인 오류 (및이를 방지하는 방법) 필립 나는 좋은 제임스 W. 하딘에서. 실험 및 관찰 연구 결과를 해석 할 때의 일반적인 함정을 다루고 통계적 추론 또는 탐색 적 데이터 분석에 대한 실제 권장 사항을 제공합니다. 그러나 나는 …

4
혼합 효과 모델을 위해 nlme 또는 lme4 R 라이브러리를 선택하는 방법은 무엇입니까?
내가 사용하는 몇 가지 혼합 효과 모델 (특히 세로 모델)에 맞게이 lme4에서를 R하지만 정말 모델과 그들과 함께가는 코드를 마스터하고 싶습니다. 그러나 두 발로 다이빙하기 전에 (그리고 책을 사기 전에) 올바른 라이브러리를 배우고 있는지 확인하고 싶습니다. lme4방금보다 쉽게 ​​발견했기 때문에 지금까지 사용 nlme했지만 nlme내 목적에 더 좋으면 사용해야한다고 생각합니다. 나는 단순한 …

8
평균이 너무 민감한 경우, 처음에 왜 사용합니까?
중앙값이 특이 치에 내성이 있다는 것은 알려진 사실입니다. 그렇다면 언제, 왜 우리는 처음부터 평균을 사용합니까? 내가 생각할 수있는 한 가지는 특이 치의 존재를 이해하는 것입니다. 즉, 중앙값이 평균과 거리가 먼 경우 분포가 왜곡되고 특이 치로 수행 할 작업을 결정하기 위해 데이터를 검사해야 할 수도 있습니다. 다른 용도가 있습니까?

1
시계열 예측에 신경망을 적용하는 방법은 무엇입니까?
저는 기계 학습에 익숙하지 않고 신경망을 시계열 예측에 적용하는 방법을 알아 내려고 노력했습니다. 쿼리와 관련된 리소스를 찾았지만 여전히 약간 손실 된 것 같습니다. 너무 자세하지 않은 기본적인 설명이 도움이 될 것이라고 생각합니다. 몇 년에 걸쳐 매월 가격 값이 있고 새로운 가격 값을 예측하고 싶다고 가정 해 봅시다. 지난 몇 달 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.