통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

2
정규 분포 데이터의 평균 및 분산을 추정하기 위해 여러 연구의 정보 결합-베이지안 대 메타 분석 접근법
나는 각각의 알려진 크기 표본에서 측정의 관측 평균과 SD를보고하는 일련의 논문을 검토했습니다 . 나는 내가 설계하고있는 새로운 연구에서 같은 측정법의 가능한 분포와 그 추측에 얼마나 많은 불확실성이 있는지에 대해 최선의 추측을하고 싶습니다. ) 이라고 가정 합니다.n X ~ N ( μ , σ 2엑스엑스X엔엔n엑스~ N( μ , σ2엑스∼엔(μ,σ2X \sim N(\mu, …


3
t- 검정을 수행하기 위해 Excel을 사용하여 정규 분포를 확인하는 방법은 무엇입니까?
t-test를 사용하기위한 요구 사항이 충족되는지 확인하기 위해 Excel에서 데이터 세트의 정규성을 확인하는 방법 을 알고 싶습니다 . 오른쪽 꼬리의 경우 평균 및 표준 편차를 계산하고 평균에서 1, 2 및 3 표준 편차를 더하여 범위를 만든 다음 사용 후 표준 정규 분포의 표준 68 / 95 / 99.7과 비교하는 것이 적절합니다. …

6
후부는 이전과 가능성과 매우 다릅니다
이전과 가능성이 서로 매우 다른 경우, 때때로 후부가 그들과 유사하지 않은 상황이 발생합니다. 정규 분포를 사용하는이 그림을 참조하십시오. 이것은 수학적으로 정확하지만 내 직감과 일치하지 않는 것 같습니다. 데이터가 내 견실 한 신념이나 데이터와 일치하지 않으면 범위가 잘 맞지 않을 것으로 예상되며 평소보다 뒤 떨어질 것으로 기대합니다 이전과 가능성에 대한 전체 …

6
기술 통계량과 추론 통계의 차이점은 무엇입니까?
필자는 이해 통계가 데이터 샘플의 기능을 정량적으로 설명하는 반면 추론 통계는 샘플을 추출한 모집단에 대해 추론했다는 것을 이해했습니다. 그러나 통계적 추론 상태에 대한 Wikipedia 페이지는 다음과 같습니다. 대부분의 경우 통계적 추론은 임의의 형태의 무작위 표본 추출을 통해 관심있는 모집단에서 얻은 데이터를 사용하여 모집단에 대해 제안합니다. "대부분"은 내가이 개념들을 제대로 이해하지 …

1
매우 작은 가능성 값을 확률로 변환 (정규화)
모델이 주어지면 데이터 세트 목록에 대한 가능성을 계산 한 다음 각 가능성에 대해 정규화해야합니다. 따라서 [0.00043, 0.00004, 0.00321]과 같은 것은 [0.2, 0.03, 0.77]과 같은 것으로 변환 될 수 있습니다. 내 문제는 내가 작업하고있는 로그 가능성이 매우 작다는 것입니다 (예를 들어, 로그 공간에서 값은 -269647.432, -231444.981 등입니다). 내 C ++ 코드에서 …

3
Bonferroni 조정 사용 방법 및시기
Bonferroni 조정 사용시기에 관한 두 가지 질문이 있습니다. 여러 번의 모든 테스트에서 Bonferroni 조정을 사용하는 것이 적절합니까? 데이터 세트에 대한 테스트를 수행하는 경우 해당 데이터 세트를 더 세밀한 수준으로 분할하고 (예 : 성별로 데이터를 분할) 동일한 테스트를 수행하는 경우 인식되는 개별 테스트 수에 어떤 영향을 줄 수 있습니까? 즉, 남성과 …

1
카운트 데이터에서 특이 값 탐지
나는 여러 가지 카운트 데이터 세트에 대한 이상치 탐지와 관련하여 상당히 직설적 인 문제라고 생각했습니다. 특히, 일련의 카운트 데이터에서 하나 이상의 값이 분포의 나머지 카운트에 비해 예상보다 높거나 낮은 지 확인하고 싶습니다. 혼란스러운 요소는 3,500 개의 분포에 대해이 작업을 수행해야하며 일부는 0으로 과도하게 분산 된 포아송에 적합하고 다른 일부는 음 …

3
사전에 켤레가있는 경우 : 깊은 속성 또는 수학 사고?
일부 분포는 켤레 이전이 있으며 일부는 그렇지 않습니다. 이 구별은 단지 사고 일까? 즉, 당신은 수학을 수행하며, 어떤 식 으로든 효과가 있지만 사실 자체를 제외하고 분포에 대해 중요한 것을 말하지는 않습니까? 또는 접합체의 존재 유무는 분포의 더 깊은 특성을 반영합니까? 켤레 사전 분포를 갖는 분포는 다른 분포가 부족하고 다른 분포가 …

5
랜덤 포레스트 vs 회귀
5 개의 독립 변수가있는 데이터 세트에서 OLS 회귀 모델을 실행했습니다. 독립 변수와 종속 변수는 연속적이고 선형 적으로 관련되어 있습니다. R 광장은 약 99.3 %입니다. 그러나 R에서 임의의 포리스트를 사용하여 동일하게 실행하면 결과는 '% Var 설명 : 88.42'입니다. 임의의 숲 결과가 회귀보다 열등한 이유는 무엇입니까? 나는 임의의 숲이 최소한 OLS 회귀만큼 …

4
다중 대치 및 모델 선택
추정하고자 하는 선례 선형 모형 이있는 경우 다중 대치가 매우 간단합니다 . 그러나 실제로 일부 모델 선택을 원할 때 상황이 약간 까다로워 보입니다 (예 : 더 큰 후보 변수 세트에서 "최상의"예측 변수 세트를 찾으십시오-특히 LASSO 및 R을 사용하는 분수 다항식을 생각하고 있습니다). 한 가지 아이디어는 결 측값이있는 원래 데이터에 모형을 …

1
사람들이 베이지안 추론에 사용하는 교재 MCMC 알고리즘에 비해 잘 알려진 개선 사항은 무엇입니까?
일부 문제에 대해 Monte Carlo 시뮬레이션을 코딩 할 때 모델이 충분히 단순 할 때 매우 기본적인 교과서 Gibbs 샘플링을 사용합니다. Gibbs 샘플링을 사용할 수없는 경우 몇 년 전에 배운 교과서 Metropolis-Hastings를 코딩합니다. 내가 그것에 대한 유일한 생각은 점프 분포 또는 매개 변수를 선택하는 것입니다. 교과서 옵션보다 수백, 수백 가지의 특수한 …

5
랜덤 포레스트에서 오 분류 비용을 제어하는 ​​방법은 무엇입니까?
R 패키지 randomForest 에서 오 분류 비용을 제어 할 수 있습니까? 내 자신의 연구에서 허위 부정 (예를 들어, 사람이 질병을 앓고있을 수있는 오류가 없음)은 허위 양성보다 훨씬 비쌉니다. 패키지 부품 은 사용자가 잘못 분류 된 가중치를 다르게하는 손실 매트릭스를 지정함으로써 잘못된 분류 비용을 제어 할 수 있도록합니다. 비슷한 것이 randomForest있습니까? …

5
R을 통한 통계 / 수학 학습 (실행 중이 아닌) 소스
나는 R을 통해 통계 및 수학 개념을 배우기 위한 소스 (R 코드, R 패키지, 서적, 서적 장, 기사, 링크 등)의 예에 관심이 있습니다 ( 다른 언어를 통해서도 가능하지만 R은 내가 가장 좋아하는 맛입니다). 재료 학습은 알고리즘을 수행하는 코드를 실행하는 방법 만이 아니라 프로그래밍에 의존한다는 것이 문제입니다. 예를 들어 R 이있는 …

3
SVD를 공동 필터링 문제에 적용하면 어떻게됩니까? 둘의 차이점은 무엇입니까?
협업 필터링에는 값이 채워지지 않은 값이 있습니다. 사용자가 영화를 보지 않았다고 가정하면 'na'를 넣어야합니다. 이 행렬의 SVD를 가져 오려면 0을 말합니다. 이제 행렬을 분해하면 비슷한 사용자를 찾는 방법이 있습니다. 감소 된 차원 공간). 그러나 사용자가 항목에 대해 예상하는 기본 설정 자체는 0입니다. (알 수없는 열에 입력 한 것이기 때문에). 그래서 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.