통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

1
제로 상관 혼합 모델은 이론적으로 건전한시기는 언제입니까?
혼합 효과 모델링 분야의 리더로부터 아래 블록 인용문은 랜덤 효과 ( 'ZCP'모델) 간의 상관 관계가 0 인 모델의 좌표 이동이 모델 예측을 변경한다고 주장합니다. 그러나 누군가가 자신의 주장을 자세히 설명하거나 정당화 할 수 있습니까? 문제의 진술은 7 페이지, 두 번째 단락 ( 다운로드 링크 ) 에 대한 Bates et al의 …

4
가변 중요도 순위는 무엇에 유용합니까?
가변 중요도 순위 (모든 종류의 다변량 모델의 ​​맥락에서)와 관련하여 나는 다소 nihilist가되었습니다 . 종종 업무 수행 중에 다른 팀이 가변 중요도 순위를 생성하도록 지원하거나 내 업무에서 가변 중요도 순위를 생성하도록 요청받습니다. 이러한 요청에 따라 다음과 같은 질문을합니다. 이 변수 중요도 순위는 무엇입니까? 무엇으로부터 배우고 싶습니까? 어떤 결정을 사용하고 싶습니까? 내가받는 …

2
로그 정규 분포의 모멘트 추정치
로그 정규 분포 샘플링으로 구성된 몇 가지 수치 실험을 하고 두 가지 방법으로 모멘트 을 추정하려고 합니다.X∼LN(μ,σ)X∼LN(μ,σ)X\sim\mathcal{LN}(\mu, \sigma)E[Xn]E[Xn]\mathbb{E}[X^n] 의 표본 평균을 보면XnXnX^n 의 표본 평균을 사용하여 및 를 추정 한 다음 로그 정규 분포의 경우 .μμ\muσ2σ2\sigma^2log(X),log2(X)log⁡(X),log2⁡(X)\log(X), \log^2(X)E[Xn]=exp(nμ+(nσ)2/2)E[Xn]=exp⁡(nμ+(nσ)2/2)\mathbb{E}[X^n]=\exp(n \mu + (n \sigma)^2/2) 문제는 : 실험적으로 두 번째 방법은 첫 번째 방법보다 …

8
확률의 오차 막대에 의미가 있습니까?
사람들은 종종 어떤 사건이 일어날 확률이 50-60 %라고 말합니다. 때로는 사람들이 확률 할당에 대해 명시적인 오차 막대를 표시하는 것을 볼 수 있습니다. 이 진술들은 어떤 의미를 가지고 있거나 본질적으로 알 수없는 무언가를 위해 특정한 숫자를 선택하는 불편한 언어 적 문제 일까?

0
Jaynes의 분포
제인스 '책에서 "확률 이론 : 과학의 논리" , 제인스는 제목의 장 (채널 18)는 "이 그는의 아이디어 소개하는 유통 및 승계의 규칙" 이 구절이 설명하는 데 도움이 배포판 :에이피에이피A_p에이피에이피A_p [...] 이것을 보려면 새로운 정보를 얻는 효과를 상상해보십시오. 우리가 동전을 다섯 번 던져서 매번 꼬리를 낸다고 가정 해보십시오. 당신은 다음 던질 때 …

2
일반화 선형 (혼합) 모델 진단 (특히 잔차)
현재 어려운 카운트 데이터 (종속 변수)에 적합한 모델을 찾는 데 어려움을 겪고 있습니다. 나는 여러 가지 다른 모델을 시도했다 (혼합 효과 모델은 데이터의 나의 종류에 필요한)와 같은 lmer과 lme4아니라 가우시안 (Gaussian) 또는 음 이항 등 다양한 가족과 함께 혼합 효과 모델 선형 일반화로 (로그로 변환). 그러나 결과 피팅을 올바르게 진단하는 …


1
최첨단 스트리밍 학습
나는 최근에 큰 데이터 세트로 작업 해 왔으며 많은 스트리밍 방법 논문을 발견했습니다. 몇 가지 예를 들면 다음과 같습니다. 규제 리더 및 미러 하강 : 등가 이론 및 L1 정규화 ( http://jmlr.org/proceedings/papers/v15/mcmahan11b/mcmahan11b.pdf ) 스트리밍 학습 : 단일 패스 SVM ( http://www.umiacs.umd.edu/~hal/docs/daume09onepass.pdf ) Pegasos : SVM을위한 Primal Estimated sub-GrAdient SOlver http://ttic.uchicago.edu/~nati/Publications/PegasosMPB.pdf …

1
t- 검정 사망에 대한보고가 크게 과장 되었습니까?
CV 상시 고전을 통해 나는 명확히하고 싶은 진술을 보았습니다. 이 글은 글 이며 내 질문은 마지막 말을 인용한다. "방금 전 준 모든 지식이 다소 쓸모가 없다는 점에 주목해야한다. 이제 우리는 컴퓨터를 가지고 있으므로 t- 테스트보다 더 잘할 수있다. Frank는 아마도 t- 테스트를 수행하도록 배운 곳이라면 Wilcoxon 테스트를 사용하고 싶을 것입니다. …

5
최대 가능성 추정-많은 경우에 편향에도 불구하고 사용되는 이유
최대 우도 추정은 종종 편향 추정기로 귀결됩니다 (예를 들어, 표본 분산에 대한 추정은 가우스 분포에 대해 편향됩니다). 그렇다면 무엇이 그렇게 인기가 있습니까? 왜 그렇게 많이 사용됩니까? 또한 대안적인 접근 방식보다 더 나은 점은 무엇입니까? 또한 가우시안의 경우 MLE 추정기의 간단한 스케일링으로 인해 편향되지 않은 것으로 나타났습니다. 이 스케일링이 표준 절차가 …

4
하나의 플롯에서 많은 변수 시각화
특정 변수의 값 (~ 15)이 시간이 지남에 따라 어떻게 변하는 지 보여주고 싶지만, 매년 변수가 어떻게 다른지 보여주고 싶습니다. 그래서 나는이 줄거리를 만들었습니다. 그러나 색 구성표를 변경하거나 다른 선 / 모양 유형을 추가 할 때도 지저분 해 보입니다. 이런 종류의 데이터를 시각화하는 더 좋은 방법이 있습니까? R 코드를 사용한 테스트 …


3
직교, 상관 관계 및 독립성의 관계는 무엇입니까?
계획된 대비를 사용하여 일원 분산 분석에서 다른 방법을 찾을 때, 해석은 서로 관련이 없으며 제 1 종 오류가 부풀려지지 않도록 직교해야한다는 기사를 읽었습니다. 어떤 상황에서도 직교가 상관되지 않는 이유를 이해하지 못합니다. 시각적 / 직관적 인 설명을 찾을 수 없으므로이 기사 / 답변을 이해하려고했습니다. https://www.psych.umn.edu/faculty/waller/classes/FA2010/Readings/rodgers.pdf 통계의 맥락에서 직교는 무엇을 의미합니까? 그러나 …

5
주요 주성분은 어떻게 종속 변수에 대한 예측력을 유지할 수 있습니까 (또는 더 나은 예측으로 이어질 수 있습니까)?
회귀 실행한다고 가정하십시오 . 성분을 선택하여 왜 모델이 에 대한 예측력을 유지 합니까?k X YY∼XY∼XY \sim XkkkXXXYYY 차원 축소 / 기능 선택 관점에서 가 상위 고유 값을 가진 의 공분산 행렬의 고유 벡터 이면 는 상위 주요 구성 요소입니다 최대 분산으로. 따라서 우리는 의 피처 수를 줄이고 예측력의 대부분을 이해할 …


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.