통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

2
추정기의 시퀀스 유엔유엔U_n 파라미터에 대한 θθ\theta 경우 점근 정상 엔−−√( U엔− θ ) → N( 0 , v )엔(유엔−θ)→엔(0,V)\sqrt{n}(U_n - \theta) \to N(0,v). (소스) 우리는 다음 통화VVv의 점근 분산유엔유엔U_n. 이 분산이Cramer-Rao bound와같으면추정기 / 시퀀스가 ​​점진적으로 효율적이라고합니다. 질문 : 왜 우리는 √ 를 사용합니까엔−−√엔\sqrt{n}특히 n ? 표본 평균의 경우 Va r …

2
정규 분포의 첨도가 0이 아닌 3 인 이유
정규 분포의 첨도는 3이라는 진술의 의미는 무엇입니까? 그것은 수평선에서 3의 값이 최대 확률에 해당한다는 것을 의미합니까? 3은 시스템의 모드입니까? 정상적인 곡선을 볼 때, 중심에서 일명 0이 발생하는 것처럼 보입니다. 왜 첨도는 0이 아닌 3입니까?

3
0이 아닌 점근 적 분산으로 점근 적 일관성-무엇을 나타내는가?
문제가 전에 제기되었지만 문제를 명확히하고 분류 할 수있는 답변을 이끌어 낼 구체적인 질문을하고 싶습니다. "가난한 사람의 무증상"에서, (a) 확률로 상수로 수렴하는 무작위 변수의 시퀀스 대조적으로 (b) 확률 변수에서 확률 변수로 수렴하는 (따라서 분포) 무작위 변수의 순서. 그러나 "Wise Man 's Asymptotics"에서 우리는 또한 (c) 한계에서 0이 아닌 분산을 유지하면서 확률로 …

1
이진 분류를위한 손실 함수 선택
사람들이 종종 ROC-AUC 또는 AveP (평균 정밀도)를 보고하는 문제 영역에서 일 합니다. 그러나 최근에 Log Loss 를 최적화하는 논문을 찾았 지만 다른 사람들은 Hinge Loss를 보고했습니다 . 이러한 측정 항목이 계산되는 방식을 이해하고 있지만, 이러한 측정 항목 간의 균형을 이해하는 데 어려움을 겪고 있습니다. ROC-AUC vs Precision-Recall과 관련 하여이 스레드 …

2
두 개의 랜덤 변수의 합으로서 균일 한 랜덤 변수
Grimmet과 Stirzaker 에서 가져온 것 : 표시는 경우가 아닐 수 있다는 것을 균일 [0,1]에 분포하고 및 독립적 동일하게 분포한다. 당신은 안 X 및 Y가 연속 변수 있다고 가정합니다.U=X+YU=X+YU=X+YUUUXXXYYY 와 같이 항상 와 를 찾을 수 있다고 주장함으로써 , 가 불연속적인 것으로 가정 되는 경우 모순에 의한 간단한 증거로 충분합니다. 반면 …

3
최적화 기법이 샘플링 기법에 매핑됩니까?
일반적인 샘플링 알고리즘에서 최적화 알고리즘을 도출 할 수 있습니다. 실제로 임의의 함수 를 최대화하려면에프: x → f( x )에프:엑스→에프(엑스)f: \textbf{x} \rightarrow f(\textbf{x}) 에서 샘플을 추출하면 충분합니다 . 들어 작은만큼,이 샘플은 기능의 세계 최대 (또는 실제로 지역 최대) 근처에 떨어질 것입니다 .지∼ 전자에프/ T지∼이자형에프/티g \sim e^{f/T}티티T에프에프f "샘플링"이란 상수까지 알려진 로그 우도 …

4
및 , 의 독립성에 대한 직관은 무엇입니까 ?
나는 누군가가 확률 변수 이유를 설명하는 인수 제안 할 수있는 기대했다 및 , 표준 정규 분포를 갖는이 통계적으로 독립적입니다. 그 사실에 대한 증거는 MGF 기술에서 쉽게 따르지만 매우 반 직관적입니다.Y1=X2−X1Y1=X2−X1Y_1=X_2-X_1Y2=X1+X2Y2=X1+X2Y_2=X_1+X_2XiXiX_i 따라서 여기에 직관에 감사드립니다. 미리 감사드립니다. 편집 : 아래 첨자는 주문 통계가 아니라 표준 정규 분포에서 IID 관찰을 나타냅니다.

2
범주 형 변수가 여러 개인 경우 베타 해석
범주 변수가 0 (또는 참조 그룹) 인 경우 이 평균 이라는 개념을 이해하므로 회귀 계수가 두 범주의 평균 차이라는 최종 해석을 제공합니다. > 2 범주를 사용하더라도 각 는 해당 범주의 평균과 참조의 차이점을 설명 한다고 가정 합니다. ββ^0β^0\hat\beta_0β^β^\hat\beta 그러나 다 변수 모델에 더 많은 변수가 도입되면 어떻게 될까요? 이제 두 …

3
카운트 데이터에 대한 음 이항 GLM 대 로그 변환 : 유형 I 오류율 증가
여러분 중 일부는이 멋진 논문을 읽었을 것입니다. O'Hara RB, Kotze DJ (2010) 카운트 데이터를 로그 변환하지 마십시오. 생태와 진화의 방법 1 : 118–122. 톡 . 제 연구 분야 (생태 독성)에서는 제대로 복제되지 않은 실험을 다루고 있으며 GLM은 널리 사용되지 않습니다. 그래서 O'Hara & Kotze (2010)와 비슷한 시뮬레이션을 수행했지만 생태 독성 …

3
결과가 "매우 중요"하다고 말하는 것이 잘못입니까?
p- 값이 기존 α- 수준 0.05 보다 훨씬 낮을 때 통계 학자들이 왜 결과를 " 매우 유의미한" 것으로 언급하지 못하게 하는가?pppαα\alpha0.050.050.05 99 % ( p = 0.01 )의 확률 만 제공하는 결과보다 99.9 %의 확률로 Type I 오류 ( ) 가 아닌 결과를 신뢰하는 것이 실제로 잘못 입니까?p=0.001p=0.001p=0.001p=0.01p=0.01p=0.01

1
주성분 분석을 사용하여 데이터를 희게하는 방법은 무엇입니까?
내 데이터를 변환 할 등의 차이가 하나가 될 것이며, 공분산가 0 (즉, 내가 희게 데이터에 원하는)이 될 것입니다. 또한 평균은 0이어야합니다.XX\mathbf X Z 표준화 및 PCA 변환을 수행하면 어떻게됩니까? 그러나 어떤 순서로 수행해야합니까? 작성된 미백 변환은 형식이어야합니다 .x↦Wx+bx↦Wx+b\mathbf{x} \mapsto W\mathbf{x} + \mathbf{b} PCA와 비슷한 방법으로 이러한 변환을 정확하게 수행하고 위의 …

4
숨겨진 마르코프 모델 훈련, 여러 훈련 인스턴스
이 튜토리얼 http://cs229.stanford.edu/section/cs229-hmm.pdf 에 따라 개별 HMM을 구현했습니다 . 이 튜토리얼과 다른 사람들은 항상 관찰 순서가 주어진 HMM 훈련에 대해 이야기합니다. 교육 시퀀스가 ​​여러 개인 경우 어떻게됩니까? 순차적으로 모델을 훈련시켜야합니까? 또 다른 옵션은 시퀀스를 하나로 연결하고 학습하는 것입니다.하지만 한 시퀀스의 끝에서 다음 시퀀스의 시작으로 전환하는 상태가됩니다.

3
베이지안 통계가 통계 프로세스 제어에 더 인기가없는 이유는 무엇입니까?
베이지안 대 잦은 논쟁에 대한 나의 이해는 잦은 통계입니다. 객관적이거나 주장 또는 적어도 편견 서로 다른 가정을 사용하는 다른 연구자들은 여전히 ​​정량적으로 비교 가능한 결과를 얻을 수 있습니다. 베이지안 통계 사전 지식을 사용할 수 있기 때문에 "더 나은"예측 (즉, 예상 손실 감소) 주장 최소한의 "임시"선택이 필요하며 (적어도 원칙적으로는) 실제 해석이 …

9
참조 요청 : 일반화 선형 모형
일반화 선형 모형에 대한 중간 수준의 서적을 찾고 있습니다. 이상적으로는 모델 배후의 이론 외에도 R 또는 다른 프로그래밍 언어로 응용 프로그램과 예제를 포함하고 싶습니다. SAS도 널리 사용됩니다. 나는 그것을 스스로 연구하려고하므로 그것이 자체 운동에 대한 답변을 제공하면 도움이 될 것입니다. 제가 계산법과 확률 이론에서 전통적인 1 년 과정을 수강했다고 가정 …

4
상관 관계의 비 일시성 : 성별과 뇌의 크기, 뇌의 크기와 IQ 간의 상관 관계는 있지만 성별과 IQ의 상관 관계는 없음
블로그에서 다음 설명을 발견했으며 상관의 비 일시성에 대한 자세한 정보를 얻고 싶습니다. 다음과 같은 확실한 사실이 있습니다. 평균적으로 남성과 여성의 뇌량에는 차이가 있습니다 IQ와 뇌 크기 사이에는 상관 관계가 있습니다. 상관 관계는 0.33이므로 IQ 변동성의 10 %에 해당합니다. 이 구내 1과 2에서 논리적으로 다음과 같이 보입니다. 평균적으로 여성은 남성보다 IQ가 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.