통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

2
영국 영어의 "Normal Distribution"에서 "N"을 대문자로 사용해야합니까?
이 질문은 약간의 논란의 여지가 있지만 여기서 커뮤니티가 주제에 대해 강한 견해를 가지고 있다고 생각했습니다! 박사 학위 논문을 쓰고 있습니다. 일관 적으로 가우시안 분포와 공식적으로 관련된 양에 대해 이야기 할 때, 나는 "Normal"에서 "N"을 대문자로 표기했습니다. 예를 들어, "[... 그런 상황에서] 결과 분포는 보통이 아니라 오히려 [...]로 설명됩니다. 관리자가 관련 …


2
축소 된
Pearson 상관 계수의 모집단 값에 대한 두 가지 유형의 추정기에 대해 머릿속에 약간의 혼란이있었습니다. A. Fisher (1915) 는 2 변량 정규 모집단의 경우 경험적 이 의 음으로 바이어스 된 추정 인 것으로 나타 났지만, 바이어스는 작은 샘플 크기 ( )에 대해서만 실질적으로 상당한 양일 수 있음을 보여 줍니다. 샘플 은 …

1
적절한 채점 규칙 중에서 선택
적절한 점수 규칙에 대한 대부분의 리소스에는 로그 손실, 브리 어 점수 또는 구면 점수와 같은 여러 가지 점수 규칙이 언급되어 있습니다. 그러나 그들은 종종 그들 사이의 차이점에 대해 많은 지침을 제공하지 않습니다. (A 전시회 : Wikipedia ) 로그 점수를 최대화하는 모델을 선택하는 것은 최대 가능성 모델을 선택하는 것과 일치하며, 이는 …

2
최소 제곱 법 회귀 단계별 선형 대수 계산
R의 선형 혼합 모델에 대한 질문에 대한 전편으로 초보자 / 중급 통계 애호가를위한 참고 자료로 공유하기 위해, 나는 "수동"계산에 관련된 단계를 독립적 인 "Q & A- 스타일"로 게시하기로 결정했습니다. 간단한 선형 회귀의 계수 및 예측 값. 예는 R 내장 데이터 세트를 사용하며 mtcars, 독립 변수 역할을하는 차량이 소비하는 갤런 당 …

1
차원 수가 경우 데이터에 대해 주요 구성 요소 만있는 이유는 무엇 입니까?
PCA에서,시 치수의 개수 샘플 수 (또는 동일)보다 큰 , 이유는 기껏해야한다는 것이다 비제로 고유 벡터? 다시 말해, 차원 들 사이의 공분산 행렬의 순위 는 이다.N N - 1 d ≥ N N - 1디dd엔NN엔− 1N−1N-1디≥ Nd≥Nd\ge N엔− 1N−1N-1 예 : 샘플은 크기의 벡터화 된 이미지 이지만 이미지 만 있습니다 .N …

2
“환율 감소 회귀”란 무엇입니까?
통계 학습의 요소를 읽었으며 3.7 "여러 결과 축소 및 선택"섹션이 무엇인지 이해할 수 없었습니다. 그것은 RRR (환원 순위 회귀)에 대해 이야기하며, 전제는 계수가 알려지지 않았고 (추정되어야하지만) 전체 순위를 갖지 않는 것으로 알려진 일반 다변량 선형 모델에 대해서만 이해할 수 있습니다. 그것이 내가 이해하는 유일한 것입니다. 나머지 수학은 저 너머에 있습니다. …

4
우발 사태 테이블에 가장 적합한 시각화는 무엇입니까?
통계적 관점에서 우연히 카이 제곱 검정으로 분석되는 우발 사태 표 를 나타내는 가장 좋은 도표 는 무엇입니까? 피한 막대 그래프, 누적 막대 그래프, 히트 맵, 등고선도, 흔들린 산점도, 여러 줄 그림 등입니까? 절대 값 또는 백분율을 표시해야합니까? 편집 : 또는 @forecaster가 주석에서 제안하는 것처럼 숫자 표 자체는 단순한 음모이며 충분해야합니다.


6
고급 회귀 모델링 예제
GLM 또는 OLS를 사용하여 복잡한 다중 비선형 관계를 모델링하는 데 필요한 단계를 보여주는 고급 선형 회귀 사례 연구를 찾고 있습니다. 기본 학교의 예를 넘어서는 자료를 찾는 것은 놀랍게도 어려운 일입니다. 제가 읽은 대부분의 책은 하나의 예측 변수의 BoxCox 또는 최상의 경우 자연스러운 스플라인과 결합 된 응답의 로그 변환 이상으로 진행되지 …

2
주어진 표본 공분산 행렬로 데이터 생성
공분산 행렬 주어지면 샘플 공분산 행렬 가되도록 데이터를 생성하는 방법은 무엇입니까?Σ = Σ (S)ΣsΣs\boldsymbol \Sigma_sΣ^=ΣsΣ^=Σs\hat{\boldsymbol \Sigma} = \boldsymbol \Sigma_s 더 일반적으로 : 우리는 종종 밀도 에서 데이터를 생성하는 데 관심이 있으며 , 데이터 x 에 일부 매개 변수 벡터 \ boldsymbol \ theta가 있습니다. 그 결과 샘플이되며, 여기서 \ boldsymbol …

3
밀도 추정에 베이지안 접근법이 있습니까?
연속 랜덤 변수 의 밀도를 추정하고 싶습니다 . 내가 배운 한 가지 방법은 Kernel Density Estimation을 사용하는 것입니다.XXX 그러나 이제 다음 줄을 따라 베이지안 접근 방식에 관심이 있습니다. 나는 처음에 가 분포 따른 다고 믿는다 . 나는 읽습니다 . 새로운 수치를 기반으로 를 업데이트하는 방법이 있습니까?F n X FXXXFFFnnnXXXFFF 나는 …

2
Wilcoxon Rank Sum Test와 Wilcoxon Signed Rank Test의 차이점
페어링 된 관측 값을 사용하여 Wilcoxon Rank-Sum Test와 Wilcoxon Signed-Rank Test의 이론적 차이점이 무엇인지 궁금했습니다. Wilcoxon Rank-Sum Test는 두 개의 서로 다른 샘플에서 서로 다른 양의 관측을 허용하는 반면, 짝을 이룬 샘플에 대한 Signed-Rank 테스트는 허용하지 않지만 내 의견으로는 동일하게 테스트하는 것 같습니다. 누군가 Wilcoxon Rank-Sum Test를 사용해야 할 때와 …

5
Casella & Berger 이후에 무엇을 배워야합니까?
저는 응용 수학에 대한 배경 지식이없는 순수한 수학 대학원생입니다. 지난 가을부터 나는 Casella & Berger의 책에서 수업을 들었고,이 책에서 운동 문제의 페이지 수백 (230+)을 마쳤습니다. 지금 나는 10 장에 있습니다. 그러나 통계학을 전공하지 않았거나 통계학자가 될 계획이 없었기 때문에 데이터 분석을 계속 배우기 위해 정기적으로 시간을 투자 할 수는 없다고 …


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.