통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

17
한 문장으로 통계를 설명하는 방법?
통계를 처음 배우기 시작했을 때 t- 검정, 분산 분석, 카이 제곱 및 선형 회귀와 같은 절차는 각각 매우 다른 생물로 나타났습니다. 그러나 이제는 이러한 절차가 각각 똑같은 일을한다는 것을 알고 있습니다. 마찬가지로 분산, 잔차, 표준 오차 및 평균과 같은 값도 거의 같은 것을 측정합니다. 그래서 나는 이러한 모든 절차와 가치, …
27 definition 

4
R을 사용한 치수 축소에서 t-SNE 대 PCA의 문제점은 무엇입니까?
336x256 부동 소수점 수 (336 박테리아 게놈 (열) x 256 정규화 테트라 뉴클레오티드 빈도 (행)의 행렬을 가지고 있습니다 (예 : 모든 열은 1을 더합니다). 원리 성분 분석을 사용하여 분석을 실행할 때 좋은 결과를 얻습니다. 먼저 데이터에서 kmeans 클러스터를 계산 한 다음 PCA를 실행하고 2D 및 3D의 초기 kmeans 클러스터링을 기반으로 …
27 r  pca  tsne 



4
실험 설계의 함정 : 죽은 실험 피하기
나는이 인용문을 여러 번 보았습니다. 실험이 완료된 후 통계 학자와상의하는 것은 종종 사후 검증을 요청하는 것입니다. 그는 아마도 실험이 죽었다고 말할 수 있습니다. - 로널드 피셔 (1938) 나에게는 아마 조금 어쩌면 보인다. 내가 디자인을 잘하지 않고 실험을하는 방법을 설명 할 수있는 유일한 예는 통제력이 부족하거나 통제력이 부족한 것입니다. 예를 들어, …


2
중앙값 차이의 95 % 신뢰 구간을 구성하는 방법은 무엇입니까?
내 문제 : 평행 그룹 무작위 시험은 일차 결과의 매우 오른쪽으로 치우친 분포를 가지고 있습니다. 정규성을 가정하고 정규 기반 95 % CI를 사용하고 싶지 않습니다 (즉, 1.96 X SE 사용). 중앙 경향의 척도를 중앙값으로 표현하는 것이 편안하지만, 제 질문은 두 그룹 사이의 중앙값 차이의 95 % CI를 구성하는 방법입니다. 가장 …

7
상관 관계가 연관과 동등합니까?
저의 통계 교수는 "상관 관계"라는 단어는 변수 간의 선형 관계에만 엄격하게 적용되는 반면 "연관"이라는 단어는 모든 유형의 관계에 광범위하게 적용된다고 주장합니다. 다시 말해, 그는 "비선형 상관 관계"라는 용어가 옥시 모론이라고 주장합니다. " 상관 및 의존성 " 에 대한 Wikipedia 기사 의이 섹션 에서 수행 할 수있는 것에서 피어슨 상관 계수는 …

4
주요 목표가 소수의 구성 요소 만 추정하는 경우 PCA 또는 FA의 최소 표본 크기는?
관측치와 변수 (치수) 가있는 데이터 세트가 있고 일반적으로 이 작고 ( ) 가 작은 것 ( )에서 훨씬 더 큰 것 ( ).엔nn피피p엔엔nN = 12 - 16엔=12−16n=12-16피피pP = 4 - 10피=4−10p = 4-10P = 30 - 50피=30−50p= 30-50 주성분 분석 (PCA) 또는 요인 분석 (FA)을 실행하려면 이 보다 훨씬 커야한다는 …

5
PCA가 분류기의 결과를 악화시키는 원인은 무엇입니까?
교차 유효성 검사를 수행하는 분류 기가 있으며, 기능의 최적 조합을 찾기 위해 앞으로 선택하는 백여 가지 기능이 있습니다. 또한 PCA로 동일한 실험을 실행하는 것과 비교할 수 있는데, 여기서 잠재적 인 특징을 취하고 SVD를 적용하며 원래 신호를 새로운 좌표 공간으로 변환하고 앞으로 선택 프로세스에서 상위 기능을 사용합니다 .kkk 신호는 원래의 기능보다 …

5
생물학, 심리학 및 의학에서 lmer를 사용한 혼합 모형 분석에 대한 예제 보고서?
일반적인 합의 lmer()는 고전적인 분산 분석 대신 R에서 혼합 모델을 사용하는 것 같습니다 (불평형 설계, 교차 임의 효과 등 자주 인용되는 이유로), 나는 데이터를 사용 해보고 싶습니다. 그러나이 접근 방식을 관리자 (최종 p- 값으로 고전적인 분석을 기대하는 관리자) 또는 나중에 검토 자에게 "판매"할 수 있을지 걱정됩니다. 혼합 모델을 사용 lmer()하거나 …

2
다단계 모델에서, 랜덤 효과 상관 파라미터를 추정하는 것과 추정하지 않는 것에 대한 실질적인 의미는 무엇입니까?
다단계 모델에서 추정과 랜덤 효과 상관 모수의 추정과 비교의 실제적이고 해석과 관련된 의미는 무엇입니까? 이를 요청하는 실제적인 이유는 R의 lmer 프레임 워크에서 매개 변수 간의 상관 모델에서 추정이 수행 될 때 MCMC 기법을 통해 p- 값을 추정하는 방법이 없기 때문입니다. 예를 들어이 예제 (아래 인용 부분)를 보면 M2와 M3의 실제 …

3
p <.05에서 공개 된 p- 값 분포의 불연속성을 유발하는 원인은 무엇입니까?
최근 논문 에서 Masicampo and Lalande (ML)는 여러 연구에서 발표 된 많은 p- 값을 수집했습니다. 그들은 표준 임계치 5 %에서 p- 값의 히스토그램에서 호기심 많은 점프를 관찰했습니다. Wasserman 교수의 블로그에서이 ML 현상에 대한 좋은 토론이 있습니다. http://normaldeviate.wordpress.com/2012/08/16/p-values-gone-wild-and-multiscale-madness/ 그의 블로그에는 히스토그램이 있습니다. 5 % 수준은 자연의 법칙이 아니라 관례이기 때문에 출판 …

1
모형에서 항을 제거한 후 적절한 잔차 자유도
저는 이 질문 에 대한 토론 과 특히 축소 된 모형 (예 : 여러 설명 변수가 테스트되고 거부 된 모형)의 분산 추정치는 Ye의 일반화 된 자유도를 사용해야한다는 Frank Harrell의 의견을 반영하고 있습니다 . Harrell 교수는 이것이 최종 모델 (여러 변수가 기각 된)의 모델보다 원래의 "풀"모델 (모든 변수가 포함 된)의 잔류 …


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.