통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

4
부트 스트랩을 작은 샘플 크기의 "치료"로 볼 수 있습니까?
이 질문은이 대학원 수준의 통계 교과서에서 읽은 내용과 통계 세미나 에서이 프레젠테이션 중에 들었던 내용에 의해 유발되었습니다. 두 경우 모두,이 문장은 "샘플 크기가 매우 작기 때문에이 파라 메트릭 방법 대신 부트 스트랩을 통해 추정을 수행하기로 결정했습니다 .XXX 그들은 세부 사항을 얻지 못했지만 아마도 추론은 다음과 같습니다. 방법 는 데이터가 특정 …

8
기존 변수와 정의 된 상관 관계를 갖는 랜덤 변수 생성
시뮬레이션 연구를 위해 기존 변수 와의 미리 정의 된 (인구) 상관 관계를 나타내는 임의의 변수를 생성해야합니다 .YYY I는 들여다 R패키지 copula와 CDVine소정 의존성 구조 랜덤 변수 분포를 생성 할 수있다. 그러나 결과 변수 중 하나를 기존 변수에 고정 할 수 없습니다. 기존 기능에 대한 아이디어와 링크를 부탁드립니다! 결론 : 서로 …

4
주요 성분 분석과 비교하여 표준 상관 분석이 수행하는 작업을 시각화하는 방법은 무엇입니까?
정식 상관 분석 (CCA)은 주성분 분석 (PCA)과 관련된 기술입니다. 산점도를 사용하여 PCA 또는 선형 회귀를 가르치는 것은 쉽지만 (Google 이미지 검색에 대한 수천 가지 예 참조) CCA에 대한 유사한 직관적 인 2 차원 예는 보지 못했습니다. 선형 CCA의 기능을 시각적으로 설명하는 방법은 무엇입니까?

12
선형 회귀에 대한 가장 일반적인 오해는 무엇입니까?
다른 연구자들과 협력 한 경험이있는 사람들에게 선형 회귀에 대한 가장 일반적인 오해는 무엇입니까? 나는 일반적인 오해를 미리 생각하기에 유용한 운동이 될 수 있다고 생각한다. 사람들의 실수를 예상하고 왜 잘못된 생각이 틀린지 분명히 설명 할 수 있어야합니다 내가 약간의 오해를 겪고 있는지 깨달으십시오! 내가 생각할 수있는 몇 가지 기본 사항 : …

5
시계열 모델 선택에 k- 폴드 교차 검증 사용
질문 : 무언가를 확신하고 싶습니다 . 시계열과 함께 k- 폴드 교차 검증을 사용하는 것이 간단합니까, 사용하기 전에 특별한주의를 기울여야합니까? 배경 : 5 분마다 데이터 샘플을 사용하여 6 년의 시계열 (반 마코프 체인 사용)을 모델링하고 있습니다. 여러 모델을 비교하기 위해 6 년 안에 데이터를 분리하여 6 배 교차 검증을 사용하고 있으므로 …

9
계량 경제학과 다른 통계학 분야의 주요 철학, 방법론 및 용어의 차이점은 무엇입니까?
계량 경제학은 전통적인 통계와 실질적으로 중복되지만 종종 다양한 주제 ( "식별", "외인성"등)에 대한 자체 전문 용어를 사용합니다. 한 번 다른 용어로 적용된 통계 교수가 용어가 다르지만 개념은 동일하다고 들었습니다. 그러나 그것은 또한 고유의 방법과 철학적 차이를 가지고 있습니다 (Heckman의 유명한 에세이가 떠 오릅니다). 계량 경제학과 주류 통계 사이에는 어떤 용어 …

10
t- 검정이 유효하기 위해 필요한 최소 표본 크기가 있습니까?
저는 현재 유사 실험 연구 논문을 작성 중입니다. 선택한 지역 내 인구가 적고 15 개만 기준에 맞기 때문에 표본 크기는 15입니다. t- 검정 및 F- 검정에 대해 계산할 최소 표본 크기는 15입니까? 그렇다면이 작은 표본 크기를 지원하는 기사 나 책을 어디서 구할 수 있습니까? 이 문서는 지난 월요일 이미 변호되었으며, …

9
중요한 F 통계량 (p <.001)이지만 중요하지 않은 회귀 분석 t- 검정을 얻는 이유는 무엇입니까?
다중 선형 회귀 분석에서 왜 유의 한 F 통계량 (p &lt;.001)을 가질 수 있지만 모든 회귀 분석에서 t- 값이 매우 높은가? 내 모델에는 10 개의 회귀자가 있습니다. 하나는 p- 값이 0.1이고 나머지는 0.9 이상입니다. 이 문제를 해결 하려면 다음 질문을 참조하십시오 .

15
설명 적 모델링과 예측 모델링에 대한 실질적인 생각
지난 4 월에 UMD 수 학부 통계 그룹 세미나 시리즈에서 "설명 또는 예측"이라는 주제의 연설에 참석했습니다. 이 연설은 UMD의 Smith Business School에서 가르치는 Galit Shmueli 교수에 의해 진행되었습니다 . 그녀의 연설은 "IS Research의 예측 대 설명 모델링" 이라는 제목의 논문 과 "설명 또는 예측할 것인가?" 라는 제목의 후속 작업 논문 …

2
Keras 'Embedding'레이어는 어떻게 작동합니까?
Keras 라이브러리에서 'Embedding'레이어의 작동을 이해해야합니다. 파이썬에서 다음 코드를 실행합니다. import numpy as np from keras.models import Sequential from keras.layers import Embedding model = Sequential() model.add(Embedding(5, 2, input_length=5)) input_array = np.random.randint(5, size=(1, 5)) model.compile('rmsprop', 'mse') output_array = model.predict(input_array) 다음과 같은 출력을 제공합니다 input_array = [[4 1 3 3 3]] output_array = …

3
신경망 연구자들이 신기원에 관심을 갖는 이유는 무엇입니까?
확률 적 경사 하강에서의 에포크 (epoch)는 데이터를 통한 단일 통과로 정의된다. 각 SGD 미니 배치에 샘플이 추출되고, 기울기가 계산되고 매개 변수가 업데이트됩니다. 에포크 설정에서 샘플은 교체없이 추출됩니다.kkk 그러나 이것은 불필요한 것 같습니다. 각 반복마다 전체 데이터 세트에서 랜덤 드로우 로 각 SGD 미니 배치를 그리지 않겠 습니까? 많은 수의 에포크 …


9
시계열에서 이상을 탐지하기 위해 어떤 알고리즘을 사용해야합니까?
배경 Network Operations Center에서 일하고 있으며 컴퓨터 시스템 및 성능을 모니터링합니다. 모니터링 할 주요 지표 중 하나는 현재 서버에 연결된 많은 방문자 / 고객입니다. 이를 보이기 위해 (Ops 팀) 시계열 데이터와 같은 메트릭을 수집하고 그래프를 그립니다. Graphite 는 우리가 그것을 할 수있게 해줍니다.이 API는 갑작스런 하락 (주로) 및 기타 변경이 …

1
교차 검증, 학습 곡선 및 최종 평가를 위해 데이터 세트를 분할하는 방법은 무엇입니까?
데이터 세트를 분할하기위한 적절한 전략은 무엇입니까? 나는 다음과 같은 접근 방식에 대한 피드백을 요청 (안 같은 개별 매개 변수에 대한 test_size또는 n_iter,하지만 내가 사용하는 경우 X, y, X_train, y_train, X_test, 그리고 y_test적절하고 순서가 의미가있는 경우) : ( scikit-learn 문서 에서이 예제를 확장 ) 1. 데이터 셋로드 from sklearn.datasets import load_digits …

4
R 함수 prcomp와 princomp의 차이점은 무엇입니까?
Q 모드와 R 모드 주요 구성 요소 분석 (PCA)에 대해 비교 ?prcomp하고 ?princomp찾았습니다. 그러나 정직하게 – 나는 그것을 이해하지 못한다. 아무도 차이점을 설명하고 언제 적용 할 것인지 설명 할 수 있습니까?
69 r  pca 

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.