통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

5
PCA가 거리 문제가있는 기하학적 문제에서 선형 대수 문제로 변하는 방법에 대한 직관적 설명은 무엇입니까?
나는 다양한 튜토리얼과 (같은 질문을 포함 PCA에 대해 많이 읽은 이 하나 , 이 하나 , 이 하나 , 그리고 이 일을 ). PCA가 최적화하려는 기하학적 문제는 나에게 분명합니다. PCA는 재구성 (투영) 오류를 최소화하여 첫 번째 주요 구성 요소를 찾으려고합니다. 내가 처음 읽을 때, 나는 선형 회귀와 같은 것을 즉시 …


4
상관 난수를 생성하는 방법 (제공된 평균, 분산 및 상관 정도)?
이것이 너무 기본적으로 보이지만 미안하지만 여기서 이해를 확인하려고합니다. 나는 두 단계 로이 작업을 수행해야한다는 감각을 얻었으며 상관 관계 행렬을 시작하려고 시도했지만 실제로 개입하기 시작했습니다. 상관 난수를 생성하는 훌륭하고 이상적인 빠른 방법에 대한 간결한 설명 (이상적으로 의사 코드 솔루션에 대한 힌트로)을 찾고 있습니다. 알려진 평균과 분산을 가진 두 개의 의사 난수 …

3
R에서 패키지로 제공되는 데이터 API / 피드
편집 : 웹 기술 및 서비스 CRAN 작업보기 에는 R에서 사용 가능한 훨씬 포괄적 인 데이터 소스 및 API 목록이 포함되어 있습니다. 작업보기에 패키지를 추가하려는 경우 github에서 풀 요청을 제출할 수 있습니다 . 이미 R에 연결되어 있거나 설정하기 쉬운 다양한 데이터 피드 목록을 작성 중입니다. 여기 패키지의 초기 목록이 있는데, …
53 r  references  dataset 

10
파이썬을 이용한 머신 러닝
기계 학습 실험을 위해 Python 라이브러리 사용을 고려하고 있습니다. 지금까지 WEKA에 의존하고 있었지만 전반적으로 불만족 스러웠습니다. WEKA가 제대로 지원되지 않는 것으로 나타났습니다 (예를 들어, 문서가 드물고 커뮤니티 지원이 내 경험에서 바람직하지 않습니다). 내가이 움직임을 생각하고있는 또 다른 이유는 내가 정말로 파이썬을 좋아하고 (파이썬에 익숙하지 않다) Java에서 코딩으로 돌아가고 싶지 않기 …

6
효율적인 온라인 선형 회귀
일반적인 선형 회귀를 수행하려는 일부 데이터를 분석하고 있지만 연속 입력 데이터 스트림 (메모리에 비해 너무 커짐)을 사용하여 온라인 설정을 처리하고 있기 때문에 불가능합니다. 소비되는 동안 모수 추정값을 업데이트합니다. 즉, 모든 것을 메모리에로드하고 전체 데이터 세트에서 선형 회귀를 수행 할 수는 없습니다. 간단한 선형 다변량 회귀 모델을 가정합니다. y = A …

5
사후 처리 제어 설계 분석시 모범 사례
다음과 같은 일반적인 디자인을 상상해보십시오. 치료 또는 통제 그룹에 100 명의 참가자가 무작위로 배정 됨 종속 변수는 숫자이며 치료 전 및 후 측정 이러한 데이터를 분석하기위한 세 가지 확실한 옵션은 다음과 같습니다. 혼합 분산 분석에서 시간 상호 작용 효과로 그룹 테스트 IV로 조건을, 공변량으로 사전 측정을하고 DV로 사전 측정 한 …

9
2 차원 이진 행렬의 엔트로피 / 정보 / 패턴 측정
2 차원 이진 행렬의 엔트로피 / 정보 밀도 / 패턴 유사성을 측정하고 싶습니다. 설명을 위해 몇 가지 그림을 보여 드리겠습니다. 이 디스플레이는 다소 높은 엔트로피를 가져야합니다. 에이) 중간 엔트로피가 있어야합니다. 비) 마지막으로이 그림들은 모두 0에 가까운 엔트로피를 가져야합니다. 씨) 디) 이자형) 엔트로피를 포착하는 인덱스가 있습니까? 이 디스플레이의 "패턴 모양"? 물론, …


5
시계열 모델링을위한 상태 공간 모델과 칼만 필터의 단점은 무엇입니까?
상태 공간 모델과 KF의 모든 좋은 특성을 감안할 때 상태 공간 모델링의 단점 과 Kalman Filter (또는 EKF, UKF 또는 입자 필터)를 사용하여 추정 할 때의 단점 은 무엇 입니까? ARIMA, VAR 또는 ad / hoc / heuristic 방법과 같은 기존의 방법론을 살펴 보겠습니다. 교정하기가 어렵습니까? 모델 구조의 변화가 예측에 …

7
일반적인 시계열의주기 감지
이 포스트는 시계열에서 이상치 탐지 를위한 일반적인 방법 과 관련된 다른 포스트의 연속입니다 . 기본적 으로이 시점에서 나는 많은 노이즈의 영향을받는 일반적인 시계열의 주기성 / 계절성을 발견하는 강력한 방법에 관심이 있습니다. 개발자 관점에서 다음과 같은 간단한 인터페이스를 원합니다. unsigned int discover_period(vector<double> v); v샘플을 포함하는 배열은 어디에 있고 리턴 값은 신호의주기입니다. …

5
지수 붕괴가있는 Adam 최적화 프로그램
대부분의 Tensorflow 코드에서 Adam Optimizer가 일정한 학습 속도 1e-4(예 : 0.0001) 와 함께 사용되는 것을 보았습니다 . 코드는 일반적으로 다음과 같습니다. ...build the model... # Add the optimizer train_op = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy) # Add the ops to initialize variables. These will include # the optimizer slots added by AdamOptimizer(). init_op = …

2
선형 회귀 모형에서“일정 분산”이란 무엇을 의미합니까?
오차항에 "일정한 분산"이란 무엇입니까? 보시다시피, 하나의 종속 변수와 하나의 독립 변수가있는 데이터가 있습니다. 상수 분산은 선형 회귀의 가정 중 하나입니다. 동성애가 무엇을 의미하는지 궁금합니다. 500 개의 행이 있더라도 분명히 일정한 단일 분산 값을 갖습니다. 분산을 어떤 변수와 비교해야합니까?

3
왜 우리가 필요하지 않을 때 선형 회귀 분석에서 정규 분포 분포 오차 항 (및 등분 산성)에 관심이 많은가?
누군가가 비정규 잔차 및 / 또는이 분산이 OLS 가정을 위반한다고 말할 때마다 좌절감을 느낍니다. OLS 모델에서 모수 를 추정 하기 위해 Gauss-Markov 정리에는 이러한 가정이 필요하지 않습니다. OLS 모델에 대한 가설 검정 에서 이것이 중요한 이유를 알 수 있습니다. 이러한 점을 가정하면 t- 검정, F- 검정 및보다 일반적인 Wald 통계에 …

3
모델 검증 전 또는 모델 검증 내에서 기능 정규화를 수행합니까?
머신 러닝의 일반적인 모범 사례는 예측 변수의 특징 정규화 또는 데이터 표준화를 수행하는 것입니다. 즉, 평균을 빼고 데이터를 중심에두고 분산 (또는 표준 편차도)으로 나누어 정규화하는 것입니다. 자립과 이해를 위해 두 가지 주요 목표를 달성하기 위해이 작업을 수행합니다. 수치 적 안정성을 위해 작은 모델 중량을 피하십시오. 컨쥬 게이트 그라디언트 (Conjugate Gradient)와 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.