통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

1
다중 회귀 계수의 표준 오차?
나는 이것이 매우 기본적인 질문이라는 것을 알고 있지만 어디서도 답을 찾을 수 없습니다. 일반 방정식이나 QR 분해를 사용하여 회귀 계수를 계산하고 있습니다. 각 계수에 대한 표준 오차를 어떻게 계산할 수 있습니까? 나는 보통 표준 오류를 다음과 같이 계산한다고 생각합니다. SEx¯ =σx¯n√SEx¯ =σx¯nSE_\bar{x}\ = \frac{\sigma_{\bar x}}{\sqrt{n}} 각 계수에 대한 는 무엇입니까 …

2
혼합 효과 모델에서 설명 된 분산의 비율
이것이 이전에 요청되었는지는 모르겠지만 그것에 대해 아무것도 찾지 못했습니다. 내 질문은 혼합 효과 모델에서 고정 및 랜덤 요인 각각에 의해 설명되는 분산의 비율을 얻는 방법을 배울 수있는 좋은 참고 자료를 제공 할 수 있는지 여부입니다.

1
LASSO 가정
LASSO 회귀 시나리오에서 와이= Xβ+ ϵ와이=엑스β+ϵy= X \beta + \epsilon , LASSO 추정치는 다음 최적화 문제에 의해 제공됩니다. 분β| | 와이− Xβ| | +τ| | β| |1분β||와이−엑스β||+τ||β||1 \min_\beta ||y - X \beta|| + \tau||\beta||_1 에 관한 배포 가정이 있습니까?ϵϵ\epsilon OLS 시나리오에서는 ϵϵ\epsilon 이 독립적이며 정규적으로 배포 될 것으로 예상합니다 . …

2
시계열 예측을 자동화 할 수 있습니까?
모든 시계열을 분석하고 분석 된 시계열 데이터에 가장 적합한 기존 / 통계 예측 방법 (및 해당 매개 변수)을 "자동"으로 선택할 수있는 알고리즘을 만들고 싶습니다. 이런 식으로 할 수 있습니까? 그렇다면 어떻게 접근 할 수 있는지 몇 가지 팁을 주시겠습니까?


2
회귀에 대한 다항식 대비
회귀 피팅에서 다항식 대비의 사용법을 이해할 수 없습니다. 특히, 나는 이 페이지에R 설명 된 간격 변수 (똑같이 간격이있는 수준의 일반 변수)를 표현하기 위해 사용되는 인코딩을 언급하고 있습니다. 해당 페이지 의 예에서 , 내가 올바르게 이해하면 R은 구간 변수에 대한 모형을 적합하고 선형, 2 차 또는 3 차 추세에 가중치를 부여하는 …

1
임의 부엌 싱크대는 어떻게 작동합니까?
작년 NIPS 2017에서 Ali Rahimi와 Ben Recht는 논문 "대규모 커널 머신 을위한 랜덤 기능 " 에서 무작위 기능을 도입 한 후 시간이 지남에 따라 테스트를 거쳤으며 , 이후 무작위 부엌 싱크 알고리즘으로 체계화되었습니다. 논문 발표의 일환으로, 모델은 5 줄의 MATLAB에서 구현 될 수 있음을 보여주었습니다. % Approximates Gaussian Process regression …


4
ACF 및 PACF 공식
시계열 데이터에서 ACF 및 PACF를 플로팅하기위한 코드를 만들고 싶습니다. 미니탭에서 생성 된 플롯과 동일합니다 (아래). 수식을 검색하려고했지만 여전히 잘 이해하지 못합니다. 공식과 사용 방법을 알려주시겠습니까? 위의 ACF 및 PACF 플롯에서 빨간색 가로선은 무엇입니까? 공식은 무엇입니까? 감사합니다,

2
K- 폴드 CV를 몇 번 반복해야합니까?
나는 우연히 이 스레드 그런데 좋은 대답 및 참조 - 부트 스트랩과 교차 검증의 차이를 찾고 있습니다. 내가 지금 궁금 것은, 내가 몇 번 분류의 정확성을 계산하기 위해 반복 10 배 CV의 말을 수행 할 수 있다면 N 내가 그것을 반복해야합니까? n 은 접기 수에 의존 합니까 ? 샘플 사이즈는? …

1
KL 발산이 왜 음이 아닌가?
KL 발산이 왜 음이 아닌가? 정보 이론의 관점에서 나는 다음과 같은 직관적 인 이해를 얻었습니다. x로 레이블이 지정된 동일한 요소 세트로 구성된 두 개의 앙상블 AAA 와 가 있다고 가정하십시오 . p ( x ) 와 q ( x ) 는 각각 앙상블 A 와 B에 대한 서로 다른 확률 …

3
파이썬에서 공선 변수를 체계적으로 제거하는 방법은 무엇입니까? [닫은]
닫은. 이 질문은 주제에 맞지 않습니다 . 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 교차 검증에 대한 주제가 되도록 질문을 업데이트하십시오 . 휴일 2 년 전 . 지금까지 상관 테이블을보고 특정 임계 값을 초과하는 변수를 제거하여 데이터 준비 프로세스의 일부로 공선 변수를 제거했습니다. 이 작업을 수행하는 데 더 허용되는 방법이 …

1
표준 PCA에 비해 커널 PCA의 장점은 무엇입니까?
커널 SVD를 사용하여 데이터 매트릭스를 분해하는 종이에 알고리즘을 구현하고 싶습니다. 그래서 커널 방법과 커널 PCA 등에 관한 자료를 읽었습니다. 그러나 수학적 세부 사항에 관해서는 특히 나에게 매우 모호하며 몇 가지 질문이 있습니다. 왜 커널 메소드인가? 아니면 커널 메소드의 장점은 무엇입니까? 직관적 인 목적은 무엇입니까? 실제 문제에서 훨씬 높은 차원 공간이 …
18 pca  svd  kernel-trick 


3
의도 된 분포에 대해 무작위로 생성 된 데이터 테스트
임의의 데이터를 생성하는 프로그램을 작성했습니다. 프로그램이 올바르게 작동하는 경우 해당 데이터는 알려진 특정 확률 분포를 따라야합니다. 프로그램을 실행하고 결과를 계산하고 p- 값을 만들고 싶습니다. 다른 사람이 말하기 전에 : 가설 테스트는 프로그램이 올바르게 작동하는시기를 감지 할 수 없다는 것을 이해합니다. 특정 방식으로 잘못 작동하는 경우에만 감지 할 수 있습니다 . …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.