통계 및 빅 데이터

5

베이지안처럼 생각하고, 잦은 주의자처럼 확인하십시오 : 그게 무슨 뜻입니까?

여기에서 찾을 수있는 데이터 과학 과정에 대한 강의 슬라이드를보고 있습니다. https://github.com/cs109/2015/blob/master/Lectures/01-Introduction.pdf 안타깝게도이 강의에 대한 비디오를 볼 수 없으며 슬라이드의 어느 시점에서 발표자가 다음과 같은 텍스트를 가지고 있습니다. 일부 주요 원칙 베이지안처럼 생각하고, Frequentist처럼 확인하십시오 (조정) 그게 실제로 무엇을 의미하는지 아는 사람이 있습니까? 이 두 가지 생각 학교에 대해 좋은 통찰력이 …

35 bayesian data-mining frequentist

11

(0, 255)에서 8 개의 랜덤 비트를 균일하게 생성하는 이유는 무엇입니까?

8 개의 임의 비트 (0 또는 1)를 생성하고 함께 연결하여 8 비트 숫자를 형성합니다. 간단한 파이썬 시뮬레이션은 불연속 세트 [0, 255]에 균일 한 분포를 산출합니다. 왜 이것이 내 머리에 의미가 있는지 정당화하려고합니다. 이것을 8 코인을 뒤집는 것과 비교하면 예상 값이 4 머리 / 4 꼬리 근처에 있지 않습니까? 따라서 제 …

35 binomial random-generation uniform

3

클러스터링 방법을 선택하는 방법은 무엇입니까? 방법 선택을 보장하기 위해 클러스터 솔루션의 유효성을 검사하는 방법은 무엇입니까?

군집 분석의 가장 큰 문제 중 하나는 사용 된 다른 군집 방법 (계층 군집의 다른 연결 방법 포함)을 기반으로 다른 결론을 도출해야 할 수도 있다는 것 입니다. 이 방법 에 대한 귀하의 의견을 알고 싶습니다- 어떤 방법을 선택하고 어떻게 해야합니까 ? "클러스터링의 가장 좋은 방법은 정답을 제공하는 것입니다."라고 말할 수 …

35 clustering validation model-evaluation hierarchical-clustering

2

선형 회귀에 대한 그라디언트 부스팅-왜 작동하지 않습니까?

그라디언트 부스팅에 대해 배우면서 메서드가 빌드 및 앙상블 모델을 만드는 데 사용하는 "약한 분류기"의 속성과 관련된 제약에 대해 들어 보지 못했습니다. 그러나 선형 회귀를 사용하는 GB의 응용 프로그램을 상상할 수 없었으며 실제로 테스트를 수행했을 때 작동하지 않습니다. 나는 제곱 잔차의 합의 기울기로 가장 표준적인 접근법을 테스트하고 후속 모델을 함께 추가했습니다. …

35 regression machine-learning boosting ensemble gradient

4

LSTM은 소실 구배 문제를 어떻게 방지합니까?

LSTM은 소실 구배 문제를 피하기 위해 특별히 고안되었습니다. 아래 다이어그램의 Greff 등의 셀 에서 루프에 해당하는 CEC (Constant Error Carousel)를 사용하여이를 수행해야합니다 . (출처 : deeplearning4j.org ) 그리고 그 부분은 일종의 항등 함수로 볼 수 있으므로 미분은 하나이고 기울기는 일정하게 유지됩니다. 내가 이해하지 못하는 것은 다른 활성화 기능으로 인해 사라지지 …

35 neural-networks lstm

7

귀무 가설이 종종 거부되는 이유는 무엇입니까?

제목이 이해되기를 바랍니다. 종종 귀무 가설은 기각하려는 의도로 형성됩니다. 이것에 대한 이유가 있습니까, 아니면 단지 협약입니까?

35 hypothesis-testing

2

탄력적 순 정규화 란 무엇이며 Ridge ( ) 및 Lasso ( ) 의 단점을 어떻게 해결 합니까?

탄성 그물 정규화는 항상 이러한 방법의 단점을 해결하기 때문에 Lasso & Ridge보다 선호됩니까? 직감은 무엇이며 탄성 그물의 수학은 무엇입니까?

35 regression lasso regularization ridge-regression elastic-net

6

모든 시뮬레이션 방법은 어떤 형태의 Monte Carlo입니까?

Monte Carlo가 아닌 시뮬레이션 방법이 있습니까? 모든 시뮬레이션 방법에는 함수에 임의의 숫자를 대입하여 함수의 값 범위를 찾습니다. 모든 시뮬레이션 방법은 본질적으로 Monte Carlo 방법입니까?

35 monte-carlo

6

짧은 시계열을위한 최상의 방법

짧은 시계열 모델링과 관련하여 질문이 있습니다. 그것들을 모델링 해야하는지에 대한 질문은 아니지만 어떻게 해야 합니까? 짧은 시계열 모델링 (길이 )에 어떤 방법을 추천 하시겠습니까? "최고"라는 말은 여기서 가장 강력한 것을 의미합니다. 즉, 제한된 수의 관측 사실로 인해 오류가 발생하기 쉽습니다. 일련의 짧은 단일 관측치가 예측에 영향을 줄 수 있으므로이 방법은 …

35 time-series forecasting small-sample

5

자기 상관 테스트 : Ljung-Box와 Breusch-Godfrey

원시 데이터 또는 모델 잔차에서 자기 상관을 테스트하기 위해 Ljung-Box 테스트가 자주 사용되는 것을 보았습니다. 나는 자기 상관에 대한 또 다른 테스트, 즉 Breusch-Godfrey 테스트가 있다는 것을 거의 잊었다. 질문 : Ljung-Box와 Breusch-Godfrey 테스트의 주요 차이점과 유사점은 무엇이며 언제 다른 테스트보다 선호되어야합니까? (참고 문헌은 환영합니다. 어떻게 든 몇 가지 교과서를보고 …

35 time-series hypothesis-testing autocorrelation

6

Monte Carlo Simulation을 사용한 대략적인

최근에 Monte Carlo 시뮬레이션을 살펴보고 (사각형 내부의 원, 비례 영역) 와 같은 상수를 근사화하는 데 사용했습니다 .ππ\pi 그러나 Monte Carlo 통합을 사용하여 [Euler 's number]의 값을 근사하는 해당 방법을 생각할 수 없습니다 .eee 이 작업을 수행하는 방법에 대한 조언이 있습니까?

35 simulation monte-carlo algorithms random-generation numerical-integration

4

분포가 어떻게 무한 평균과 분산을 가질 수 있습니까?

다음과 같은 예를들 수 있다면 감사하겠습니다. 무한 평균 및 무한 분산을 갖는 분포. 무한 평균 및 유한 분산을 갖는 분포. 유한 평균과 무한 분산을 갖는 분포입니다. 유한 평균과 유한 분산을 갖는 분포. 필자는 Wilmott 포럼 / 웹 사이트 에서 읽고, 인터넷 검색하고 스레드를 읽는 기사에 사용 된 익숙하지 않은 용어 …

35 distributions variance mean

2

다중 회귀 또는 부분 상관 계수? 그리고 둘 사이의 관계

이 질문이 의미가 있는지조차 모르겠지만 다중 회귀와 부분 상관의 차이점은 무엇입니까 (상관하지 않는 상관 관계와 회귀의 차이점은 제외)? 다음을 알아 내고 싶습니다 .2 개의 독립 변수 ( , x 2 )와 하나의 종속 변수 ( y )가 있습니다. 이제 개별 변수는 종속 변수와 상관 관계가 없습니다. 그러나 주어진 x 1에 …

35 multiple-regression regression-coefficients partial-correlation

5

심슨의 역설을 해결하는 방법?

Simpson의 역설은 전 세계의 입문 통계 과정에서 논의 된 고전적인 퍼즐입니다. 그러나 내 과정은 문제가 존재하고 해결책을 제공하지 않았다는 것을 간단히 언급하는 내용이었습니다. 역설을 해결하는 방법을 알고 싶습니다. 즉, 심슨의 역설에 직면했을 때, 데이터가 어떻게 분할되는지에 따라 두 가지 다른 선택이 최선의 선택이되기 위해 경쟁하는 것처럼 보이며, 어느 선택을 선택해야합니까? …

35 simpsons-paradox

3

PCA와 열차 / 시험 분할

이진 레이블 집합이 여러 개인 데이터 집합이 있습니다. 각 레이블 집합에 대해 분류기를 훈련시켜 교차 유효성 검사로 평가합니다. 주성분 분석 (PCA)을 사용하여 차원을 줄이려고합니다. 내 질문은 : 전체 데이터 세트에 대해 PCA를 한 번 수행 한 다음 위에서 설명한대로 교차 검증에 더 낮은 차원의 새 데이터 세트를 사용할 수 있습니까? …

35 machine-learning classification pca cross-validation