통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

5
베이지안처럼 생각하고, 잦은 주의자처럼 확인하십시오 : 그게 무슨 뜻입니까?
여기에서 찾을 수있는 데이터 과학 과정에 대한 강의 슬라이드를보고 있습니다. https://github.com/cs109/2015/blob/master/Lectures/01-Introduction.pdf 안타깝게도이 강의에 대한 비디오를 볼 수 없으며 슬라이드의 어느 시점에서 발표자가 다음과 같은 텍스트를 가지고 있습니다. 일부 주요 원칙 베이지안처럼 생각하고, Frequentist처럼 확인하십시오 (조정) 그게 실제로 무엇을 의미하는지 아는 사람이 있습니까? 이 두 가지 생각 학교에 대해 좋은 통찰력이 …

11
(0, 255)에서 8 개의 랜덤 비트를 균일하게 생성하는 이유는 무엇입니까?
8 개의 임의 비트 (0 또는 1)를 생성하고 함께 연결하여 8 비트 숫자를 형성합니다. 간단한 파이썬 시뮬레이션은 불연속 세트 [0, 255]에 균일 한 분포를 산출합니다. 왜 이것이 내 머리에 의미가 있는지 정당화하려고합니다. 이것을 8 코인을 뒤집는 것과 비교하면 예상 값이 4 머리 / 4 꼬리 근처에 있지 않습니까? 따라서 제 …

3
클러스터링 방법을 선택하는 방법은 무엇입니까? 방법 선택을 보장하기 위해 클러스터 솔루션의 유효성을 검사하는 방법은 무엇입니까?
군집 분석의 가장 큰 문제 중 하나는 사용 된 다른 군집 방법 (계층 군집의 다른 연결 방법 포함)을 기반으로 다른 결론을 도출해야 할 수도 있다는 것 입니다. 이 방법 에 대한 귀하의 의견을 알고 싶습니다- 어떤 방법을 선택하고 어떻게 해야합니까 ? "클러스터링의 가장 좋은 방법은 정답을 제공하는 것입니다."라고 말할 수 …

2
선형 회귀에 대한 그라디언트 부스팅-왜 작동하지 않습니까?
그라디언트 부스팅에 대해 배우면서 메서드가 빌드 및 앙상블 모델을 만드는 데 사용하는 "약한 분류기"의 속성과 관련된 제약에 대해 들어 보지 못했습니다. 그러나 선형 회귀를 사용하는 GB의 응용 프로그램을 상상할 수 없었으며 실제로 테스트를 수행했을 때 작동하지 않습니다. 나는 제곱 잔차의 합의 기울기로 가장 표준적인 접근법을 테스트하고 후속 모델을 함께 추가했습니다. …

4
LSTM은 소실 구배 문제를 어떻게 방지합니까?
LSTM은 소실 구배 문제를 피하기 위해 특별히 고안되었습니다. 아래 다이어그램의 Greff 등의 셀 에서 루프에 해당하는 CEC (Constant Error Carousel)를 사용하여이를 수행해야합니다 . (출처 : deeplearning4j.org ) 그리고 그 부분은 일종의 항등 함수로 볼 수 있으므로 미분은 하나이고 기울기는 일정하게 유지됩니다. 내가 이해하지 못하는 것은 다른 활성화 기능으로 인해 사라지지 …




6
짧은 시계열을위한 최상의 방법
짧은 시계열 모델링과 관련하여 질문이 있습니다. 그것들을 모델링 해야하는지에 대한 질문은 아니지만 어떻게 해야 합니까? 짧은 시계열 모델링 (길이 )에 어떤 방법을 추천 하시겠습니까? "최고"라는 말은 여기서 가장 강력한 것을 의미합니다. 즉, 제한된 수의 관측 사실로 인해 오류가 발생하기 쉽습니다. 일련의 짧은 단일 관측치가 예측에 영향을 줄 수 있으므로이 방법은 …

5
자기 상관 테스트 : Ljung-Box와 Breusch-Godfrey
원시 데이터 또는 모델 잔차에서 자기 상관을 테스트하기 위해 Ljung-Box 테스트가 자주 사용되는 것을 보았습니다. 나는 자기 상관에 대한 또 다른 테스트, 즉 Breusch-Godfrey 테스트가 있다는 것을 거의 잊었다. 질문 : Ljung-Box와 Breusch-Godfrey 테스트의 주요 차이점과 유사점은 무엇이며 언제 다른 테스트보다 선호되어야합니까? (참고 문헌은 환영합니다. 어떻게 든 몇 가지 교과서를보고 …

6
Monte Carlo Simulation을 사용한 대략적인
최근에 Monte Carlo 시뮬레이션을 살펴보고 (사각형 내부의 원, 비례 영역) 와 같은 상수를 근사화하는 데 사용했습니다 .ππ\pi 그러나 Monte Carlo 통합을 사용하여 [Euler 's number]의 값을 근사하는 해당 방법을 생각할 수 없습니다 .eee 이 작업을 수행하는 방법에 대한 조언이 있습니까?

4
분포가 어떻게 무한 평균과 분산을 가질 수 있습니까?
다음과 같은 예를들 수 있다면 감사하겠습니다. 무한 평균 및 무한 분산을 갖는 분포. 무한 평균 및 유한 분산을 갖는 분포. 유한 평균과 무한 분산을 갖는 분포입니다. 유한 평균과 유한 분산을 갖는 분포. 필자는 Wilmott 포럼 / 웹 사이트 에서 읽고, 인터넷 검색하고 스레드를 읽는 기사에 사용 된 익숙하지 않은 용어 …

2
다중 회귀 또는 부분 상관 계수? 그리고 둘 사이의 관계
이 질문이 의미가 있는지조차 모르겠지만 다중 회귀와 부분 상관의 차이점은 무엇입니까 (상관하지 않는 상관 관계와 회귀의 차이점은 제외)? 다음을 알아 내고 싶습니다 .2 개의 독립 변수 ( , x 2 )와 하나의 종속 변수 ( y )가 있습니다. 이제 개별 변수는 종속 변수와 상관 관계가 없습니다. 그러나 주어진 x 1에 …

5
심슨의 역설을 해결하는 방법?
Simpson의 역설은 전 세계의 입문 통계 과정에서 논의 된 고전적인 퍼즐입니다. 그러나 내 과정은 문제가 존재하고 해결책을 제공하지 않았다는 것을 간단히 언급하는 내용이었습니다. 역설을 해결하는 방법을 알고 싶습니다. 즉, 심슨의 역설에 직면했을 때, 데이터가 어떻게 분할되는지에 따라 두 가지 다른 선택이 최선의 선택이되기 위해 경쟁하는 것처럼 보이며, 어느 선택을 선택해야합니까? …

3
PCA와 열차 / 시험 분할
이진 레이블 집합이 여러 개인 데이터 집합이 있습니다. 각 레이블 집합에 대해 분류기를 훈련시켜 교차 유효성 검사로 평가합니다. 주성분 분석 (PCA)을 사용하여 차원을 줄이려고합니다. 내 질문은 : 전체 데이터 세트에 대해 PCA를 한 번 수행 한 다음 위에서 설명한대로 교차 검증에 더 낮은 차원의 새 데이터 세트를 사용할 수 있습니까? …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.