통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

2
R에서 lmer () 혼합 효과 모델의 예측 구간
lmer () 모델에서 예측 주위의 예측 간격을 얻고 싶습니다. 이에 대한 토론을 찾았습니다. http://rstudio-pubs-static.s3.amazonaws.com/24365_2803ab8299934e888a60e7b16113f619.html http://glmm.wikidot.com/faq 그러나 그들은 무작위 효과의 불확실성을 고려하지 않은 것으로 보인다. 구체적인 예는 다음과 같습니다. 나는 금붕어를 경주하고 있습니다. 지난 100 개 인종에 대한 데이터가 있습니다. RE 추정치와 FE 추정치의 불확실성을 고려하여 101st를 예측하고 싶습니다. 나는 물고기에 …

3
SVM과 로지스틱 회귀 비교
누군가 SVM 또는 LR을 언제 선택할지에 대한 직감을 줄 수 있습니까? 나는 두 목표의 초평면 학습의 최적화 기준 사이의 차이점이 무엇인지에 대한 직관을 이해하고 싶습니다. 각 목표는 다음과 같습니다. SVM : 가장 가까운 지원 벡터 사이의 마진을 최대화하려고 LR : 사후 클래스 확률 최대화 SVM과 LR의 선형 피처 공간을 고려해 …

6
많은 범주 형 변수로 분류 개선
200,000 개 이상의 샘플과 샘플 당 약 50 개의 기능으로 데이터 세트를 작성하고 있습니다. 10 개의 연속 변수와 다른 40 개는 범주 형 변수 (국가, 언어, 과학 분야 등)입니다. 이러한 범주 형 변수의 경우 예를 들어 150 개의 다른 국가, 50 개의 언어, 50 개의 과학 분야 등이 있습니다. 지금까지 …

8
내 결혼식에 얼마나 많은 사람들이 올지 계산할 수 있도록 도와주세요! 각 사람에게 비율을 부여하고 추가 할 수 있습니까?
나는 결혼식을 계획하고있다. 내 결혼식에 얼마나 많은 사람들이 올지 추정하고 싶습니다. 나는 사람들의 목록과 그들이 참석할 확률을 백분율로 만들었습니다. 예를 들어 Dad 100% Mom 100% Bob 50% Marc 10% Jacob 25% Joseph 30% 나는 백분율을 가진 약 230 명의 사람들의 명부를 가지고있다. 내 결혼식에 얼마나 많은 사람들이 참석할 수 있는지 …

2
R에서 반 정현파 모델에 적합한 피팅을 찾는 방법은 무엇입니까?
발트해의 해수면 온도가 해마다 동일하다고 가정하고 함수 / 선형 모델로 설명합니다. 내가 가진 아이디어는 연도를 10 진수 (또는 num_months / 12)로 입력하고 그 시간에 대한 온도를 알아내는 것이 었습니다. R의 lm () 함수에 던지면 정현파 데이터를 인식하지 않으므로 직선을 생성합니다. 그래서 sin () 함수를 I () 괄호 안에 넣고 함수에 …
37 r  regression  time-series  lm 

4
수학의 강력한 배경이 ML의 필수 요건입니까?
나는 내 자신의 스킬 셋을 발전시키기 시작했고 항상 머신 러닝에 매료되었습니다. 그러나 6 년 전에는 이것을 추구하는 대신 컴퓨터 과학과 전혀 관련없는 학위를 받기로 결정했습니다. 나는 약 8-10 년 동안 소프트웨어와 응용 프로그램을 개발 해 왔으므로 잘 다루었지만 기계 학습 / 확률 / 통계의 수학 측면에 침투하는 것처럼 보이지 않습니다. …

10
통계 나 머신 러닝에 대한 좋은 과학 책이 있습니까?
실제 과학뿐만 아니라 현재 이론의 역사와 이유를 다루면서 읽는 것이 매우 즐겁고 인기있는 과학 도서가 많이 있습니다. 예를 들어 James Gleick (카오스, 프랙탈, 비선형 성)의 "Chaos", Stephen Hawking (물리, 우주의 기원, 시간, 블랙홀)의 "간단한 역사"또는 Richard Dawkins의 "The Selfish Gene"( 진화와 자연 선택). 이 책들 중 일부는 논증 (Dawkins)을 제시하고 …

2
PCA가 분산을 설명하는 동안 요인 분석은 공분산을 어떻게 설명합니까?
다음은 Bishop의 "패턴 인식 및 기계 학습"책, 12.2.4 "인자 분석"에서 인용 한 내용입니다. 강조 표시된 부분에 따르면, 요인 분석 은 행렬 변수 간 ​​공분산을 캡처합니다WWW . 나는 어떻게 궁금해 ? 내가 이해하는 방법은 다음과 같습니다. 말 관측 인 , 차원 변수 인자 로딩 매트릭스이며, 계수 스코어 벡터이다. 그러면 이 있습니다. …


3
SVM, 과적 합, 차원의 저주
내 데이터 세트는 작지만 (120 개의 샘플) 기능의 수가 많으면 (1000-200,000)입니다. 기능의 하위 집합을 선택하기 위해 기능을 선택하고 있지만 여전히 초과 적합 할 수 있습니다. 첫 번째 질문은 SVM이 과적 합을 어떻게 처리하는지입니다. 둘째, 분류의 경우 과적 합에 대해 더 많이 연구함에 따라 소수의 기능을 가진 데이터 세트조차도 과적 합할 …

6
베이지안 대 잦은 확률 해석
누군가 베이지안과 잦은 확률 접근 방법의 차이점을 잘 설명 할 수 있습니까? 내가 이해 한 것에서 : 잦은 주의자들은 데이터가 특정 빈도 / 확률 (시험 횟수가 무한대에 가까워 질 때 사건의 상대 빈도로 정의 됨)을 갖는 반복 가능한 랜덤 표본 (임의 변수)이라는 점입니다. 기본 파라미터 확률이 반복 과정과 편차의 변화에 …

6
유의성 검정에 대한 가설로서의 효과 크기
오늘, 교차 검증 저널 클럽에서 (왜 거기에 없었습니까?) @mbq는 다음과 같이 물었습니다. 우리 (현대 데이터 과학자)가 의미가 무엇인지 알고 있다고 생각하십니까? 그리고 그것이 결과에 대한 우리의 확신과 어떤 관련이 있습니까? @Michelle은 (나를 포함하여) 일반적으로 다음과 같이 대답했습니다. 나는 커리어를 계속할수록 중요성 (p- 값을 기준으로)이라는 개념이 점점 덜 도움이된다는 것을 알게되었습니다. …

10
가장 유용한 경제 데이터 소스는 무엇입니까?
경제에서 연구 할 때 실제 데이터에 대한 이론적 결론을 검증해야하는 경우가 종종 있습니다. 신뢰할만한 데이터 소스는 무엇입니까? 주로 GDP, 인구, CPI, PPI 등과 같은 다양한 통계 데이터를 제공하는 소스에 관심이 있습니다. 편집 : 다음은이 스레드에 나타나는 링크의 집계입니다. 일반 : - 톰슨 로이터 데이터 스트림 (무료, 매우 포괄적 인) - …
37 references 

3
변형 된 변수의 밀도에 대한 직관적 인 설명?
가 pdf 의 랜덤 변수 라고 가정 합니다. 그런 다음 임의 변수 는 pdf를 갖습니다.XXXfX(x)fX(x)f_X(x)Y=X2Y=X2Y=X^2 fY(y)={12y√(fX(y√)+fX(−y√))0y≥0y<0fY(y)={12y(fX(y)+fX(−y))y≥00y<0f_Y(y)=\begin{cases}\frac{1}{2\sqrt{y}}\left(f_X(\sqrt{y})+f_X(-\sqrt{y})\right) & y \ge 0 \\ 0 & y \lt 0\end{cases} 나는 이것 뒤에 미적분학을 이해합니다. 그러나 나는 미적분학을 모르는 사람에게 그것을 설명하는 방법을 생각하려고합니다. 특히, 나는 요소가 왜 먼저 나타나는지 설명하려고합니다 . 나는 그것을 …

5
신경망이 무엇을하고 있는지 시각화 / 이해하는 방법?
신경망은 복잡한 구조로 인해 종종 "블랙 박스"로 취급됩니다. 모델이 내부에서 어떻게 작동하는지 직관적으로 파악하는 것이 유리하기 때문에 이것은 이상적이지 않습니다. 훈련 된 신경망이 어떻게 작동하는지 시각화하는 방법은 무엇입니까? 다른 방법으로, 네트워크에 대해 쉽게 이해하기 쉬운 설명을 추출 할 수있는 방법은 무엇입니까 (예 :이 숨겨진 노드는 주로 이러한 입력으로 작동합니다)? 저는 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.