통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

3
모델 선택을위한 중첩 교차 검증
모델 선택을 위해 어떻게 중첩 교차 검증을 사용할 수 있습니까? 온라인에서 읽은 내용에서 중첩 CV는 다음과 같이 작동합니다. 내부 CV 루프가 있으며 그리드 검색을 수행 할 수 있습니다 (예 : 사용 가능한 모든 모델 (예 : 하이퍼 파라미터 / 기능 조합)에 대해 K- 폴드 실행) 외부 CV 루프가 있는데, 여기서 …

11
어린이에게“차원의 저주”를 설명하십시오
나는 차원의 저주에 대해 여러 번 들었지만 어쨌든 여전히 아이디어를 파악할 수 없습니다. 누구든지 이것을 어린이에게 설명하는 것처럼 가장 직관적 인 방법으로 설명 할 수 있습니까? 그래서 나는 (그리고 다른 사람들은 혼란스러워)이 것을 잘 이해할 수 있습니까? 편집하다: 이제 아이가 어떻게 클러스터링에 대해 들었다고 가정 해 봅시다 (예 : 장난감을 …



5
ANOVA가 선형 회귀 분석과 비교하여 다른 연구 방법 인 것처럼 가르치고 사용되는 이유는 무엇입니까?
분산 분석은 적합한 더미 변수를 사용하는 선형 회귀와 같습니다. 분산 분석을 사용하는지 선형 회귀 분석을 사용하는지에 관계없이 결론은 동일하게 유지됩니다. 동등성에 비추어 선형 회귀 대신 ANOVA를 사용하는 이유가 있습니까? 참고 : 선형 회귀 대신 분산 분석을 사용해야하는 기술적 이유에 대해 특히 관심 이 있습니다. 편집하다 다음은 일원 분산 분석을 사용하는 …
91 regression  anova 

11
선형 회귀 분석은 언제 "기계 학습"이라고해야합니까?
최근 콜로키움에서 발표자의 초록은 머신 러닝을 사용한다고 주장했습니다. 대화하는 동안 머신 러닝과 관련된 유일한 것은 데이터에 대해 선형 회귀를 수행한다는 것입니다. 5D 파라미터 공간에서 최적 계수를 계산 한 후 한 시스템의 이러한 계수를 다른 시스템의 최고 계수와 비교했습니다. 단순히 최적의 라인을 찾는 것과는 달리 선형 회귀 머신 러닝 은 언제 …

6
58 % 확률로 포인트를 획득 한 경우 핑퐁 게임에서 21로 이기면 2로 이길 확률은 얼마입니까?
50 명의 탁구 게임 (21 점을 이기고 2 점을 이기고 있음) 중 50 명을 모두 이길 것입니다. 지금까지 15 게임을했고 평균적으로 58 %를 이겼습니다. 포인트, 그리고 지금까지 모든 게임에서 이겼습니다. 따라서 58 %의 확률로 이길 가능성이 있고 42 %의 확률로 이길 가능성이 궁금합니다. 게임에서 이길 확률은 얼마입니까? 차이 % 확률에 …

4
PCA 및 분산 비율 설명
일반적으로 PCA와 같은 분석에서 분산 의 비율 가 첫 번째 주요 구성 요소로 설명 된다는 것은 무엇을 의미 합니까? 누군가 이것을 직관적으로 설명 할 수 있지만 주성분 분석 (PCA) 측면에서 "변형 설명"의 의미에 대한 정확한 수학적 정의를 제공 할 수 있습니까?엑스엑스x 간단한 선형 회귀 분석의 경우, 최적 제곱의 r 제곱은 …

7
통계 분석 프로젝트를 효율적으로 관리하는 방법은 무엇입니까?
우리는 종종 컴퓨터 과학에서 프로젝트 관리 및 디자인 패턴에 대해 들지만 통계 분석에서는 덜 자주합니다. 그러나 효과적이고 내구성있는 통계 프로젝트를 설계하기위한 결정적인 단계는 일을 체계적으로 유지하는 것입니다. 필자는 종종 별도의 폴더 (원시 데이터 파일, 변환 된 데이터 파일, R 스크립트, 그림, 메모 등)에서 R과 일관된 파일 구성을 사용하도록 권장합니다. 이 …


1
plot.lm () 해석
R에서 plot (lm)에 의해 생성 된 그래프를 해석하는 것에 대한 질문이 있습니다. 스케일 위치 및 레버리지 잔류 플롯을 해석하는 방법을 알려주시겠습니까? 모든 의견을 부탁드립니다. 통계, 회귀 및 계량 경제학에 대한 기본 지식을 가정합니다.

4
딥 러닝에서 현재 이미지 평균 대신 데이터 세트의 이미지 평균을 빼서 이미지를 정규화하는 이유는 무엇입니까?
이미지를 정규화하는 방법에는 몇 가지 변형이 있지만 대부분 다음 두 가지 방법을 사용하는 것 같습니다. 모든 이미지에서 계산 된 채널당 평균을 빼십시오 (예 : VGG_ILSVRC_16_layers ) 모든 이미지에서 계산 된 픽셀 / 채널로 빼기 (예 : CNN_S , Caffe 's reference network 참조 ) 자연스러운 접근 방식은 각 이미지를 정규화하는 …

4
카운트 회귀에 대한 진단 플롯
결과가 카운트 변수 인 회귀에 대한 가장 유용한 정보는 무엇입니까? 특히 포아송 및 음 이항 모델뿐만 아니라 제로 팽창 및 허들 대응에 관심이 있습니다. 내가 찾은 대부분의 소스는 단순히 이러한 플롯이 어떻게 보이는지에 대한 설명없이 잔차 대 적합치 값을 플로팅합니다. 지혜와 참고 문헌은 크게 감사합니다. 관련이 있는지 묻는 이유에 대한 …

1
교차 및 중첩 된 랜덤 효과 : lme4에서 어떻게 다른 점과 올바르게 지정합니까?
다음은 중첩 및 교차 임의 효과를 이해하는 방법입니다. 하위 수준 요인이 특정 수준의 상위 수준 요인에만 나타나는 경우 중첩 된 임의 효과가 발생합니다. 예를 들어, 정해진 시간에 수업 내 학생. 에서 lme4나는 우리가 동일한 두 가지 방법 중 하나로 중첩 된 데이터에 대한 임의 효과를 나타냅니다 생각 : (1|class/pupil) # …

4
감마 GLM 사용시기
감마 분포는 상당히 넓은 범위의 모양을 취할 수 있으며 두 매개 변수를 통한 평균과 분산 사이의 링크를 고려하면 음이 아닌 데이터의 이분산성을 로그 변환 된 OLS가 처리 할 수있는 방식으로 처리하는 데 적합합니다 WLS 또는 이종 불균형 일관성 VCV 추정기 없이는 할 수 없습니다. 나는 음이 아닌 일상적인 데이터 모델링에 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.