통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

3
딥 러닝에서 하이퍼 파라미터 선택 지침
스택 형 자동 인코더 또는 딥 믿기 네트워크와 같은 딥 아키텍처의 하이퍼 파라미터를 선택하는 방법에 대한 지침을 제공하는 데 도움이되는 논문을 찾고 있습니다. 하이퍼 파라미터가 많고 선택하는 방법이 매우 혼란 스럽습니다. 또한 훈련에 많은 시간이 걸리기 때문에 교차 유효성 검사를 사용하는 것도 옵션이 아닙니다!

1
회귀 분석과 PCA에서 데이터를 중심에 놓으면 어떻게 절편을 제거 할 수 있습니까?
나는 인터셉트를 제거하기 위해 ( 이 질문 에서 언급 한 바와 같이) 데이터를 중심에 둔 인스턴스에 대해 계속 읽습니다 (예 : 정규화 또는 PCA ). 나는 그것이 단순하다는 것을 알고 있지만, 이것을 직관적으로 이해하는 데 어려움을 겪고 있습니다. 누군가 내가 읽을 수있는 직관이나 참조를 제공 할 수 있습니까?


1
수동으로 계산 된 가 새 데이터를 테스트하기 위해 randomForest () 와 일치하지 않습니다.
나는 이것이 상당히 구체적인 R질문 이라는 것을 알고 있지만, R ^ 2 설명 된 비율 분산에 대해 R2R2R^2잘못 생각하고있을 수 있습니다 . 간다 R패키지 를 사용하려고 합니다 randomForest. 훈련 데이터와 테스트 데이터가 있습니다. 임의 포리스트 모델에 적합하면이 randomForest기능을 통해 테스트 할 새 테스트 데이터를 입력 할 수 있습니다. 그런 다음이 …

3
온라인 대 오프라인 학습?
오프라인 학습 과 온라인 학습 의 차이점은 무엇입니까 ? 전체 데이터 세트 (오프라인)에 대한 학습과 점진적 학습 (한 번에 하나의 인스턴스)에 대한 학습의 문제입니까? 두 알고리즘 모두에 사용되는 알고리즘의 예는 무엇입니까?

3
전체 문서에 단어 포함을 적용하여 피처 벡터를 얻습니다.
지도 학습에 사용하기에 적합한 단어를 포함하여 문서를 기능 벡터에 매핑하려면 어떻게해야합니까? 워드 삽입은 각각의 워드를 맵핑 벡터에 여기서, 일부하지 너무나 많은 수 (예를 들어, 500)이다. 널리 사용되는 단어 포함 은 word2vec 및 Glove 입니다.v ∈ R d d승wwv ∈ R디v∈Rdv \in \mathbb{R}^d디dd 문서를 분류하기 위해지도 학습을 적용하고 싶습니다. 현재 bag-of-words …

2
A / B 테스트 : Z- 테스트 vs T- 테스트 vs 카이 제곱 vs 피셔 정확한 테스트
간단한 A / B 테스트를 처리 할 때 특정 테스트 방식을 선택하여 추론을 이해하려고합니다 (예 : 이진 응답이있는 두 가지 변형 / 그룹 (변환 여부)) 예를 들어 아래 데이터를 사용합니다. Version Visits Conversions A 2069 188 B 1826 220 최고 응답 여기가 대단한 및 z, t 및 카이 제곱 테스트에 …

1
Biplot과 관련한 PCA 및 통신 분석
Biplot은 주로 주성분 분석 (및 관련 기술)의 결과를 표시하는 데 사용됩니다 . 구성 요소 로딩 과 구성 요소 점수를 동시에 보여주는 이중 또는 오버레이 산점도 입니다. 나는 오늘 @amoeba에 의해 biplot 좌표가 어떻게 생성 / 확대되는지에 대한 질문에 대한 나의 의견에서 벗어나는 대답을 주었다고 알려졌다. 그의 대답 은 몇 가지 …

2
이항 회귀 분석에 대한 R의 출력 해석
나는 이항 데이터 테스트를 통해 이것에 대해 아주 새로운 것이지만 하나를 수행해야했지만 이제 결과를 해석하는 방법을 잘 모르겠습니다. 반응 변수 인 y- 변수는 이항이고 설명 요소는 연속적입니다. 이것이 결과를 요약 할 때 얻은 것입니다. glm(formula = leaves.presence ~ Area, family = binomial, data = n) Deviance Residuals: Min 1Q Median …


5
저의 이탈리아 아들이 초등학교에 다닐 것이라는 사실로 인해 수업에 참석할 이탈리아 어린이의 수가 변경됩니까?
이것은 실제 상황에서 비롯된 질문이며, 그 답변에 대해 정말로 당황했습니다. 아들은 런던에서 초등학교를 시작할 예정입니다. 우리가 이탈리아 인이기 때문에 나는 얼마나 많은 이탈리아 어린이들이 이미 학교에 다니고 있는지 궁금했습니다. 나는 신청하는 동안 입학 담당관에게 이것을 물었고, 그녀는 그들이 수업 당 평균 2 명의 이탈리아 어린이 (30 명)를 가지고 있다고 말했다. …

3
로서
TL, DR은 : 그것은 그 표시 반대로 조언을 자주 반복하는, 교차 검증 (LOO-CV)두고 온 아웃 -이며,KKK 와 -fold CVKKK (주름의 수)와 동일한NNN (개수 관찰) 훈련의 -있는 일반화 오류의 수익률 추정치 적어도 어떤을위한 변수KKK , 아닌 대부분의 변수를 특정 가정 안정성 (잘 모르겠어요 모델 / 알고리즘, 데이터 세트, 또는 두 가지 …

2
MEAN이 ARIMA보다 성능이 우수하지 않은가?
나는 최근에 다양한 예측 방법 (MEAN, RWF, ETS, ARIMA 및 MLP)을 적용했으며 MEAN이 놀랍게 잘 작동하는 것을 발견했습니다. (MEAN : 모든 미래 예측이 관측 된 값의 산술 평균과 같은 것으로 예측되는 경우) MEAN은 내가 사용한 3 개의 시리즈에서 ARIMA보다 성능이 우수했습니다. 내가 알고 싶은 것은 이것이 비정상적인 것입니까? 이것은 내가 …

1
글 머가 최대 가능성을 얻지 못하는 이유는 무엇입니까 (추가적인 일반 최적화를 적용하여 확인)?
수치 유도 MLE 의의 GLMM가 실제로 어렵고, 나는 알고있다, 우리는 (사용, 예를 들면 무력 최적화를 사용하지 않아야 optim하는 간단한 방식으로). 그러나 내 교육 목적으로 모델을 올바르게 이해하기 위해 노력하고 싶습니다 (아래 코드 참조). 나는에서 일관되지 않은 결과를 얻는다는 것을 알았습니다 glmer(). 특히, glmer내가 작성한 가능성 함수에 따라 MLE을 초기 값으로 …

6
두 이항 분포가 서로 통계적으로 다른지 테스트
나는 이항 분포를 갖는 세 개의 데이터 그룹을 가지고 있습니다 (즉, 각 그룹에는 성공 또는 실패 요소가 있습니다). 예상되는 성공 확률은 없지만 대신 실제 성공률에 대한 근사값으로 각각의 성공률에만 의존 할 수 있습니다. 이 질문 만 찾았 습니다. 가까이 있지만이 시나리오를 정확하게 다루지 않는 것 같습니다. 테스트를 단순화하기 위해 2 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.