통계 및 빅 데이터

6

주성분 분석을 연속 변수와 범주 변수가 혼합 된 데이터 세트에 적용 할 수 있습니까?

연속 데이터와 범주 데이터가 모두있는 데이터 세트가 있습니다. PCA를 사용하여 분석 중이며 범주 변수를 분석의 일부로 포함시키는 것이 좋은지 궁금합니다. PCA는 연속 변수에만 적용 할 수 있다는 것을 이해합니다. 그 맞습니까? 범주 형 데이터에 사용할 수없는 경우 분석에 어떤 대안이 있습니까?

147 categorical-data pca correspondence-analysis mixed-type-data

5

신경망이 학습하지 않으면 어떻게해야합니까?

신경망을 훈련하고 있지만 훈련 손실은 줄어들지 않습니다. 이 문제를 어떻게 해결할 수 있습니까? 과적 합이나 정규화에 대해 묻지 않습니다. 훈련 세트 에서 네트워크 성능이 향상되지 않는 문제를 해결하는 방법에 대해 묻고 있습니다. 이 질문은 의도적으로 일반적이므로 신경망을 훈련하는 방법에 대한 다른 질문은 "사람에게 물고기를 주면 하루 동안 먹이를 주지만 남자에게 …

147 neural-networks deep-learning

7

중심 한계 정리에 대한 직관적 인 설명은 무엇입니까?

몇 가지 다른 맥락에서 우리는 우리 가 채택하고자하는 통계적 방법 (예를 들어, 정규 분포에 의한 이항 분포의 근사)을 정당화하기 위해 중심 한계 정리 를 호출합니다 . 나는 왜 정리가 참인지에 대한 기술적 세부 사항을 이해하지만, 이제 중앙 한계 정리의 직관을 실제로 이해하지 못한다는 것이 나에게 일어났다. 그렇다면 중심 제한 정리의 …

144 intuition central-limit-theorem

25

R vs SAS, 왜 사기업이 SAS를 선호합니까?

R을 배웠지 만 회사는 SAS 경험에 훨씬 더 관심이있는 것 같습니다. SAS와 R의 장점은 무엇입니까?

143 r sas

6

심층 신경망에서 시그 모이 드 기능에 비해 ReLU의 장점은 무엇입니까?

비선형 성의 최첨단 기술은 심층 신경망에서 시그 모이 드 기능 대신 정류 선형 단위 (ReLU)를 사용하는 것입니다. 장점은 무엇입니까? ReLU를 사용할 때 네트워크를 훈련하는 것이 더 빠르며 생물학적으로 더 영감을 받는다는 것을 알고 있습니다. 다른 장점은 무엇입니까? (즉, S 자형을 사용하면 어떤 단점이 있습니까?)

141 machine-learning neural-networks deep-learning

5

한 사람이 어떻게“다른 변수를 제어”합니까?

이 질문에 동기를 부여한 기사는 다음과 같습니다. 조바심은 우리를 뚱뚱하게합니까? 나는이 기사를 좋아했고, 문제가되는 두 변수 사이의 진정한 관계를 가장 잘 분리하기 위해“다른 변수에 대한 통제”(IQ, 경력, 수입, 나이 등) 개념을 잘 보여줍니다. 일반적인 데이터 세트에서 변수를 실제로 제어 하는 방법 을 설명해 주 시겠습니까? 예를 들어, 조급함 수준과 BMI는 …

141 regression causality confounding controlling-for-a-variable statistics-in-media

5

교차 유효성 검사 후 전체 데이터 세트를 사용한 교육?

교차 유효성 검사 후 전체 데이터 세트 를 학습 하는 것이 항상 좋은 생각 입니까? 또 다른 방법으로 넣어, 그것은과 훈련 괜찮 모든 내 데이터 세트의 샘플 및 하지 이 특정 피팅 여부를 확인 할 수있는 overfits ? 문제에 대한 배경 지식 : 매개 변수화 된 모델 패밀리 가 있다고 …

139 machine-learning cross-validation model-selection

14

아마존 인터뷰 질문 —2 차 인터뷰 가능성

아마존과의 인터뷰 에서이 질문을 받았습니다. 첫 번째 인터뷰를받는 모든 사람의 50 %가 두 번째 인터뷰를받습니다. 두 번째 인터뷰를받은 친구의 95 %는 첫 인터뷰가 좋은 것으로 느꼈습니다. 두 번째 인터뷰를받지 않은 친구의 75 %가 첫 인터뷰를 잘했다고 느꼈습니다. 첫 면접이 양호하다고 생각되면 두 번째 면접을받을 확률은 얼마입니까? 누군가이 문제를 해결하는 방법을 …

139 probability conditional-probability

8

페이스 북이 끝나고 있습니까?

최근 에이 논문 은 많은 주목을 받았다 (예 : WSJ ). 기본적으로 저자는 2017 년까지 페이스 북이 회원의 80 %를 잃을 것이라고 결론을 내렸다. 그들은 역학에서 자주 사용되는 구획 모델 인 SIR 모델 의 외삽을 근거로 주장을하고있다 . Google의 검색에서 "Facebook"에 대한 데이터를 가져 오며 저자는 Myspace의 소멸을 사용하여 결론을 …

138 hypothesis-testing correlation epidemiology social-network

4

K- 폴드 교차 검증에서 K의 선택

일부 학습 알고리즘의 성능을 평가하기 위해 폴드 교차 검증을 몇 번 사용했지만 항상 값을 선택하는 방법에 대해 의아해했습니다 .KKKKKKK 나는 종종 값을 보았고 사용 했지만 이것은 완전히 임의적 인 것처럼 보이며 이제는 생각하지 않고 습관으로 을 사용 합니다. 나에게 의 가치를 높이면 더 세분화 된 것처럼 보이므로 이상적으로는 크게 해야 …

136 machine-learning classification cross-validation

15

표준 편차를 계산할 때 로 나누는 직관적 인 설명 ?

당신이에 의해 제곱 오차의 합을 나누는 이유는 수업 시간에 오늘 질문했다 대신에의 , 표준 편차를 계산.Nn−1n−1n-1nnn 나는 (내가 불편 추정량에 가고 싶지 않았기 때문에) 클래스에 답변을하지 않을거야 말했지만, 나중에 궁금 - 이 이것에 대한 직관적 인 설명은?!

136 standard-error intuition teaching bessels-correction

7

선형 커널을 사용하는 SVM에서 C의 영향은 무엇입니까?

현재 데이터를 분류하기 위해 선형 커널과 함께 SVM을 사용하고 있습니다. 훈련 세트에 오류가 없습니다. 매개 변수 ( )에 여러 값을 시도했습니다 . 테스트 세트의 오류는 변경되지 않았습니다.CCC10−5,…,10210−5,…,10210^{-5}, \dots, 10^2 지금은 궁금해 :이 오류가 루비 바인딩으로 인한 위해 libsvm내가 (사용하고 RB-libsvm을 ) 또는 이것이 이론적으로 설명 할 ? 매개 변수 항상 …

134 machine-learning svm libsvm

2

애플리케이션과 함께 신경망에서 사용되는 비용 함수 목록

신경망의 성능을 평가하는 데 사용되는 일반적인 비용 함수는 무엇입니까? 세부 (이 질문의 나머지 부분을 건너 뛰십시오. 여기서 나의 의도는 단순히 대답이 일반 독자가 더 이해하기 쉽게하는 데 사용할 수있는 표기법에 대한 설명을 제공하는 것입니다) 실제로 사용 된 몇 가지 방법과 함께 공통 비용 함수 목록을 갖는 것이 유용 할 것입니다. …

133 machine-learning neural-networks

2

내 데이터에 가장 적합한 분포를 결정하는 방법은 무엇입니까?

데이터 세트가 있으며 데이터에 가장 적합한 분포를 파악하고 싶습니다. 이 fitdistr()함수를 사용하여 추정 분포 (예 : Weibull, Cauchy, Normal)를 설명하는 데 필요한 매개 변수를 추정했습니다. 이러한 모수를 사용하여 Kolmogorov-Smirnov Test를 수행하여 표본 데이터가 가정 된 분포와 동일한 분포에서 나온 것인지 추정 할 수 있습니다. p- 값이 0.05보다 크면 표본 데이터가 …

133 r distributions goodness-of-fit kolmogorov-smirnov distribution-identification

5

주성분 분석과 다차원 스케일링의 차이점은 무엇입니까?

PCA와 기존 MDS는 어떻게 다릅니 까? MDS와 비 메트릭 MDS는 어떻습니까? 서로 선호하는 시간이 있습니까? 해석이 어떻게 다릅니 까?

133 pca multidimensional-scaling pcoa