통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

6
주성분 분석을 연속 변수와 범주 변수가 혼합 된 데이터 세트에 적용 할 수 있습니까?
연속 데이터와 범주 데이터가 모두있는 데이터 세트가 있습니다. PCA를 사용하여 분석 중이며 범주 변수를 분석의 일부로 포함시키는 것이 좋은지 궁금합니다. PCA는 연속 변수에만 적용 할 수 있다는 것을 이해합니다. 그 맞습니까? 범주 형 데이터에 사용할 수없는 경우 분석에 어떤 대안이 있습니까?

5
신경망이 학습하지 않으면 어떻게해야합니까?
신경망을 훈련하고 있지만 훈련 손실은 줄어들지 않습니다. 이 문제를 어떻게 해결할 수 있습니까? 과적 합이나 정규화에 대해 묻지 않습니다. 훈련 세트 에서 네트워크 성능이 향상되지 않는 문제를 해결하는 방법에 대해 묻고 있습니다. 이 질문은 의도적으로 일반적이므로 신경망을 훈련하는 방법에 대한 다른 질문은 "사람에게 물고기를 주면 하루 동안 먹이를 주지만 남자에게 …

7
중심 한계 정리에 대한 직관적 인 설명은 무엇입니까?
몇 가지 다른 맥락에서 우리는 우리 가 채택하고자하는 통계적 방법 (예를 들어, 정규 분포에 의한 이항 분포의 근사)을 정당화하기 위해 중심 한계 정리 를 호출합니다 . 나는 왜 정리가 참인지에 대한 기술적 세부 사항을 이해하지만, 이제 중앙 한계 정리의 직관을 실제로 이해하지 못한다는 것이 나에게 일어났다. 그렇다면 중심 제한 정리의 …


6
심층 신경망에서 시그 모이 드 기능에 비해 ReLU의 장점은 무엇입니까?
비선형 성의 최첨단 기술은 심층 신경망에서 시그 모이 드 기능 대신 정류 선형 단위 (ReLU)를 사용하는 것입니다. 장점은 무엇입니까? ReLU를 사용할 때 네트워크를 훈련하는 것이 더 빠르며 생물학적으로 더 영감을 받는다는 것을 알고 있습니다. 다른 장점은 무엇입니까? (즉, S 자형을 사용하면 어떤 단점이 있습니까?)

5
한 사람이 어떻게“다른 변수를 제어”합니까?
이 질문에 동기를 부여한 기사는 다음과 같습니다. 조바심은 우리를 뚱뚱하게합니까? 나는이 기사를 좋아했고, 문제가되는 두 변수 사이의 진정한 관계를 가장 잘 분리하기 위해“다른 변수에 대한 통제”(IQ, 경력, 수입, 나이 등) 개념을 잘 보여줍니다. 일반적인 데이터 세트에서 변수를 실제로 제어 하는 방법 을 설명해 주 시겠습니까? 예를 들어, 조급함 수준과 BMI는 …

5
교차 유효성 검사 후 전체 데이터 세트를 사용한 교육?
교차 유효성 검사 후 전체 데이터 세트 를 학습 하는 것이 항상 좋은 생각 입니까? 또 다른 방법으로 넣어, 그것은과 훈련 괜찮 모든 내 데이터 세트의 샘플 및 하지 이 특정 피팅 여부를 확인 할 수있는 overfits ? 문제에 대한 배경 지식 : 매개 변수화 된 모델 패밀리 가 있다고 …

14
아마존 인터뷰 질문 —2 차 인터뷰 가능성
아마존과의 인터뷰 에서이 질문을 받았습니다. 첫 번째 인터뷰를받는 모든 사람의 50 %가 두 번째 인터뷰를받습니다. 두 번째 인터뷰를받은 친구의 95 %는 첫 인터뷰가 좋은 것으로 느꼈습니다. 두 번째 인터뷰를받지 않은 친구의 75 %가 첫 인터뷰를 잘했다고 느꼈습니다. 첫 면접이 양호하다고 생각되면 두 번째 면접을받을 확률은 얼마입니까? 누군가이 문제를 해결하는 방법을 …

8
페이스 북이 끝나고 있습니까?
최근 에이 논문 은 많은 주목을 받았다 (예 : WSJ ). 기본적으로 저자는 2017 년까지 페이스 북이 회원의 80 %를 잃을 것이라고 결론을 내렸다. 그들은 역학에서 자주 사용되는 구획 모델 인 SIR 모델 의 외삽을 근거로 주장을하고있다 . Google의 검색에서 "Facebook"에 대한 데이터를 가져 오며 저자는 Myspace의 소멸을 사용하여 결론을 …

4
K- 폴드 교차 검증에서 K의 선택
일부 학습 알고리즘의 성능을 평가하기 위해 폴드 교차 검증을 몇 번 사용했지만 항상 값을 선택하는 방법에 대해 의아해했습니다 .KKKKKKK 나는 종종 값을 보았고 사용 했지만 이것은 완전히 임의적 인 것처럼 보이며 이제는 생각하지 않고 습관으로 을 사용 합니다. 나에게 의 가치를 높이면 더 세분화 된 것처럼 보이므로 이상적으로는 크게 해야 …


7
선형 커널을 사용하는 SVM에서 C의 영향은 무엇입니까?
현재 데이터를 분류하기 위해 선형 커널과 함께 SVM을 사용하고 있습니다. 훈련 세트에 오류가 없습니다. 매개 변수 ( )에 여러 값을 시도했습니다 . 테스트 세트의 오류는 변경되지 않았습니다.CCC10−5,…,10210−5,…,10210^{-5}, \dots, 10^2 지금은 궁금해 :이 오류가 루비 바인딩으로 인한 위해 libsvm내가 (사용하고 RB-libsvm을 ) 또는 이것이 이론적으로 설명 할 ? 매개 변수 항상 …

2
애플리케이션과 함께 신경망에서 사용되는 비용 함수 목록
신경망의 성능을 평가하는 데 사용되는 일반적인 비용 함수는 무엇입니까? 세부 (이 질문의 나머지 부분을 건너 뛰십시오. 여기서 나의 의도는 단순히 대답이 일반 독자가 더 이해하기 쉽게하는 데 사용할 수있는 표기법에 대한 설명을 제공하는 것입니다) 실제로 사용 된 몇 가지 방법과 함께 공통 비용 함수 목록을 갖는 것이 유용 할 것입니다. …

2
내 데이터에 가장 적합한 분포를 결정하는 방법은 무엇입니까?
데이터 세트가 있으며 데이터에 가장 적합한 분포를 파악하고 싶습니다. 이 fitdistr()함수를 사용하여 추정 분포 (예 : Weibull, Cauchy, Normal)를 설명하는 데 필요한 매개 변수를 추정했습니다. 이러한 모수를 사용하여 Kolmogorov-Smirnov Test를 수행하여 표본 데이터가 가정 된 분포와 동일한 분포에서 나온 것인지 추정 할 수 있습니다. p- 값이 0.05보다 크면 표본 데이터가 …


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.