통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

7
작은 샘플에서 Wilcoxon과 같은 t- 테스트 또는 비모수 테스트 중에서 선택하는 방법
특정 가설은 스튜던트 t- 검정 (2 샘플 경우 불균형 변동에 대한 Welch의 보정을 사용하여)을 사용하거나 Wilcoxon 대응 부호 순위 검정 인 Wilcoxon-Mann-Whitney U 검정과 같은 비모수 검정을 사용하여 검정 할 수 있습니다. 또는 쌍 부호 테스트. 우리는 어떻게 할 수 원칙 시험은 표본의 크기는 "작은"특히 경우, 가장 적합한 인에 대한 …

4
커널이 무엇인지 직관적으로 설명하는 방법?
많은 머신 러닝 분류기 (예 : 벡터 머신 지원)를 사용하면 커널을 지정할 수 있습니다. 커널이 무엇인지 설명하는 직관적 인 방법은 무엇입니까? 내가 생각한 한 가지 측면은 선형 커널과 비선형 커널의 구별입니다. 간단히 말해서 '선형 결정 함수', '비선형 결정 함수'에 대해 말할 수 있습니다. 그러나 커널을 '결정 함수'라고 부르는 것이 좋은 …


6
역 전파없이 신경망을 훈련시킬 수 있습니까?
많은 신경망 서적과 자습서는 백 그라디언트 알고리즘에 많은 시간을 소비하는데, 이는 기본적으로 그래디언트를 계산하는 도구입니다. ~ 10K 매개 변수 / 무게로 모델을 작성한다고 가정 해 봅시다. 그라디언트 프리 최적화 알고리즘을 사용하여 최적화를 실행할 수 있습니까? 수치 구배 계산이 너무 느리다고 생각하지만 Nelder-Mead, Simulated Annealing 또는 Genetic Algorithm과 같은 다른 방법은 …


2
우리는 p-hacking에 대해 얼마나 알고 있습니까?
p- 해킹 ( "데이터 준설" , "스누핑"또는 "낚시")이라는 문구 는 결과적으로 인위적으로 통계적으로 유의미한 다양한 종류의 통계적 과실을 말합니다. "더 중요한"결과를 얻는 방법에는 여러 가지가 있습니다. 패턴이 발견 된 데이터의 "흥미로운"부분 집합 만을 분석하는 것 ; 다중 테스트 , 특히 사후 테스트에 적합하게 조정하지 못하고 수행되지 않은 테스트를보고하지 않은 경우; …

30
비 통계 과학자에게 어떤 책을 추천 하시겠습니까?
통계학자가 아닌 과학자에게 어떤 책을 추천 하시겠습니까? 명확한 배달이 가장 높이 평가됩니다. 시계열 분석, 대용량 데이터 세트의 프리젠 테이션 및 집계와 같은 일반적인 작업에 적합한 기술과 방법에 대한 설명과 함께.
94 references 

13
다변량 데이터에서 특이 치를 식별하는 가장 좋은 방법은 무엇입니까?
적어도 세 개의 변수를 가진 큰 다변량 데이터 세트가 있다고 가정하십시오. 특이 치를 어떻게 찾을 수 있습니까? 쌍 차원 산점도는 2 차원 부분 공간에서 특이 치가 아닌 3 차원에 특이 치가 존재할 수 있으므로 작동하지 않습니다. 회귀 문제가 아니라 실제 다변량 데이터에 대해 생각하고 있습니다. 따라서 강력한 회귀 또는 컴퓨팅 …


6
필수 데이터 검사 테스트
내 직무에서 나는 종종 다른 사람들의 데이터 세트와 함께 일하고 비전문가들은 임상 데이터를 가져 와서 요약하고 통계 테스트를 수행하도록 도와줍니다. 내가 가지고있는 문제는 가져온 데이터 세트가 거의 항상 오타, 불일치 및 기타 모든 종류의 문제로 가득 차 있다는 것입니다. 다른 사람들이 들어오는 데이터 세트를 확인하려고하는 표준 테스트가 있는지 알고 싶습니다. …

3
혼동 행렬을 사용하여 멀티 클래스 분류의 정밀도를 계산하고 리콜하는 방법은 무엇입니까?
멀티 클래스 분류 문제에 대해 혼동 행렬을 사용하여 정밀도를 계산하고 호출하는 방법이 궁금합니다. 특히 관측치는 가장 가능성있는 클래스 / 라벨에만 할당 할 수 있습니다. 나는 계산하고 싶다 : 정밀도 = TP / (TP + FP) 리콜 = TP / (TP + FN) 각 클래스에 대해 마이크로 평균 F 측정을 계산합니다.

10
시계열이 정지해야하는 이유는 무엇입니까?
나는 고정 시계열이 시간이 지남에 따라 평균과 분산이 일정하다는 것을 이해합니다. 다른 ARIMA 또는 ARM 모델을 실행하기 전에 데이터 세트가 고정되어 있는지 확인해야하는 이유를 누군가에게 설명해 주시겠습니까? 자기 상관 및 / 또는 시간이 중요하지 않은 일반 회귀 모형에도 적용됩니까?

12
베이지안은 누구입니까?
통계학에 관심을 갖게되면 이분법 적 "Frequentist"와 "Bayesian"은 곧 평범 해집니다 (그리고 누가 Nate Silver의 The Signal and Noise를 읽지 못했 습니까?). 대화와 입문 과정에서 관점은 압도적으로 빈번하다 ( MLE , 값). 그러나 베이 즈 공식에 감탄 하고 일반적으로 접선으로 이전 분포 에 대한 아이디어를 다루는 데 시간이 조금 걸리는 경향이 …


2
신경망에서 임베딩 레이어는 무엇입니까?
많은 신경망 라이브러리에는 Keras 또는 Lasagne 와 같은 '임베딩 레이어'가 있습니다. 설명서를 읽었음에도 그 기능을 이해하고 있는지 잘 모르겠습니다. 예를 들어, Keras 문서에서 다음과 같이 말합니다. 양의 정수 (인덱스)를 고정 크기의 밀도 벡터로 변환합니다 (예 : [[4], [20]]-> [[0.25, 0.1], [0.6, -0.2]] 지식이 풍부한 사람이 자신이하는 일과 사용시기를 설명 할 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.