통계 및 빅 데이터

8

어떤 맥락에서 베이지안 통계 방법을 사용하는 것에 대한 실질적인 반대 의견은 무엇입니까? 아니요, 나는 이전의 선택에 대해 평상시와 다름을 의미하지 않습니다. 이것이 대답이 없으면 기뻐할 것입니다.

44 bayesian

4

통계 정보 "치트 시트"가 하나 이상 있는지 궁금합니다. 모델 사용시기 모델을 사용하지 않을 때 필수 및 선택적 입력 예상 출력 모델이 다른 분야 (정책, 바이오, 엔지니어링, 제조 등)에서 테스트 되었습니까? 실무 또는 연구에서 허용됩니까? 예상되는 변화 / 정확도 / 정밀도 경고 확장 성 더 이상 사용되지 않는 모델, 피하거나 사용하지 …

44 references modeling

8

특이 치의 엄격한 정의?

사람들은 종종 통계에서 특이 치를 다루는 것에 대해 이야기합니다. 내가 알 수있는 한 이상치의 정의는 완전히 주관적이라는 것입니다. 예를 들어 임의의 임의 변수의 실제 분포가 매우 두꺼운 꼬리 나 이봉형이면 특이 치를 탐지하기위한 표준 시각화 또는 요약 통계는 표본 추출하려는 분포의 일부를 잘못 제거합니다. 특이 치 (존재하는 경우)에 대한 엄격한 …

44 outliers definition

5

다중 비교가 왜 문제가됩니까?

다중 비교 에서 실제로 문제가 무엇인지 이해하기가 어렵습니다 . 간단한 비유로 많은 결정을 내리는 사람은 많은 실수를 저지를 것이라고합니다. 따라서 Bonferroni 보정과 같이 매우 보수적 인 예방 조치가 적용 되어이 사람이 가능한 한 실수를 전혀하지 않을 확률을 만듭니다. 그러나 왜 우리 는 잘못된 결정 의 비율 이 아니라 자신이 한 …

44 hypothesis-testing multiple-comparisons

6

데이터가 정규 분포를 따르는 지 확인하기 위해 R을 사용하여 테스트를 수행하는 방법

다음 구조의 데이터 세트가 있습니다. a word | number of occurrence of a word in a document | a document id R에서 정규 분포 검정을 어떻게 수행 할 수 있습니까? 아마 쉬운 질문이지만 저는 R 초보자입니다.

44 r distributions normality-assumption

6

최신 통계 / 기계 학습에서 다중 공선 성이 검사되지 않는 이유

기존 통계에서는 모형을 작성하는 동안 분산 팽창 계수 (VIF) 추정값과 같은 방법을 사용하여 다중 공선 성을 검사하지만 기계 학습에서는 피쳐 선택에 정규화를 사용하고 피쳐가 상관되어 있는지 확인하지 않는 것 같습니다. 조금도. 왜 그렇게합니까?

44 regression machine-learning multicollinearity regularization vif

4

GLM 과대 산포가 유의한지 여부를 확인하는 테스트가 있습니까?

R로 Poisson GLM을 만들고 있습니다.과 분산을 확인하기 위해 잔차 이탈과 자유도의 비율을보고 summary(model.name)있습니다. "중요한"것으로 간주 될 컷오프 값이나 테스트가 있습니까? 1보다 크면 데이터가 과도하게 분산되어 있지만 비율이 상대적으로 1에 가까울 경우 (예 : 1.7 (잔여 편차 = 25.48, df = 15) 및 1.3 (rd = 324, df) = 253)], 여전히 …

44 statistical-significance overdispersion

6

R 플롯에서 레이블이 겹치지 않게하려면 어떻게합니까? [닫은]

R로 아주 간단한 산점도를 레이블링하려고합니다. 이것이 내가 사용하는 것입니다. plot(SI, TI) text(SI, TI, Name, pos=4, cex=0.7) 보시다시피 결과는 평범합니다 (확대하려면 클릭하십시오). textxy함수를 사용하여 이것을 보완하려고 시도했지만 더 좋지 않습니다 . 밀집된 클러스터에서는 이미지 자체를 더 크게 만들 수 없습니다. 이를 보완하고 겹치지 않는 R 플롯 레이블을 허용하는 기능이나 쉬운 방법이 …

44 r data-visualization scatterplot

4

출력 레이어에 어떤 활성화 기능이 있습니까?

숨겨진 레이어에 대한 활성화 기능의 선택은 분명하지만 (주로 시그 모이 드 또는 탄), 출력 레이어의 활성화 기능을 결정하는 방법이 궁금합니다. 일반적인 선택은 선형 함수, S 자형 함수 및 소프트 맥스 함수입니다. 그러나 언제 어느 것을 사용해야합니까?

44 neural-networks

3

서로 다른 두 회귀 분석에서 계수의 동등성 테스트

이것은 기본적인 문제 인 것처럼 보이지만 실제로 두 가지 회귀 분석에서 계수의 동등성을 테스트하는 방법을 모른다는 것을 깨달았습니다. 누구든지 이것에 대해 약간의 빛을 비출 수 있습니까? 더 공식적으로, 나는 다음과 같은 두 개의 회귀 분석을 실행한다고 가정 및 곳 회귀의 설계 행렬을 의미 , 그리고 회귀의 계수의 벡터에 . 하는 …

44 hypothesis-testing inference

5

클러스터링하기 전에 데이터를 확장해야합니까?

이 튜토리얼을 찾았습니다. 클러스터링 전에 기능에서 스케일 기능을 실행해야한다고 제안합니다 (데이터가 z 점수로 변환된다고 생각합니다). 그것이 필요한지 궁금합니다. 데이터를 스케일링하지 않으면 멋진 팔꿈치 포인트가 있기 때문에 주로 묻습니다. 그러나 스케일링하면 사라집니다. :)

44 clustering k-means

5

정방향 및 비터 비 알고리즘의 차이점은 무엇입니까?

숨겨진 Markov 모델 (HMM)에서 추론을위한 순방향 알고리즘 과 Viterbi 알고리즘 의 차이점이 무엇인지 알고 싶습니다 .

44 algorithms hidden-markov-model viterbi-algorithm forward-backward

7

초보자를위한 신경망 참조 (교재, 온라인 강좌)

신경망을 배우고 싶습니다. 저는 전산 언어 학자입니다. 통계 머신 러닝 접근법을 알고 있으며 파이썬으로 코딩 할 수 있습니다. 나는 개념부터 시작하여 계산 언어학 관점에서 유용 할 수있는 인기있는 모델을 알고 있습니다. 참고 용으로 웹을 탐색하고 몇 권의 책과 자료를 찾았습니다. Ripley, Brian D. (1996) 케임브리지 패턴 인식 및 신경망 비숍, …

43 neural-networks deep-learning references natural-language computer-vision

4

자연 로그 변경이 백분율 변경 인 이유는 무엇입니까? 이것을 만드는 로그는 무엇입니까?

계수가 백분율 변화로 해석되는 로그 회귀 분석을 수행 할 수 있도록 로그의 속성이 어떻게 로그 속성을 만드는지 설명 할 수 있습니까?

43 regression logarithm mathematical-statistics

13

기계 학습이 SHA256 해시를 디코딩 할 수 있습니까?

64 자 SHA256 해시가 있습니다. 해시를 생성하는 데 사용되는 평문이 1로 시작하는지 여부를 예측할 수있는 모델을 훈련시키고 싶습니다. 이것이 "가능한"인지에 관계없이, 어떤 알고리즘이 가장 좋은 방법입니까? 내 초기 생각 : 1로 시작하는 큰 해시 샘플과 1로 시작하지 않는 큰 해시 샘플을 생성하십시오. 해시의 64 자 각각을 일종의 감독되지 않은 로지스틱 …

43 machine-learning logistic