통계 및 빅 데이터

4

Fisher 및 Neyman-Pearson 프레임 워크를 언제 사용해야합니까?

피셔의 가설 검정 방법과 Neyman-Pearson 사고 학교의 차이점에 대해 최근에 많이 읽었습니다. 나의 질문은 잠시 철학적 이의를 무시하는 것이다. 통계 모델링에 대한 Fisher의 접근 방식은 언제 사용해야하고, 중요도 수준 등의 Neyman-Pearson 방법은 언제 사용해야합니까? 어떤 실질적인 문제에서 어떤 견해를지지 할 것인지 결정하는 실용적인 방법이 있습니까?

73 hypothesis-testing p-value methodology

4

"정보가없는 사전"이란 무엇입니까? 진정으로 정보가없는 것을 가질 수 있습니까?

이 질문 에 대한 의견에서 영감을 얻었습니다 . 우리는 이전에 "정보가없는"것을 무엇으로 간주하며, 정보가없는 것으로 추정되는 정보에는 어떤 정보가 여전히 포함되어 있습니까? 나는 일반적으로 베이지안 분석에서 멋진 부분을 빌리려고하는 잦은 유형의 분석 인 분석에서 이전을 본다 ( '뜨거운 일을하기 위해 모든 방법을 쉽게 해석 할 수있다'). 주장 효과 측정의 범위도 …

73 bayesian prior

8

멀티 클래스 멀티 라벨 분류에 대한 정밀도 / 호출을 계산하는 방법은 무엇입니까?

멀티 클래스 멀티 라벨 분류 (예 : 두 개 이상의 레이블이있는 분류 및 각 인스턴스가 여러 레이블을 가질 수있는 분류)에 대한 정밀도 및 리콜 측정을 계산하는 방법이 궁금합니다.

72 machine-learning classification precision-recall multi-class

7

다중 회귀 분석을위한 최소 표본 크기의 경험 법칙

사회 과학 연구 제안의 맥락에서 나는 다음과 같은 질문을 받았다. 다중 회귀 분석을위한 최소 표본 크기를 결정할 때 항상 100 + m (여기서 m은 예측 변수 수)만큼 줄었습니다. 이것이 적절합니까? 나는 종종 다른 규칙에 따라 비슷한 질문을 많이 받는다. 또한 다양한 교과서에서 그러한 경험 법칙을 많이 읽었습니다. 인용과 관련하여 규칙의 …

72 regression sample-size power-analysis rule-of-thumb

14

Bayesian보다 잦은 접근 방식이 실질적으로 더 좋은 경우는 언제입니까?

배경 : 나는 베이지안 통계에 대한 공식적인 교육을받지 못했지만 (더 많은 것을 배우는 데 관심이 있지만) 많은 사람들이 왜 자주 통계보다 선호하는 것처럼 느끼는지에 대한 요지를 알 수 있습니다. 내가 가르치는 입문 통계 (사회 과학) 수업의 학부조차도 베이지안 접근 방식이 매력적이라는 것을 발견했다. "왜 우리는 널 (null)을 고려할 때 데이터의 …

72 bayesian frequentist philosophical

4

포아송과 지수 분포의 관계

포아송 분포의 대기 시간은 매개 변수 람다를 사용한 지수 분포입니다. 그러나 나는 그것을 이해하지 못한다. 포아송은 예를 들어 단위 시간당 도착 수를 모델링합니다. 이것은 지수 분포와 어떤 관련이 있습니까? 시간 단위로 k 도착 확률이 P (k) (poisson으로 모델링 됨)이고 k + 1 확률이 P (k + 1)라고 가정하면 지수 분포는 …

72 distributions poisson-distribution exponential

7

유클리드 거리는 일반적으로 희소 데이터에 적합하지 않습니까?

나는 우리가 다차원적이고 희소 한 데이터를 가질 때 고전적인 거리 (유클리드 거리와 같은)가 약하게 구별되는 곳을 보았다. 왜? 유클리드 거리가 잘 수행되지 않는 두 개의 희소 데이터 벡터의 예가 있습니까? 이 경우 어떤 유사성을 사용해야합니까?

72 machine-learning clustering data-mining sparse euclidean

10

선형 회귀에 대한 일반적인 가정의 전체 목록은 무엇입니까?

선형 회귀에 대한 일반적인 가정은 무엇입니까? 그들은 다음을 포함합니까? 독립 변수와 종속 변수 사이의 선형 관계 독립적 인 오류 정규 분포 오차 동질성 다른 사람이 있습니까?

72 regression assumptions

13

Shannon의 엔트로피에서 로그의 역할은 무엇입니까?

Shannon의 엔트로피 는 각 결과에 대한 확률의 로그에 곱한 각 결과의 확률의 합의 음수입니다. 이 방정식에서 대수는 어떤 목적으로 사용됩니까? 직관적이고 시각적 인 답변 (심층적 인 수학 답변과 반대)에는 보너스 포인트가 제공됩니다!

72 entropy intuition sequence-analysis

2

릿지 회귀가 왜“리지”라고 불리는가, 왜 필요하며,

릿지 회귀 계수 추정치 β R은 을 최소화 값인β^아르 자형β^R\hat{\beta}^R RSS + λ ∑j = 1피β2제이.RSS+λ∑j=1pβj2. \text{RSS} + \lambda \sum_{j=1}^p\beta_j^2. 내 질문은 : 경우 , 우리는 표현이 위의 일반적인 RSS로 줄일 것을 알 수있다. 만약 λ → ∞ 라면 ? 계수의 동작에 대한 교과서 설명을 이해하지 못합니다.λ = 0λ=0\lambda = …

71 ridge-regression statistical-learning history

2

닫힌 형태 대 경사 하강에서의 회귀 모수 해결

Andrew Ng의 기계 학습 과정 에서 선형 회귀 및 로지스틱 회귀를 소개하고 경사 하강 및 뉴턴의 방법을 사용하여 모형 매개 변수를 맞추는 방법을 보여줍니다. 그래디언트 디센트는 기계 학습의 일부 응용 프로그램 (예 : 역 전파)에 유용 할 수 있지만 더 일반적인 경우 닫힌 형태의 매개 변수를 풀지 못하는 이유가 있습니다. …

71 regression machine-learning logistic gradient-descent

8

머신 러닝에서 찾기 어려운 기술?

데이터 마이닝과 머신 러닝이 대중화되어 거의 모든 CS 학생이 분류 자, 클러스터링, 통계적 NLP 등에 대해 알고있는 것 같습니다. 따라서 오늘날 데이터 마이너를 찾는 것은 어려운 일이 아닙니다. 내 질문은 : 데이터 마이너가 다른 사람들과 차별화 할 수있는 기술은 무엇입니까? 그를 찾기 쉽지 않은 사람 같은 사람으로 만드는 것.

71 machine-learning data-mining

2

R에서 중복 된 행 데이터 프레임 제거 [닫기]

이 예제 데이터 프레임에서 중복 행을 제거하려면 어떻게해야합니까? A 1 A 1 A 2 B 4 B 1 B 1 C 2 C 2 두 열을 기반으로 중복을 제거하고 싶습니다. A 1 A 2 B 4 B 1 C 2 순서는 중요하지 않습니다.

71 r

7

주요 구성 요소 점수는 무엇입니까?

주요 구성 요소 점수 (PC 점수, PCA 점수) 란 무엇입니까?

71 pca definition

15

R을 사용하여 재현 가능한 연구에 대한 실질적인 예

질문 : 온라인에서 무료로 이용할 수있는 R을 사용한 재현 가능한 연구 의 좋은 예가 있습니까? 이상적인 예 : 구체적으로 이상적인 예는 다음과 같습니다. 원시 데이터 (및 이상적으로 데이터를 설명하는 메타 데이터) 데이터 가져 오기, 처리, 분석 및 출력 생성을 포함한 모든 R 코드 최종 출력물을 최종 문서에 연결하기위한 스 웨브 …

71 r references reproducible-research