통계 및 빅 데이터

9

Sankey 다이어그램을 어떻게 만들 수 있습니까?

25 data-visualization software sankey-diagram

4

Ziliak (2011)는 p- 값의 사용을 반대하고 몇 가지 대안을 언급합니다. 그들은 무엇인가?

통계적 추론에 대한 p- 값에 의존하는 단점에 대해 논의한 최근 기사에서 "매트릭스 v. 시라쿠사 노 및 학생 v. 피셔 통계적 유의성" (DOI : 10.1111 / j.1740-9713.2011.00511.x), Stephen T. Ziliak은 p- 값 사용에 반대합니다. 결론적 인 문단에서 그는 말한다 : 데이터는 우리가 이미 알고있는 것 중 하나입니다. 우리가 실제로 알고 싶은 …

25 r hypothesis-testing statistical-significance bayesian p-value

5

단순한 그리드 대신 Monte Carlo 방법을 사용하는 이유는 무엇입니까?

함수를 통합하거나 복잡한 시뮬레이션에서 Monte Carlo 방법이 널리 사용되는 것을 보았습니다. 임의의 점을 그리는 대신 함수를 통합하기 위해 점 격자를 생성하지 않는 이유를 스스로 묻습니다. 더 정확한 결과가 나오지 않습니까?

25 monte-carlo

7

예를 들어 성별이 일반적으로 1/2이 아닌 0/1로 코딩되는 이유는 무엇입니까?

데이터 분석을위한 코딩 논리를 이해합니다. 아래의 내 질문은 특정 코드 사용에 관한 것입니다. 성별이 여성의 경우 0, 남성의 경우 1로 코딩되는 이유가 있습니까? 이 코딩이 왜 '표준'으로 간주됩니까? 이것을 Female = 1 및 Male = 2와 비교하십시오.이 코딩에 문제가 있습니까?

25 data-transformation binary-data categorical-encoding units

2

칼만 필터와 이동 평균의 차이점은 무엇입니까?

나는 매우 간단한 칼만 필터 (랜덤 워크 + 노이즈 모델)를 계산 중입니다. 필터의 출력이 이동 평균과 매우 유사하다는 것을 알았습니다. 둘 사이에 등가가 있습니까? 그렇지 않다면 차이점은 무엇입니까?

25 kalman-filter

4

모델 불확실성 해결

CrossValidated 커뮤니티의 베이지안이 어떻게 모델 불확실성 의 문제를보고 어떻게 다루고 싶어 하는지 궁금 했습니다. 나는 두 부분으로 내 질문을 제기하려고 노력할 것이다. (경험 / 의견에서) 모델 불확실성을 다루는 것이 얼마나 중요합니까? 기계 학습 커뮤니티 에서이 문제에 관한 논문을 찾지 못했습니다. 그 이유가 궁금합니다. 모델 불확실성을 처리하는 일반적인 방법은 무엇입니까 (참조를 …

25 machine-learning bayesian model-selection

4

특징 수와 관측 수

특징의 수와 "견고한"분류기를 훈련시키는 데 필요한 관측치 사이의 관계에 대한 논문 / 책 / 아이디어가 있습니까? 예를 들어 훈련 세트로 2 개의 클래스에서 1000 개의 피처와 10 개의 관측치가 있고 테스트 세트로 10 개의 다른 관측치가 있다고 가정합니다. 분류기 X를 훈련시키고 테스트 세트에서 90 %의 감도와 90 %의 특이성을 부여합니다. …

25 machine-learning

6

분포를 비교하는 데 유용한 데이터 시각화 기술은 무엇입니까?

박사 학위 논문을 쓰고 있는데 분포를 비교하기 위해 상자 그림에 지나치게 의존한다는 것을 깨달았습니다. 이 작업을 수행하기위한 다른 대안은 무엇입니까? 또한 데이터 시각화에 대한 다른 아이디어로 나에게 영감을 줄 수있는 R 갤러리와 같은 다른 리소스를 알고 있는지 묻고 싶습니다.

25 r distributions data-visualization boxplot relative-distribution

3

한 번의 관측으로 분산에 대한 신뢰 구간

이것은 "확률 이론의 일곱 번째 콜로 모고 로프 학생 올림피아드"의 문제입니다. 두 모수를 모두 알 수없는 분포 에서 하나의 관측치 가 주어지면 신뢰 수준이 99 % 이상인 대한 신뢰 구간을 제공하십시오 .정규 ( μ , σ 2 ) σ 2XXXNormal(μ,σ2)Normal⁡(μ,σ2)\operatorname{Normal}(\mu,\sigma^2)σ2σ2\sigma^2 이것이 불가능한 것 같습니다. 해결책이 있지만 아직 읽지 않았습니다. 이견있는 …

25 probability normal-distribution confidence-interval variance

1

프로파일 가능성을 기반으로 신뢰 구간 구성

기초 통계 과정에서 "큰"표본 크기에 대한 점근 적 정규성 을 기반 으로 모집단 평균 와 같은 95 % 신뢰 구간을 구성하는 방법을 배웠습니다 . 리샘플링 방법 (예 : 부트 스트랩) 외에도 "프로필 가능성"을 기반으로하는 다른 접근 방법이 있습니다. 누군가이 방법을 설명 할 수 있습니까?μμ\mu 어떤 상황에서 점근 적 정상 성 …

25 confidence-interval profile-likelihood

2

다중 공선 성에서 PCA가 불안정합니까?

회귀 상황에서 상관 관계가 높은 변수 세트가있는 경우 추정 계수의 불안정성으로 인해 일반적으로 "나쁜"것이라는 것을 알고 있습니다 (결정자는 0에 가까워짐에 따라 분산이 무한대로 진행됩니다). 내 질문은이 "나쁜 점"이 PCA 상황에서 지속되는지 여부입니다. 공분산 행렬이 특이 해짐에 따라 특정 PC의 계수 / 부하 / 무게 / 고유 벡터가 불안정하거나 임의 / …

25 pca multicollinearity

2

언제 MLE에 R의 nlm 기능을 사용하지 않아야합니까?

나는 최대 가능성 추정을 위해 R의 nlm을 사용하도록 제안하는 몇 가지 가이드를 살펴 보았습니다. 그러나 이들 중 어느 것도 ( R의 문서 포함 ) 함수를 언제 사용할 것인지에 대한 이론적 인 지침을 제공하지 않습니다. 내가 알 수있는 한, nlm은 뉴턴 방법의 선을 따라 그라디언트 하강을하고 있습니다. 이 방법을 사용하는 것이 …

25 r maximum-likelihood

2

일반 선형 모형과 일반 선형 모형 (식별 링크 기능이 있는가?)

이것은 첫 번째 게시물이므로 일부 표준을 따르지 않으면 쉽게 받아 들일 수 있습니다. 내 질문을 검색했는데 아무 것도 나타나지 않았습니다. 내 질문은 주로 일반 선형 모델링 (GLM)과 일반 선형 모델링 (GZLM)의 실제 차이점과 관련이 있습니다. 제 경우에는 공변량으로 몇 가지 연속 변수가 있고 GZLM에 비해 ANCOVA에서 몇 가지 요소가 있습니다. …

25 modeling linear-model

4

통계 협업

생물 학자로서, 내가 어떤 시점에서 작업하고있는 많은 연구 프로젝트는 간단한 조언이나 내 데이터의 모델을 구현하고 테스트하기 위해 통계 학자와의 협력을 포함합니다. 저의 통계 동료들은 그들이 상당한 공동 작업을하고 있다는 점을 인정합니다. 임기 재검토 과정은 첫 번째 또는 마지막 저자 인 논문 만 고려할뿐입니다. 나 (또는 다른 과학자)가 더 나은 공동 …

25 academia

3

가장 먼저 분류 할 상위 5 개 분류기

명백한 분류기 특성 외에도 계산 비용, 기능 / 라벨의 예상 데이터 유형 데이터 세트의 특정 크기 및 차원에 대한 적합성 아직 잘 모르는 새로운 데이터 세트에 대해 먼저 시도해야하는 상위 5 개 (또는 10, 20?) 분류기는 무엇입니까 (예 : 의미 및 개별 기능의 상관 관계)? 일반적으로 Naive Bayes, Nearest Neighbor, …

25 machine-learning classification methodology