통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A


4
Ziliak (2011)는 p- 값의 사용을 반대하고 몇 가지 대안을 언급합니다. 그들은 무엇인가?
통계적 추론에 대한 p- 값에 의존하는 단점에 대해 논의한 최근 기사에서 "매트릭스 v. 시라쿠사 노 및 학생 v. 피셔 통계적 유의성" (DOI : 10.1111 / j.1740-9713.2011.00511.x), Stephen T. Ziliak은 p- 값 사용에 반대합니다. 결론적 인 문단에서 그는 말한다 : 데이터는 우리가 이미 알고있는 것 중 하나입니다. 우리가 실제로 알고 싶은 …


7
예를 들어 성별이 일반적으로 1/2이 아닌 0/1로 코딩되는 이유는 무엇입니까?
데이터 분석을위한 코딩 논리를 이해합니다. 아래의 내 질문은 특정 코드 사용에 관한 것입니다. 성별이 여성의 경우 0, 남성의 경우 1로 코딩되는 이유가 있습니까? 이 코딩이 왜 '표준'으로 간주됩니까? 이것을 Female = 1 및 Male = 2와 비교하십시오.이 코딩에 문제가 있습니까?


4
모델 불확실성 해결
CrossValidated 커뮤니티의 베이지안이 어떻게 모델 불확실성 의 문제를보고 어떻게 다루고 싶어 하는지 궁금 했습니다. 나는 두 부분으로 내 질문을 제기하려고 노력할 것이다. (경험 / 의견에서) 모델 불확실성을 다루는 것이 얼마나 중요합니까? 기계 학습 커뮤니티 에서이 문제에 관한 논문을 찾지 못했습니다. 그 이유가 궁금합니다. 모델 불확실성을 처리하는 일반적인 방법은 무엇입니까 (참조를 …

4
특징 수와 관측 수
특징의 수와 "견고한"분류기를 훈련시키는 데 필요한 관측치 사이의 관계에 대한 논문 / 책 / 아이디어가 있습니까? 예를 들어 훈련 세트로 2 개의 클래스에서 1000 개의 피처와 10 개의 관측치가 있고 테스트 세트로 10 개의 다른 관측치가 있다고 가정합니다. 분류기 X를 훈련시키고 테스트 세트에서 90 %의 감도와 90 %의 특이성을 부여합니다. …

6
분포를 비교하는 데 유용한 데이터 시각화 기술은 무엇입니까?
박사 학위 논문을 쓰고 있는데 분포를 비교하기 위해 상자 그림에 지나치게 의존한다는 것을 깨달았습니다. 이 작업을 수행하기위한 다른 대안은 무엇입니까? 또한 데이터 시각화에 대한 다른 아이디어로 나에게 영감을 줄 수있는 R 갤러리와 같은 다른 리소스를 알고 있는지 묻고 싶습니다.

3
한 번의 관측으로 분산에 대한 신뢰 구간
이것은 "확률 이론의 일곱 번째 콜로 모고 로프 학생 올림피아드"의 문제입니다. 두 모수를 모두 알 수없는 분포 에서 하나의 관측치 가 주어지면 신뢰 수준이 99 % 이상인 대한 신뢰 구간을 제공하십시오 .정규 ( μ , σ 2 ) σ 2XXXNormal(μ,σ2)Normal⁡(μ,σ2)\operatorname{Normal}(\mu,\sigma^2)σ2σ2\sigma^2 이것이 불가능한 것 같습니다. 해결책이 있지만 아직 읽지 않았습니다. 이견있는 …

1
프로파일 가능성을 기반으로 신뢰 구간 구성
기초 통계 과정에서 "큰"표본 크기에 대한 점근 적 정규성 을 기반 으로 모집단 평균 와 같은 95 % 신뢰 구간을 구성하는 방법을 배웠습니다 . 리샘플링 방법 (예 : 부트 스트랩) 외에도 "프로필 가능성"을 기반으로하는 다른 접근 방법이 있습니다. 누군가이 방법을 설명 할 수 있습니까?μμ\mu 어떤 상황에서 점근 적 정상 성 …

2
다중 공선 성에서 PCA가 불안정합니까?
회귀 상황에서 상관 관계가 높은 변수 세트가있는 경우 추정 계수의 불안정성으로 인해 일반적으로 "나쁜"것이라는 것을 알고 있습니다 (결정자는 0에 가까워짐에 따라 분산이 무한대로 진행됩니다). 내 질문은이 "나쁜 점"이 PCA 상황에서 지속되는지 여부입니다. 공분산 행렬이 특이 해짐에 따라 특정 PC의 계수 / 부하 / 무게 / 고유 벡터가 불안정하거나 임의 / …

2
언제 MLE에 R의 nlm 기능을 사용하지 않아야합니까?
나는 최대 가능성 추정을 위해 R의 nlm을 사용하도록 제안하는 몇 가지 가이드를 살펴 보았습니다. 그러나 이들 중 어느 것도 ( R의 문서 포함 ) 함수를 언제 사용할 것인지에 대한 이론적 인 지침을 제공하지 않습니다. 내가 알 수있는 한, nlm은 뉴턴 방법의 선을 따라 그라디언트 하강을하고 있습니다. 이 방법을 사용하는 것이 …

2
일반 선형 모형과 일반 선형 모형 (식별 링크 기능이 있는가?)
이것은 첫 번째 게시물이므로 일부 표준을 따르지 않으면 쉽게 받아 들일 수 있습니다. 내 질문을 검색했는데 아무 것도 나타나지 않았습니다. 내 질문은 주로 일반 선형 모델링 (GLM)과 일반 선형 모델링 (GZLM)의 실제 차이점과 관련이 있습니다. 제 경우에는 공변량으로 몇 가지 연속 변수가 있고 GZLM에 비해 ANCOVA에서 몇 가지 요소가 있습니다. …

4
통계 협업
생물 학자로서, 내가 어떤 시점에서 작업하고있는 많은 연구 프로젝트는 간단한 조언이나 내 데이터의 모델을 구현하고 테스트하기 위해 통계 학자와의 협력을 포함합니다. 저의 통계 동료들은 그들이 상당한 공동 작업을하고 있다는 점을 인정합니다. 임기 재검토 과정은 첫 번째 또는 마지막 저자 인 논문 만 고려할뿐입니다. 나 (또는 ​​다른 과학자)가 더 나은 공동 …
25 academia 

3
가장 먼저 분류 할 상위 5 개 분류기
명백한 분류기 특성 외에도 계산 비용, 기능 / 라벨의 예상 데이터 유형 데이터 세트의 특정 크기 및 차원에 대한 적합성 아직 잘 모르는 새로운 데이터 세트에 대해 먼저 시도해야하는 상위 5 개 (또는 10, 20?) 분류기는 무엇입니까 (예 : 의미 및 개별 기능의 상관 관계)? 일반적으로 Naive Bayes, Nearest Neighbor, …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.