통계 및 빅 데이터

2

잠김 . 이 질문과 주제는 주제가 다르지만 역사적 의미가 있기 때문에이 질문과 답변은 잠겨 있습니다. 현재 새로운 답변이나 상호 작용을받지 않습니다. 나는 최근의 논문을 보충 하여이 음모 를 보았고 나는 R을 사용하여 그것을 재현 할 수 있기를 원합니다. 그것은 산점도입니다. 과도 플로팅 밀도. 어떻게해야합니까?

23 r data-visualization scatterplot

2

베이지안 타격 평균

훌륭한 답변에서 영감을 얻은 질문을하고 싶었습니다.베타 배포 직관에 대한 에서 . 나는 타격 평균의 이전 분포에 대한 유도를 더 잘 이해하고 싶었습니다. David가 평균과 범위에서 매개 변수를 제거하는 것 같습니다. 평균이 있다는 가정하에 0.270.270.27 표준 편차는 0.180.180.18 당신이 밖으로 백업 할 수 있습니다, αα\alpha 와 ββ\beta 이 두 방정식을 해결하여 …

23 bayesian prior

4

R의 누적 분포를 계산하는 방법은 무엇입니까?

잠김 . 이 질문과 주제는 주제가 다르지만 역사적 의미가 있기 때문에이 질문과 답변은 잠겨 있습니다. 현재 새로운 답변이나 상호 작용을받지 않습니다. 데이터 샘플의 누적 분포 함수를 계산해야합니다. 누적 밀도 함수를 측정하는 R의 hist ()와 비슷한 것이 있습니까? ecdf ()을 시도했지만 논리를 이해할 수 없습니다.

23 r distributions cdf

4

Tukey HSD와 동등한 비모수 적 요소가 있습니까?

나는 JMP를 사용하여 대조군으로 세 번의 치료 전후에 성장 형태 그룹 (나무, 관목, forb 등)의 식생 덮개의 차이점을 조사하고 있습니다. 표본 크기가 작고 (n = 5) 대부분의 분포는 정규 분포가 아닙니다. 정규 분포의 경우 ANOVA를 사용하여 처리 결과 간의 차이 (백분율 변화)를 분석 한 다음 Tukey HSD를 사용하여 결과 쌍 …

23 multiple-comparisons nonparametric tukey-hsd

3

모형의 예측 확률에 대한 보정 시각화

각 인스턴스에 대해 각 클래스에 대한 확률을 생성하는 예측 모델이 있다고 가정합니다. 이제 이러한 확률을 분류 (정밀도, 리콜 등)에 사용하려는 경우 이러한 모델을 평가할 수있는 여러 가지 방법이 있음을 알고 있습니다. 또한 ROC 곡선과 그 아래의 영역을 사용하여 모델이 클래스를 얼마나 잘 구별하는지 확인할 수 있습니다. 그것들은 내가 요구하는 것이 …

23 data-visualization classification predictive-models binary-data calibration

2

기계 학습 기술은 "근사 알고리즘"입니까?

최근 cstheory stackexchange에 대한 ML과 같은 질문이 있었고 Powell의 방법, 기울기 강하, 유전자 알고리즘 또는 기타 "근사 알고리즘"을 추천하는 답변을 게시했습니다 . 한 의견에서 누군가이 방법이 "추론"이 아니라 "근사 알고리즘"이라고 말했으며 이론상 최적에 가깝지 않은 경우가 많았습니다 ( "자주 발생하는 지역적 최소"때문에). 다른 사람들도 그것에 동의합니까? 또한 검색 공간의 많은 …

23 machine-learning optimization approximation

4

MLE 문제에 대한 최대화가 항상 있습니까?

최대 (로그) 우도 추정 문제에 항상 최대 값이 있는지 궁금합니다. 다시 말해서, MLE 문제에 최대화가없는 분포와 매개 변수가 있습니까? 내 질문은 MLE의 비용 함수 (가능성 또는 로그 가능성, 의도 된 것인지 확실하지 않음)가 항상 오목하고 항상 최대화되어 있다는 엔지니어의 주장에서 비롯됩니다. 감사합니다.

23 maximum-likelihood optimization

2

관측 수준 Mahalanobis 거리의 분포

다변량 정규 iid 샘플 가 있고 ( 가중치에 대한 행렬 를 사용하여 샘플 포인트에서 벡터 까지의 마할 라 노비스 거리 [제곱]의 일종 ), 의 분포 는 표본 공분산 행렬 사용하여 표본 평균 )?d 2 i ( b , A ) = ( X i - b ) ' A - …

23 multivariate-analysis outliers

4

검토 자로서 저널이없는 경우에도 요청 데이터 및 코드를 제공 할 수 있습니까?

과학은 재현 할 수 있어야하므로 정의에 따라 데이터와 코드가 데이터와 코드 공유를 위해 Yale Roundtable에서 논의한 것처럼 재현성의 필수 구성 요소라는 인식이 높아지고 있습니다. 데이터 및 코드 공유가 필요없는 저널의 원고를 검토 할 때 데이터 및 코드를 사용할 수 있도록 요청할 수 있습니까 검토 할 때 나에게 출판 당시 공개적으로 …

23 dataset validation reproducible-research journals

4

R 코드와 출력을 구성하는 효율적인 방법은 무엇입니까? [닫은]

닫은. 이 질문은 주제에 맞지 않습니다 . 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 교차 검증에 대한 주제가 되도록 질문을 업데이트하십시오 . 작년에 문을 닫았 습니다 . 다른 사람들이 R 코드와 출력을 구성하는 방법에 대한 입력을 찾고 있습니다. 현재 연습은 텍스트 파일의 블록으로 코드를 작성하는 것입니다. #================================================= # 19 May …

23 r project-management

3

예측 모델링 경쟁 사이트

저는 Kaggle , TunedIt 및 CrowdAnalytix의 예측 모델링 경쟁에 참여 하고 있습니다 . 이 사이트는 통계 / 기계 학습을위한 "운동"하는 좋은 방법이라는 것을 알았습니다. 알아야 할 다른 사이트가 있습니까? 주최자가 경쟁 업체의 제출물로 이익을 얻으려는 경쟁에 대해 어떻게 생각하십니까? / edit : 여기에 더 완전한 목록이 있습니다 : Kaggle TunedIt …

23 machine-learning predictive-models

3

이진 변수와 연속 변수간에 임의의 상관 데이터 생성

두 개의 변수를 생성하고 싶습니다. 하나는 이진 결과 변수 (성공 / 실패)이고 다른 하나는 나이 (년)입니다. 나는 나이가 성공과 긍정적으로 상관되기를 원합니다. 예를 들어, 연령대가 높을수록 나이가 적을수록 성공이 더 높아야합니다. 이상적으로 상관 정도를 제어 할 수있는 위치에 있어야합니다. 어떻게합니까? 감사

23 correlation random-variable random-generation binary-data

3

잔차의 자기 상관을 테스트하는 방법은 무엇입니까?

가격이 많은 두 개의 열이있는 행렬이 있습니다 (750). 아래 이미지에서 나는 선형 선형 회귀의 잔차를 플로팅했습니다. lm(prices[,1] ~ prices[,2]) 이미지를 보면 잔차의 매우 강한 자기 상관 인 것 같습니다. 그러나 이러한 잔차의 자기 상관이 강한 지 어떻게 테스트 할 수 있습니까? 어떤 방법을 사용해야합니까? 고맙습니다!

23 r regression correlation autocorrelation

4

칼만 필터를 사용한 시계열 예측을위한 R 코드

R의 Kalman Filter를 사용하여 시계열 예측 / 스무딩에 대한 좋은 예가 있습니까?

23 r time-series kalman-filter

3

R에서 ARIMA 모델에 대한 매개 변수의 p- 값을 계산하는 방법은 무엇입니까?

R에서 시계열 연구를 할 때 arima 계수 값과 적합 모형의 표준 오차 만 제공 한다는 것을 알았습니다 . 그러나 나는 또한 계수의 p- 값을 얻고 싶습니다. 나는 coef의 중요성을 제공하는 기능을 찾지 못했습니다. 그래서 나는 그것을 스스로 계산하고 싶지만, 계수의 t 또는 chisq 분포에서 자유도를 모른다. 그래서 내 질문은 R에서 …

23 r time-series chi-squared arima parametric