통계 및 빅 데이터 data-visualization

2

작은 샘플 집합의 부울 기능에 대한 PCA와 스펙트럼 클러스터링의 차이점

50 샘플의 데이터 세트가 있습니다. 각 샘플은 11 개의 상관 관계가있는 부울 피처로 구성됩니다. 2D 플롯에서 이러한 샘플을 시각화하고 50 개의 샘플 중 클러스터 / 그룹이 있는지 조사하고 싶습니다. 나는 다음 두 가지 접근법을 시도했다. (a) 50x11 매트릭스에서 PCA를 실행하고 처음 두 주요 구성 요소를 선택하십시오. 데이터를 2D 플롯에 투영하고 …

10 clustering data-visualization pca k-means spectral-analysis

4

R의 이산 시간 이벤트 기록 (생존) 모델

R에 이산 시간 모델을 맞추려고하지만 어떻게 해야할지 모르겠습니다. 종속 변수를 각 시간 관찰마다 하나씩 다른 행 glm으로 구성하고 logit 또는 cloglog 링크와 함께 함수를 사용할 수 있다는 것을 읽었습니다. 이런 의미에서, 나는 세 개의 열이 있습니다 : ID, Event(각 시간 경과시 1 또는 0) 및 Time Elapsed(관측 시작부터 ) 그리고 …

10 r survival pca sas matlab neural-networks r logistic spatial spatial-interaction-model r time-series econometrics var statistical-significance t-test cross-validation sample-size r regression optimization least-squares constrained-regression nonparametric ordinal-data wilcoxon-signed-rank references neural-networks jags bugs hierarchical-bayesian gaussian-mixture r regression svm predictive-models libsvm scikit-learn probability self-study stata sample-size spss wilcoxon-mann-whitney survey ordinal-data likert group-differences r regression anova mathematical-statistics normal-distribution random-generation truncation repeated-measures variance variability distributions random-generation uniform regression r generalized-linear-model goodness-of-fit data-visualization r time-series arima autoregressive confidence-interval r time-series arima autocorrelation seasonality hypothesis-testing bayesian frequentist uninformative-prior correlation matlab cross-correlation

3

히스토그램의 간격 수에 대한 상한이 있습니까?

데이터 세트의 히스토그램에 대해 적절한 수의 구간 (빈) 을 선택하는 방법을 설명하는 여러 기사와 발췌문을 읽었 지만 포인트 수를 기준으로 최대 간격 이 어려운지 궁금합니다 . 데이터 세트 또는 다른 기준. 배경 : 내가 묻는 이유는 연구 논문의 절차에 따라 소프트웨어를 작성하려고하기 때문입니다. 절차의 한 단계는 데이터 세트에서 여러 히스토그램을 …

10 distributions data-visualization histogram

1

R 선형 회귀 범주 형 변수 "숨김"값

이것은 여러 번 나온 예제 일뿐이므로 샘플 데이터가 없습니다. R에서 선형 회귀 모델 실행 : a.lm = lm(Y ~ x1 + x2) x1연속 변수입니다. x2범주 형이며 "낮음", "중간"및 "높음"의 세 가지 값이 있습니다. 그러나 R이 제공하는 출력은 다음과 같습니다. summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 …

10 r regression categorical-data regression-coefficients categorical-encoding machine-learning random-forest anova spss r self-study bootstrap monte-carlo r multiple-regression partitioning neural-networks normalization machine-learning svm kernel-trick self-study survival cox-model repeated-measures survey likert correlation variance sampling meta-analysis anova independence sample assumptions bayesian covariance r regression time-series mathematical-statistics graphical-model machine-learning linear-model kernel-trick linear-algebra self-study moments function correlation spss probability confidence-interval sampling mean population r generalized-linear-model prediction offset data-visualization clustering sas cart binning sas logistic causality regression self-study standard-error r distributions r regression time-series multiple-regression python chi-squared independence sample clustering data-mining rapidminer probability stochastic-processes clustering binary-data dimensionality-reduction svd correspondence-analysis data-visualization excel c# hypothesis-testing econometrics survey rating composite regression least-squares mcmc markov-process kullback-leibler convergence predictive-models r regression anova confidence-interval survival cox-model hazard normal-distribution autoregressive mixed-model r mixed-model sas hypothesis-testing mediation interaction

3

R에서 막대가 나란히있는 막대 그래프 다이어그램을 작성하는 방법

잠김 . 이 질문과 그 답변은 주제를 벗어난 것이지만 역사적 의미가 있기 때문에 잠겨 있습니다. 현재 새로운 답변이나 상호 작용을받지 않습니다. R (CVS 파일에서 읽음)로 이러한 데이터에 대한 막대도를 만들고 싶습니다. Experiment_Name MetricA MetricB Just_X 2 10 Just_X_and_Y 3 20 다음 다이어그램을 갖습니다. 나는 초보자이며 시작하는 방법조차 모른다.

9 r data-visualization barplot

1

상호 배타적이지 않은 카테고리를 분류 할 수있는 딥 러닝 모델

예 : 직업 설명에 "영국의 Java Senior Engineer"문장이 있습니다. 나는 2 개 종류로 예측하는 깊은 학습 모델을 사용하려면 : English 와 IT jobs. 기존 분류 모델을 사용하는 경우 softmax마지막 레이어에서 함수가있는 레이블 하나만 예측할 수 있습니다 . 따라서 두 모델 신경망을 사용하여 두 범주 모두에서 "예"/ "아니오"를 예측할 수 있지만 …

9 machine-learning deep-learning natural-language tensorflow sampling distance non-independent application regression machine-learning logistic mixed-model control-group crossover r multivariate-analysis ecology procrustes-analysis vegan regression hypothesis-testing interpretation chi-squared bootstrap r bioinformatics bayesian exponential beta-distribution bernoulli-distribution conjugate-prior distributions bayesian prior beta-distribution covariance naive-bayes smoothing laplace-smoothing distributions data-visualization regression probit penalized estimation unbiased-estimator fisher-information unbalanced-classes bayesian model-selection aic multiple-regression cross-validation regression-coefficients nonlinear-regression standardization naive-bayes trend machine-learning clustering unsupervised-learning wilcoxon-mann-whitney z-score econometrics generalized-moments method-of-moments machine-learning conv-neural-network image-processing ocr machine-learning neural-networks conv-neural-network tensorflow r logistic scoring-rules probability self-study pdf cdf classification svm resampling forecasting rms volatility-forecasting diebold-mariano neural-networks prediction-interval uncertainty

1

시계열에서 노이즈 패치를 강조 표시하려면 어떻게해야합니까?

수위와 속도 대 시간과 같은 많은 시계열 데이터가 있습니다. 유압 모델 시뮬레이션의 출력입니다. 모델이 예상대로 작동하는지 확인하기위한 검토 프로세스의 일부로, 데이터에 "흔들림"이 없도록 각 시계열을 플로팅해야합니다 (아래의 작은 흔들림 참조). 모델링 소프트웨어의 UI를 사용하는 것은이 데이터를 확인하는 매우 느리고 힘든 방법입니다. 따라서 짧은 VBA 매크로를 작성하여 결과를 포함하여 모델의 다양한 …

9 time-series data-visualization change-point

1

PCA 플롯의 쐐기 모양은 무엇을 나타 냅니까?

이들에는 텍스트 분류 autoencoders 종이 힌튼 및 Salakhutdinov (PCA 밀접한 관련이있다) 2 차원 LSA 제조 플롯을 보여 주었다 : . 전혀 다른 약간 높은 차원의 데이터에 PCA를 적용하면 비슷한 모양의 플롯을 얻었습니다 (이 경우를 제외하고 내부 구조가 있는지 정말로 알고 싶었습니다). 임의의 데이터를 PCA에 공급하면 디스크 모양의 얼룩을 얻으므로이 쐐기 …

9 data-visualization pca

2

사람들이 정량적 요약과 시각화를 해석하는 방법은 무엇입니까?

데이터 시각화에 대한 조언을 제공하는 잘 알려진 리소스가 많이 있습니다. (예 : Tufte, Stephen Few et al , Nathan Yau ) 그러나 다음과 같은 질문에 대한 답을 얻기 위해 어떤 분야를 선택할 수 있습니까 ? 원형 차트 비평은 실제로 관련이 있습니까? 호 길이보다 선형 스케일 길이를 해석하는 데 훨씬 더 …

9 data-visualization interpretation terminology presentation

5

매우 많은 수의 쌍으로 된 데이터 포인트를 그래픽으로 표현하는 좋은 방법은 무엇입니까?

필자의 분야에서 짝을 이룬 데이터를 그리는 일반적인 방법은 일련의가는 경 사진 선분으로 두 그룹에 대한 중앙값의 중앙값과 CI로 오버레이합니다. 그러나이 종류의 줄거리는 데이터 포인트 수가 매우 많아지면 읽기가 훨씬 어려워집니다 (제 경우에는 10000 쌍 정도입니다). 알파를 줄이면 약간 도움이되지만 여전히 좋지는 않습니다. 솔루션을 검색하는 동안 이 백서 를 발견하고 '병렬 …

9 generalized-linear-model data-visualization modeling interpretation paired-data

2

평균 온도 대비 연도 별 kWh 사용량을 나타내는 방법은 무엇입니까?

재미로, 매년 월간 가정의 전력 소비량을 도표로 표시하고 싶습니다. 그러나 나는 월별 온도에 대한 언급을 포함하여 가정이나 행동이 kWh 사용량과 관련하여 개선, 악화 또는 꾸준한 지 여부를 결정할 수 있습니다. 내가 작업하는 데이터 : +----------+--------+-----------+----------------+----------+-----------+------------+ | Month | # Days | kWh Usage | Daily kWh Avg. | Avg. Low …

9 data-visualization

3

예측 모델의 전달 함수-해석

나는 홍보 모델링 목적으로 외인성 변수로 증강 된 ARIMA 모델링을 사용하고 있으며 비즈니스 사용자에게 설명하기가 어렵습니다. 어떤 경우에는 소프트웨어 패키지가 간단한 전송 기능, 즉 파라미터 * 외인성 변수로 끝납니다. 이 경우 해석이 용이하다. 즉 판촉 활동 X (외인 이진 변수로 표시)는 Y 변수에 의해 종속 변수 (예 : 수요)에 영향을 …

9 time-series data-visualization forecasting arima causality

2

이“United States of Reddit”그래프는 어떻게 생성됩니까?

아래는 p의 그래프입니다. James Dowdell에 의해 만들어졌지만 Christian Rudder 's Dataclysm 의 202 . 여기 에는 사용자가 링크, 의견 및 투표를 제출할 수있는 reddit.com 의 관심 영역 인 다양한 상위 200 개의 하위 재 지정 간의 관계가 설명되어 있습니다. 이들은이 사이트의 태그와 유사합니다. 하위 레딧 영역의 크기는 인기를 나타냅니다. 하위 …

9 clustering data-visualization

2

직접 선 세그먼트의 혼란을 시각적으로 요약

수백만 개의 직접 선 세그먼트 데이터 세트가 있습니다. 선분은 순차적입니다. 기후 변수 (현열)이며 30 분 간격으로 관찰 및 시뮬레이션 된 값을 갖습니다. 시뮬레이션이 수행되는 방식에서 패턴을 찾으려고합니다. obs vs 시뮬레이션 값의 산점도를보고 선분과 연결합니다 (화살표는 시간 방향을 나타냄). 내가 플롯하면 다음과 같이 해석하기 어려운 흐릿한 혼란이 생깁니다. 이것은 10000 라인의 …

9 descriptive-statistics vector-fields data-visualization

4

교호 작용도를 해석하는 데 도움이됩니까?

두 개의 독립 변수 사이에 상호 작용이있을 때 상호 작용 그림을 해석하는 데 문제가 있습니다. 이 사이트 에서 가져온 그래프는 다음과 같습니다 . 여기서 와 는 독립 변수이고 는 종속 변수입니다.ㅏAA비BBD VDVDV 질문 : 교호 작용과 주 효과는 있지만 주 효과는 없습니다ㅏAA비BB I는의 값이 높을 것을 알 수 ,의 값이 …

9 data-visualization interaction interpretation

«data-visualization» 태그된 질문