«r» 태그된 질문

R은 통계 컴퓨팅, 생물 정보학 및 그래픽을위한 무료 오픈 소스 프로그래밍 언어 및 소프트웨어 환경입니다.

15
기계 학습을위한 Python vs R
학문적 목적으로 기계 학습 응용 프로그램 을 개발하기 시작했습니다 . 나는 현재 R을 사용 하고 있으며 스스로 훈련하고 있습니다. 그러나 많은 곳에서 사람들이 Python을 사용하는 것을 보았습니다 . 사람들은 학계와 산업에서 무엇을 사용하며 권장 사항은 무엇입니까?

1
두 범주 형 변수와 범주 형 변수 및 연속 변수 사이의 상관 관계를 얻는 방법은 무엇입니까?
회귀 모델을 작성 중이며 상관 관계를 확인하기 위해 아래를 계산해야합니다. 2 개의 다단계 범주 형 변수 간의 상관 다단계 범주 형 변수와 연속 변수의 상관 관계 다단계 범주 형 변수에 대한 VIF (분산 인플레이션 계수) Pearson은 2 개의 연속 변수에 대해서만 작동하기 때문에 위 시나리오에서 Pearson 상관 계수를 사용하는 것이 …

9
R 언어가 빅 데이터에 적합합니까?
R에는 데이터 분석 (예 : JAGS, BUGS, ARULES 등)을 목표로하는 많은 라이브러리가 있으며 J.Krusche, Doing Bayesian Data Analysis; B.Lantz, "R을 이용한 기계 학습". 데이터 세트가 빅 데이터로 간주되는 5TB의 지침을 보았습니다. 내 질문은 : R은 일반적으로 빅 데이터 문제에서 볼 수있는 데이터의 양에 적합합니까? 이 크기의 데이터 집합에 R을 사용할 …
48 bigdata  r 

9
R 프로그래밍을위한 IDE 대안 (RStudio, IntelliJ IDEA, Eclipse, Visual Studio)
R 프로그래밍에 RStudio를 사용합니다. Visual Studio 또는 Eclipse와 같은 다른 기술 스택의 견고한 IDE에 대해 기억합니다. 두 가지 질문이 있습니다. RStudio 이외의 다른 IDE가 사용되는 것 (간단한 설명을 고려하십시오). RStudio보다 눈에 띄는 장점이 있습니까? 필자는 코딩 자체 외에도 디버그 / 빌드 / 배포 기능을 주로 의미합니다 (따라서 텍스트 편집기는 해결책이 …
45 r  tools  rstudio  programming 

7
데이터 정리를위한 체계화 된 프로세스
R을 사용하여 데이터 과학을 제한적으로 사용하면서 나쁜 데이터를 정리하는 것이 분석을 위해 데이터를 준비하는 데 매우 중요하다는 것을 깨달았습니다. 데이터를 처리하기 전에 데이터를 정리하는 모범 사례 나 프로세스가 있습니까? 그렇다면 이러한 모범 사례 중 일부를 구현하는 자동 또는 반자동 도구가 있습니까?
34 r  data-cleaning 

1
xgboost가 GradientBoostingClassifier를 sklearn보다 훨씬 빠른 이유는 무엇입니까?
100 개의 숫자 기능을 가진 50k 개 이상의 그라디언트 부스팅 모델을 훈련하려고합니다. XGBClassifier동안 내 컴퓨터 43 초 이내에 핸들 (500) 나무, GradientBoostingClassifier핸들 10 나무 (!) 일분 2 초 :( 내가 귀찮게하지 않았다에서 그것은 시간이 걸릴 것으로 500 그루의 나무를 성장하려고합니다. 나는 같은 사용하고 있습니다 learning_rate및 max_depth설정 아래를 참조하십시오. XGBoost를 훨씬 …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

3
하이퍼 튜닝 XGBoost 매개 변수
XGBoost는 범주 형 변수와 연속 형 종속 변수를 모두 다루는 데 큰 도움이되었습니다. 그러나 XGBoost 문제에 대해 최적화 된 매개 변수를 어떻게 선택합니까? 이것이 최근 Kaggle 문제에 대한 매개 변수를 적용한 방법입니다. param <- list( objective = "reg:linear", booster = "gbtree", eta = 0.02, # 0.06, #0.01, max_depth = 10, …
27 r  python  xgboost 

5
데이터 과학 프로젝트를위한 VM 이미지
데이터 과학 작업에 사용할 수있는 수많은 도구가 있으므로 모든 것을 설치하고 완벽한 시스템을 구축하는 것은 번거 롭습니다. Python, R 및 기타 오픈 소스 데이터 과학 도구가 설치되어 있고 사람들이 즉시 사용할 수있는 Linux / Mac OS 이미지가 있습니까? 최신 버전의 Python, R (IDE 포함) 및 기타 오픈 소스 데이터 시각화 …
24 python  r  tools 

9
온라인 R 콘솔?
언어 R에 대한 온라인 콘솔을 찾고 있습니다. 코드를 작성하는 것처럼 서버가 실행되고 출력을 제공해야합니다. 웹 사이트 Datacamp와 유사합니다.
24 r  statistics 


6
R에서 대시 보드를 생성하는 데 사용하는 것은 무엇입니까?
정기적 (매일, 매월) 웹 분석 대시 보드 보고서를 생성해야합니다. 정적이며 상호 작용이 필요하지 않으므로 PDF 파일을 대상 출력으로 가정하십시오. 보고서는 테이블과 차트를 혼합합니다 (주로 ggplot2로 생성 된 스파크 라인 및 불릿 그래프). 다음과 같은 Stephen Few / Perceptual Edge 스타일 대시 보드를 생각해보십시오. 웹 분석에는 적용됩니다. 이러한 대시 보드 보고서를 …
17 r  visualization 


5
seaborn 히트 맵을 더 크게 만들기
corr()원본 df 에서 df를 만듭니다 . corr()DF는 70 X 70에서 나와는 히트 맵을 시각화하는 것은 불가능합니다 ... sns.heatmap(df). 를 표시하려고 corr = df.corr()하면 테이블이 화면에 맞지 않으며 모든 상관 관계를 볼 수 있습니다. df크기에 관계없이 전체를 인쇄 하거나 히트 맵의 크기를 제어하는 ​​방법입니까?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

4
팬더가 data.table보다 빠릅니다.
https://github.com/Rdatatable/data.table/wiki/Benchmarks-%3A-Grouping data.table 벤치 마크는 2014 년 내가 들어 본 곳 이후 업데이트되지 않은 Pandas지금보다 더 빨리이다 data.table. 이것이 사실입니까? 누구든지 벤치 마크를 했습니까? 나는 전에 파이썬을 사용한 적이 없지만 pandas이길 수 있다면 전환을 고려할 것 data.table입니까?
17 python  r  pandas  data  data.table 

3
xgboost에서 확률을 예측하는 방법?
아래 예측 함수는 -ve 값도 제공하므로 확률이 될 수 없습니다. param <- list(max.depth = 5, eta = 0.01, objective="binary:logistic",subsample=0.9) bst <- xgboost(param, data = x_mat, label = y_mat,nround = 3000) pred_s <- predict(bst, x_mat_s2) 나는 구글 & 시도 pred_s <- predict(bst, x_mat_s2,type="response") 했지만 작동하지 않았다. 질문 대신 확률을 예측하는 방법?

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.