«data-cleaning» 태그된 질문

데이터 정리는 데이터 세트를 편집하여 오류를 수정하고 통계 소프트웨어에서 처리하기에 적합한 형식으로 만드는 통계 분석의 예비 단계입니다.

6
기밀 데이터 세트의 이름을 익명으로 변환하지만 이름의 일부 특성을 유지하려면 어떻게해야합니까?
동기 개인 식별 정보 (PII)가 포함 된 데이터 세트로 작업하며 때로는 PII를 노출시키지 않고 고용주에게 책임을 부과하지 않는 방식으로 제 3 자와 데이터 세트의 일부를 공유해야합니다. 우리의 일반적인 접근 방식은 데이터를 완전히 보류하거나 경우에 따라 해상도를 낮추는 것입니다. 예를 들어, 정확한 거리 주소를 해당 카운티 또는 인구 조사로 교체하십시오. 이는 …

7
데이터 정리를위한 체계화 된 프로세스
R을 사용하여 데이터 과학을 제한적으로 사용하면서 나쁜 데이터를 정리하는 것이 분석을 위해 데이터를 준비하는 데 매우 중요하다는 것을 깨달았습니다. 데이터를 처리하기 전에 데이터를 정리하는 모범 사례 나 프로세스가 있습니까? 그렇다면 이러한 모범 사례 중 일부를 구현하는 자동 또는 반자동 도구가 있습니까?
34 r  data-cleaning 

1
xgboost가 GradientBoostingClassifier를 sklearn보다 훨씬 빠른 이유는 무엇입니까?
100 개의 숫자 기능을 가진 50k 개 이상의 그라디언트 부스팅 모델을 훈련하려고합니다. XGBClassifier동안 내 컴퓨터 43 초 이내에 핸들 (500) 나무, GradientBoostingClassifier핸들 10 나무 (!) 일분 2 초 :( 내가 귀찮게하지 않았다에서 그것은 시간이 걸릴 것으로 500 그루의 나무를 성장하려고합니다. 나는 같은 사용하고 있습니다 learning_rate및 max_depth설정 아래를 참조하십시오. XGBoost를 훨씬 …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 


4
메타 데이터로 텍스트 문서에 주석을 달는 방법은 무엇입니까?
많은 텍스트 문서 (자연어, 구조화되지 않은)가있는 경우, 의미 론적 메타 데이터로 주석을 달 수있는 가능한 방법은 무엇입니까? 예를 들어 짧은 문서를 생각해보십시오. I saw the company's manager last day. 정보를 추출 할 수 있으려면 모호하지 않도록 추가 데이터로 주석을 달아야합니다. 이러한 메타 데이터를 찾는 프로세스는 문제가되지 않으므로 수동으로 수행한다고 가정하십시오. …


1
주어진 텍스트에서 특정 문자 뒤의 문자열 제거
아래와 같은 데이터 세트가 있습니다. 문자 © 다음의 모든 문자를 제거하고 싶습니다. R에서 어떻게 할 수 있습니까? data_clean_phrase <- c("Copyright © The Society of Geomagnetism and Earth", "© 2013 Chinese National Committee ") data_clean_df <- as.data.frame(data_clean_phrase)
15 r  data-cleaning 

4
우편 주소 퍼지 일치를 수행하는 방법은 무엇입니까?
형식이 다르거 나 철자가 틀린 경우 우편 주소를 일치시키는 방법을 알고 싶습니다. 지금까지 다른 솔루션을 찾았지만 솔루션이 상당히 오래되고 비효율적이라고 생각합니다. 나는 더 좋은 방법이 존재한다고 확신하므로 읽을만한 참고 문헌이 있다면 여러 사람이 관심을 가질 수있는 주제라고 확신합니다. 내가 찾은 해결책 (예는 R에 있음) : 한 단어를 다른 단어로 변환하기 …

5
최신 R 및 / 또는 Python 라이브러리는 SQL을 더 이상 사용하지 않습니까?
데이터 처리에서 정리, 녹이는 것까지 SQL Server가 모든 작업의 ​​중추 인 사무실에서 근무하고 있습니다. 저의 동료는 들어오는 데이터를 표준화하여 보고서, 시각화 및 분석 프로젝트에서 사용할 수 있도록 복잡한 함수 및 저장 프로 시저를 작성하여 들어오는 데이터를 체계적으로 처리하는 데 전문적입니다. 여기서 시작하기 전에 가장 기본적인 쿼리를 작성하는 것 외에는 SQL에 …
14 python  r  data-cleaning  data  sql 

1
int의 pandas 열을 타임 스탬프 데이터 유형으로 변환
1970-1-1 년 이후로 전달 된 밀리 초 수의 열을 포함하는 데이터 프레임이 있습니다. 이 int 열을 타임 스탬프 데이터로 변환해야하므로 1970-1-1의 날짜 / 시간 값으로 구성된 시리즈에 타임 스탬프 열 시리즈를 추가하여 궁극적으로 날짜 / 시간 데이터 열로 변환 할 수 있습니다. 일련의 문자열 을 날짜 시간 데이터 (pandas.to_datetime) 로 …

3
파이썬에 적합한 기본 언어 모델이 있습니까?
응용 프로그램을 프로토 타이핑하고 있으며 생성 된 일부 문장의 난이도를 계산하려면 언어 모델이 필요합니다. 파이썬에서 쉽게 사용할 수있는 훈련 된 언어 모델이 있습니까? 간단한 것 model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 일부 프레임 워크를 …
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

2
머신 러닝 모델을 훈련시키기에 충분한 데이터가 있습니까?
저는 머신 러닝과 생물 정보학을 한동안 연구 해 왔으며, 오늘 저는 데이터 마이닝의 주요 일반 문제에 대해 동료와 대화를 나누었습니다. 기계 학습 전문가 인 제 동료는 머신 러닝의 가장 중요한 실질적인 측면은 머신 러닝 모델을 훈련시키기에 충분한 데이터를 수집했는지 여부를 이해하는 방법이라고 말했습니다 . 이 말은 내가이면에서 그토록 큰 중요성을 …

3
과학 컴퓨팅을위한 최고의 언어
폐쇄되었습니다 . 이 질문은 더 집중되어야 합니다. 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 이 게시물 을 편집 하여 한 가지 문제에만 집중할 수 있도록 질문을 업데이트하십시오 . 휴일 오년 전에 . 대부분의 언어에는 몇 가지 과학 컴퓨팅 라이브러리가 있습니다. 파이썬은 Scipy Rust 있다 SciRust C++이 등 여러 가지 ViennaCL와Armadillo …
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.