«categorical-data» 태그된 질문

범주 형 데이터는 범주라고하는 제한된 (일반적으로 고정 된) 수의 가능한 값을 가질 수 있습니다. 범주 형 값은 "레이블"이며 "측정"하지 않습니다. 명목 및 이분 / 이진 척도 유형은 범주 형입니다. 어떤 사람들은 서수 척도도 범주 형이라고 생각합니다.

13
혼합 숫자 및 범주 형 데이터에 대한 K- 평균 군집
내 데이터 세트에는 많은 숫자 속성과 하나의 범주가 있습니다. , 말 NumericAttr1, NumericAttr2, ..., NumericAttrN, CategoricalAttr, 여기서,이 CategoricalAttr세 개의 가능한 값 중 하나를 취 CategoricalAttrValue1, CategoricalAttrValue2또는 CategoricalAttrValue3. Octave https://blog.west.uni-koblenz.de/2012-07-14/a-working-k-means-code-for-octave/에 대한 기본 k- 평균 군집 알고리즘 구현을 사용하고 있습니다 . 숫자 데이터로만 작동합니다. 그래서 내 질문 : 범주 속성 CategoricalAttr을 세 …

3
One Hot Encoding vs LabelEncoder vs DictVectorizor를 언제 사용해야합니까?
나는 한동안 범주 형 데이터로 모델을 구축 해 왔으며이 상황에서 기본적으로 모델을 만들기 전에이 데이터를 변환하기 위해 scikit-learn의 LabelEncoder 함수를 기본적으로 사용합니다. 나는 사이의 차이 이해 OHE, LabelEncoder그리고 DictVectorizor그들이 데이터에 무엇을하고 있는지의 관점에서,하지만 다른 통해 하나 개의 기술을 사용하도록 선택할 수 있습니다 때 나에게 명확하지 않습니다 것입니다. 어떤 알고리즘이 다른 …

3
신경망 교육을 위해 범주 형 및 연속 입력 기능을 결합하는 방법
범주 형과 연속 형의 두 가지 입력 기능이 있다고 가정합니다. 범주 형 데이터는 원-핫 코드 A로 표현 될 수있는 반면, 연속 데이터는 N- 차원 공간에서 단지 벡터 B이다. A, B는 완전히 다른 종류의 데이터이기 때문에 단순히 concat (A, B)를 사용하는 것은 좋은 선택이 아닌 것 같습니다. 예를 들어, B와 달리 …

2
더미 변수 하나를 버려야하는 이유는 무엇입니까?
회귀 모델을 만들려면 범주 형 변수를 더미 변수로 변환하여 처리해야한다는 것을 배웠습니다. 예를 들어, 데이터 세트에 위치와 같은 변수가있는 경우 : Location ---------- Californian NY Florida 다음과 같이 변환해야합니다. 1 0 0 0 1 0 0 0 1 그러나 얼마나 많은 더미 변수가 있더라도 더미 변수 하나를 버려야한다고 제안했습니다. 더미 …

1
회귀 분석을위한 높은 카디널리티 범주 기능을 사용하여 기능의 중요성 (숫자 고유 변수)
랜덤 포레스트의 기능 중요도를 사용하여 회귀 문제에 대한 경험적 기능 선택을 수행하려고 시도했습니다. 회귀 문제는 모든 기능이 범주 형이며 많은 기능이 많은 수준 (100-1000 정도)입니다. one-hot 인코딩은 각 레벨마다 더미 변수를 생성하므로 각 기능 (컬럼)이 아니라 각 레벨마다 기능 중요도가 중요합니다. 이러한 기능 중요도를 집계하는 좋은 방법은 무엇입니까? 기능의 모든 …

3
Pandas의 범주 형 열을 대량 변환 (원핫 인코딩 아님)
scikit-learn을 사용하여 의사 결정 트리에서 사용할 예정인 수많은 범주 열이있는 팬더 데이터 프레임이 있습니다. 그것들을 숫자 값으로 변환해야합니다 (핫 벡터가 아닌). scikit-learn의 LabelEncoder로 할 수 있습니다. 문제는 너무 많아서 수동으로 변환하고 싶지 않다는 것입니다. 이 프로세스를 자동화하는 쉬운 방법은 무엇입니까?

3
범주 형 데이터와 숫자 형 데이터를 어떻게 동적으로 구별 할 수 있습니까?
열이나 데이터 형식에 관계없이 데이터 파일을 수집하는 프로젝트를 수행하는 사람을 알고 있습니다. 이 작업은 임의의 수의 열과 다양한 데이터 유형 및 숫자 데이터에 대한 요약 통계를 출력하는 파일을 가져 오는 것입니다. 그러나 특정 숫자 기반 데이터에 대해 데이터 유형을 동적으로 할당하는 방법을 잘 모릅니다. 예를 들면 다음과 같습니다. CITY Albuquerque …

3
파이썬에 적합한 기본 언어 모델이 있습니까?
응용 프로그램을 프로토 타이핑하고 있으며 생성 된 일부 문장의 난이도를 계산하려면 언어 모델이 필요합니다. 파이썬에서 쉽게 사용할 수있는 훈련 된 언어 모델이 있습니까? 간단한 것 model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 일부 프레임 워크를 …
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

2
Pyspark에서 범주 형 데이터를 숫자 형 데이터로 변환하는 방법
pyspark 애플리케이션으로 작업하기 위해 Ipython 노트북을 사용하고 있습니다. 소득이 50k 범위 이하인지 여부를 결정하기 위해 범주 열이 많은 CSV 파일이 있습니다. 소득 범위를 결정하기 위해 모든 입력을 취하는 분류 알고리즘을 수행하고 싶습니다. 매핑 된 변수에 변수 사전을 작성하고 맵 함수를 사용하여 처리 할 변수를 숫자에 매핑해야합니다. 기본적으로 모델을 구현할 수 …

3
과학 컴퓨팅을위한 최고의 언어
폐쇄되었습니다 . 이 질문은 더 집중되어야 합니다. 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 이 게시물 을 편집 하여 한 가지 문제에만 집중할 수 있도록 질문을 업데이트하십시오 . 휴일 오년 전에 . 대부분의 언어에는 몇 가지 과학 컴퓨팅 라이브러리가 있습니다. 파이썬은 Scipy Rust 있다 SciRust C++이 등 여러 가지 ViennaCL와Armadillo …
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

3
고정되지 않은 범주 형 데이터를 사용하여 분류를 수행하려면 어떻게해야합니까?
범주 형 데이터와 숫자 형 데이터 모두에 분류 문제가 있습니다. 내가 직면하고있는 문제는 내 범주 데이터가 고정되어 있지 않다는 것입니다. 즉, 예측하려는 레이블을 가진 새로운 후보자가 미리 관찰되지 않은 새로운 범주를 가질 수 있습니다. 예를 들어 내 범주 데이터가 있다면, sex, 유일하게 가능한 라벨이 없을 것 female, male그리고 other, 더 …
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.