«categorical-encoding» 태그된 질문

범주 형 변수를 숫자 변수 세트로 나타냅니다. 범주 형 데이터를 처리하기 위해 여러 유형의 분석에 필요합니다. 일반적인 예는 더미 코딩, 효과 코딩, Helmert 코딩, 사용자 정의 대비 등을 통해 회귀 / ANOVA에서 범주 형 예측 변수를 사용하는 것입니다.

4
대비 행렬이란 무엇입니까?
무엇 정확히 대비 매트릭스 (용어, 범주 예측과 분석에 관한)이며 어떻게 정확히 대비 행렬을 지정? 즉, 열이란 무엇이며, 행은 무엇이며, 해당 행렬의 제약 조건은 무엇이며 열 j및 행의 숫자는 무엇을 i의미합니까? 나는 문서와 웹을 살펴 보려고했지만 모든 사람들이 그것을 사용하지만 아직 어디에도 정의가없는 것 같습니다. 사용 가능한 사전 정의 된 대비를 …

7
예를 들어 성별이 일반적으로 1/2이 아닌 0/1로 코딩되는 이유는 무엇입니까?
데이터 분석을위한 코딩 논리를 이해합니다. 아래의 내 질문은 특정 코드 사용에 관한 것입니다. 성별이 여성의 경우 0, 남성의 경우 1로 코딩되는 이유가 있습니까? 이 코딩이 왜 '표준'으로 간주됩니까? 이것을 Female = 1 및 Male = 2와 비교하십시오.이 코딩에 문제가 있습니까?


1
one-hot 인코딩을 사용할 때 열 중 하나를 삭제
기계 학습에서 동일한 정보를 효과적으로 인코딩하기 때문에 데이터 세트에 상관 관계가 높은 기능이 있으면 문제가 될 수 있습니다. 최근 누군가 범주 형 변수에 대해 원핫 인코딩을 수행하면 관련 기능이 생겨서 그 중 하나를 "참조"로 삭제해야한다고 지적했습니다. 예를 들어 성별을 두 변수로 인코딩하면 is_male과 is_female음의 상관 관계를 갖는 두 가지 기능이 …

3
언제 더미 코딩 대 ANCOVA로 다중 회귀를 사용해야합니까?
최근에 ANCOVA를 사용하여 2 개의 범주 형 변수와 1 개의 연속 형 변수를 조작 한 실험을 분석했습니다. 그러나 검토자는 더미 변수로 코딩 된 범주 형 변수를 사용한 다중 회귀가 범주 형 변수와 연속 형 변수를 모두 사용하는 실험에 더 적합한 테스트라고 제안했습니다. 더미 변수와 함께 ANCOVA 대 다중 회귀 분석을 …

2
로지스틱 회귀 분석에서 범주 형 예측 변수의 중요성
로지스틱 회귀 분석에서 범주 형 변수의 z 값을 해석하는 데 문제가 있습니다. 아래 예제에는 클래스가 3 개인 범주 형 변수가 있으며 z 값에 따라 CLASS2는 관련이 있지만 다른 클래스는 관련이 없습니다. 그러나 이것이 무엇을 의미합니까? 다른 수업을 하나로 합칠 수 있습니까? 전체 변수가 좋은 예측 변수가 아닐 수 있습니까? 이것은 …

5
SVM 또는 신경망을 사용할 때 범주 형 변수를 숫자 형 변수로 코딩하는 방법
SVM 또는 신경망을 사용하려면 범주 형 변수를 숫자 변수로 변환 (인코딩)해야합니다.이 경우 일반적인 방법은 0-1 이진 값을 사용하여 k 번째 범주 형 값을 (0,0, .. ., 1,0, ... 0) (1은 k 번째 위치에 있습니다). 0-1 표현이 신경망에 많은 수의 추가 차원 (입력 단위)을 도입하여 특히 바람직하지 않거나 예상하지 않은 것처럼 …

1
LASSO에서 범주 형 예측 변수를 처리하는 방법
범주 형 변수 예측 변수와 연속 형 예측 변수가있는 LASSO를 실행하고 있습니다. 범주 형 변수에 대한 질문이 있습니다. 내가 이해하는 첫 번째 단계는 각각을 인형으로 나누고 공정한 처벌을 위해 표준화 한 다음 회귀하는 것입니다. 더미 변수를 처리하기위한 몇 가지 옵션이 있습니다. 각 요인에 대해 모형 중 하나만 제외하고 모두 포함 …

2
회귀의 질적 변수 코딩은 "단일성"으로 이어집니다
"quality"라는 독립 변수가 있습니다. 이 변수에는 3 가지 반응 방식 (나쁜 품질, 중간 품질, 고품질)이 있습니다. 이 독립 변수를 여러 선형 회귀 분석에 도입하고 싶습니다. 이진 독립 변수 (더미 변수, 코딩 가능 0/ 1)가 있으면 다중 선형 회귀 모델에 쉽게 도입 할 수 있습니다. 그러나 3 가지 양식의 응답 으로이 …

2
명목 / 범주 데이터에 대한“더미 변수”대“표시기 변수”
"더미 변수"및 "표시기 변수" 는 0/1 코딩 범주의 멤버 자격을 설명하기 위해 자주 사용되는 용어 레이블입니다. 일반적으로 0 : 범주의 구성원이 아님, 1 : 범주의 구성원. 2014 년 11 월 26 일에 Scholar.google.com (빠른 따옴표 포함)을 빠르게 검색하면 약 318,000 개의 기사에 "더미 변수"가 사용되고 약 112,000 개의 기사에 "인디케이터 …

2
R에서 더미 코딩 대신 효과 코딩으로 회귀를 수행하는 방법은 무엇입니까?
현재 범주 형 / 요인 변수 만 독립 변수로 사용하는 회귀 모델을 작성 중입니다. 내 종속 변수는 로짓 변환 비율입니다. R이 "인자"유형 인 즉시 인형을 코딩하는 방법을 자동으로 알기 때문에 R에서 정상적인 회귀를 실행하는 것은 매우 쉽습니다. 그러나 이러한 유형의 코딩은 또한 각 변수에서 하나의 범주가 기준으로 사용되어 해석하기 어렵다는 …

1
범주 형 변수 (R)에 사용할 수있는 다양한 코딩 유형은 무엇이며 언제 사용합니까?
선형 모델 또는 혼합 모델에 적합하면 범주 형 또는 명목 형 변종을 더미 콘딩 (R 기본값) 및 효과 코딩과 같이 매개 변수가 추정되는 여러 변수로 변환하는 데 사용할 수있는 다양한 유형의 코딩이 있습니다. 상호 작용이있을 때 효과 코딩 (때로는 편차 또는 대비 코딩이라고 함)이 선호된다고 들었지만 가능한 대비는 언제이며 어떤 …

2
GLM에서 더미 (수동 또는 자동) 변수 생성 이해
요인 변수 (예 : M 및 F 수준의 성별)가 glm 공식에 사용되는 경우 더미 변수가 생성되며 관련 계수 (예 : genderM)와 함께 glm 모델 요약에서 찾을 수 있습니다 이러한 방식으로 인수를 분할하기 위해 R을 사용하는 대신 일련의 숫자 0/1 변수 (예 : genderM (M의 경우 1, F의 경우 F), genderF …

3
one-hot 인코딩이 필요한 알고리즘은 무엇입니까?
순서가없는 범주 형 변수에 원 핫 인코딩을 사용해야 할 때와 사용하지 않을 때는 확실 하지 않습니다. 알고리즘이 거리 메트릭을 사용하여 유사성을 계산할 때마다 사용합니다. 순서가없는 범주 형 기능이 핫 인코딩 된 유형과 어떤 유형의 알고리즘이 아닌 알고리즘 유형에 대한 일반적인 경험을 가진 사람이 있습니까?

2
예를 들어 요일을 기준으로 한 회귀
올바른 방향으로 움직이려면 약간의 도움이 필요합니다. 통계를 연구 한 지 오랜 시간이 걸리고 전문 용어가 변경된 것 같습니다. 다음과 같은 자동차 관련 데이터 세트가 있다고 가정하십시오. A 타운에서 B 타운까지의 여정 시간 마을 A에서 마을 B까지의 거리 엔진 크기 운전자의 신발 사이즈 자동차 제조사 및 모델 요일 여행 시간을 예측하고 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.