«categorical-data» 태그된 질문

범주 형 (명목이라고도 함) 데이터는 범주라고하는 제한된 수의 값을 취할 수 있습니다. 범주 형 값 "label"은 "측정"되지 않습니다. 불연속이지만 주문 된 데이터 유형에는 [ordinal-data] 태그를 사용하십시오.

2
로지스틱 회귀 분석에서 범주 형 예측 변수의 중요성
로지스틱 회귀 분석에서 범주 형 변수의 z 값을 해석하는 데 문제가 있습니다. 아래 예제에는 클래스가 3 개인 범주 형 변수가 있으며 z 값에 따라 CLASS2는 관련이 있지만 다른 클래스는 관련이 없습니다. 그러나 이것이 무엇을 의미합니까? 다른 수업을 하나로 합칠 수 있습니까? 전체 변수가 좋은 예측 변수가 아닐 수 있습니까? 이것은 …


5
SVM 또는 신경망을 사용할 때 범주 형 변수를 숫자 형 변수로 코딩하는 방법
SVM 또는 신경망을 사용하려면 범주 형 변수를 숫자 변수로 변환 (인코딩)해야합니다.이 경우 일반적인 방법은 0-1 이진 값을 사용하여 k 번째 범주 형 값을 (0,0, .. ., 1,0, ... 0) (1은 k 번째 위치에 있습니다). 0-1 표현이 신경망에 많은 수의 추가 차원 (입력 단위)을 도입하여 특히 바람직하지 않거나 예상하지 않은 것처럼 …

4
범주 형 데이터를 사용하면 변수가 관련되지 않은 군집이있을 수 있습니까?
군집 분석을 설명하려고 할 때 사람들이 변수가 상관되어 있는지 여부와 관련된 것으로 프로세스를 오해하는 것이 일반적입니다. 사람들이 혼란을 극복 할 수있는 한 가지 방법은 다음과 같은 도표입니다. 이것은 군집이 있는지의 여부와 변수가 관련되어 있는지의 여부의 차이를 명확하게 표시합니다. 그러나 이는 연속 데이터의 차이점 만 보여줍니다. 범주 형 데이터가있는 아날로그를 생각하는 …

2
범주 형 변수가 여러 개인 경우 베타 해석
범주 변수가 0 (또는 참조 그룹) 인 경우 이 평균 이라는 개념을 이해하므로 회귀 계수가 두 범주의 평균 차이라는 최종 해석을 제공합니다. > 2 범주를 사용하더라도 각 는 해당 범주의 평균과 참조의 차이점을 설명 한다고 가정 합니다. ββ^0β^0\hat\beta_0β^β^\hat\beta 그러나 다 변수 모델에 더 많은 변수가 도입되면 어떻게 될까요? 이제 두 …

4
상관 관계의 비 일시성 : 성별과 뇌의 크기, 뇌의 크기와 IQ 간의 상관 관계는 있지만 성별과 IQ의 상관 관계는 없음
블로그에서 다음 설명을 발견했으며 상관의 비 일시성에 대한 자세한 정보를 얻고 싶습니다. 다음과 같은 확실한 사실이 있습니다. 평균적으로 남성과 여성의 뇌량에는 차이가 있습니다 IQ와 뇌 크기 사이에는 상관 관계가 있습니다. 상관 관계는 0.33이므로 IQ 변동성의 10 %에 해당합니다. 이 구내 1과 2에서 논리적으로 다음과 같이 보입니다. 평균적으로 여성은 남성보다 IQ가 …

1
범주 형 속성을 가진 SVM을 처리하는 방법
35 크기의 공간이 있습니다 (속성). 내 분석 문제는 간단한 분류 문제입니다. 35 개 차원 중 25 개가 범주 형이며 각 특성은 50 가지 이상의 유형 값을 갖습니다. 이 시나리오에서는 더미 변수를 도입해도 효과가 없습니다. 범주 속성이 많은 공간에서 SVM을 실행하려면 어떻게해야합니까?

5
범주 형 또는 정 성적 변수와 함께 사용할 요약 통계는 무엇입니까?
간단히 말하면 요약 통계를 의미 할 때 평균, 사 분위수 범위, 분산, 표준 편차를 나타냅니다. 명목 및 순서를 모두 고려하여 범주 형 또는 정성형 일 변량을 요약 할 때 평균, 중앙값, 사 분위수 범위, 분산 및 표준 편차를 찾는 것이 합리적입니까? 그렇다면 연속 변수를 요약하는 것과 다른 점은 무엇입니까?

2
더미 기능 (및 기타 이산 / 범주 기능)을 통한 이상 탐지
tl; dr discrete이상 감지를 수행 할 때 데이터 를 처리하는 권장 방법은 무엇입니까 ? categorical이상 감지를 수행 할 때 데이터 를 처리하는 권장 방법은 무엇입니까 ? 이 답변 은 개별 데이터를 사용하여 결과를 필터링하는 것이 좋습니다. 아마도 범주 값을 perctage 관찰 가능성으로 대체 하시겠습니까? 소개 이것은 처음으로 여기에 게시되므로 형식이나 …

3
멀티 클래스 분류기를 여러 이진 분류기보다 낫습니까?
URL을 카테고리로 분류해야합니다. 모든 URL을 0으로 분류하려는 15 개의 카테고리가 있다고 가정 해 보겠습니다. 15-way 분류 기가 더 낫습니까? 여기서 15 개의 레이블이 있고 각 데이터 포인트에 대한 기능을 생성합니다. 또는 15 개의 이진 분류기를 작성하십시오 (예 : 영화 또는 영화가 아닌 경우).

1
선형 회귀 분석에서 범주 형 변수의 통계적 유의성을 검정하는 방법은 무엇입니까?
선형 회귀 분석에 범주 형 변수가있는 경우 범주 형 변수의 통계적 유의성을 어떻게 알 수 있습니까? 요인 에 10 수준이 있다고 가정 해 봅시다. 한 요인 변수 X 1 의 우산 아래에 10 개의 다른 결과 t- 값이있을 것입니다 ...X1X1X_1X1X1X_1 통계적 유의성이 요인 변수의 각 수준에 대해 테스트 된 것 …

1
LASSO에서 범주 형 예측 변수를 처리하는 방법
범주 형 변수 예측 변수와 연속 형 예측 변수가있는 LASSO를 실행하고 있습니다. 범주 형 변수에 대한 질문이 있습니다. 내가 이해하는 첫 번째 단계는 각각을 인형으로 나누고 공정한 처벌을 위해 표준화 한 다음 회귀하는 것입니다. 더미 변수를 처리하기위한 몇 가지 옵션이 있습니다. 각 요인에 대해 모형 중 하나만 제외하고 모두 포함 …

2
회귀의 질적 변수 코딩은 "단일성"으로 이어집니다
"quality"라는 독립 변수가 있습니다. 이 변수에는 3 가지 반응 방식 (나쁜 품질, 중간 품질, 고품질)이 있습니다. 이 독립 변수를 여러 선형 회귀 분석에 도입하고 싶습니다. 이진 독립 변수 (더미 변수, 코딩 가능 0/ 1)가 있으면 다중 선형 회귀 모델에 쉽게 도입 할 수 있습니다. 그러나 3 가지 양식의 응답 으로이 …

2
우발 사태 테이블에 대한 체 / 모자이크 플롯의 대안
한때 인터넷에서 범주 형 데이터 (예 : 우연성 테이블)에 대한 플롯 형식을 우연히 발견했지만 다시는 찾지 못했으며 그것이 무엇인지조차 모릅니다. 행 높이와 열 너비가 한계 확률에 비례하여 조정되었다는 점에서 본질적으로 체 플롯과 같습니다. 따라서 각 상자는 독립 상태에서 예상되는 상대 주파수로 조정되었습니다. 그러나 각 상자 내에 교차 해칭을 표시하는 대신 …

2
더미 변수의 기능 중요도
더미 변수로 분류 된 범주 형 변수의 기능 중요성을 얻는 방법을 이해하려고합니다. R 또는 h2o 가하는 방식으로 범주 변수를 처리하지 않는 scikit-learn을 사용하고 있습니다. 범주 형 변수를 더미 변수로 분류하면 해당 변수의 클래스마다 별도의 기능 중요도가 있습니다. 내 질문은, 더미 변수의 중요도를 단순히 범주화하여 범주 변수의 중요도 값으로 재결합하는 것이 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.