«data-preprocessing» 태그된 질문

1
Scikit-learn의 One-hot vs Dummy 인코딩
범주 형 변수를 인코딩하는 방법에는 두 가지가 있습니다. 하나의 범주 형 변수에는 n 개의 값이 있습니다. 원핫 인코딩은 이를 n 개의 변수 로 변환하고 더미 인코딩은 이를 n-1 변수 로 변환합니다 . k 개의 범주 형 변수 가있는 경우 각각 n 개의 값을 갖습니다. 하나의 핫 인코딩은 kn 변수로 끝나고 …


2
신경망 : 원-핫 변수 압도적 인 연속?
약 20 열 (20 가지 기능)이있는 원시 데이터가 있습니다. 그 중 10 개는 연속적인 데이터이고 10 개는 범주 형입니다. 범주 형 데이터 중 일부는 50 개의 서로 다른 값 (미국)을 가질 수 있습니다. 데이터를 사전 처리 한 후 10 개의 연속 열이 10 개의 준비된 열이되고 10 개의 범주 형 …

3
one-hot 인코딩이 필요한 알고리즘은 무엇입니까?
순서가없는 범주 형 변수에 원 핫 인코딩을 사용해야 할 때와 사용하지 않을 때는 확실 하지 않습니다. 알고리즘이 거리 메트릭을 사용하여 유사성을 계산할 때마다 사용합니다. 순서가없는 범주 형 기능이 핫 인코딩 된 유형과 어떤 유형의 알고리즘이 아닌 알고리즘 유형에 대한 일반적인 경험을 가진 사람이 있습니까?

1
열차 / 유효 / 테스트 세트의 평균 빼기에 대한 질문
데이터 전처리를하고 데이터에 Convonets를 구축하려고합니다. 내 질문은 : 100 개의 이미지가있는 총 데이터 세트가 있고 100 개의 이미지 중 하나에 대한 평균을 계산 한 다음 각 이미지에서 뺀 다음 기차와 유효성 검사 세트로 나눕니다. 주어진 테스트 세트에서 처리하는 단계이지만 다음 링크에 따라 올바른 방법이 아닌 것 같습니다 : http://cs231n.github.io/neural-networks-2/#datapre " …

2
버킷 화란 무엇입니까?
운이없는 머신 러닝에서 "버킷 화"에 대한 명확한 설명을 찾기 위해 노력하고 있습니다. 지금까지 이해 한 것은 버킷 화가 연속적인 값의 범위가 하나의 이산 값으로 대체되는 디지털 신호 처리의 양자화와 유사하다는 것입니다. 이 올바른지? 버킷 화 적용의 장단점 (정보 손실의 명백한 영향 외에)은 무엇입니까? 버킷 화 적용 방법에 대한 경험 규칙이 …
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.