«classification» 태그된 질문

통계적 분류는 하위 모집단이 알려진 관측치가 포함 된 훈련 데이터 세트를 기반으로 하위 모집단의 신원을 알 수없는 새로운 관측치가 속하는 하위 모집단을 식별하는 문제입니다. 따라서 이러한 분류는 통계로 조사 할 수있는 가변 동작을 보여줍니다.

1
분류에서 훈련 데이터를 생성하기위한 계층화 및 무작위 샘플링의 이점
원래 데이터 세트를 분류를위한 훈련 및 테스트 세트로 분할 할 때 무작위 샘플링 대신 계층화 샘플링을 사용하면 어떤 이점이 있는지 알고 싶습니다. 또한 계층화 된 샘플링이 무작위 샘플링보다 분류기에 더 많은 편향을 가져 옵니까? 데이터 준비를 위해 계층화 된 샘플링을 사용하려는 응용 프로그램은 2에 대해 훈련 된 Random Forests 분류기입니다.2삼2삼\frac{2}{3}원래 …

1
분류 기술인 LDA가 PCA와 같은 차원 축소 기술로도 사용되는 방법
이 기사 에서 저자는 선형 판별 분석 (LDA)을 주성분 분석 (PCA)에 연결합니다. 제한된 지식으로 LDA가 PCA와 어떻게 유사한 지 따를 수 없습니다. 나는 항상 LDA가 로지스틱 회귀와 유사한 분류 알고리즘의 한 형태라고 생각했습니다. LDA가 PCA와 어떻게 비슷한 지 이해하는 데 도움이 될 것입니다.

2
임의의 숲이 과적입니까?
나는 scikit-learn을 사용하여 임의의 숲을 실험하고 있으며 훈련 세트의 결과는 훌륭하지만 테스트 세트에서는 상대적으로 열악한 결과를 얻습니다 ... 내가 해결하려고하는 문제 (포커에서 영감을 얻음)는 다음과 같습니다 .A 플레이어의 홀 카드, B 플레이어의 홀 카드 및 플롭 (3 카드)을 고려할 때 어떤 플레이어가 가장 좋은 핸드를 가지고 있습니까? 수학적으로 이것은 14 …

3
반 감독 학습, 능동 학습 및 분류를위한 딥 러닝
모든 리소스가 업데이트 된 최종 편집 : 프로젝트의 경우 분류를 위해 기계 학습 알고리즘을 적용하고 있습니다. 도전 과제 : 레이블이 지정된 데이터와 레이블이없는 데이터가 훨씬 제한적입니다. 목표 : 반 감독 분류 적용 어떻게 든 반 감독 라벨링 프로세스 적용 (활성 학습이라고 함) EM, Transductive SVM 또는 S3VM (Semi Supervised SVM)을 …

7
머신 러닝의 바이어스 된 데이터
데이터 선택에 의해 이미 (심하게) 바이어스 된 데이터로 Machine Learning 프로젝트를 진행하고 있습니다. 하드 코딩 된 규칙 집합이 있다고 가정 해 봅시다. 사용할 수있는 모든 데이터가 해당 규칙에 의해 이미 필터링 된 데이터 인 경우이를 대체하기 위해 기계 학습 모델을 어떻게 구축합니까? 일을 명확히하기 위해 가장 좋은 예는 신용 리스크 …

1
오버 샘플링에 대한 의견, 특히 SMOTE 알고리즘에 대한 의견
휴무 . 이 질문은 의견 기반 입니다. 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 이 게시물 을 편집 하여 사실과 인용으로 답변 할 수 있도록 질문을 업데이트하십시오 . 휴일 2 년 전 . 분류의 오버 샘플링과 특히 SMOTE 알고리즘에 대한 귀하의 의견은 무엇입니까? 왜 클래스 데이터의 불균형과 불균형 오류 비용을 …

5
대규모 텍스트 분류
텍스트 데이터를 분류하려고합니다. 나는 300 classes수업 당 200 개의 교육 문서를 가지고 60000 documents in total있으며 이것은 매우 높은 차원의 데이터 를 초래할 가능성 이있다 (우리는 1 백만 개 이상의 차원을 보고있을 것이다 ). 파이프 라인에서 다음 단계를 수행하고 싶습니다 (내 요구 사항에 대한 이해를 돕기 위해). 각 문서를 피처 …

10
소셜 네트워크 데이터 세트
잠김 . 이 질문과 주제는 주제가 다르지만 역사적 의미가 있기 때문에이 질문과 답변은 잠겨 있습니다. 현재 새로운 답변이나 상호 작용을받지 않습니다. 분류 작업에 대한 소셜 네트워크 데이터 세트 (twitter, friendfeed, facebook, lastfm 등)를 arff 형식으로 찾고 있습니다. UCI와 Google을 통한 검색은 지금까지 성공하지 못했습니다 ... 제안 사항이 있습니까?

3
멀티 클래스 분류기를 여러 이진 분류기보다 낫습니까?
URL을 카테고리로 분류해야합니다. 모든 URL을 0으로 분류하려는 15 개의 카테고리가 있다고 가정 해 보겠습니다. 15-way 분류 기가 더 낫습니까? 여기서 15 개의 레이블이 있고 각 데이터 포인트에 대한 기능을 생성합니다. 또는 15 개의 이진 분류기를 작성하십시오 (예 : 영화 또는 영화가 아닌 경우).

2
능선 회귀 분류 기가 왜 텍스트 분류에 잘 작동합니까?
텍스트 분류를 실험하는 동안 SVM, NB, kNN 등과 같이 텍스트 마이닝 작업에 더 일반적으로 언급되고 적용되는 분류기 중 테스트를 지속적으로 능가하는 능선 분류기 결과를 찾았습니다. 매개 변수에 대한 간단한 조정을 제외 하고이 특정 텍스트 분류 작업에서 각 분류자를 최적화하는 데 도움이됩니다. 이러한 결과는 Dikran Marsupial 에서도 언급 되었습니다 . 통계 …

2
오버 샘플링 된 불균형 데이터에 대한 분류 테스트
심각하게 불균형 한 데이터를 작업 중입니다. 문헌에서, 리샘플링 (과다 또는 과소 샘플링)을 사용하여 데이터를 재조정하기 위해 여러 방법이 사용됩니다. 두 가지 좋은 접근 방식은 다음과 같습니다. SMOTE : 합성 소수 오버 샘플링 TEchnique ( SMOTE ) ADASYN : 불균형 학습을위한 적응 형 합성 샘플링 접근법 ( ADASYN ) ADASYN은 적응성이 …

1
퀴즈 : 결정 경계에 따라 분류 자에게 알리십시오.
아래 6 가지 결정 경계가 제공됩니다. 결정 경계는 보라색 선입니다. 점과 십자가는 서로 다른 두 데이터 집합입니다. 우리는 어느 것을 결정해야합니다 : 리니어 SVM 커널 SVM (2 차 다항식 커널) 퍼셉트론 로지스틱 회귀 신경망 (10 개의 정류 된 선형 단위를 갖는 숨겨진 계층 1 개) 신경망 (10 tanh 단위의 숨겨진 …

3
앙상블 분류기를 언제 사용하지 않아야합니까?
일반적으로 샘플 외부 클래스 멤버십을 정확하게 예측하는 것이 목표 인 분류 문제에서 앙상블 분류기를 사용 하지 않아야 하는 시점은 언제 입니까? 이 질문은 항상 앙상블 학습을 사용하지 않는 이유 와 밀접한 관련이 있습니다. . 이 질문은 왜 앙상블을 항상 사용하지 않는지 묻습니다. 나는 앙상블이 아닌 것 보다 앙상블이 더 나쁜 …


1
뉴스 기사를 바탕으로 범죄 지수와 정치적 불안정 지수를 만들고 싶습니다
이 지역 프로젝트를 통해 현지 뉴스 웹 사이트를 크롤링하고 범죄 지수와 정치적 불안정 지수를 구축하려고합니다. 프로젝트의 정보 검색 부분을 이미 다뤘습니다. 나의 계획은 : 감독되지 않은 주제 추출. 거의 중복 감지. 감독 분류 및 사건 수준 (범죄 / 정치-높음 / 중간 / 낮음). 나는 파이썬과 sklearn을 사용하고 이미 그 작업에 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.