파이썬을 사용하여 불균형 데이터 세트에서 임의의 포리스트 모델을 실행합니다 (대상 변수는 이진 클래스였습니다). 교육 및 테스트 데이터 세트를 분할 할 때 계층화 된 샘플링을 사용할지 (표시된 코드와 같은) 사용하지 않을지 고민했습니다. 지금까지 프로젝트에서 계층화 된 사례가 더 높은 모델 성능으로 이어질 것으로 관찰했습니다. 그러나 현재 데이터 세트와 대상 클래스의 분포가 …
웹 사이트에서 제품을 구매하는 사용자 데이터가 있습니다. 내가 가진 속성은 사용자 ID, 사용자의 지역 (주), 제품 카테고리 ID, 키워드 키워드 제품, 키워드 키워드 웹 사이트 및 판매 비용입니다. 목표는 제품 및 웹 사이트의 정보를 사용하여 "남성 젊은 게이머"또는 "집에서 엄마"와 같이 사용자가 누구인지 식별하는 것입니다. 아래 그림과 같이 샘플 사진을 …
비교적 완벽하고 (감독 및 비지도 학습을위한 다양한 알고리즘 포함) Ruby에 대한 기계 학습 라이브러리가 있습니까? 강력하게 테스트되고 문서화되어 있습니까? 나는 파이썬을 좋아한다. scikit-learn 을 놀라운 문서화로 좋아하지만 클라이언트는 Ruby에서 익숙한 코드를 작성하는 것을 선호합니다. 이상적으로는 다음과 같은 라이브러리 또는 라이브러리 세트를 찾고 있습니다. scikit and와 numpy같은 희소 행렬과 학습자뿐만 아니라 …
다음 사양의 데이터 세트가 있습니다. 2,821 개의 양성으로 193,176 개의 샘플로 훈련 데이터 세트 673 개의 양성으로 82,887 개의 샘플로 테스트 데이터 세트 10 가지 기능이 있습니다. 이진 분류 (0 또는 1)를 수행하고 싶습니다. 내가 겪고있는 문제는 데이터가 매우 불균형하다는 것입니다. 일부 기능 엔지니어링과 함께 데이터를 정규화하고 확장 한 후 …
나는 매우 바이어스 된 이진 데이터 세트를 가지고 있습니다. 포지티브 클래스보다 네거티브 클래스의 예가 1000 배 더 많습니다. 이 데이터에 대해 Tree Ensemble (Extra Random Trees 또는 Random Forest)을 훈련시키고 싶지만, 긍정적 클래스의 충분한 예를 포함하는 훈련 데이터 세트를 생성하는 것은 어렵습니다. 긍정적 인 예와 부정적인 예의 수를 정규화하기 위해 …
hadoop, monogodb / nosql, storm, kafka와 같은 실제 사용 사례에서 모든 "빅 데이터"구성 요소가 함께 작동하는 방식을 이해하려고 노력 중입니다. ... 앱, 웹앱, 온라인 상점에 대한 머신 러닝 학습과 같은 애플리케이션에서의 상호 작용에 대해 더 자세히 알고 싶습니다. 나는 vistors / session, transaction data 등을 가지고 있고 그것을 저장한다; 그러나 …
안개 조건 (3 클래스)에서 이미지를 분류하기 위해 회선 신경 네트워크를 훈련하고 있습니다. 그러나 약 150.000 개의 이미지 각각에 대해 이미지 클래스를 예측하는 데 도움이되는 4 가지 기상 변수가 있습니다. 기존 CNN 구조에 기상 변수 (예 : 온도, 풍속)를 추가하여 분류에 도움을 줄 수있는 방법이 궁금했습니다. 내가 이미 생각할 수있는 한 …
인터넷 에서 Imagenet 클래스에 대한 많은 출처 중 하나를 보면 인간과 관련된 단일 클래스를 찾을 수 없습니다 (그리고 수확업자 는 수확하는 사람이 아니지만 내가 아빠 longlegs, 일종의 일종이라고 알고 있습니다 거미 :-). 어떻게 가능합니까? 나는 적어도이 예상에있는 것 person조차 뭔가 더 구체적으로 다음과 같은 클래스를, 그리고 man, woman, toddler, 등 …
통계 나 고급 수학에 대한 배경 지식이없는 컴퓨터 과학 엔지니어입니다. Raschka와 Mirjalili의 Python Machine Learning 책을 공부하고 있지만 기계 학습의 수학을 이해하려고 할 때 친구 가 통계 학습의 요소를 제안하는 위대한 책을 이해할 수 없었습니다 . 기계 학습에 대한 더 쉬운 통계 및 수학 책을 알고 있습니까? 그렇지 않은 경우 …
이 질문에 대한 작은 하위 질문 이 있습니다. 최대 풀링 레이어를 통해 역 전파 할 때 최대로 선택된 이전 레이어의 뉴런이 모든 그라디언트를 얻는 방식으로 그라디언트가 다시 라우팅됩니다. 100 % 확실하지 않은 것은 다음 레이어의 그라디언트가 풀링 레이어로 다시 라우팅되는 방식입니다. 첫 번째 질문은 풀링 레이어가 아래 이미지와 같이 완전히 …
차원의 다양한 저주 로 인해 많은 일반적인 예측 기술의 정확도와 속도가 높은 차원의 데이터에서 저하됩니다. 고차원 데이터를 효과적으로 처리하는 데 도움이되는 가장 유용한 기술 / 트릭 / 휴리스틱은 무엇입니까? 예를 들어 특정 통계 / 모델링 방법이 고차원 데이터 세트에서 잘 수행됩니까? 특정 (거리의 대체 개념을 정의하는) 특정 커널 또는 도트 …
이미지 인식을 위해 CNN을 훈련시키고 싶습니다. 훈련 용 이미지의 크기가 고정되어 있지 않습니다. 예를 들어 CNN의 입력 크기를 50x100 (높이 x 너비)으로 만들고 싶습니다. 작은 크기의 이미지 (예 : 32x32)의 크기를 입력 크기로 조정하면 이미지의 내용이 가로로 너무 많이 늘어나지 만 일부 중간 크기 이미지의 경우 괜찮습니다. 콘텐츠가 손상되는 것을 …