데이터 과학

데이터 과학 전문가, 기계 학습 전문가 및 현장 학습에 관심이있는 전문가를위한 Q & A

4
텍스트 분류기 교육 데이터 세트 제안
텍스트 분류기를 훈련시키기 위해 어떤 무료 데이터 집합을 사용할 수 있습니까? Google은 사용자에게 가장 관련성 높은 콘텐츠를 추천하여 사용자 참여를 향상 시키려고 노력하고 있으므로 미리 정의 된 단어 모음을 기반으로 콘텐츠를 분류하는 경우 이미 분류 된 임의의 게시물 수에 대한 피드백을 통해 콘텐츠를 참여시키는 것이 좋습니다. 전에. 이 정보를 사용하여 …

1
ILP가없는 관계형 데이터 마이닝
분류 모델을 만들어야하는 관계형 데이터베이스의 거대한 데이터 세트가 있습니다. 일반적으로이 상황에서는 IOP ( Inductive Logic Programming )를 사용하지만 특수한 상황으로 인해이를 수행 할 수 없습니다. 이것을 해결하는 다른 방법은 내가 외국 관계가있을 때 가치를 모으는 것입니다. 그러나, 나는 몇 가지 명목상의 속성에 대해 수천 가지 중요하고 뚜렷한 행을 가지고 있습니다 …

1
학습 신호 인코딩
맨체스터 인코딩 비트 스트림을 오디오 신호로 나타내는 많은 샘플이 있습니다. 인코딩되는 주파수는 높은 주파수의 주요 주파수 구성 요소이며 백그라운드에 일정한 양의 화이트 노이즈가 있습니다. 이 스트림을 수동으로 디코딩했지만 인코딩 체계를 배우기 위해 일종의 기계 학습 기술을 사용할 수 있는지 궁금합니다. 이렇게하면 이러한 체계를 수동으로 인식하는 데 많은 시간이 절약됩니다. 어려움은 …

2
스마트 폰 데이터 세트 문제를 이용한 인간 활동 인식
저는이 커뮤니티를 처음 사용하므로 제 질문이 여기에 잘 맞기를 바랍니다. 학부 데이터 분석 과정의 일환으로 스마트 폰 데이터 세트를 사용하여 인간 활동 인식 프로젝트를 선택했습니다. 내가 우려하는 한이 주제는 기계 학습 및 지원 벡터 기계와 관련이 있습니다. 아직이 기술에 익숙하지 않으므로 도움이 필요합니다. 이 프로젝트 아이디어를 따르기로 결정했습니다 http://www.inf.ed.ac.uk/teaching/courses/dme/2014/datasets.html (위의 …

1
권장 사항에서 암시 적 데이터를 처리하는 방법
추천 시스템은 특정 사용자에 대한 권장 사항과 해당 사용자가 권장 사항을 수락하는지 여부를 기록합니다. 마치 user_id item_id result 1 4 1 1 7 -1 5 19 1 5 80 1 여기서 1은 사용자가 권장 사항을 수락했음을 나타내고 -1은 사용자가 권장 사항에 응답하지 않았 음을 나타냅니다. 질문 : 위에서 설명한 로그 …

1
SMOTE 기술을 사용하여 데이터 세트를 밸런싱하는 데 사용되는 최상의 성능 지표는 무엇입니까
스 모트 기술을 사용하여 데이터 세트를 오버 샘플링했으며 이제 균형 잡힌 데이터 세트가 있습니다. 내가 직면 한 문제는 성능 지표입니다. 불균형 데이터 세트의 정밀도, 리콜, f1 측정, 정확도는 밸런스 데이터 세트보다 더 잘 수행됩니다. 밸런싱 데이터 세트가 모델의 성능을 향상시킬 수 있음을 보여주기 위해 어떤 측정을 사용할 수 있습니까? 주의 …

1
keras의 ModelCheckpoint가 작동하지 않습니다
나는 keras에서 모델을 훈련하려고 노력하고 있으며 ModelCheckpoint 를 사용하여 모니터링 된 유효성 검사 메트릭 (제 경우 Jaccard index ) 에 따라 최상의 모델을 저장하고 있습니다 . tensorboard에서 모델이 개선되는 것을 볼 수 있지만 가중치를로드하고 모델을 평가하려고 할 때 전혀 작동하지 않습니다. 또한 가중치를 저장 해야하는 파일의 타임 스탬프로 전혀 저장되지 …
8 keras  convnet 

1
불균형 클래스를 다루기위한 접근법의 분류
불균형 계급 문제를 해결하기 위해 개발 된 접근법을 분류하는 가장 좋은 방법은 무엇입니까? 이 기사는 다음과 같이 분류합니다. 전처리 : 오버 샘플링, 언더 샘플링 및 하이브리드 방법, 비용에 민감한 학습 : 직접 분석법과 메타 학습을 포함하며 후자는 임계 값과 샘플링으로 더 나뉘어집니다. 앙상블 기술 : 앙상블 학습과 함께 비용에 민감한 …



5
주제 모델 및 LDA에 대한 학습서
나는 사람들이 주제 모델과 LDA에 대한 좋은 자습서 (빠르고 간단한)를 가지고 있는지, 일부 실제 매개 변수를 설정하는 방법, 의미 및 가능한 경우 실제 예제를 직관적으로 가르치고 싶습니다.

2
내 훈련 세트에 음의 y 값이 없을 때 그라디언트 증폭 회귀 분석에서 음수 값을 예측하는 이유는 무엇입니까?
내가 나무의 수를 증가로 scikit 학습 의를 GradientBoostingRegressor, 나는 부정적인 값 내 훈련이나 설정을 테스트에 없다하더라도, 더 부정적인 예측을 얻을. 나는 약 10 가지 기능을 가지고 있으며, 대부분 바이너리입니다. 내가 튜닝 한 일부 매개 변수는 다음과 같습니다. 나무 / 반복 횟수; 학습 깊이; 학습 속도. 음수 값의 백분율은 ~ 2 …

2
CNN 모델에서 더 많은 레이어를 사용할 때 메모리 오류
내 Dell 코어 i7-16GB RAM-4gb 960m GPU 랩톱에서 3d CNN을 사용하여 폐 CT 이미지를 분류하는 프로젝트를 진행하고 있습니다. CPU 버전의 tensorflow를 사용하고 있습니다. 이미지는 numpy 배열 크기 (25,50,50)로 준비됩니다. 내 CNN 모델에는 2 개의 conv 레이어, 2 개의 maxpool 레이어, 1 개의 FC 레이어 및 출력 레이어가있었습니다. 이 아키텍처를 통해 …


1
바이어스-분산 트레이드 오프 및 최적화 수단에 대한 질문
예를 들어, 높은 편향 또는 높은 분산으로 인해 발생하는 문제에 직면했을 때 구축하려는 모델을 어떻게 최적화 할 수 있는지 궁금합니다. 물론, 정규화 매개 변수를 사용하여 만족스러운 결과를 얻을 수 있지만 정규화에 의존하지 않고이를 수행 할 수 있는지 궁금합니다. b가 모형의 편차 추정값이고 분산의 v가 b * v를 최소화하는 것이 타당하지 …
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.