데이터 과학

데이터 과학 전문가, 기계 학습 전문가 및 현장 학습에 관심이있는 전문가를위한 Q & A

4
우편 주소 퍼지 일치를 수행하는 방법은 무엇입니까?
형식이 다르거 나 철자가 틀린 경우 우편 주소를 일치시키는 방법을 알고 싶습니다. 지금까지 다른 솔루션을 찾았지만 솔루션이 상당히 오래되고 비효율적이라고 생각합니다. 나는 더 좋은 방법이 존재한다고 확신하므로 읽을만한 참고 문헌이 있다면 여러 사람이 관심을 가질 수있는 주제라고 확신합니다. 내가 찾은 해결책 (예는 R에 있음) : 한 단어를 다른 단어로 변환하기 …

1
T-SNE 시각화에서 더 가까운 점이 더 유사한 것으로 간주 될 수 있습니까?
나는 Hinton의 논문에서 T-SNE가 지역적 유사성을 유지하는 데 훌륭한 역할을하고 글로벌 구조 (클러스터 화)를 보존하는 데 알맞은 역할을한다는 것을 이해합니다. 그러나 2D t-sne 시각화에서 더 가깝게 나타나는 포인트가 "더 유사한"데이터 포인트로 간주 될 수 있는지 확실하지 않습니다. 25 가지 기능이있는 데이터를 사용하고 있습니다. 예를 들어 아래 이미지를 보면 파란색 데이터 …

4
의사 결정 트리 또는 로지스틱 회귀 분석?
분류 문제를 해결하고 있습니다. 동일한 수의 범주 형 변수와 연속 변수를 포함하는 데이터 세트가 있습니다. 어떤 기술을 사용해야하는지 어떻게 알 수 있습니까? 의사 결정 트리와 로지스틱 회귀 분석 로지스틱 회귀 분석이 연속 변수에 더 적합하고 의사 결정 트리가 연속 + 범주 변수에 더 적합하다고 가정하는 것이 옳습니까?

2
속성을 사용하여 사용자 프로필 분류 / 클러스터
웹 사이트에서 제품을 구매하는 사용자 데이터가 있습니다. 내가 가진 속성은 사용자 ID, 사용자의 지역 (주), 제품 카테고리 ID, 키워드 키워드 제품, 키워드 키워드 웹 사이트 및 판매 비용입니다. 목표는 제품 및 웹 사이트의 정보를 사용하여 "남성 젊은 게이머"또는 "집에서 엄마"와 같이 사용자가 누구인지 식별하는 것입니다. 아래 그림과 같이 샘플 사진을 …

2
10 ^ 10 포인트에 대한 알고리즘과 같은 빠른 k- 평균?
10 차원 포인트 집합에서 k- 평균 군집화를 수행하려고합니다. 캐치 : 10 ^ 10 포인트가 있습니다. 나는 가장 큰 클러스터의 중심과 크기만을 찾고 있습니다 (10 ~ 100 개의 클러스터라고합시다). 각 지점이 어떤 클러스터로 끝나는 지 상관하지 않습니다. k- 평균을 사용하는 것은 특별히 중요하지 않습니다. 나는 비슷한 효과를 찾고 있는데, 대략적인 k- …

1
Ruby 용 기계 학습 라이브러리
비교적 완벽하고 (감독 및 비지도 학습을위한 다양한 알고리즘 포함) Ruby에 대한 기계 학습 라이브러리가 있습니까? 강력하게 테스트되고 문서화되어 있습니까? 나는 파이썬을 좋아한다. scikit-learn 을 놀라운 문서화로 좋아하지만 클라이언트는 Ruby에서 익숙한 코드를 작성하는 것을 선호합니다. 이상적으로는 다음과 같은 라이브러리 또는 라이브러리 세트를 찾고 있습니다. scikit and와 numpy같은 희소 행렬과 학습자뿐만 아니라 …

2
불균형 데이터에 대한 이진 분류 모델
다음 사양의 데이터 세트가 있습니다. 2,821 개의 양성으로 193,176 개의 샘플로 훈련 데이터 세트 673 개의 양성으로 82,887 개의 샘플로 테스트 데이터 세트 10 가지 기능이 있습니다. 이진 분류 (0 또는 1)를 수행하고 싶습니다. 내가 겪고있는 문제는 데이터가 매우 불균형하다는 것입니다. 일부 기능 엔지니어링과 함께 데이터를 정규화하고 확장 한 후 …

4
바이어스가 높은 데이터 세트로 트리 앙상블을 훈련 할 때의 의미는 무엇입니까?
나는 매우 바이어스 된 이진 데이터 세트를 가지고 있습니다. 포지티브 클래스보다 네거티브 클래스의 예가 1000 배 더 많습니다. 이 데이터에 대해 Tree Ensemble (Extra Random Trees 또는 Random Forest)을 훈련시키고 싶지만, 긍정적 클래스의 충분한 예를 포함하는 훈련 데이터 세트를 생성하는 것은 어렵습니다. 긍정적 인 예와 부정적인 예의 수를 정규화하기 위해 …

4
예를 들어 인프라 스택 / 워크 플로우 / 파이프 라인
hadoop, monogodb / nosql, storm, kafka와 같은 실제 사용 사례에서 모든 "빅 데이터"구성 요소가 함께 작동하는 방식을 이해하려고 노력 중입니다. ... 앱, 웹앱, 온라인 상점에 대한 머신 러닝 학습과 같은 애플리케이션에서의 상호 작용에 대해 더 자세히 알고 싶습니다. 나는 vistors / session, transaction data 등을 가지고 있고 그것을 저장한다; 그러나 …

1
그라디언트 향상 트리는 어떤 기능에도 적합합니까?
신경망의 경우 신경망 이 R n 의 콤팩트 한 부분 집합에서 연속적인 기능에 근접 할 수 있다는 보편적 근사 정리 가 있습니다 .아르 자형엔아르 자형엔R^n 그래디언트 향상 트리에 대해서도 비슷한 결과가 있습니까? 더 많은 지점을 계속 추가 할 수 있기 때문에 합리적으로 보이지만 주제에 대한 공식적인 토론을 찾을 수 없습니다. …

1
CNN의 입력으로 측면 이미지와 함께 비 이미지 기능을 추가하는 방법
안개 조건 (3 클래스)에서 이미지를 분류하기 위해 회선 신경 네트워크를 훈련하고 있습니다. 그러나 약 150.000 개의 이미지 각각에 대해 이미지 클래스를 예측하는 데 도움이되는 4 가지 기상 변수가 있습니다. 기존 CNN 구조에 기상 변수 (예 : 온도, 풍속)를 추가하여 분류에 도움을 줄 수있는 방법이 궁금했습니다. 내가 이미 생각할 수있는 한 …

3
ImageNet에 개인 클래스가 있습니까? 인간과 관련된 수업이 있습니까?
인터넷 에서 Imagenet 클래스에 대한 많은 출처 중 하나를 보면 인간과 관련된 단일 클래스를 찾을 수 없습니다 (그리고 수확업자 는 수확하는 사람이 아니지만 내가 아빠 longlegs, 일종의 일종이라고 알고 있습니다 거미 :-). 어떻게 가능합니까? 나는 적어도이 예상에있는 것 person조차 뭔가 더 구체적으로 다음과 같은 클래스를, 그리고 man, woman, toddler, 등 …

5
기계 학습을위한 초보자 수학 책
통계 나 고급 수학에 대한 배경 지식이없는 컴퓨터 과학 엔지니어입니다. Raschka와 Mirjalili의 Python Machine Learning 책을 공부하고 있지만 기계 학습의 수학을 이해하려고 할 때 친구 가 통계 학습의 요소를 제안하는 위대한 책을 이해할 수 없었습니다 . 기계 학습에 대한 더 쉬운 통계 및 수학 책을 알고 있습니까? 그렇지 않은 경우 …

1
다중 시계열을 사용하는 RNN
각 시리즈의 유형에 따라 훈련하기 위해 시계열을 입력으로 사용하여 신경망을 만들려고합니다. RNN을 사용하면 입력을 배치로 나누고 시계열의 모든 지점을 개별 뉴런으로 사용하여 결국 네트워크를 훈련시킬 수 있다는 것을 읽었습니다. 그래도 내가하려고하는 것은 다중 시계열을 입력으로 사용하는 것입니다. 예를 들어 두 개의 센서에서 입력을받을 수 있습니다. (그래서 두 시계열), 나는 최종 …
14 time-series  rnn 

1
Naive Bayes 분류기 계산에서 제로 팩터를 처리하는 방법은 무엇입니까?
훈련 데이터 세트가 있고 Naive Bayes Classifier를 훈련시키고 확률 값이 0 인 속성 값을 갖는 경우. 나중에 새 데이터에 대한 분류를 예측하려면 어떻게해야합니까? 문제는 계산에 0이 있으면 다른 솔루션을 찾을 수있는 다른 값의 수에 관계없이 전체 제품이 0이된다는 것입니다. 예: P(x|spam=yes)=P(TimeZone=US|spam=yes)⋅P(GeoLocation=EU|spam=yes)⋅ ... =0.004P(x|spam=yes)=P(TimeZone=US|spam=yes)⋅P(GeoLocation=EU|spam=yes)⋅ ... =0.004P(x|spam=yes) = P(TimeZone = US | …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.