데이터 과학

데이터 과학 전문가, 기계 학습 전문가 및 현장 학습에 관심이있는 전문가를위한 Q & A

1
R을 사용하여 의사 결정 트리를 작성할 때 데이터를 정규화해야합니까?
따라서 이번 주 데이터 세트에는 14 개의 속성이 있으며 각 열의 값은 매우 다릅니다. 한 열의 값은 1 미만이고 다른 열의 값은 3 자리에서 4 자리 숫자입니다. 지난 주에 정규화를 배웠으며 값이 매우 다른 경우 데이터를 정규화해야하는 것으로 보입니다. 의사 결정 트리의 경우도 마찬가지입니까? 확실하지 않지만 정규화가 동일한 데이터 세트의 …
10 r  beginner 

3
온톨로지와 시맨틱 웹은 죽었습니까? [닫은]
폐쇄되었습니다 . 이 질문은 더 집중되어야 합니다. 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 이 게시물 을 편집 하여 한 가지 문제에만 집중할 수 있도록 질문을 업데이트하십시오 . 휴일 삼년 전에 . 시맨틱 웹은 죽었습니까? 온톨로지는 죽었습니까? "습지 주변의 관심 집단을위한 온톨로지를 통해 지식 기반"에 관한 논문의 작업 계획을 개발 …

2
지역에 민감한 해시 증폭
가능한 모든 쌍을 비교하지 않고도 비슷한 항목 쌍을 찾을 수 있도록 코사인 로컬 리티에 민감한 해시를 작성하려고합니다. 나는 기본적으로 작동하지만 내 데이터의 대부분의 쌍은 -0.2에서 +0.2 범위의 코사인 유사성을 가진 것처럼 보이므로 상당히 미세하게 주사위를 굴려 코사인 유사성이 0.1 이상인 것을 선택하려고합니다. Mining Massive Datasets 3 장을 읽었습니다. 이것은 Locality-Sensitive …

2
scikit 분류 기준을 분류하는 데 시간이 얼마나 걸립니까?
1 백만 개의 레이블이 지정된 문서로 구성된 모음에서 텍스트 분류를 위해 scikit 선형 지원 벡터 머신 (SVM) 분류기를 사용할 계획입니다. 내가 할 계획은 사용자가 키워드를 입력하면 분류자가 먼저 범주별로 분류 한 다음 해당 범주 범주의 문서 내에서 후속 정보 검색 쿼리가 발생한다는 것입니다. 몇 가지 질문이 있습니다. 분류에 많은 시간이 …

2
벡터 연산에 기초한 확률 적 경사 하강?
N 개의 샘플이있는 데이터 세트를 사용하여 확률 적 경사 하강 회귀 알고리즘을 훈련시키고 싶다고 가정 해 봅시다. 데이터 세트의 크기가 고정되어 있으므로 데이터를 T 번 재사용합니다. 각 반복 또는 "에포크"에서 전체 트레이닝 세트를 무작위로 재정렬 한 후 각 트레이닝 샘플을 정확히 한 번 사용합니다. 내 구현은 Python과 Numpy를 기반으로합니다. 따라서 …


3
네트워크 분석 클래식 데이터 세트
기계 학습 분류 / 회귀 작업에 대한 몇 가지 고전적인 데이터 세트가 있습니다. 가장 인기있는 것은 : 아이리스 꽃 데이터 세트 ; 타이타닉 데이터 세트 ; 모터 트렌드 자동차 ; 기타 그러나 네트워크 분석 / 그래프 이론에 대한 유사한 데이터 세트를 아는 사람이 있습니까? 더 구체적- 비교 / 평가 / …
10 dataset  graphs 

2
교차 검증 : K- 폴드 대 반복 무작위 서브 샘플링
분류 문제에 대해 어떤 모델 교차 검증 유형을 선택해야하는지 궁금합니다. K- 폴드 또는 랜덤 서브 샘플링 (부트 스트랩 샘플링)? 가장 좋은 추측은 훈련에 2/3의 데이터 세트 (~ 1000 개 항목)를 사용하고 검증에 1/3을 사용하는 것입니다. 이 경우 K-fold는 세 번의 반복 (폴드) 만 제공하므로 안정적인 평균 오류를 볼 수 없습니다. …

2
신경망 디버깅
scipy.optimize.minimize (Conjugate gradient) 최적화 기능을 사용하여 파이썬에서 인공 신경망을 만들었습니다. 그라디언트 확인을 구현하고 모든 것을 다시 확인했으며 올바르게 작동하는지 확신합니다. 나는 그것을 몇 번 실행했고 '최적화가 성공적으로 종료되었습니다'에 도달했지만 숨겨진 레이어 수를 늘리면 성공적으로 종료 된 후 가설 비용이 증가합니다 (다른 모든 항목은 동일하게 유지됨). 직관적으로 데이터를 더 잘 맞출 …

4
데이터 분석을 디버그하는 방법?
나는 정찰이 다소 일반적이라는 다음과 같은 문제를 겪었습니다. 예를 들어 몇 백만 개의 큰 데이터가 있습니다. 몇 가지 하위 쿼리로 구성된 SQL 쿼리와 같은 사소한 분석을 실행합니다. 예를 들어 시간이 지남에 따라 속성 X가 증가하고 있다는 결과가 나옵니다. 이제 두 가지 가능한 결과가 있습니다. X는 시간이 지남에 따라 실제로 증가하고 …

1
ElasticSearch에 저장된 고객 데이터 클러스터링
고객 프로필에 저장되어 있습니다. 탄성 검색클러스터. 이 프로파일은 이제 이메일 구독을위한 대상 그룹을 만드는 데 사용됩니다. 대상 그룹은 이제 탄력적 검색면 검색 기능을 사용하여 수동으로 구성됩니다 (예 : 자동차 한 대와 어린이 세 대를 가진 23 세의 모든 남성 고객 확보). 데이터 과학, 기계 학습, 클러스터링 등을 사용하여 흥미로운 그룹을 …

5
좋은 단어 중지 목록을 만드는 방법
중지 단어 목록을 큐 레이트하는 방법에 대한 힌트를 찾고 있습니다. 누군가가 사전 처리 및 필터링을 위해 데이터 세트 자체에서 중지 단어 목록을 추출하는 좋은 방법을 알고 있거나 추천 할 수 있습니까? 자료: 수년에 걸쳐 가변 길이 (검색어 및 전체 문장 (최대 200 자))의 방대한 양의 인간 텍스트 입력. 이 텍스트에는 …


2
배치 정규화는 S 자형이 ReLU보다 더 잘 작동한다는 것을 의미합니까?
배치 정규화와 ReLU는 모두 사라지는 기울기 문제에 대한 솔루션입니다. 배치 정규화를 사용하는 경우 시그 모이 드를 사용해야합니까? 또는 batchnorm을 사용할 때에도 가치가있는 ReLU 기능이 있습니까? batchnorm에서 수행 된 정규화는 0의 활성화를 마이너스로 전송한다고 가정합니다. 이것은 batchnorm이 "dead ReLU"문제를 해결한다는 의미입니까? 그러나 탄과 물류의 지속적인 특성은 여전히 ​​매력적입니다. batchnorm을 사용하는 경우 …

4
SGDClassifier : 이전에 알려지지 않은 레이블이있는 온라인 학습 / partial_fit
내 훈련 세트에는 초기 학습에 사용되는 약 50 만 개의 항목이 포함되어 있습니다. 매주 ~ 5k 개의 항목이 추가됩니다. 그러나 동일한 양이 "사라집니다"(시간이 지나면 삭제해야하는 사용자 데이터이므로). 따라서 나중에 전체 데이터 세트에 액세스 할 수 없으므로 온라인 학습을 사용합니다. 현재 SGDClassifier작동 하는 것을 사용하고 있지만 큰 문제는 새로운 범주가 나타나고 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.