데이터 과학

데이터 과학 전문가, 기계 학습 전문가 및 현장 학습에 관심이있는 전문가를위한 Q & A

5
AlphaGo의 정책 네트워크와 가치 네트워크의 차이점
Google의 AlphaGo ( http://googleresearch.blogspot.co.uk/2016/01/alphago-mastering-ancient-game-of-go.html ) 에 대한 고급 요약을 읽었으며 '정책'이라는 용어를 발견했습니다. 네트워크 "및"값 네트워크 " 높은 수준에서 저는 정책 네트워크가 움직임을 제안하는 데 사용되고 가치 네트워크는 "검색 트리의 깊이를 줄이고 각 위치에서 승자를 검색하는 대신 검색 트리의 깊이를 줄이고 (추정)"하는 데 사용됩니다. 게임의 끝. " 이 두 네트워크는 …

3
지니 계수 대 지니 불순물-결정 트리
문제는 의사 결정 트리 구축과 관련이 있습니다. Wikipedia에 따르면 ' Gini coefficient '는 ' Gini impurity ' 와 혼동해서는 안됩니다 . 그러나 의사 결정 트리를 구축 할 때 두 측정 값을 모두 사용할 수 있습니다. 이는 측정 항목을 분할 할 때 선택 항목을 지원할 수 있습니다. 1) '지니 불순물'-표준 의사 …

4
명명 된 엔터티 인식을위한 Word2Vec
Google의 word2vec 구현을 사용하여 명명 된 엔티티 인식 시스템을 구축하려고합니다. 구조를 통해 역 전파되는 재귀 신경망은 명명 된 엔티티 인식 작업에 적합하지만 해당 유형의 모델에 대한 적절한 구현 또는 적절한 자습서를 찾을 수는 없습니다. 비정형 코퍼스로 작업하고 있기 때문에 NLTK 및 이와 유사한 도구의 표준 NER 도구는 성능이 매우 떨어지며 …

3
왜 XGBoost와 Random Forest가 필요합니까?
몇 가지 개념에 대해서는 명확하지 않았습니다. XGBoost는 약한 학습자를 강력한 학습자로 전환합니다. 이 작업의 장점은 무엇입니까? 단일 트리를 사용하는 대신 많은 약한 학습자를 결합? 랜덤 포레스트는 트리의 다양한 샘플을 사용하여 트리를 만듭니다. 단일 트리를 사용하는 대신이 방법의 장점은 무엇입니까?

5
데이터 과학 프로젝트를위한 VM 이미지
데이터 과학 작업에 사용할 수있는 수많은 도구가 있으므로 모든 것을 설치하고 완벽한 시스템을 구축하는 것은 번거 롭습니다. Python, R 및 기타 오픈 소스 데이터 과학 도구가 설치되어 있고 사람들이 즉시 사용할 수있는 Linux / Mac OS 이미지가 있습니까? 최신 버전의 Python, R (IDE 포함) 및 기타 오픈 소스 데이터 시각화 …
24 python  r  tools 

4
Scikit-learn : 로지스틱 회귀뿐만 아니라 SGDClassifier로 예측하기
로지스틱 회귀를 학습하는 방법은 확률 적 그라디언트 디센트 (schakit-learn)가 인터페이스를 제공하는 확률 적 그라디언트 디센트를 사용하는 것입니다. 내가하고 싶은 것은 scikit-learn의 SGDClassifier를 가져 와서 Logistic Regression here 과 동일한 점수를 얻는 것 입니다. 그러나 점수가 동일하지 않기 때문에 일부 기계 학습 향상 기능이 누락되어 있어야합니다. 이것은 내 현재 코드입니다. SGDClassifier에서 …

4
랜덤 포레스트 오버 피트는?
나는 랜덤 포레스트에 대해 읽었지만 실제로 초과 피팅 문제에 대한 결정적인 대답을 찾을 수 없습니다. Breiman의 최초 논문에 따르면, 그들은 숲에서 나무의 수를 늘릴 때 과적 합해서는 안되지만 이것에 대해 합의가없는 것으로 보입니다. 이로 인해 문제에 대해 약간의 혼란이 생깁니다. 나보다 더 전문가 인 사람이 좀 더 구체적으로 대답하거나 문제를 …


9
온라인 R 콘솔?
언어 R에 대한 온라인 콘솔을 찾고 있습니다. 코드를 작성하는 것처럼 서버가 실행되고 출력을 제공해야합니다. 웹 사이트 Datacamp와 유사합니다.
24 r  statistics 

3
Python 머신 러닝 모델을 저장하는 모범 사례
머신 러닝 모델을 저장, 저장 및 공유하는 모범 사례는 무엇입니까? 파이썬에서는 일반적으로 pickle 또는 joblib을 사용하여 모델의 이진 표현을 저장합니다. 필자의 경우 모델은 ~ 100Mo 크기 일 수 있습니다. 또한 joblib은 설정하지 않는 한 하나의 모델을 여러 파일에 저장할 수 있습니다 compress=1( /programming/33497314/sklearn-dumping-model-using-joblib-dumps-multiple-files-which-one-is-the- corre ). 그러나 모델에 대한 액세스 권한을 …

4
잠재 기능의 의미?
추천 시스템의 행렬 분해에 대해 배우고 있는데 용어가 latent features너무 자주 발생하지만 그 의미를 이해할 수 없습니다. 기능이 무엇인지 알고 있지만 잠재적 기능에 대한 아이디어를 이해하지 못합니다. 설명해 주시겠습니까? 아니면 적어도 내가 읽을 수있는 종이 / 장소를 가리켜 주시겠습니까?

4
최종 모델을 훈련시키기 위해 항상 전체 데이터 세트를 사용하는 것이 더 낫습니까?
선호하는 머신 러닝 모델을 교육, 검증 및 테스트 한 후의 일반적인 기술은 테스트 서브 세트를 포함한 전체 데이터 세트를 사용하여 최종 모델 ( 예 : 제품) 을 배포 하기 위해 학습 하는 것입니다. 내 질문은 : 항상 그렇게하는 것이 최선입니까? 실제로 성능이 저하되면 어떻게됩니까? 예를 들어, 테스트 하위 세트를 분류 …


3
데이터 과학 프로젝트 아이디어 [닫기]
폐쇄되었습니다 . 이 질문은 의견 기반 입니다. 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 이 게시물 을 편집 하여 사실과 인용으로 답변 할 수 있도록 질문을 업데이트하십시오 . 휴일 오년 전에 . 이것이이 질문을하기에 적합한 장소인지는 모르겠지만 Data Science 전담 커뮤니티가 제 생각에 가장 적합한 장소 여야합니다. 방금 데이터 과학 …

3
랜덤 포레스트를 사용한 모델링에는 교차 검증이 필요합니까?
내가 본 한, 이것에 대한 의견은 다른 경향이 있습니다. 모범 사례는 특히 교차 검증을 사용하여 지시 할 것입니다 (특히 동일한 데이터 세트에서 다른 알고리즘과 RF를 비교하는 경우). 반면, 원본 출처는 모델 훈련 중에 OOB 오류가 계산된다는 사실이 테스트 세트 성능의 지표로 충분하다고 명시하고 있습니다. 비교적 최근의 대화에서 Trevor Hastie조차도 "임의의 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.