데이터 과학

데이터 과학 전문가, 기계 학습 전문가 및 현장 학습에 관심이있는 전문가를위한 Q & A



2
누락 된 데이터를 처리해야하는 워크 플로우의 위치
매우 큰 데이터베이스 (여기서는 Vertica에서 SQL 및로 ) 에서 가져온 데이터 에서 기계 학습 모델 (내 경우에는 Python pandas및 sklearn패키지 사용) 을 작성하는 워크 플로우를 작성 중이며 pyodbc해당 프로세스의 중요한 단계는 누락 누락을 포함합니다. 예측 변수의 값. 이것은 단일 분석 또는 통계 플랫폼 (Python, R, Stata 등) 내에서 간단하지만 다중 …

5
TensorFlow가 keras에 더 제공하는 것은 무엇입니까?
나는 keras가 TensorFlow에 대한 고급 인터페이스 역할을한다는 것을 알고 있습니다. 그러나 keras가 자체적으로 많은 기능 (데이터 입력, 모델 작성, 교육, 평가)을 수행 할 수있는 것 같습니다. 또한 TensorFlow의 기능 중 일부는 keras로 직접 포팅 될 수 있습니다 (예 : keras에서 tf 메트릭 또는 손실 함수를 사용할 수 있음). 제 질문은 …
16 keras  tensorflow 

5
컨볼 루션 신경망 과적 합. 도움이되지 않는 탈락
나는 convnets와 함께 조금 놀고 있습니다. 특히, 고양이 또는 개 (각 12500)로 표시된 25000 개의 이미지로 구성된 kaggle cats-vs-dogs 데이터 세트를 사용하고 있습니다. 테스트 세트에서 약 85 %의 분류 정확도를 달성했지만 90 %의 정확도 달성 목표를 설정했습니다. 내 주요 문제는 과적 합입니다. 어쨌든 항상 발생합니다 (일반적으로 8 ~ 10 일 …

1
기계 학습에서 LB 점수는 무엇입니까?
나는 kaggle 블로그에 관한 기사 를 겪고있었습니다. 저자는 머신 러닝의 효과 성 (CV)과 함께 머신 러닝의 효과에 대한 지표로 'LB 점수'와 'LB 맞춤'을 반복해서 언급합니다. 'LB'의 의미에 대한 연구를 통해 나는 꽤 많은 시간을 보냈으며, 사람들은 일반적으로 많은 배경없이 LB로 직접 언급한다는 것을 깨달았습니다. 내 질문은- 'LB'는 무엇입니까?

2
NLP-Gazetteer가 사기꾼입니까?
NLP에는 Gazetteer주석을 만드는 데 매우 유용한 개념 이 있습니다. 내가 이해하는 한도에서는: 가제트는 도시, 조직, 요일 등과 같은 엔티티의 이름을 포함하는 일련의 목록으로 구성됩니다.이 목록은 예를 들어 명명 된 엔티티 인식 작업과 같은 텍스트에서 이러한 이름의 발생을 찾는 데 사용됩니다. 따라서 본질적으로 조회입니다. 이런 종류의 속임수가 아닌가? Gazetteer명명 된 엔터티를 …

2
Support Vector Machine에 적합한 학습 문제는 무엇입니까?
서포트 벡터 머신을 사용하여 특정 학습 문제를 해결할 수 있음을 나타내는 특징 또는 특성은 무엇입니까? 다시 말해서, 학습 문제를 볼 때 신경망이나 의사 결정 트리 또는 그 밖의 어떤 것보다 "오, 나는 이것을 위해 반드시 SVM을 사용해야한다"고하는 것은 무엇입니까?

3
데이터 과학을 스스로 배우는 방법? [닫은]
휴무 . 이 질문은 더 집중되어야 합니다. 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 이 게시물 을 편집 하여 한 가지 문제에만 집중할 수 있도록 질문을 업데이트하십시오 . 휴일 3 년 전 . 나는 독학으로 웹 개발자이며 데이터 과학을 가르치는 데 관심이 있지만 시작 방법을 잘 모르겠습니다. 특히 궁금합니다. 데이터 …

6
데이터 과학 팟 캐스트?
데이터 과학과 관련된 일부 팟 캐스트는 무엇입니까? 이것은 CrossValidated 의 참조 요청 질문 과 유사한 질문 입니다. 세부 사항 / 규칙 : 팟 캐스트 (테마 및 에피소드)는 데이터 과학과 관련이 있어야합니다. (예 : 다른 도메인에 관한 팟 캐스트, 해당 도메인의 데이터 과학에 관한 에피소드는 좋은 참고 자료 / 답변이 아닙니다.) …



2
신경망의 기능을 선택하는 방법은 무엇입니까?
나는이 질문에 대한 명확한 대답이 없다는 것을 알고 있지만 많은 데이터가있는 거대한 신경망이 있고 새로운 기능을 입력에 추가하고 싶다고 가정 해 봅시다. "가장 좋은"방법은 새로운 기능으로 네트워크를 테스트하고 결과를 보는 것이지만 기능이 도움이되지 않는지 테스트하는 방법이 있습니까? 상관 관계 측정 ( http://www3.nd.edu/~mclark19/learn/CorrelationComparison.pdf ) 등?

3
불균형하고 이질적인 부정적인 배경을 가진 일류 차별 분류?
{protein} 서열을 특정 클래스 (Neuropeptide hormone 전구체)에 속하는지 분류하기 위해 기존의 감독 된 분류기를 개선하기 위해 노력하고 있습니다. 약 1,150 만 개의 단백질 서열의 배경 ( "알려지지 않은 / 나쁜 주석이 달린 배경")에 대해 약 1,150 개의 알려진 "양성"또는 다양한 속성으로 주석이 달린 약 10 만 개의 검토 된 관련 …

2
문서에서 가장 유익한 텍스트 부분 추출
현재 문서에 대한 대부분의 정보를 담고있는 텍스트 일부 추출에 대한 기사 나 토론이 있습니까? 예를 들어, 같은 도메인의 많은 문서 모음이 있습니다. 단일 문서에 대한 주요 정보를 담고있는 텍스트 부분이 있습니다. 해당 부분 중 일부를 추출하여 텍스트 요약으로 사용하고 싶습니다. 이와 같은 것을 달성하는 방법에 대한 유용한 문서가 있습니까? 이 …
16 nlp  text-mining 

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.