통계 석사 논문에 대한 데이터 과학 지향 데이터 세트 / 연구 질문

11

'데이터 과학'을 탐구하고 싶습니다. 이 용어는 다소 모호한 것 같지만 요구할 것으로 예상합니다.

기계 학습 (전통적인 통계가 아닌);
클러스터에서 분석을 실행해야하는 충분한 데이터 집합

데이터 과학 분야를 탐색하는 데 사용할 수있는 프로그래밍 배경을 가진 통계학자가 액세스 할 수있는 좋은 데이터 세트와 문제점은 무엇입니까?

가능한 한 좁게 유지하기 위해, 잘 사용되는 개방형 데이터 세트 및 예제 문제에 대한 링크가 이상적입니다.

— 사용자
소스

8

kaggle.com으로 가십시오. 그것은 당신을 오랫동안 바쁘게 할 것입니다. 공개 데이터에는 UC Irvine Machine Learning Repository가 있습니다. 실제로 Stackexchange 사이트 전체 가이 사이트에 전념하고 있습니다. 저길 봐.

— 엠레
소스

5

햇빛 재단은 개방과 정부 데이터의 무소속 분석을 장려에 초점을 맞추고 조직이다.

비교할 수있는 다양한 분석과 다양한 주제가 있습니다.

데이터에 액세스하기 위한 도구 와 API 를 제공 하며 data.gov 와 같은 곳에서 데이터를 사용할 수 있도록 도와 줍니다.

흥미로운 프로젝트 중 하나는 Influence Explorer 입니다. 여기에서 소스 데이터 를 얻을 수있을 뿐만 아니라 실시간 데이터에 액세스 할 수 있습니다 .

보다 인기있는 질문 중 하나를 살펴볼 수도 있습니다.

공개적으로 사용 가능한 데이터 세트 .

— 스티브 칼레 스타드
소스

5

컴퓨터 과학 석사입니까? 통계?

'데이터 과학'이 논문의 중심에 있습니까? 아니면 부가 주제?

나는 통계에서 당신을 가정하고 당신은 논문을 '데이터 과학'문제에 집중하고 싶다고 가정합니다. 그렇다면 그레인에 반대하여 데이터 세트 또는 ML 방법으로 시작 해서는 안된다고 제안합니다 . 대신, 잘 이해되지 않았거나 ML 분석법이 아직 성공적으로 입증되지 않았거나 경쟁하는 ML 분석법이 많지만 다른 방법보다 나은 것으로 보이지 않는 흥미로운 연구 문제를 찾아야합니다.

이 데이터 소스를 고려하십시오 : Stanford Large Network Dataset Collection . 당신이하는 동안 수 , 이러한 데이터 세트 중 하나를 선택 문제 문을 확인한 다음 ML 방법의 일부 목록을 실행하는 방법은 정말 많은 일에 대해 당신에게 말하지 않는 데이터 과학 제 생각은하지 않습니다에 대한 모든, 그리고 아주 좋은 석사 논문으로 이어집니다.

대신, 이렇게 할 수도 있습니다. 특정 범주에서 ML을 사용하는 모든 연구 논문을 찾으십시오 (예 : 공동 네트워크). 각 논문을 읽을 때, 그들은 무엇을 발견하려고 노력 했다 각 ML 방법과 그들이 주소로 수 없었던으로 달성 할 수. 특히 "미래 연구"에 대한 제안을 찾으십시오.

어쩌면 그들은 모두 같은 방법을 사용하지만 경쟁 ML 방법을 시도하지 않았습니다. 또는 결과를 제대로 검증하지 못하거나 데이터 세트가 적거나 연구 질문과 가설이 단순하거나 제한적일 수 있습니다.

가장 중요한 :이 연구 라인이 어디로 가는지 알아보십시오. 왜 그들은 이것을 귀찮게합니까? 그것에 대해 중요한 것은 무엇입니까? 어디에서 왜 어려움을 겪고 있습니까?

— MrMeritology
소스

이것은 좋은 생각입니다. 석사는 통계에 있습니다.

— user3279453