기계 학습을 위해 Stack Exchange를 사용하는 진행중인 프로젝트가 있습니까?


답변:


6

어떤 형태의 텍스트 마이닝 / 정보 검색 등을 포함하는 연구 프로젝트가있는 것 같습니다. 및 StackExchange 사이트.

Google / Google 학자를 통해 찾을 수있는 몇 가지 예 (전체 목록 근처에있을 가능성은 거의 없음) :

  • TACIT : 오픈 소스 텍스트 분석, 크롤링 및 해석 도구 는 다양한 사이트 (스택 교환 사이트는 물론 Twitter, Reddit 등)에 대한 수많은 텍스트 크롤러를 설명합니다. 언뜻보기에 이것은 주로 크롤링에 관한 것으로 보이지만 나중에 데이터로 다른 작업을 수행하지는 않습니다. Google 학술 검색에서이 논문을 인용 한 다른 논문을 검색하면 흥미로운 결과를 얻을 수 있지만,이 논문을 크롤링하는 데 사용한 논문으로 이어질 수 있으며 이후에 더 많은 데이터를 처리 할 수 ​​있습니다.
  • 밀의 채프 : 스택 오버플로에서 삭제 된 질문의 특성 및 모델링 스택 오버플로 질문의 품질에 대한 연구는 어떤 의미에서 (특히 질문이 삭제 될지 여부를 예측하는) 설명합니다. 이것이 또한 당신이 관심있는 것들인지 100 % 확신 할 수 없습니다. 질문의 제목에 의해 암시 된 것처럼 Stack Exchange + Machine Learning이지만 질문의 텍스트에 의해 암시 된 답변의 정보를 유지하는 것은 아닙니다.
  • 텍스트 마이닝 스택 오버플로 : 컴퓨터 과학 학습자가 직면 한 과제 및 주제 관련 어려움에 대한 통찰력 은 StackOverflow 질문 및 답변의 텍스트 마이닝도 설명합니다. 예를 들어 대답.
  • 텍스트 기반 자동 질문 응답 시스템의 다른 측면 은 자동 질문 응답 연구 주제에 대한 비교적 최근의 설문으로 보입니다. 이러한 시스템에 대한 데이터 원본의 예로 스택 교환이 몇 번 언급되었지만 다른 방법으로는 사용되지 않는 것 같습니다.
  • StackOverflow의 지식으로 PythonQA를 확장하는 것은 특히 Python 프로그래밍 언어에 대한 질문에 대해 자동 질문 및 응답 시스템에 StackOverflow의 질문 및 답변을 통합하는 것에 관한 것 입니다. 이 문서는 자세한 내용에 대한 링크를 제공 하지만 ( http://pythonqas2.epl.di.uminho.pt ) 링크가 다운 된 것으로 보입니다. 이에 대한 자세한 정보가 필요하면 언제든지 저자에게 직접 연락 할 수 있다고 생각합니다.

보다 일반적으로, 자동 질문 응답 시스템은 사소한 / "해결 된"문제가 아니라 여전히 활발한 연구 분야 인 것으로 보입니다. StackExchange는 이러한 시스템의 데이터 소스 중 하나 일 수 있지만 다른 데이터 소스 (Wikipedia, Quora 등)도 많이 있습니다.


3

DuckDuckGo 는 StackExchange에서 기술적 인 질문에 대한 답변을 배웁니다. DuckouckGo에 "진행중인 프로젝트 사용 스택 교환" 과 같은 기술적 인 질문을 입력 하면 오른쪽에 강조 표시된 답변이 제공됩니다. 그리고 오리는 많은 (100) 더 많은 질문에 답하는 데이터 소스를위한 공개 API를 가지고 있습니다. 또는 stackexchange api 로 직접 이동할 수 있습니다 .

프로젝트는 TOU 를 준수하는 한 SE 공개 API의 데이터를 사용할 수 있습니다 . 기본적으로 사용자가 데이터가 Stack Exchange에서 제공되었음을 알릴 수 있도록하십시오. 또한 저작권 라이센스는 학습 된 요약 정보와 함께 텍스트 내용을 변경하는 기능을 제한 할 수 있습니다. 아마도 이것이 Duck.com이 키워드를 강조하는 이유 일 것입니다.

데이터 권리 법은 특히 사이트에 제출 한 데이터와 해당 데이터에서 파생 된 머신 러닝 모델에 관한 한 유동적입니다. 새로운 유럽 데이터 및 개인 정보 보호 규칙을 사용하면 스택 교환과 같은 사이트에 제출 한 모든 데이터를 다운로드하거나 삭제할 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.