기계 학습을 위해 Stack Exchange를 사용하는 진행중인 프로젝트가 있습니까?

22

기계 학습을 위해 Stack Exchange를 사용하는 진행중인 AI 프로젝트가 있습니까?

machine-learning ai-design

— 기술자
소스

6

어떤 형태의 텍스트 마이닝 / 정보 검색 등을 포함하는 연구 프로젝트가있는 것 같습니다. 및 StackExchange 사이트.

Google / Google 학자를 통해 찾을 수있는 몇 가지 예 (전체 목록 근처에있을 가능성은 거의 없음) :

TACIT : 오픈 소스 텍스트 분석, 크롤링 및 해석 도구 는 다양한 사이트 (스택 교환 사이트는 물론 Twitter, Reddit 등)에 대한 수많은 텍스트 크롤러를 설명합니다. 언뜻보기에 이것은 주로 크롤링에 관한 것으로 보이지만 나중에 데이터로 다른 작업을 수행하지는 않습니다. Google 학술 검색에서이 논문을 인용 한 다른 논문을 검색하면 흥미로운 결과를 얻을 수 있지만,이 논문을 크롤링하는 데 사용한 논문으로 이어질 수 있으며 이후에 더 많은 데이터를 처리 할 수 있습니다.
밀의 채프 : 스택 오버플로에서 삭제 된 질문의 특성 및 모델링 스택 오버플로 질문의 품질에 대한 연구는 어떤 의미에서 (특히 질문이 삭제 될지 여부를 예측하는) 설명합니다. 이것이 또한 당신이 관심있는 것들인지 100 % 확신 할 수 없습니다. 질문의 제목에 의해 암시 된 것처럼 Stack Exchange + Machine Learning이지만 질문의 텍스트에 의해 암시 된 답변의 정보를 유지하는 것은 아닙니다.
텍스트 마이닝 스택 오버플로 : 컴퓨터 과학 학습자가 직면 한 과제 및 주제 관련 어려움에 대한 통찰력 은 StackOverflow 질문 및 답변의 텍스트 마이닝도 설명합니다. 예를 들어 대답.
텍스트 기반 자동 질문 응답 시스템의 다른 측면 은 자동 질문 응답 연구 주제에 대한 비교적 최근의 설문으로 보입니다. 이러한 시스템에 대한 데이터 원본의 예로 스택 교환이 몇 번 언급되었지만 다른 방법으로는 사용되지 않는 것 같습니다.
StackOverflow의 지식으로 PythonQA를 확장하는 것은 특히 Python 프로그래밍 언어에 대한 질문에 대해 자동 질문 및 응답 시스템에 StackOverflow의 질문 및 답변을 통합하는 것에 관한 것 입니다. 이 문서는 자세한 내용에 대한 링크를 제공 하지만 ( http://pythonqas2.epl.di.uminho.pt ) 링크가 다운 된 것으로 보입니다. 이에 대한 자세한 정보가 필요하면 언제든지 저자에게 직접 연락 할 수 있다고 생각합니다.

보다 일반적으로, 자동 질문 응답 시스템은 사소한 / "해결 된"문제가 아니라 여전히 활발한 연구 분야 인 것으로 보입니다. StackExchange는 이러한 시스템의 데이터 소스 중 하나 일 수 있지만 다른 데이터 소스 (Wikipedia, Quora 등)도 많이 있습니다.

— 데니스 수메르
소스

3

DuckDuckGo 는 StackExchange에서 기술적 인 질문에 대한 답변을 배웁니다. DuckouckGo에 "진행중인 프로젝트 사용 스택 교환" 과 같은 기술적 인 질문을 입력 하면 오른쪽에 강조 표시된 답변이 제공됩니다. 그리고 오리는 많은 (100) 더 많은 질문에 답하는 데이터 소스를위한 공개 API를 가지고 있습니다. 또는 stackexchange api 로 직접 이동할 수 있습니다 .

데이터 권리 법은 특히 사이트에 제출 한 데이터와 해당 데이터에서 파생 된 머신 러닝 모델에 관한 한 유동적입니다. 새로운 유럽 데이터 및 개인 정보 보호 규칙을 사용하면 스택 교환과 같은 사이트에 제출 한 모든 데이터를 다운로드하거나 삭제할 수 있습니다.

— 호브
소스