계량 경제학에 텍스트 마이닝 / 자연어 처리 도구 사용

이 질문이 여기에 완전히 적합한 지 잘 모르겠습니다. 그렇지 않은 경우 삭제하십시오.

저는 경제학을 전공하는 대학원생입니다. 사회 보험 문제를 조사하는 프로젝트의 경우, 자격 평가를 다루는 수많은 행정 사건 보고서 (> 200k)에 접근 할 수 있습니다. 이러한 보고서는 개별 관리 정보에 연결될 수 있습니다. 양적 분석에 사용할 수있는 보고서에서 grep/ awk등을 사용하는 간단한 키워드 / 정규식 검색 이상으로 정보를 추출하고 싶습니다 .

이를 위해 자연어 처리가 얼마나 유용합니까? 다른 유용한 텍스트 마이닝 방법은 무엇입니까? 내가 이해하는 것에서 이것은 큰 분야이며, 대부분의 보고서는 코퍼스로 사용되도록 변환되어야 할 것입니다. 문헌과 방법에 익숙해지기 위해 시간을 투자 할 가치가 있습니까? 도움이 될 수 있고 전에 비슷한 일이 있었습니까? 보상 측면에서 가치가 있습니까, 즉 경제학에 대한 경험적 연구에 NLP를 사용하여 잠재적으로 유용한 정보를 추출 할 수 있습니까?

보고서를 읽고 준비하기 위해 누군가를 고용 할 자금이있을 수 있습니다. 이것은 더 큰 프로젝트이며 더 많은 자금을 신청할 가능성이 있습니다. 꼭 필요한 경우 주제에 대한 자세한 정보를 제공 할 수 있습니다. 하나의 잠재적 인 합병증은 언어가 영어가 아닌 독일어라는 것입니다.

자격에 관해서는, 나는 대부분 계량 경제학에 대해 훈련을 받았으며 Hastie et al. 책. 나는 Python, R, Stata를 알고 있으며 아마도 Matlab에 빨리 익숙해 질 수 있습니다. 라이브러리가 주어지면 Python이 이것을 선택하는 도구라고 가정합니다. 이것이 관련이 있다면 질적 인 방법에 대한 교육은 전혀 없지만, 제가 연락 할 수있는 사람들을 알고 있습니다.

나는 이것에 대한 어떤 입력, 즉 이것이 잠재적으로 유용하다면, 읽기 시작 위치와 특히 집중할 도구에 대해 기쁘다.

— ilprincipe
소스

LASSO, Least Angle Regression 및 Logistic 분석은 잠재적으로 관련된 몇 가지 도구입니다. 박사 과정에서 비슷한 문제에 어떻게 접근했는지 확인하고 싶을 수도 있습니다. 여기 논문 과 경제학의 NLP 도구에 대한 내 블로그 게시물이 있습니다 . 당신이 이것과 함께 어디든 가졌다면, 당신의 진보 나 당신이 겪었을 수있는 도전에 대해 듣는 것이 좋을 것입니다.

— gradstudent

데이터에서 추출하려는 정보를 정의하는 것이 도움이 될 것이라고 생각합니다. 간단한 키워드 / 정규식 검색은 실제로 매우 유익 할 수 있습니다. 저는 보험에 종사하며 이런 종류의 텍스트 마이닝을 매우 자주 사용합니다. 논란의 여지가 있지만 순전히 불완전하지만 일반적으로 관심있는 분야에 비해 상대적으로 좋은 출발 (또는 가까운 근사)입니다.

그러나 내 요점으로, 선택한 방법이 적절한 지 파악하기 위해 데이터에서 정확히 추출하려는 것을 정의하는 것이 좋습니다. 제 생각에는 가장 어려운 부분입니다.

모든 문자열 내에서 고유 한 단어를 찾아서 1000 단어 정도의 빈도로 수행하는 것이 흥미로울 수 있습니다. RAM / 프로세서에 따라 계산 비용이 많이 들지만 살펴보면 흥미로울 수 있습니다. 데이터에 대한 많은 지식없이 데이터를 탐색하는 경우 여기에서 시작합니다 (다른 뷰는 다른 뷰를 제공 할 수 있음).

희망이 도움이됩니다.

— 프란시스코 아르 체오
소스

고마워, 나는 이것과 함께 시작하는 것을 확실히 생각하고 있었다. 내 질문이 모호하다는 것을 알고 있지만 다른 방법으로 추출 할 수있는 정보의 종류에 더 일반적으로 관심이 있습니다. 특정 상황을 알지 못하고 이에 대답 할 수 있는지 확실하지 않습니다.

— ilprincipe

나는 그것이 데이터 관련 작업 / 직업에서 항상 도전이라고 생각합니다. 데이터 또는 보험 이벤트에 대한 설명이있는 변수가있는 경우 몇 가지 데이터를 살펴보십시오. 데이터에 대한 느낌을 얻으십시오. 우리가 지금 시도하는 것은 데이터의 기본 프로세스를 모델링하고 실제로 데이터를 알아야하는 큰 일을하는 것입니다.

— Francisco Arceo