이름에서 얼마나 많은 정보를 찾을 수 있습니까?

11

이름 : 먼저, 중간, 성.

공개적으로 사용 가능한 데이터 세트를 사용하여 이름에서 채굴 할 수있는 정보의 양이 궁금합니다. 나는 미국 인구 조사 데이터를 사용하여 (입력에 따라) 낮은 확률 사이에서 다음과 같은 것을 얻을 수 있음을 알고 있습니다 : 1) 성별. 2) 레이스.

예를 들어, Facebook은 사이트 사용자의 인종 분포 (https://www.facebook.com/note.php?note_id=205925658858)를 적절한 수준의 정확도로 정확하게 알아내는 데 사용했습니다.

다른 무엇을 채굴 할 수 있습니까? 나는 구체적인 것을 찾고 있지 않습니다. 이것은 내 호기심을 일으키는 매우 개방적인 질문입니다.

저의 예는 미국 고유의 이름이므로 미국에있는 사람의 이름이라고 가정하겠습니다. 그러나 누군가 다른 국가에서 공개적으로 사용 가능한 데이터 세트를 알고 있다면 그들도 개방적입니다.

이것이 이것이 올바른 장소인지 확실하지 않습니다. 그렇지 않다면 누군가가 나를 더 적절한 장소로 안내 할 수 있다면 고맙겠습니다.

나는 이것이 흥미로운 질문이기를 바란다. 그리고 이것은 적절한 장소 다!

dataset data-mining census

2

아마도 일치하는 데이터를 얻을 수 있다면 지리적 위치에 대한 정보를 얻을 수 있습니까? 당신은 또한 나이에 대한 추론을 만들기 위해 시간이 지남에 이름의 인기에 대한 정보 (구글 "아기 마법사")를 사용할 수 있습니다 ...

— 벤 볼커

1

전송 된 질문을 복제본과 병합했습니다.

12

이것은 심각한 대답은 아니지만 1 년 전에 읽은 책에서 무언가를 기억했습니다. Freakonomics 에는 이름을 가진 사람에 대해 말할 수 있는 장이 있습니다. 이 장은 저자의 연구 논문을 기반으로합니다. 명백하게 검은 이름의 원인과 결과

이 기사 에서 발췌 또는 요약을 찾았습니다.

이 데이터는 평균적으로 이름이 Imani 인 여성이든 DeShawn 인 남성이든 뚜렷한 흑인 이름을 가진 사람은 Molly라는 여성이나 Jake라는 사람보다 더 나쁜 삶의 결과를 나타냅니다. 그러나 그것은 그의 이름의 잘못이 아닙니다. 만약 두 명의 흑인 소년 인 Jake Williams와 DeShawn Williams가 같은 동네에서 같은 가족 경제 상황에서 태어났다면 비슷한 삶의 결과를 낳을 것입니다. 그러나 아들을 제이크라고 부르는 부모는 같은 동네에 살거나 아들을 데 샤운이라고 부르는 부모와 경제적 환경을 공유하지 않습니다. 그래서 평균적으로 Jake라는 소년은 DeShawn이라는 소년보다 더 많은 돈을 벌고 더 많은 교육을받는 경향이 있습니다. DeShawn '

4

이름에서 지역, 나이, 1 세대 이민 상태를 예측하십시오. 성에서 원래 약어의 지리적 위치를 예측할 수 있습니다. 이름으로 사회 경제적 상태를 예측할 수 있습니다 (Thurston Howell III).

— fgregg
소스

길리건 섬 캐릭터의이 사이트에서 첫 번째 언급에 대해서만 +1.

— rolando2

4

여기에 다른 제안을 추가하기 위해 가족 데이터의 가장 큰 출처 중 하나는 족보 사이트의 뗏목입니다. 나는 대부분의 서구 사람들이 아마도 일부 가족 구성원, 먼 곳 또는 그 밖의 다른 사람에 의해 등재되어 있다고 생각하며 그러한 포함에는 일반적으로 포괄적 인 가계도가 첨부되어 있으며 장소, 출생 세부 사항 등이 있습니다. 매우 유익합니다.

사람들이 형제 / 사촌 (및 경우에 따라 부모 / 자식)을 추가하는 경향이 있기 때문에 Facebook에서 친구 데이터와 해당 데이터를 교차 일치시키는 경우 선거 역할 및 디렉토리와 함께 위치 데이터를 사용하면 일반적으로 일반적인 이름을 가진 사람을 찾아 낼 수 있습니다. 놀랍도록 많은 양의 데이터를 얻을 수 있습니다.

3

Freakonomics 의 마지막 장 (2005, Steven D. Levitt 및 Stephen J. Dubner)은 특히 사회 경제적 지위 및 인종과 관련하여 이름에 대해 흥미로운 토론을했습니다.

여기에는 FB의 성 분석과 관련이 있거나 없을 수있는 이름 목록이 있습니다. 또한 이름 선택이 시간에 따라 변하는 방식을 설명합니다.

누가 아는가-부모의 선택 이름은 사람들이 인구 조사에보고 한 것보다 정확할 수 있습니다.

— 라자 9
소스

3

위의 좋은 제안이 많이 있으므로 흥미로운 일화를 언급하겠습니다. 회사 연구소 (여전히 이름이없는)의 여름 학생 (현재 유명한 컴퓨터 과학자)은 회사의 온라인 전화 번호부에서 데이터를보고 이름에서 문자 n- 그램을 사용하여 급여 등급에 대한 예측 모델을 구축했습니다. 가장 강력한 예측 변수는 ez_가 더 낮은 급여 등급을 표시했다는 것입니다.

— 데이비드
소스

2

당신은 아마 찾을 수 있습니다 :

직업 및 직무 이력 (전문적인 토론에 참여하는 경우 (현재 직업은 일반적으로 전자 메일 또는 서명의 도메인 이름에서 찾을 수 있음)
친척 (소셜 네트워크에서 프로파일을 유지하는 경우)
적어도 도시까지의 현재 위치.
민족적 배경, 다른 이름을 가진 사람 (예 : "Lubomir"라는 사람은 아마도 슬라브 유럽 국가 중 하나와 연결되어있을 것입니다).
소셜 네트워크에서 생년월일-사람들은 자신의 생년월일 또는 그 주위에 사람을 축하하는 경향이 있으며, 운이 좋으면 축하하는 사람들 중 한 사람이 아마 언급 할 것이므로 25, 30, 35 등이되는 해를 얻습니다. 문제의 사람이 아니라면.
교육 배경-LinkedIn 등에서
취미, 좋아하는 스포츠 팀 등
애완 동물 애호가라면 아마도 모든 애완 동물을 소셜 네트워크에 가지고있을 것입니다.

btw는 암호, 비밀 질문 등에 위의 목록에서 어떤 것도 사용 해서는 안된다는 것을 의미합니다 .

당신과 같은 이름을 가진 사람들은 어떻습니까? 거기에는 수많은 "Dean Harding"이 있으며, 그중 하나는 프로 축구 선수였습니다! 트위터에 "DeanHarding는"나를 수백 "딘 하딩"의있다, 아니다, 등 등 ... 페이스 북에이야

물론 그것은 우연에 달려 있습니다. 일반적으로 직업, 위치 등으로 어느 쪽인지 알 수 있습니다.하지만 같은 이름으로 같은 이름을 가진 사람이 3 명이고 같은 직업에 있고 대략 같은 지역에 사는 경우를 보았습니다. 물론 그것은 더 어려워집니다 :)

2

Darden and Robinson (1976)은 사람들의 이름으로 남자 협회를 안내하는 언어 구조를 찾으려고 시도했다. 그들은 두 그룹의 주제 (사회학 학생과 해군 장교)에게 연약하고 힘든, 공통 귀족, 도시 농촌과 같은 의미 론적 차이에 따라 일련의 일반적인 미국 이름을 평가하도록 요청했습니다. 또한 서로 다른 이름 쌍 사이의 유사성 판단을 요청했으며, 검증을 통해 의미 적 차이의 수단을 TORSCA MDS 절차를 사용하여 3-4 개의 D 솔루션에서 찾은 차원과 상관 관계를 분석했습니다.

저자는 3D 솔루션이 Osgood의 고전적인 활성화, 평가 및 효능의 트리오와 거의 일치한다는 것을 발견했습니다. 4 차원에서 공간은 데이터에 약간 더 잘 들어 맞으며, 여기에서이 척도는 정의 된 것만 큼 거의 정의되지 않은 것처럼 보이지만“캐릭터”,“성숙도”,“사회성”및“활용 성”에 따라 구조를 해석했습니다. 저자는 제안했다. 이 연구에서 나온 놀라운 결과는 적어도이 두 개의 작은 샘플 (n = 83 및 21)에 대해 주어진 이름과 닉네임의 구별에 해당하는 차원이 나타나지 않았다는 것입니다.

Darden, DK, 그리고 Robinson, IE (1976). 남자 이름의 다차원 적 스케일링 : 사회 언어 적 접근. 사회 측정법, 39 , 4, 422-431.

— 롤란도
소스

1

찾을 수있는 정보의 양은 인종과 성별에서 모든 종류의 개인 정보에 이르기까지 매우 다양합니다. 정보를 얻는 가장 좋은 방법은 일반적으로 cencus 데이터베이스보다 더 많은 정보를 제공하기 때문에 페이스 북과 같은 소셜 네트워크 사이트 일 것입니다.

1

사용하는 소스에 따라 얻을 수있는 광범위한 정보가 있습니다. 인구 조사 데이터는 명백합니다. Facebook, MySpace 및 기타 소셜 네트워킹 사이트에서 정보를 얻을 수도 있습니다. 공개 뉴스 자료실에서 이름에 대한 언급을 검색 할 수도 있습니다. 어쩌면 일부 주가 가지고있는 불법 재산 사이트 일 수도 있습니다.

수행 할 수있는 실제 사례를 원한다면 pipl.com을 살펴보십시오.

인구 조사 데이터를 이름으로 찾을 수있는 곳 (전 세계 어디에서)을 알려주 시겠습니까?

— whuber

1

당신은 학위, 운전 면허, 경찰 기록을 찾을 수 있습니다 (올바른 번역입니까?). 페이스 북으로 취미, 스포츠, 좋아하는 음악에 대한 정보를 찾을 수 있습니다. 이름이 지정된 다른 사용자의 소셜 미디어 비율을 찾을 수도 있습니다. (이 결과에 관심이 있습니다)

— lcrmorin
소스

0

스크랩 블 점수를 잊지 마십시오. 예 : Wolfram Alpha 스크래블 스코어 함수

— 원기
소스

1

이것이 원래 포스터의 질문과 어떤 관련이 있는지 자세히 설명해 주시겠습니까?

— DW

0

개인의 위치에 대해 알고 있다면 유권자 등록 데이터베이스가 정보원 중 하나입니다. 많은 유권자 등록 데이터베이스를 이용할 수 있습니다 (유료). 데이터베이스를 구매하여 온라인 쿼리 액세스를 유료로 제공하는 회사가 있습니다. 유권자 등록 데이터베이스에는 개인의 주소 및 / 또는 생년월일이있을 수 있습니다. 이 정보를 통해 다른 데이터베이스에서 개인을 찾을 수 있습니다.

그러나 이것이 얼마나 도움이되는지에 대한 제한이 있습니다. 이는 거주자가 거주하는 도시 나 카운티를 알고 있고 이름이 매우 특이한 경우에 도움이 될 수 있습니다. 그러나 이것이 일반적인 이름이거나 그들이 사는 곳을 모른다면 아마 도움이되지 않을 것입니다.

— DW
소스

0

다른 많은 유용한 속성을 포함하여 공개적으로 액세스 가능한 데이터를 제공하는 가장 큰 출처 중 하나는 부동산 소유권 기록을위한 카운티 서기 사무실입니다. issu는 데이터를 모두 가져 오는 것과 관련이 있습니다 ... 일부 국가는 중앙 데이터베이스를 제공하지만 다른 국가는 그렇지 않습니다.

— NetConstructor.com
소스

0

중간 이니셜의 존재는 이미 매우 흥미롭고 민족성에 대해 알려줄 수 있습니다. http://blog.scraperwiki.com/2012/06/15/middle-names-in-the-united-states-over-time/

— 토마스 레빈
소스