수학에는 대수, 분석, 토폴로지 등과 같은 분기가 있습니다. 기계 학습에는 감독, 비지도 및 강화 학습이 있습니다. 이러한 각 브랜치에는 방법을 더 세분화하는 더 미세한 브랜치가 있습니다.
통계와 평행을 그리는 데 문제가 있습니다. 통계 (및 하위 분기)의 주요 분기는 무엇입니까? 완벽한 파티션은 가능하지 않지만 큰 빈 맵보다 더 좋습니다.
수학에는 대수, 분석, 토폴로지 등과 같은 분기가 있습니다. 기계 학습에는 감독, 비지도 및 강화 학습이 있습니다. 이러한 각 브랜치에는 방법을 더 세분화하는 더 미세한 브랜치가 있습니다.
통계와 평행을 그리는 데 문제가 있습니다. 통계 (및 하위 분기)의 주요 분기는 무엇입니까? 완벽한 파티션은 가능하지 않지만 큰 빈 맵보다 더 좋습니다.
답변:
이러한 분류 시스템은 매우 도움이되지 않으며 모순됩니다. 예를 들면 다음과 같습니다.
등등. 모호한 수학의 "분기"가 없으며 통계도 없어야합니다.
이것은 Rob Hyndman의 대답에 대한 사소한 반론입니다. 그것은 주석으로 시작하여 너무 복잡해졌습니다. 이것이 주요 질문을 해결하는 데 너무 멀면 사과하고 삭제합니다.
생물학은 다윈의 첫 번째 낙서 이전부터 계층 적 관계를 묘사 해 왔습니다 (링크에 대해서는 Nick Cox의 의견 참조). 대부분의 진화론 적 관계는 여전히 맑고 깨끗하며 가지가 많은 '계통 발생 학적 나무'유형으로 나타납니다 :
그러나 우리는 결국 생물학이 이것보다 더 지저분하다는 것을 깨달았습니다. 때때로 나무의 한 부분에서 나무의 다른 부분으로 '점프'하는 독특한 종과 유전자 사이에 (교배 및 기타 과정을 통해) 유전자 교환이 있습니다. 수평 유전자 전달 은 단순한 트리 묘사를 부정확하게 만드는 방식으로 유전자를 움직입니다. 그러나 우리는 나무를 버리지 않고 단지 이런 유형의 시각화를 수정했습니다.
이것은 따르기가 더 어렵지만보다 정확한 현실 그림을 전달합니다.
또 다른 예:
그러나 우리는 기본 개념을 이해하지 않고 파악하기가 어렵 기 때문에 더 복잡한 인물부터 시작하지 마십시오. 대신 우리는 간단한 생각으로 기본 아이디어를 가르치고 더 복잡한 인물과 이야기에 대한 새로운 합병증을 제시합니다.
통계의 모든 '지도'는 마찬가지로 부정확하고 유용한 교육 도구입니다. OP가 제안한 형태의 시각화는 학생들에게 매우 유용하며, 현실을 완전히 포착하지 못해서 무시해서는 안됩니다. 기본 프레임 워크가 마련되면 그림에 더 복잡성을 추가 할 수 있습니다.
Cross Validated 웹 사이트 의 키워드 / 태그 를 살펴볼 수 있습니다.
이를 수행하는 한 가지 방법은 키워드 간의 관계 (동일한 게시물에서 얼마나 자주 일치하는지)를 기반으로 네트워크로 구성하는 것입니다.
이 sql-script를 사용하여 (data.stackexchange.com/stats/query/edit/1122036)에서 사이트 데이터를 가져올 때
select Tags from Posts where PostTypeId = 1 and Score >2
그런 다음 점수가 2 이상인 모든 질문에 대한 키워드 목록을 얻습니다.
다음과 같은 것을 그려서 해당 목록을 탐색 할 수 있습니다.
업데이트 : 색상 (관계 행렬의 고유 벡터를 기반으로 함)과 동일하며 자체 학습 태그가 없음
이 그래프를 좀 더 정리할 수 있습니다 (예 : 소프트웨어 태그와 같은 통계 개념과 관련이없는 태그를 제거하십시오 (위의 그래프에서 이미 'r'태그에 대해 수행됨)). 시각적 표현을 개선 할 수 있습니다. 위의 이미지는 이미 좋은 출발점을 보여줍니다.
R 코드 :
#the sql-script saved like an sql file
network <- read.csv("~/../Desktop/network.csv", stringsAsFactors = 0)
#it looks like this:
> network[1][1:5,]
[1] "<r><biostatistics><bioinformatics>"
[2] "<hypothesis-testing><nonlinear-regression><regression-coefficients>"
[3] "<aic>"
[4] "<regression><nonparametric><kernel-smoothing>"
[5] "<r><regression><experiment-design><simulation><random-generation>"
l <- length(network[,1])
nk <- 1
keywords <- c("<r>")
M <- matrix(0,1)
for (j in 1:l) { # loop all lines in the text file
s <- stringr::str_match_all(network[j,],"<.*?>") # extract keywords
m <- c(0)
for (is in s[[1]]) {
if (sum(keywords == is) == 0) { # check if there is a new keyword
keywords <- c(keywords,is) # add to the keywords table
nk<-nk+1
M <- cbind(M,rep(0,nk-1)) # expand the relation matrix with zero's
M <- rbind(M,rep(0,nk))
}
m <- c(m, which(keywords == is))
lm <- length(m)
if (lm>2) { # for keywords >2 add +1 to the relations
for (mi in m[-c(1,lm)]) {
M[mi,m[lm]] <- M[mi,m[lm]]+1
M[m[lm],mi] <- M[m[lm],mi]+1
}
}
}
}
#getting rid of < >
skeywords <- sub(c("<"),"",keywords)
skeywords <- sub(c(">"),"",skeywords)
# plotting connections
library(igraph)
library("visNetwork")
# reduces nodes and edges
Ms<-M[-1,-1] # -1,-1 elliminates the 'r' tag which offsets the graph
Ms[which(Ms<50)] <- 0
ww <- colSums(Ms)
el <- which(ww==0)
# convert to data object for VisNetwork function
g <- graph.adjacency(Ms[-el,-el], weighted=TRUE, mode = "undirected")
data <- toVisNetworkData(g)
# adjust some plotting parameters some
data$nodes['label'] <- skeywords[-1][-el]
data$nodes['title'] <- skeywords[-1][-el]
data$nodes['value'] <- colSums(Ms)[-el]
data$edges['width'] <- sqrt(data$edges['weight'])*1
data$nodes['font.size'] <- 20+log(ww[-el])*6
data$edges['color'] <- "#eeeeff"
#plot
visNetwork(nodes = data$nodes, edges = data$edges) %>%
visPhysics(solver = "forceAtlas2Based", stabilization = TRUE,
forceAtlas2Based = list(nodeDistance=70, springConstant = 0.04,
springLength = 50,
avoidOverlap =1)
)
위의 이러한 네트워크 그래프 유형은 순전히 분기 된 계층 구조에 대한 비판과 관련이 있다고 생각합니다. 원하는 경우 계층 적 클러스터링을 수행하여 계층 적 구조로 만들 수 있다고 생각합니다.
아래는 이러한 계층 적 모델의 예입니다. 여전히 다양한 클러스터에 대한 적절한 그룹 이름을 찾아야합니다. 그러나이 계층 적 클러스터링이 좋은 방향이라고 생각하지 않으므로 열어 둡니다.
클러스터링에 대한 거리 측정은 시행 착오에 의해 발견되었습니다 (클러스터가 양호 해 보일 때까지 조정 함).
#####
##### cluster
library(cluster)
Ms<-M[-1,-1]
Ms[which(Ms<50)] <- 0
ww <- colSums(Ms)
el <- which(ww==0)
Ms<-M[-1,-1]
R <- (keycount[-1]^-1) %*% t(keycount[-1]^-1)
Ms <- log(Ms*R+0.00000001)
Mc <- Ms[-el,-el]
colnames(Mc) <- skeywords[-1][-el]
cmod <- agnes(-Mc, diss = TRUE)
plot(as.hclust(cmod), cex = 0.65, hang=-1, xlab = "", ylab ="")
질문에 대답하는 가장 쉬운 방법은 공통 분류 표를 찾는 것입니다. 예를 들어, 2010 년 수학 과목 분류 는 일부 간행물에서 논문을 분류하는 데 사용됩니다. 이것은 많은 저자들이 자신의 논문을 분류하는 방식이기 때문에 관련이 있습니다.
유사한 분류의 많은 예가 있습니다 (예 : arxiv의 분류 또는 모든 출판 및 연구에 널리 사용되는 러시아 교육부 UDK (범용 10 진수 분류)).
또 다른 예는 미국 경제 협회의 JEL Claasification System 입니다. Rob Hyndman의 논문 " 자동 시계열 예측 : R에 대한 예측 패키지 " JEL에 따르면 C53, C22, C52로 분류됩니다. Hyndman은 트리 분류를 비판하는 데에 중점을두고 있습니다. 논문의 키워드는 "ARIMA 모델, 자동 예측, 지수 평활, 예측 간격, 상태 공간 모델, 시계열, R"과 같이 더 나은 방법으로 태그를 지정할 수 있습니다. 논문이 계층 적이 지 않고 여러 계층을 만들 수 있기 때문에 논문을 분류하는 더 좋은 방법이라고 주장 할 수 있습니다.
@whuber는 머신 러닝과 같은 최신 기술이 현재 분류에서 통계에 포함되지 않을 것이라는 점을 지적했습니다. 예를 들어, Catherine F. Higham, Desmond J. Higham의 " 딥 러닝 : 응용 수학자 소개 "논문을 살펴보십시오 . 그들은 앞서 언급 한 MSC 하에서 97R40, 68T01, 65K10, 62M45로 논문을 분류했습니다. 통계 외에 컴퓨터 과학, 수학 교육 및 수치 분석 중입니다.
이 문제에 접근하는 한 가지 방법은 통계 보고서, Biometrika, JASA 및 JRSS-B와 같은 통계 저널에서 인용 및 공동 저자 네트워크를 보는 것입니다. 이것은 다음에 의해 수행되었습니다.
Ji, P., & Jin, J. (2016). 통계학자를위한 공동 저자 및 인용 네트워크. 응용 통계 분석, 10 (4), 1779-1812.
그들은 통계 학자 커뮤니티를 식별하고 커뮤니티 이해를 사용하여 커뮤니티를 다음과 같이 표시했습니다.
이 백서에는 더 큰 커뮤니티를 더 많은 하위 커뮤니티로 분해하는 것과 함께 커뮤니티에 대한 자세한 토론이 포함되어 있습니다.
더 이상 활성화되지 않은 분야를 포함하여 모든 분야가 아닌 통계 학자 분야에 관한 것이기 때문에 질문에 완전히 대답하지 못할 수도 있습니다. 그럼에도 불구하고 도움이되기를 바랍니다. 물론이 논문에서 더 논의 할 다른 경고 (이 네 가지 저널 만 고려하는 것과 같은)가 있습니다.
나는 놀라운 답변을 많이 보았고 겸손한 자체 분류가 어떻게받을 수 있는지 알지 못하지만 요약을 보여줄 모든 통계에 대한 포괄적 인 책을 알지 못합니다. mkt는 유쾌하게 주석을 달고 연구 분야의 분류가 유용 할 수있다. 그래서 여기 내 샷이 있습니다.
물론 이것은 지나치게 단순합니다. 현장을 거의 아는 사람에게만 아이디어를 얻는 것입니다. 여기서 우리 각자는 여기 범주 사이에 많은 방법이 있다는 것을 알고 있습니다. 그들은 덜 유명하거나 단순히 잊었 기 때문에 목록. 너가 좋아하길 바래.
이 정보를 구성하는 한 가지 방법은 좋은 책을 찾아 목차를 보는 것입니다. 이것은 통계 에 대해 구체적으로 질문했기 때문에 역설 입니다. 주제에 대한 대부분의 대학원 수준 텍스트는 통계와 확률 이론에 대한 것입니다. 내가 회귀에 대해 읽고있는 책은 이제 다음 TOC를 갖습니다.
이진 데이터 모델
일반 회귀 모형
(나머지 섹션은 수학 및 확률 이론을 지원합니다)