양식 열인지 여부에 따라 기호 열을 필터링하려고합니다. \uxxxx
이것은 같은 몇 가지 모습 즉, 시각적으로 쉽게 $
, ¢
, £
, 등 등 \u058f
, \u060b
, \u07fe
.
하지만 stringi
/를 사용하여 알아낼 수없는 것 같습니다.dplyr
library(dplyr)
library(stringi)
df <- structure(list(Character = c("\\u0024", "\\u00A2", "\\u00A3",
"\\u00A4", "\\u00A5", "\\u058F", "\\u060B", "\\u07FE", "\\u07FF",
"\\u09F2", "\\u09F3", "\\u09FB", "\\u0AF1", "\\u0BF9", "\\u0E3F",
"\\u17DB", "\\u20A0", "\\u20A1", "\\u20A2", "\\u20A3"),
Symbol = c("$", "¢", "£", "¤", "¥", "\u058f", "\u060b", "\u07fe", "\u07ff",
"৲", "৳", "\u09fb", "\u0af1", "\u0bf9", "฿", "៛", "₠",
"₡", "₢", "₣")), row.names = c(NA, 20L), class = "data.frame")
Character Symbol
1 \\u0024 $
2 \\u00A2 ¢
3 \\u00A3 £
4 \\u00A4 ¤
5 \\u00A5 ¥
6 \\u058F \u058f
7 \\u060B \u060b
8 \\u07FE \u07fe
9 \\u07FF \u07ff
10 \\u09F2 ৲
11 \\u09F3 ৳
12 \\u09FB \u09fb
13 \\u0AF1 \u0af1
14 \\u0BF9 \u0bf9
15 \\u0E3F ฿
16 \\u17DB ៛
17 \\u20A0 ₠
18 \\u20A1 ₡
19 \\u20A2 ₢
20 \\u20A3 ₣
내가 시도한 것
유사 콘텐츠를 사용해 보았지만 nchar
운이 없었습니다.
df$Symbol %>% nchar
# [1] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
df$Symbol %>% stri_unescape_unicode %>% nchar
# [1] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
df$Symbol %>% stri_escape_unicode %>% nchar
# [1] 1 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6
질문
어떻게 모든 기호 열에 형태의 행을 필터링 할 수 있습니다 $
, ¢
, £
등 (행이 좋아하는 역을 위해 \u058f
, \u060b
, \u07fe
)?
Symbol
열에 포함 된 것입니다 ( 충분히 느껴야 한다고 생각 하지만 구별하는 방법을 알아낼 수 없습니다.-사람의 눈으로 쉽게 볼 수 있기 때문에 흥미 롭습니다)
utf8::utf8_valid()
있지만 기존의 유효한 유니 코드와 유효하지만 할당되지 않은 유니 코드를 구별하지 못할 수 있습니다 . 궁극적으로 달성하고자하는 것을 조금 확장 할 수 있습니까?