자바의 URL과 일치하는 정규 표현식


정규식으로 작업하는 동안 RegexBuddy를 사용합니다. 라이브러리에서 URL과 일치하도록 정규식을 복사했습니다. RegexBuddy에서 성공적으로 테스트했습니다. 그러나 Java String플레이버 로 복사 하여 Java 코드에 붙여 넣으면 작동하지 않습니다. 다음 클래스는 다음을 인쇄합니다 false.

public class RegexFoo {

    public static void main(String[] args) {
        String regex = "\\b(https?|ftp|file)://[-A-Z0-9+&@#/%?=~_|!:,.;]*[-A-Z0-9+&@#/%=~_|]";
        String text = "http://google.com";

    private static boolean IsMatch(String s, String pattern) {
        try {
            Pattern patt = Pattern.compile(pattern);
            Matcher matcher = patt.matcher(s);
            return matcher.matches();
        } catch (RuntimeException e) {
        return false;

내가 뭘 잘못하고 있는지 아는 사람이 있습니까?

Sergio, RuntimeException을 포착하지 마십시오. 미묘한 버그를 유발할 수 있으며 전반적으로 나쁜 습관입니다. 식이 잘못된 경우 시나리오를 무시하려면 대신 다음을 사용하십시오.} catch (PatternSyntaxException pse) {}. 다음 중 항목 57 참조 : java.sun.com/docs/books/effective

또는 Pattern patt = Pattern.compile (pattern, Pattern.CASE_INSENSITIVE); 대문자와 소문자 모두 일치하도록 정규식을 변경하지 않으려면

나는 이것이 정말 오래되었다는 것을 알고 있지만 ('08) 비슷한 문제가있는 사람을 위해 RegexBuddy에는 "사용"탭이 있습니다. 먼저 Java 7 플레이버를 선택한 다음 "사용"패널에서 특정 케이스에 대한 Java 코드를 생성하도록 할 수 있습니다. 이것은 나를 위해 잘 작동했습니다.
Daniel F



대신 다음 정규식 문자열을 시도하십시오. 테스트는 아마도 대소 문자를 구분하는 방식으로 수행되었을 것입니다. 소문자 알파와 적절한 문자열 시작 자리 표시자를 추가했습니다.

String regex = "^(https?|ftp|file)://[-a-zA-Z0-9+&@#/%?=~_|!:,.;]*[-a-zA-Z0-9+&@#/%=~_|]";

이것도 작동합니다.

String regex = "\\b(https?|ftp|file)://[-a-zA-Z0-9+&@#/%?=~_|!:,.;]*[-a-zA-Z0-9+&@#/%=~_|]";

노트 :

String regex = "<\\b(https?|ftp|file)://[-a-zA-Z0-9+&@#/%?=~_|!:,.;]*[-a-zA-Z0-9+&@#/%=~_|]>"; // matches <http://google.com>

String regex = "<^(https?|ftp|file)://[-a-zA-Z0-9+&@#/%?=~_|!:,.;]*[-a-zA-Z0-9+&@#/%=~_|]>"; // does not match <http://google.com>

정규 표현식을 사용하면 나도 거짓이됩니다.
Sergio del Amo

내 마지막 편집을 잡았 니? 나는 끈의 시작 부분을 뚱뚱하게 만졌다. 방금 이클립스에 복사했고 "진실"을 얻었습니다.

감사합니다 사람, 처음으로 내가 stackoverflow의 주석에 대한 유틸리티를 본다
Sergio del Amo

문제 없어요. Eclipse를 사용하는 경우 여기에서 제공되는 RegEx Tester 플러그인을 사용하는 것이 좋습니다. brosinski.com/regex

내가 이클립스를 사용하고있는 링크에 대한 thansk
Sergio del Amo


지금 가장 좋은 방법은 다음과 같습니다.


편집 :의 코드 Patterns에서 https://github.com/android/platform_frameworks_base/blob/master/core/java/android/util/Patterns.java :

 * Copyright (C) 2007 The Android Open Source Project
 * Licensed under the Apache License, Version 2.0 (the "License");
 * you may not use this file except in compliance with the License.
 * You may obtain a copy of the License at
 *      http://www.apache.org/licenses/LICENSE-2.0
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * See the License for the specific language governing permissions and
 * limitations under the License.

package android.util;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

 * Commonly used regular expression patterns.
public class Patterns {
     *  Regular expression to match all IANA top-level domains.
     *  List accurate as of 2011/07/18.  List taken from:
     *  http://data.iana.org/TLD/tlds-alpha-by-domain.txt
     *  This pattern is auto-generated by frameworks/ex/common/tools/make-iana-tld-pattern.py
     *  @deprecated Due to the recent profileration of gTLDs, this API is
     *  expected to become out-of-date very quickly. Therefore it is now
     *  deprecated.
    public static final String TOP_LEVEL_DOMAIN_STR =
        + "|(biz|b[abdefghijmnorstvwyz])"
        + "|(cat|com|coop|c[acdfghiklmnoruvxyz])"
        + "|d[ejkmoz]"
        + "|(edu|e[cegrstu])"
        + "|f[ijkmor]"
        + "|(gov|g[abdefghilmnpqrstuwy])"
        + "|h[kmnrtu]"
        + "|(info|int|i[delmnoqrst])"
        + "|(jobs|j[emop])"
        + "|k[eghimnprwyz]"
        + "|l[abcikrstuvy]"
        + "|(mil|mobi|museum|m[acdeghklmnopqrstuvwxyz])"
        + "|(name|net|n[acefgilopruz])"
        + "|(org|om)"
        + "|(pro|p[aefghklmnrstwy])"
        + "|qa"
        + "|r[eosuw]"
        + "|s[abcdeghijklmnortuvyz]"
        + "|(tel|travel|t[cdfghjklmnoprtvwz])"
        + "|u[agksyz]"
        + "|v[aceginu]"
        + "|w[fs]"
        + "|(\u03b4\u03bf\u03ba\u03b9\u03bc\u03ae|\u0438\u0441\u043f\u044b\u0442\u0430\u043d\u0438\u0435|\u0440\u0444|\u0441\u0440\u0431|\u05d8\u05e2\u05e1\u05d8|\u0622\u0632\u0645\u0627\u06cc\u0634\u06cc|\u0625\u062e\u062a\u0628\u0627\u0631|\u0627\u0644\u0627\u0631\u062f\u0646|\u0627\u0644\u062c\u0632\u0627\u0626\u0631|\u0627\u0644\u0633\u0639\u0648\u062f\u064a\u0629|\u0627\u0644\u0645\u063a\u0631\u0628|\u0627\u0645\u0627\u0631\u0627\u062a|\u0628\u06be\u0627\u0631\u062a|\u062a\u0648\u0646\u0633|\u0633\u0648\u0631\u064a\u0629|\u0641\u0644\u0633\u0637\u064a\u0646|\u0642\u0637\u0631|\u0645\u0635\u0631|\u092a\u0930\u0940\u0915\u094d\u0937\u093e|\u092d\u093e\u0930\u0924|\u09ad\u09be\u09b0\u09a4|\u0a2d\u0a3e\u0a30\u0a24|\u0aad\u0abe\u0ab0\u0aa4|\u0b87\u0ba8\u0bcd\u0ba4\u0bbf\u0baf\u0bbe|\u0b87\u0bb2\u0b99\u0bcd\u0b95\u0bc8|\u0b9a\u0bbf\u0b99\u0bcd\u0b95\u0baa\u0bcd\u0baa\u0bc2\u0bb0\u0bcd|\u0baa\u0bb0\u0bbf\u0b9f\u0bcd\u0b9a\u0bc8|\u0c2d\u0c3e\u0c30\u0c24\u0c4d|\u0dbd\u0d82\u0d9a\u0dcf|\u0e44\u0e17\u0e22|\u30c6\u30b9\u30c8|\u4e2d\u56fd|\u4e2d\u570b|\u53f0\u6e7e|\u53f0\u7063|\u65b0\u52a0\u5761|\u6d4b\u8bd5|\u6e2c\u8a66|\u9999\u6e2f|\ud14c\uc2a4\ud2b8|\ud55c\uad6d|xn\\-\\-0zwm56d|xn\\-\\-11b5bs3a9aj6g|xn\\-\\-3e0b707e|xn\\-\\-45brj9c|xn\\-\\-80akhbyknj4f|xn\\-\\-90a3ac|xn\\-\\-9t4b11yi5a|xn\\-\\-clchc0ea0b2g2a9gcd|xn\\-\\-deba0ad|xn\\-\\-fiqs8s|xn\\-\\-fiqz9s|xn\\-\\-fpcrj9c3d|xn\\-\\-fzc2c9e2c|xn\\-\\-g6w251d|xn\\-\\-gecrj9c|xn\\-\\-h2brj9c|xn\\-\\-hgbk6aj7f53bba|xn\\-\\-hlcj6aya9esc7a|xn\\-\\-j6w193g|xn\\-\\-jxalpdlp|xn\\-\\-kgbechtv|xn\\-\\-kprw13d|xn\\-\\-kpry57d|xn\\-\\-lgbbat1ad8j|xn\\-\\-mgbaam7a8h|xn\\-\\-mgbayh7gpa|xn\\-\\-mgbbh1a71e|xn\\-\\-mgbc0a9azcg|xn\\-\\-mgberp4a5d4ar|xn\\-\\-o3cw4h|xn\\-\\-ogbpf8fl|xn\\-\\-p1ai|xn\\-\\-pgbs0dh|xn\\-\\-s9brj9c|xn\\-\\-wgbh1c|xn\\-\\-wgbl6a|xn\\-\\-xkc2al3hye2a|xn\\-\\-xkc2dl3a5ee0h|xn\\-\\-yfro4i67o|xn\\-\\-ygbi2ammx|xn\\-\\-zckzah|xxx)"
        + "|y[et]"
        + "|z[amw])";

     *  Regular expression pattern to match all IANA top-level domains.
     *  @deprecated This API is deprecated. See {@link #TOP_LEVEL_DOMAIN_STR}.
    public static final Pattern TOP_LEVEL_DOMAIN =

     *  Regular expression to match all IANA top-level domains for WEB_URL.
     *  List accurate as of 2011/07/18.  List taken from:
     *  http://data.iana.org/TLD/tlds-alpha-by-domain.txt
     *  This pattern is auto-generated by frameworks/ex/common/tools/make-iana-tld-pattern.py
     *  @deprecated This API is deprecated. See {@link #TOP_LEVEL_DOMAIN_STR}.
    public static final String TOP_LEVEL_DOMAIN_STR_FOR_WEB_URL =
        + "(?:aero|arpa|asia|a[cdefgilmnoqrstuwxz])"
        + "|(?:biz|b[abdefghijmnorstvwyz])"
        + "|(?:cat|com|coop|c[acdfghiklmnoruvxyz])"
        + "|d[ejkmoz]"
        + "|(?:edu|e[cegrstu])"
        + "|f[ijkmor]"
        + "|(?:gov|g[abdefghilmnpqrstuwy])"
        + "|h[kmnrtu]"
        + "|(?:info|int|i[delmnoqrst])"
        + "|(?:jobs|j[emop])"
        + "|k[eghimnprwyz]"
        + "|l[abcikrstuvy]"
        + "|(?:mil|mobi|museum|m[acdeghklmnopqrstuvwxyz])"
        + "|(?:name|net|n[acefgilopruz])"
        + "|(?:org|om)"
        + "|(?:pro|p[aefghklmnrstwy])"
        + "|qa"
        + "|r[eosuw]"
        + "|s[abcdeghijklmnortuvyz]"
        + "|(?:tel|travel|t[cdfghjklmnoprtvwz])"
        + "|u[agksyz]"
        + "|v[aceginu]"
        + "|w[fs]"
        + "|(?:\u03b4\u03bf\u03ba\u03b9\u03bc\u03ae|\u0438\u0441\u043f\u044b\u0442\u0430\u043d\u0438\u0435|\u0440\u0444|\u0441\u0440\u0431|\u05d8\u05e2\u05e1\u05d8|\u0622\u0632\u0645\u0627\u06cc\u0634\u06cc|\u0625\u062e\u062a\u0628\u0627\u0631|\u0627\u0644\u0627\u0631\u062f\u0646|\u0627\u0644\u062c\u0632\u0627\u0626\u0631|\u0627\u0644\u0633\u0639\u0648\u062f\u064a\u0629|\u0627\u0644\u0645\u063a\u0631\u0628|\u0627\u0645\u0627\u0631\u0627\u062a|\u0628\u06be\u0627\u0631\u062a|\u062a\u0648\u0646\u0633|\u0633\u0648\u0631\u064a\u0629|\u0641\u0644\u0633\u0637\u064a\u0646|\u0642\u0637\u0631|\u0645\u0635\u0631|\u092a\u0930\u0940\u0915\u094d\u0937\u093e|\u092d\u093e\u0930\u0924|\u09ad\u09be\u09b0\u09a4|\u0a2d\u0a3e\u0a30\u0a24|\u0aad\u0abe\u0ab0\u0aa4|\u0b87\u0ba8\u0bcd\u0ba4\u0bbf\u0baf\u0bbe|\u0b87\u0bb2\u0b99\u0bcd\u0b95\u0bc8|\u0b9a\u0bbf\u0b99\u0bcd\u0b95\u0baa\u0bcd\u0baa\u0bc2\u0bb0\u0bcd|\u0baa\u0bb0\u0bbf\u0b9f\u0bcd\u0b9a\u0bc8|\u0c2d\u0c3e\u0c30\u0c24\u0c4d|\u0dbd\u0d82\u0d9a\u0dcf|\u0e44\u0e17\u0e22|\u30c6\u30b9\u30c8|\u4e2d\u56fd|\u4e2d\u570b|\u53f0\u6e7e|\u53f0\u7063|\u65b0\u52a0\u5761|\u6d4b\u8bd5|\u6e2c\u8a66|\u9999\u6e2f|\ud14c\uc2a4\ud2b8|\ud55c\uad6d|xn\\-\\-0zwm56d|xn\\-\\-11b5bs3a9aj6g|xn\\-\\-3e0b707e|xn\\-\\-45brj9c|xn\\-\\-80akhbyknj4f|xn\\-\\-90a3ac|xn\\-\\-9t4b11yi5a|xn\\-\\-clchc0ea0b2g2a9gcd|xn\\-\\-deba0ad|xn\\-\\-fiqs8s|xn\\-\\-fiqz9s|xn\\-\\-fpcrj9c3d|xn\\-\\-fzc2c9e2c|xn\\-\\-g6w251d|xn\\-\\-gecrj9c|xn\\-\\-h2brj9c|xn\\-\\-hgbk6aj7f53bba|xn\\-\\-hlcj6aya9esc7a|xn\\-\\-j6w193g|xn\\-\\-jxalpdlp|xn\\-\\-kgbechtv|xn\\-\\-kprw13d|xn\\-\\-kpry57d|xn\\-\\-lgbbat1ad8j|xn\\-\\-mgbaam7a8h|xn\\-\\-mgbayh7gpa|xn\\-\\-mgbbh1a71e|xn\\-\\-mgbc0a9azcg|xn\\-\\-mgberp4a5d4ar|xn\\-\\-o3cw4h|xn\\-\\-ogbpf8fl|xn\\-\\-p1ai|xn\\-\\-pgbs0dh|xn\\-\\-s9brj9c|xn\\-\\-wgbh1c|xn\\-\\-wgbl6a|xn\\-\\-xkc2al3hye2a|xn\\-\\-xkc2dl3a5ee0h|xn\\-\\-yfro4i67o|xn\\-\\-ygbi2ammx|xn\\-\\-zckzah|xxx)"
        + "|y[et]"
        + "|z[amw]))";

     * Good characters for Internationalized Resource Identifiers (IRI).
     * This comprises most common used Unicode characters allowed in IRI
     * as detailed in RFC 3987.
     * Specifically, those two byte Unicode characters are not included.
    public static final String GOOD_IRI_CHAR =

    public static final Pattern IP_ADDRESS
        = Pattern.compile(
            + "[0-9]|[0-1][0-9]{2}|[1-9][0-9]|[1-9]|0)\\.(25[0-5]|2[0-4][0-9]|[0-1]"
            + "[0-9]{2}|[1-9][0-9]|[1-9]|0)\\.(25[0-5]|2[0-4][0-9]|[0-1][0-9]{2}"
            + "|[1-9][0-9]|[0-9]))");

     * RFC 1035 Section 2.3.4 limits the labels to a maximum 63 octets.
    private static final String IRI
        = "[" + GOOD_IRI_CHAR + "]([" + GOOD_IRI_CHAR + "\\-]{0,61}[" + GOOD_IRI_CHAR + "]){0,1}";

    private static final String GOOD_GTLD_CHAR =
    private static final String GTLD = "[" + GOOD_GTLD_CHAR + "]{2,63}";
    private static final String HOST_NAME = "(" + IRI + "\\.)+" + GTLD;

    public static final Pattern DOMAIN_NAME
        = Pattern.compile("(" + HOST_NAME + "|" + IP_ADDRESS + ")");

     *  Regular expression pattern to match most part of RFC 3987
     *  Internationalized URLs, aka IRIs.  Commonly used Unicode characters are
     *  added.
    public static final Pattern WEB_URL = Pattern.compile(
        + "\\,\\;\\?\\&\\=]|(?:\\%[a-fA-F0-9]{2})){1,64}(?:\\:(?:[a-zA-Z0-9\\$\\-\\_"
        + "\\.\\+\\!\\*\\'\\(\\)\\,\\;\\?\\&\\=]|(?:\\%[a-fA-F0-9]{2})){1,25})?\\@)?)?"
        + "(?:" + DOMAIN_NAME + ")"
        + "(?:\\:\\d{1,5})?)" // plus option port number
        + "(\\/(?:(?:[" + GOOD_IRI_CHAR + "\\;\\/\\?\\:\\@\\&\\=\\#\\~"  // plus option query params
        + "\\-\\.\\+\\!\\*\\'\\(\\)\\,\\_])|(?:\\%[a-fA-F0-9]{2}))*)?"
        + "(?:\\b|$)"); // and finally, a word boundary or end of
                        // input.  This is to stop foo.sure from
                        // matching as foo.su

    public static final Pattern EMAIL_ADDRESS
        = Pattern.compile(
            "[a-zA-Z0-9\\+\\.\\_\\%\\-\\+]{1,256}" +
            "\\@" +
            "[a-zA-Z0-9][a-zA-Z0-9\\-]{0,64}" +
            "(" +
                "\\." +
                "[a-zA-Z0-9][a-zA-Z0-9\\-]{0,25}" +

     * This pattern is intended for searching for things that look like they
     * might be phone numbers in arbitrary text, not for validating whether
     * something is in fact a phone number.  It will miss many things that
     * are legitimate phone numbers.
     * <p> The pattern matches the following:
     * <ul>
     * <li>Optionally, a + sign followed immediately by one or more digits. Spaces, dots, or dashes
     * may follow.
     * <li>Optionally, sets of digits in parentheses, separated by spaces, dots, or dashes.
     * <li>A string starting and ending with a digit, containing digits, spaces, dots, and/or dashes.
     * </ul>
    public static final Pattern PHONE
        = Pattern.compile(                      // sdd = space, dot, or dash
                "(\\+[0-9]+[\\- \\.]*)?"        // +<digits><sdd>*
                + "(\\([0-9]+\\)[\\- \\.]*)?"   // (<digits>)<sdd>*
                + "([0-9][0-9\\- \\.]+[0-9])"); // <digit><digit|sdd>+<digit>

     *  Convenience method to take all of the non-null matching groups in a
     *  regex Matcher and return them as a concatenated string.
     *  @param matcher      The Matcher object from which grouped text will
     *                      be extracted
     *  @return             A String comprising all of the non-null matched
     *                      groups concatenated together
    public static final String concatGroups(Matcher matcher) {
        StringBuilder b = new StringBuilder();
        final int numGroups = matcher.groupCount();

        for (int i = 1; i <= numGroups; i++) {
            String s = matcher.group(i);

            if (s != null) {

        return b.toString();

     * Convenience method to return only the digits and plus signs
     * in the matching string.
     * @param matcher      The Matcher object from which digits and plus will
     *                     be extracted
     * @return             A String comprising all of the digits and plus in
     *                     the match
    public static final String digitsAndPlusOnly(Matcher matcher) {
        StringBuilder buffer = new StringBuilder();
        String matchingRegion = matcher.group();

        for (int i = 0, size = matchingRegion.length(); i < size; i++) {
            char character = matchingRegion.charAt(i);

            if (character == '+' || Character.isDigit(character)) {
        return buffer.toString();

     * Do not create this static utility class.
    private Patterns() {}

당신을 위해 +1! 정말 고맙습니다!!! 이것은 훌륭한 코드입니다! 모두가 어려운 정규식으로 이것을 시도하고 있지만 이것이 쉬울 수 있습니다. 대박!
Kevin van Mierlo 2014 년

@JPM OP가 Android 전용이 아닌 Java 솔루션을 찾고 있다는 점을 제외하면 (Q에 대한 특정 태그를 보는 것을 잊기 쉽습니다). 그래도 Android 용 코드를 작성하는 사람들에게 좋은 점이어서 나는 올렸다.

@indivisible 다행히 안드로이드는 오픈 소스이고 당신의 코드를 가져올 수 github.com/android/platform_frameworks_base/blob/master/core/... :

문제가 찾고있는 나는이, 당신의 의견은이 대답이 / 허용 도움이 만드는 유일한 방법이라고 생각 @EpicPandaForce java솔루션이 아닌android
돈 치들

URL이 http 또는 https에서 시작하는지 확인하지 않습니다. 나는 www.www로 테스트했고 그것이 사실이었다. 나를 위해 그렇게 유용하지


나는 표준 "왜 이렇게하는거야?" 대답 ... 알고 java.net.URL계십니까?

URL url = new URL(stringURL);

위는 MalformedURLExceptionURL을 구문 분석 할 수없는 경우 발생합니다.

정규 표현식 길을 거쳐야합니다. 여기에 게시하는 내용은 내 질문을 명확하게하기 위해 가능한 한 간단합니다. 내 프로그램에서 더 복잡한 정규식 내에서 URL 정규식을 사용하고 있습니다.
Sergio del Amo

멋지네요. 정규식으로 더 나은 대답이 없었기 때문에 대안을 게시 할 것이라고 생각했습니다. 그래도 내가 실망 할 거라고 생각하지 않았어.

당신 말이 맞습니다. "나는 표준을 시도 할 것이다"는 약간 불쾌한 소리를 냈다.
Sergio del Amo

멋지다 (죄송합니다, 빠른 휴가). 예, 확실히 그런 식으로 의도되지 않았습니다. 여기에서 많은 것을 볼 수 있으며 때로는 도움이됩니다.

"새 URL"은 포트가 0 미만이거나 프로토콜을 이해하지 못하는 경우에만 MalformedURLException을 발생시킵니다. 그 외에는 아무것도 없습니다. 잡히지 않습니다 : 1.2.3. 1.2,3.4.5 : etc
David Newcomb


모든 제안 된 접근 방식의 문제점 : 모든 RegEx가 검증 중입니다.

모든 RegEx 기반 코드는 과도하게 설계되었습니다. 유효한 URL 만 찾습니다! 샘플로서 "http : //"로 시작하고 내부에 ASCII가 아닌 문자가있는 것은 무시합니다.

훨씬 더 : 매우 작고 단순한 문장에 대해 Java RegEx 패키지 (텍스트에서 이메일 주소 필터링)를 사용하여 처리하는 데 1-2 초 (단일 스레드, 전용) 시간이 소요되었습니다. Java 6 RegEx의 버그 일 수 있습니다.

가장 간단하고 빠른 솔루션은 StringTokenizer를 사용하여 텍스트를 토큰으로 분할하고, "http : //"등으로 시작하는 토큰을 제거하고, 토큰을 다시 텍스트로 연결하는 것입니다.

텍스트에서 이메일을 필터링하려면 (나중에 NLP 직원 등을 수행 할 것이기 때문)- "@"이 포함 된 모든 토큰을 제거하면됩니다.

이것은 Java 6의 RegEx가 실패하는 간단한 텍스트입니다. Java의 다양한 변형에서 사용해보십시오. 장기 실행 단일 스레드 테스트 응용 프로그램에서 RegEx 호출 당 약 1000 밀리 초가 걸립니다.

pattern = Pattern.compile("[A-Za-z0-9](([_\\.\\-]?[a-zA-Z0-9]+)*)@([A-Za-z0-9]+)(([\\.\\-]?[a-zA-Z0-9]+)*)\\.([A-Za-z]{2,})", Pattern.CASE_INSENSITIVE);

"Avalanna is such a sweet little girl! It would b heartbreaking if cancer won. She's so precious! #BeliebersPrayForAvalanna");
"@AndySamuels31 Hahahahahahahahahhaha lol, you don't look like a girl hahahahhaahaha, you are... sexy.";

"@", "http : //", "ftp : //", "mailto :"로 단어를 필터링해야하는 경우 정규식에 의존하지 마십시오. 엄청난 엔지니어링 오버 헤드입니다.

정말 Java와 함께 RegEx를 사용하려면 Automaton을 사용해보십시오.

Lol. Automaton은 캡처 그룹을 지원하지 않습니다.

나는 당신의 걱정을 얻지 못합니다. 허용되는 답변의 정규식은 실제로 URL 유효성 검사에 잘 작동합니다. 당신은 그것을 조롱하는 것 같습니다. 이것이 it will find only valid URLs!OP의 질문의 목표입니다. 내가 뭔가를 놓치고 있습니까?
Don Cheadle 2015


billjamesdev 답변에 따라 RegEx를 사용하지 않고 URL을 확인하는 또 다른 방법은 다음과 같습니다.

에서 아파치 커먼즈 검사기 LIB, 클래스 봐 UrlValidator . 몇 가지 예제 코드 :

"http"및 "https"의 유효한 스키마를 사용하여 UrlValidator를 생성합니다.

String[] schemes = {"http","https"}.
UrlValidator urlValidator = new UrlValidator(schemes);
if (urlValidator.isValid("ftp://foo.bar.com/")) {
   System.out.println("url is valid");
} else {
   System.out.println("url is invalid");

prints "url is invalid"

대신 기본 생성자가 사용됩니다.

UrlValidator urlValidator = new UrlValidator();
if (urlValidator.isValid("ftp://foo.bar.com/")) {
   System.out.println("url is valid");
} else {
   System.out.println("url is invalid");

"URL이 유효 함"을 출력합니다.


이것도 작동합니다.

String regex = "\\b(https?|ftp|file)://[-a-zA-Z0-9+&@#/%?=~_|!:,.;]*[-a-zA-Z0-9+&@#/%=~_|]";

노트 :

String regex = "<\\b(https?|ftp|file)://[-a-zA-Z0-9+&@#/%?=~_|!:,.;]*[-a-zA-Z0-9+&@#/%=~_|]>"; // matches <http://google.com>

String regex = "<^(https?|ftp|file)://[-a-zA-Z0-9+&@#/%?=~_|!:,.;]*[-a-zA-Z0-9+&@#/%=~_|]>"; // does not match <http://google.com>

따라서 아마도 첫 번째 것이 일반적인 사용에 더 유용합니다.


여기에서 확인하십시오 : -https : //www.freeformatter.com/java-regex-tester.html#ad-output

논문 항목을 올바르게 분류합니다.

그것은 특수 문자 실패
Sankalp Kotewar에게

노래 이름에서 URL을 제거하려면 정규식이 필요했습니다. 하나를 찾을 couldnt한다 또는 나는 :) 나를 위해 그 사건에 근무 무엇을 게시, 그래서 대부분의 실패 말해야한다

네 그렇습니다. 제공된 링크에서 확인하십시오.


RegexBuddy의 라이브러리에서 정규식을 사용할 때 자신의 코드에서 라이브러리의 정규식과 동일한 일치 모드를 사용해야합니다. 사용 탭에서 소스 코드 스 니펫을 생성하면 RegexBuddy는 소스 코드 스 니펫에서 올바른 일치 옵션을 자동으로 설정합니다. 정규식을 복사 / 붙여 넣기하면 직접해야합니다.

이 경우 다른 사람들이 지적했듯이 케이스 무감각 옵션을 놓쳤습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.