Я пытаюсь получить с помощью регулярного выражения с использованием диалекта PCRE2 из текста HTML все вхождения слова «яблоко». Но за исключением слова «яблоко», это часть ссылки.
Я новичок в Regex, наверное, делаю довольно простую ошибку.
\bapple\b
Итак, следующий текст должен соответствовать первому вхождению, но не второму и третьему.
Lorem ipsum apple sit amet, consectetur <a href="#">apple</a> elit <a href="/test/apple">lorem</a>.
Что я делаю не так?
Вы хотите сопоставить всю 4-ю строчку? или просто «Match Me»?
Ограничен ли набор тегов, которые будут обертывать «Foo Bar»? Это просто <span> .... </span> или могут быть другие теги, например <em> <strong> <b> и т. Д.? Должен ли он учитывать недействительный или небрежный html, например: <span> foo bar </div> или такие вещи, как <h2> foo bar </h2>?
только что видел ваш комментарий, просто Match Me в 4-й строке - см. мой отредактированный вопрос.
lizardx - могут быть другие теги, все, что будет допустимым внутри тега <a>. Теоретически неряшливого html не будет.