Регулярное выражение — это формула, с помощью которой мы фильтруем нужные текстовые строки в системах аналитики и таблицах или вытаскиваем из них определенные данные. Чаще всего PPC-специалисты используют регулярные выражения при работе с Google Analytics, Яндекс.Метрикой, GTM, Wordstat, Key Collector и Google Sheets.
В этом материале мы поговорим об особенностях работы с регулярными выражениями, их возможностях и разберем несколько нетривиальных примеров использования.
Регулярные выражения (или синтаксис RegExp) применяются на разных этапах работы с рекламой: для сбора семантики, настройки сегментов, настройки аналитики на сайте и работы с отчетами. Вот основные операции с регулярными выражениями в разных системах:
Google Analytics и Яндекс.Метрика: работа с фильтрами и отчетами, настройка целей, сегментов и аудиторий.
Google Tag Manager: настройка триггеров и переменных.
Wordstat: подбора семантики.
Key Collector: подбор семантики и фильтрация данных.
Excel и Google Таблицы: фильтрация, извлечение нужных данных.
Символ | Значение |
---|---|
* | 0 или более предшествующи х символов |
. | Один любой символ |
+ | 1 или более предыдущих символов |
? | 0 или 1 предыдущий символ |
| | Оператор ИЛИ |
( ) | Группировка |
[ ] | Список символов, один из которых может присутствовать в тексте |
– | Границы последовательности символов в квадратных скобках |
^ | Начало строки |
$ | Конец строки |
{ } | Количество повторений предыдущего символа |
| Экранирование специальных символов |
s | Символ пробела |
S | Любой символ, отличный от пробела |
d | Цифровой символ |
D | Любой символ, отличный от цифры |
w | Любой буквенный символ латинского алфавита, цифровой символ или символ подчеркивания |
W | Любой символ кроме буквы латинского алфавита, цифры и символа подчеркивания |
Регулярные выражения могут быть жадными и скупыми:
* — жадный шаблон, вытаскивает максимально длинную строку;
*? — скупой шаблон, вытаскивает данные до первого совпадения.
Жадные регулярные выражения вытаскивают из ссылки данные до последнего слэша
Скупые регулярные выражения вытаскивает из ссылки данные до первого слэша
В справочном центре Google вы можете узнать о них чуть больше. А для проверки правильности настройки регулярных выражений используйте сервис RegExr.
Регулярные выражения в Google Analytics чаще всего используют для настройки целей, фильтров, отчетов, сегментов и аудиторий. Давайте разберем несколько примеров.
У клиента на сайте было две формы заявок, после заполнения которых открывались две разные страницы с благодарностью. Чтобы не делать две отдельные цели, настраиваем одну через регулярные выражения: /thank/|/send-contact.php.
— переводим «/» и «.» в обычные символы;
| — между страницами thank you page.
Пример использования регулярных выражений в Google Analytics для настройки цели
Вот еще один пример — про работу с отчетом по поисковым запросам. Допустим, нам нужно вывести в отчет только запросы, содержащие фразу «агентство интернет-маркетинга». Чтобы учесть все варианты написания слова «агентство» с ошибками и опечатками, используем выражение агент?ств[ао], где:
т? означает, что предыдущий символ присутствует или отсутствует в тексте;
Использование регулярных выражений в отчете Google Analytics: фильтрация запросов
Аналогичный пример — отчет по поисковым запросам для компании, оформляющей филиппинские визы:
филип+ины: п+ означает предыдущий символ, присутствует один и более раз;
филип{1,2}ины: п{1,2} — предыдущий символ используется от 1 до 2 раз.
Фильтрация запросов в Google Analytics
С помощью регулярных выражений можно исключить трафик для определенного диапазона IP-адресов. Например, так: 178.165.69.d{1,3}
— переводим «.» в обычные символы;
d{1,3} — выбрали все цифры, которые будут присутствовать от 1 до 3 раз, то есть, по сути, задали диапазон от 0 до 999 (хотя диапазон в IP-адресах от 0 до 255).
Настройка фильтра по IP-адресам в Google Analytics
И еще один вариант фильтрации IP-адресов: 178.165.69.(1[0-9][0-9]|200):
— переводим «.» в обычные символы;
(1[0-9][0-9]|200) — выбрали числа от 100 до 199 или 200.
Шаблон фильтра
Чаще всего регулярные выражения в GTM применяются при настройке триггеров и переменных, которые отправляют события в Google Analytics.
Триггер для отслеживания длительности сеанса будет срабатывать на любой странице сайта
Триггер отправки сообщения будет срабатывать при посещении страниц /thank/ или /send-contact/.php
Операторы Wordstat не относятся к регулярным выражениям, но принцип использования очень похож. Вот операторы, которые можно использовать в сервисе:
«" — кавычки фиксируют слова в запросе, но допускают все возможные окончания и любой порядок слов;
! — восклицательный знак фиксирует окончание слова;
+ — плюс будет полезен для поиска запросов с предлогами и союзами;
— — минус поможет избавиться от стоп-слов и получить только нужные запросы;
| — это оператор «или», позволит получать запросы сразу по нескольким условиям, например, купить машину (недорого|ваз);
() — скобки группируют слова в запросе, в совокупности с оператором «или» позволяет извлекать запросы по комбинированным условиям.
Запрос собирает частотность по всем вариантам связок ключевых слов. Между словами в группах стоит оператор «или», благодаря которому не нужно вручную искать статистику по каждому запросу: купить теплицу, заказать теплицу, теплица цена, купить парник, заказать парник, парник цена.
Banner
При помощи регулярных выражений в Key Collecor можно составлять сложные конструкции для фильтрации данных. При использовании фильтра по регулярному выражению используется стандартный синтаксис RegExp.
Популярные варианты использования регулярных выражений:
d+ — выбрать все фразы, содержащие цифры;
^скачать — выбрать все фразы, начинающиеся со слова «скачать»;
скачать$ — выбрать все фразы, заканчивающиеся на слово «скачать»;
скачать — выбрать все фразы, содержащие слово «скачать»;
скачать|купить|продать — выбрать все фразы, содержащие любое из слов «скачать», «купить» или «продать»;
^пластиковые(.*)цены$ — выбрать все фразы, начинающиеся на «пластиковые» и заканчивающиеся на «цены». Комбинация (.*) в регулярном выражении означает последовательность символов любой длины.
^(S+sS+)$ — выбрать все фразы, содержащие точно два слова;
^(S+sS+sS+)$ — выбрать все фразы, содержащие точно три слова; таким образом можно собрать фразы, содержащие до пяти конкретных слов.
Использование фильтра в Key Collector: выражение выберет все фразы, начинающиеся на «пластиковые» и заканчивающиеся на «цены». Комбинация (.* ) означает последовательность символов любой длины
Если комбинировать в работе операторы Wordstat и Key Collector, то можно существенно ускорить подбор семантики.
Настройка сбора запросов в Key Collector с использованием операторов Wordst
Чтобы Excel мог извлекать данные с помощью регулярных выражений RegExp, необходимо добавить модуль в редактор Visual Basic. Для этого:
Вставляем код:
Public Function RegExpExtract(Text As String, Pattern As String, Optional Item As Integer = 1) As String
On Error GoTo ErrHandl
Set regex = CreateObject("VBScript.RegExp")
regex.Pattern = Pattern
regex.Global = True
If regex.Test(Text) Then
Set matches = regex.Execute(Text)
RegExpExtract = matches.Item(Item – 1)
Exit Function
End If
ErrHandl:
RegExpExtract = CVErr(xlErrValue)
End Function
Разберем пример использования. Для настройки контекстной рекламы интернет-магазина шин клиент предоставил выгрузку товаров. Данные в ней были плохо сегментированы, поэтому, чтобы вытащить нужную информацию, использовали регулярные выражения. Так, комбинация ^d+/d+ помогла вынести размеры шин — все цифры до и после слэша в начале каждой строки. Эти данные можно использовать для написания объявлений.
Регулярные выражения — удобный инструмент. Они помогают собирать и обрабатывать данные при сборе семантики, работе с текстами объявлений, анализе данных и других. Знание базовых принципов работы регулярных выражений значительно ускоряет и упрощает работу специалиста по контекстной рекламе и веб-аналитика.
Если вам нужна помощь по составлению необходимого регулярного выражения, обращайтесь в мой Telegram или в комментарии.
На исследование основных показателей в Яндекс Метрике достаточно одного часа. В статье мы покажем, как находить эти показатели и объясним,…
Рассказываем, какие интересные и полезные исследования вышли в мае 2022 года. Какие каналы для общения с клиентами выбирает бизнес —…
В мае Яндекс увеличил количество мест в товарной галерее и добавил два новых формата Большого баннера на главной. Директ…
Я пришел в digital 11 лет назад, когда учился в аспирантуре института биоорганической химии им. академиков М. М. Шемякина и Ю. А. Овчинникова. Тогда я просто…
Как сформулировать CTA, решает общий контекст коммуникации с пользователем. Какая формулировка сработает лучше, определяет тестирование. Но что…
Магазины в Telegram уже были давно. Как они выглядят и насколько удобны — другой вопрос. Некоторые из них — просто…