На всех веб-ресурсах, входящих в данную систему, размещаются особые блоки кода на языке HTML. Эти блоки включают в себя как скрипты на Java, так и директиву для загрузки графического элемента счетчика. Используя этот код, система агрегирует информацию о фактах посещения страниц, шаблонах перемещения пользователей по ресурсу, ряде технических сведений об устройстве посетителя, параметрах его сетевого подключения и некоторых иных данных.
Каждому человеку, заглянувшему на страницу, где внедрен код счетчика, системой присваивается неповторимый цифровой маркер. Этот идентификатор фиксируется как в общей базе данных, так и локально на компьютере пользователя в виде особого файла cookie. В случае, если этот же пользователь далее обращается к другому сайту, подключенному к системе, происходит его автоматическая «идентификация». Подобный принцип работы позволяет формировать карты перемещений пользователей в масштабах всего русскоязычного сегмента интернета.
Ошибки в собираемых данных возникают по причине наличия у части пользователей настроек, блокирующих исполнение JavaScript-кода и сохранение файлов cookie (таких пользователей примерно 4%). Для них корректная идентификация будет обеспечена только в рамках одного сеанса просмотра конкретного сайта. Однако сведения об их дальнейших перемещениях на протяжении всего текущего сеанса выхода в Интернет, а также при повторных посещениях в будущем, получить не удастся.
Метод суммирования данных
В зависимости от того, какие именно данные были получены в ходе изысканий, полученные числовые значения могут либо складываться друг с другом, либо не иметь такой возможности. При анализе посещаемости этот аспект — возможность суммирования или несуммирования данных — принимался во внимание как обязательное условие.

Данные, пригодные для суммирования, — это те, к которым допустимо применять любые необходимые математические операции, не искажая их изначального значения. К таким данным относятся, например, показатели хитов, сессий и загрузок; их можно свободно агрегировать по часам, дням, неделям и другим интервалам времени для нужд веб-сайта.
К нессуммируемым показателям относятся: количество посетителей, ядро аудитории, недельная активная аудитория, а также хосты. Прямое арифметическое сложение данных о посетителях не дает содержательного результата; следовательно, для вычисления совокупного значения нессуммируемых данных требуется принимать во внимание их совпадения (пересечения). Показатель "посетители за неделю" отражает число уникальных пользователей (идентифицируемых по присвоенным им уникальным идентификаторам), которые заходили на ресурс в течение отчетного отрезка времени.
Метод обработки данных по ссылающимся серверам
Определение серверов-источников базируется на анализе входящего трафика, а конкретно — на информации о странице-отправителе (referrer), которую фиксирует счетчик, реализованный на Java. Сведения о ссылающихся ресурсах сохраняются в базе данных, после чего агрегируются по заданной группе веб-ресурсов в качестве суммируемых значений. Важно подчеркнуть, что для каждого конкретного веб-сайта сохраняется только ограниченный набор ссылающихся страниц — не более 200 уникальных источников за сутки (в этот лимит включаются все рефереры, которые посещали сайт более одного раза). Следовательно, общая сумма всех зафиксированных значений может не достигать ста. Тем не менее, при вычислении процента, который занимает конкретный ссылающийся ресурс, в расчете задействуется весь зафиксированный объем соответствующих переходов. После того как собран полный набор страниц-источников, они консолидируются по виртуальным серверам, с детализацией до уровня доменного имени. Виртуальные серверы упорядочиваются по убыванию числа сессий, инициированных с этих источников.

Примерная погрешность этого подхода колеблется в районе 2,5% (это касается тех пользователей, у кого JavaScript заблокирован). При этом, данный способ измерения демонстрирует гораздо бо́льшую достоверность по сравнению с ранжированием на основе исходящего трафика (который может быть заявлен самой платформой), поскольку он исключает из рассмотрения незаметные клики (когда пользователь уходит до полной загрузки страницы) и множественные нажатия, доля которых в иных ситуациях может доходить до трети всех взаимодействий. В разделе «Серверы, ссылающиеся на нас» представлен исчерпывающий, неотфильтрованный перечень ресурсов, которые на нас ссылаются, собранный посредством упомянутой техники.
Метод обработки данных по трафику с поисковых машин, рейтингов и каталогов
В нашей базе данных аккумулированы сведения о преобладающем числе поисковых сервисов, рейтинговых систем и каталогов Рунета, наряду с информацией о наиболее значимых иностранных каталогах и поисковиках. На основе типа и содержимого реферера (referrer) классифицируется принадлежность URL к конкретному виду генераторов трафика, после чего осуществляется анализ самой ссылки.
Для ряда ресурсов необходима детальная парсинг-обработка строки (это актуально, к примеру, когда на одной площадке совмещены и поисковая функция, и каталог), в то время как для других это не требуется. Как правило, детальная обработка не нужна для небольших каталогов и рейтингов, которые в поле referrer передают лишь сам адрес, минуя дополнительные параметры.

Следовательно, ранжирование поисковых систем, рейтинговых списков и каталогов осуществляется, исходя из числа посетителей, направленных ими на определенный веб-ресурс или совокупность ресурсов. Таким образом, определение востребованности каталогов базируется не на их собственной посещаемости, а на объеме трафика, который они генерируют для целевого сайта. Возможная погрешность данного подхода аналогична той, что была упомянута ранее, и составляет те же 2,5% пользователей, использующих браузеры с отключенным JavaScript.
Метод получения списков поисковых фраз
На основе анализа строк, возвращаемых поисковыми системами (как продемонстрировано ранее), система идентифицирует поисковые запросы и фразы. В ходе обработки такой строки извлекается собственно поисковый запрос; при надобности он затем трансформируется в унифицированный формат кодирования. Следует отметить, что в редких случаях данное преобразование может дать некорректное отображение, однако вероятность этого мала. В сводном перечне всех зафиксированных фраз может фигурировать лишь одна запись, пострадавшая от такого преобразования.
Эти извлечённые поисковые фразы затем декодируются и аккумулируются как счётные величины. Важно понимать, что поисковые запросы учитываются вне зависимости от того, какая именно поисковая система их предоставила; в общем реестре собраны абсолютно все фразы, которые поступали с помощью всех поисковых сервисов, известных системе. Запросы, сформулированные не на русском или английском языках, декодированию не подвергаются.

Отклонение, присущее данному методу, составляет 2,5% пользователей, отказавшихся от выполнения скриптов Java, плюс около 5–5,5% — это типичная статистическая погрешность, возникающая при анализе текстовых строк (сюда входят проблемы с кодировкой, некорректно сформированные или поврежденные запросы, а также изменения в формате поисковых систем).
В подсчет ключевых слов не включаются те фразы, которые были набраны через второстепенные поисковые сервисы. К примеру, поисковые запросы, приведшие посетителя на ресурс через каталог или рейтинг, в большинстве ситуаций не попадут в учет ключевых фраз, а сам переход будет классифицирован как пришедший из соответствующего каталога/рейтинга.
Антон Каропович
----------
Подборки :: Аналитика • Безопасность • Интернет