Все сайты-участники системы устанавливают на страницах своего сайта специальные фрагменты HTML-кода, содержащего в себе java-скрипт и команду вызова картинки счетчика. С помощью этого кода система собирает сведения о посещениях страниц, путях перемещения пользователей по сайту, некоторых технических характеристиках компьютера пользователя, параметрах его подключения к Интернету и некоторые другие данные.
Каждому пользователю, который зашел на страницу сайта, содержащую код счетчика, система присваивает уникальный идентификационный номер, который хранится в базе данных и на компьютере пользователя в специальном cookie-файле. При заходе пользователя на другой сайт, также участвующий в системе, система «опознает» его. На основе этого механизма возможно построения маршрутов перемещения пользователей по всему Рунету.
Погрешности метода складываются из пользователей, которые запретили на своем компьютере java-скрипт и прием cookie-файлов (около 4% пользователей). Такие пользователи будут безошибочно идентифицироваться в течение одной сессии подключения к сайту, но информация об их перемещениях в течение всей сессии подключения к Интернету, а также по возвратам на сайт через некоторое время будет недоступна.
Метод суммирования данных
В зависимости от типов данных, полученные в ходе исследования цифры могут быть суммируемые или несуммируемыми. При исследовании посещаемости в обязательном порядке учитывалась суммируемость или не суммируемость данных.
Суммируемыми данными являются все те данные, над которыми можно производить любые требуемые математические операции без потери их смысла. То есть, суммируемыми являются следующие данные: хиты, сессии, загрузки – их можно произвольно складывать для сайта по часам, дням, неделям и т.д.
Несуммируемыми данными являются: посетители, ядро, недельная активная аудитория, хосты. Простое сложение количества посетителей не является осмысленной цифрой, поэтому при расчете суммы несуммируемых данных необходим учет их пересечений. Количество посетителей в неделю означает количество уникальных посетителей (определяемых по уникальным ID, присваиваемым каждому пользователю), посетивших данный ресурс в течение исследуемого периода.
Метод обработки данных по ссылающимся серверам
Ссылающиеся сервера определяются на основе входящего трафика, то есть на основе данных о ссылающейся странице (referrer), полученных с помощью java-счётчика. Данные о ссылающейся странице заносятся в базу данных и потом суммируются по исследуемой группе сайтов, как суммируемые. Следует отметить, что для каждого отдельного сайта записывается не весь объем ссылающихся страниц, а первые 200 за каждый день (в эти границы попадают все ссылки с частотностью более 1). Таким образом, сумма всех показателей может быть меньшей 100. В то же время, при расчете доли той или иной ссылающейся страницы учитывается весь объем определенных ссылок. После определения всего массива ссылающихся страниц, они группируются по виртуальным серверам с точностью до домена. Виртуальные сервера выстраиваются в порядке убывания количества сессий, сделанных «от них».
Ошибка метода составляет около 2,5% (пользователи, у которых отключен java-скрипт). В то же время, этот метод значительно более точен, чем ранжирование по исходящему трафику (который может быть заявлен самой системой), поскольку в нем не учитываются клики-невидимки (человек не дождался загрузки страницы) и двойные клики, которые могут составлять в некоторых случаях до 30%. Таблица «ссылающиеся сервера» включает в себя полный, нефильтрованный список ссылающихся серверов, полученных вышеописанным способом.
Метод обработки данных по трафику с поисковых машин, рейтингов и каталогов
В базе данных содержится отмодерированная информация о большинстве поисковых машин, рейтингов и каталогов Рунета, а также о наиболее крупных зарубежных каталогах и поисковых машинах. По виду referrer и её содержанию определяется принадлежность ссылки к тому или иному типу трафикогенераторов, после чего происходит разбор ссылки.
Для некоторых сайтов требуется разбор строки (например, если на сайте есть и поисковая система, и каталог), для других – нет. В большинстве своем не требуют разбора мелкие каталоги и рейтинги, которые передают в referrer только адрес без дополнительных параметров.
Таким образом, система ранжирует поисковые машины, рейтинги и каталоги по количеству пользователей, которые пришли с них на данный сайт или группу сайтов. Таким образом, популярность каталогов замеряется не на основе их посещаемости, но на основе количества проецируемого ими трафика. Погрешности метода составляют те же 2,5% пользователей, отключивших java-скрипт, о которых уже говорилось выше.
Метод получения списков поисковых фраз
Система определяет поисковые слова и фразы на основе разбора строк referrer от поисковых машин, как это было показано выше. При разборе строки из нее вынимается поисковая фраза и, при необходимости, перекодируется в единую для всех кодировку. В некоторых условиях последняя операция может привести к неудобоваримому результату, но вероятность такого события низка. В общем списке поисковых фраз, можно увидеть только одну такую запись.
Поисковые фразы раскодируются и суммируются как суммируемые величины. Следует учитывать, что поисковые фразы не зависят от поисковой машины и в общем списке приводятся все поисковые фразы, которые были запрошены на всех известных системе поисковых машинах. Поисковые фразы не на русском или английском языках не раскодируются.
Погрешность метода – это 2,5% пользователей, запретивших исполнение java-скриптов, а также примерно 5-5,5% – средняя статистическая погрешность ошибок разбора строки (неправильная кодировка, пустой или испорченный запрос, изменившийся формат на поисковой машине).
В списке ключевых слов не учитываются ключевые слова, введенные на вспомогательных поисковых машинах. Например, поисковые фразы, по которым была найдена ссылка на сайт в каталоге или рейтинге учтены в большинстве случаев не будут, а ссылка будет помечена, как переход с соответствующего каталога или рейтинга.
----------
Подборки :: Аналитика • Безопасность • Интернет