Методы сбора и оценки данных в Интернете • Статья

Все сайты-участники системы устанавливают на страницах своего сайта специальные фрагменты HTML-кода, содержащего в себе java-скрипт и команду вызова картинки счетчика. С помощью этого кода система собирает сведения о посещениях страниц, путях перемещения пользователей по сайту, некоторых технических характеристиках компьютера пользователя, параметрах его подключения к Интернету и некоторые другие данные.

Каждому пользователю, который зашел на страницу сайта, содержащую код счетчика, система присваивает уникальный идентификационный номер, который хранится в базе данных и на компьютере пользователя в специальном cookie-файле. При заходе пользователя на другой сайт, также участвующий в системе, система «опознает» его. На основе этого механизма возможно построения маршрутов перемещения пользователей по всему Рунету.

Погрешности метода складываются из пользователей, которые запретили на своем компьютере java-скрипт и прием cookie-файлов (около 4% пользователей). Такие пользователи будут безошибочно идентифицироваться в течение одной сессии подключения к сайту, но информация об их перемещениях в течение всей сессии подключения к Интернету, а также по возвратам на сайт через некоторое время будет недоступна.

Метод суммирования данных

В зависимости от типов данных, полученные в ходе исследования цифры могут быть суммируемые или несуммируемыми. При исследовании посещаемости в обязательном порядке учитывалась суммируемость или не суммируемость данных.

Методы сбора и оценки личных данных в Интернете, фото 1

Суммируемыми данными являются все те данные, над которыми можно производить любые требуемые математические операции без потери их смысла. То есть, суммируемыми являются следующие данные: хиты, сессии, загрузки – их можно произвольно складывать для сайта по часам, дням, неделям и т.д.

Несуммируемыми данными являются: посетители, ядро, недельная активная аудитория, хосты. Простое сложение количества посетителей не является осмысленной цифрой, поэтому при расчете суммы несуммируемых данных необходим учет их пересечений. Количество посетителей в неделю означает количество уникальных посетителей (определяемых по уникальным ID, присваиваемым каждому пользователю), посетивших данный ресурс в течение исследуемого периода.

Метод обработки данных по ссылающимся серверам

Ссылающиеся сервера определяются на основе входящего трафика, то есть на основе данных о ссылающейся странице (referrer), полученных с помощью java-счётчика. Данные о ссылающейся странице заносятся в базу данных и потом суммируются по исследуемой группе сайтов, как суммируемые. Следует отметить, что для каждого отдельного сайта записывается не весь объем ссылающихся страниц, а первые 200 за каждый день (в эти границы попадают все ссылки с частотностью более 1). Таким образом, сумма всех показателей может быть меньшей 100. В то же время, при расчете доли той или иной ссылающейся страницы учитывается весь объем определенных ссылок. После определения всего массива ссылающихся страниц, они группируются по виртуальным серверам с точностью до домена. Виртуальные сервера выстраиваются в порядке убывания количества сессий, сделанных «от них».

Методы сбора и оценки личных данных в Интернете, фото 2

Ошибка метода составляет около 2,5% (пользователи, у которых отключен java-скрипт). В то же время, этот метод значительно более точен, чем ранжирование по исходящему трафику (который может быть заявлен самой системой), поскольку в нем не учитываются клики-невидимки (человек не дождался загрузки страницы) и двойные клики, которые могут составлять в некоторых случаях до 30%. Таблица «ссылающиеся сервера» включает в себя полный, нефильтрованный список ссылающихся серверов, полученных вышеописанным способом.

Метод обработки данных по трафику с поисковых машин, рейтингов и каталогов

В базе данных содержится отмодерированная информация о большинстве поисковых машин, рейтингов и каталогов Рунета, а также о наиболее крупных зарубежных каталогах и поисковых машинах. По виду referrer и её содержанию определяется принадлежность ссылки к тому или иному типу трафикогенераторов, после чего происходит разбор ссылки.

Для некоторых сайтов требуется разбор строки (например, если на сайте есть и поисковая система, и каталог), для других – нет. В большинстве своем не требуют разбора мелкие каталоги и рейтинги, которые передают в referrer только адрес без дополнительных параметров.

Методы сбора и оценки личных данных в Интернете, фото 3

Таким образом, система ранжирует поисковые машины, рейтинги и каталоги по количеству пользователей, которые пришли с них на данный сайт или группу сайтов. Таким образом, популярность каталогов замеряется не на основе их посещаемости, но на основе количества проецируемого ими трафика. Погрешности метода составляют те же 2,5% пользователей, отключивших java-скрипт, о которых уже говорилось выше.

Метод получения списков поисковых фраз

Система определяет поисковые слова и фразы на основе разбора строк referrer от поисковых машин, как это было показано выше. При разборе строки из нее вынимается поисковая фраза и, при необходимости, перекодируется в единую для всех кодировку. В некоторых условиях последняя операция может привести к неудобоваримому результату, но вероятность такого события низка. В общем списке поисковых фраз, можно увидеть только одну такую запись.

Поисковые фразы раскодируются и суммируются как суммируемые величины. Следует учитывать, что поисковые фразы не зависят от поисковой машины и в общем списке приводятся все поисковые фразы, которые были запрошены на всех известных системе поисковых машинах. Поисковые фразы не на русском или английском языках не раскодируются.

Методы сбора и оценки личных данных в Интернете, фото 4

Погрешность метода – это 2,5% пользователей, запретивших исполнение java-скриптов, а также примерно 5-5,5% – средняя статистическая погрешность ошибок разбора строки (неправильная кодировка, пустой или испорченный запрос, изменившийся формат на поисковой машине).

В списке ключевых слов не учитываются ключевые слова, введенные на вспомогательных поисковых машинах. Например, поисковые фразы, по которым была найдена ссылка на сайт в каталоге или рейтинге учтены в большинстве случаев не будут, а ссылка будет помечена, как переход с соответствующего каталога или рейтинга.

----------

Подборки :: Аналитика • Безопасность • Интернет

Методология сбора и оценки данных в Интернете

Метод суммирования данных

Метод обработки данных по ссылающимся серверам

Метод обработки данных по трафику с поисковых машин, рейтингов и каталогов

Метод получения списков поисковых фраз

Ещё пара спонтанных, но забористых записей