CLF: минимальный набор полей, хранимых в журнале
- IP-адрес клиента.
- Идентификационный номер пользователя.
- Время обращения.
- Метод запроса HTTP (GET, POST и т.д.)
- Путь к запрашиваемому ресурсу.
- Использованный протокол.
- Ответ сервера (200 - "все хорошо", 404 - "ресурс не найден" и т.д.)
- Объем переданной информации.
Идея очистки состоит в удалении из рассмотрения всех тех объектов, к которым пользователь прямо не обращался при своем путешествии по сайту, сюда также попадают файлы сценариев или таблицы стилей. Иногда, пользователь явно запрашивает графические файлы, для таких случаев в программе очищающей журнал должна быть предусмотрена модификация фильтра.
***Техника обнаружения ассоциаций обычно применяется к базам данных транзакций, где каждой транзакции соответствуют несколько полей. В таком случае задача состоит в обнаружении всех взаимосвязей между наличием одних или отсутствием других полей в транзакции. В терминах использования сети это означает обнаружение связей между обращениями к различным файлам от одного клиента, например, 80% клиентов, запросивших файл sql.rar, также запросили sql.r00; 30% клиентов, обращавшихся за этим файлом, прошли регистрацию.