ЛКС - Мониторинг новостных сайтов и RSS. Технология сбора и конвертирования данных

 

Существующие разработки компании позволяют в автоматическом режиме собирать информацию с разных источников сети Интернет: новостные сайты, блоги, форумы, социальные сети, порталы госзакупок и другие сайты, а в системе "ЛКС Аналитика", устанавливаемой на Вашей технической базе, источником для мониторинга могут быть и внутренние ресурсы - электронная почта, ftp, файловая система и др. Стандартный механизм, применяемый для создания базы данных, состоит в загрузке сообщений с Интернет-сайтов и конвертировании документов из внутренних источников:

 

Загрузка документов

Сбор новостных сообщений с сайтов осуществляется посредством специализированного модуля - Интернет-паук. Модуль настраивается специальным образом на каждый источник и собирает с него всю вновь появляющуюся новостную информацию. При этом из страницы модуль извлекает заголовок документа, текст документа, дату публикации новости, и ее постоянный адрес  Модуль может быть настроен на любой сайт, поддерживает RSS, сайты с аутентификацией, возможность выгрузки архивов сообщений с сайтов.

Модуль периодически через установленный для сайта интервал обходит основные страницы и собирает вновь появившиеся ссылки на новости. При нахождении еще не загруженных новостей модуль переходит по ссылке и загружает сам текст новости, при этом очищая его от рекламы и другого мусора, не относящегося к тексту новости.

Кроме самой загрузки новостей модуль занимается мониторингом самого сайта и в случае, если дизайн сайта поменялся, сообщает о необходимости доработки шаблона сайта.

 

Конвертирование документов

Работа с другими источниками информации (FTP, электронной почтой, документами в различных форматах на локальных дисках) осуществляется посредством модуля конвертирования документов. Модуль позволяет загружать из перечисленных выше источников документы в различных форматах, конвертировать их в унифицированный формат, извлекать из документов необходимые для работы поля (дату публикации, источник, заголовок, текст). Также модуль может разделять составные документы (например обзор СМИ за месяц) на множество простых документов (одна новость), при этом выделяя необходимые поля для каждого простого документа. Все найденные и обработанные документы выгружаются в унифицированный формат.