«Элементарно, Ватсон!» Заместитель генерального директора ЗАО «МНИТИ» по научной работе К.Быструшкин

Как совершенно справедливо утверждал Натан Ротшильд,
основатель английской ветви известной династии: «Кто владеет
информацией, тот владеет миром». В мире телевизионном эта аксиома
актуальна вдвойне, так как рейтинги ведущих телеканалов в
значительной степени формируются информационными программами их
службы новостей. На первый взгляд современные телекоммуникации и
Интернет позволяют одним кликом мышки практически мгновенно найти
любую информацию в режиме реального времени и всегда быть в курсе
последних новостей. «И нет проблем!» как говорила героиня из
популярного кинофильма «Блондинка за углом». На самом деле
проблемы есть, и они стремительно растут со скоростью снежного кома.

Оборотная сторона медали
Любой активный пользователь Интернета прекрасно знает, что в
популярных поисковиках типа Яндекс (Yandex), Гугл (Google) и ets. на
любой поисковый запрос о «горячих» новостях вы тут же получаете
длиннющий список ссылок на сайты информационных агентств,
телекомпаний и т.д. Но радоваться рано, так как практически все они
ссылаются на один-два первоисточника, часто даже не удосуживаясь
давать собственный комментарий. При этом переход на другие
«поисковые машины» в надежде получить какую-то дополнительную
интересную информацию по этому вопросу часто кончается ничем.
Изменение параметров поиска и ключевых слов, как правило, помогает
мало, так как в конце путешествия по цепочке ссылок чаще всего
окажутся все те же первоисточники. Круг замкнулся.
Парадокс заключается в том, что объёмы информации все время
стремительно растут, а пользоваться ею становится все труднее. Ещё в
2012 г. международная исследовательская и консалтинговая компания
IDC (International Data Corporation) в своём знаменитом отчёте «Big Data,
Bigger Digital Shadows and Biggest Growth in the Far East» отмечала
беспрецедентный рост информации в мире, объем которой удваивается
каждые два года.

По прогнозам IDC, в 2020 г. по всему миру будет создано и
использовано 2,8 зеттабайта данных, а их общий объем достигнет 40
зеттабайт. Для того чтобы попытаться наглядно представить этот
невообразимый объем информации, в обзоре приводятся такие
аналогии:
— Количество песчинок на всех пляжах Земли составляет 700
500 000 000 000 000 000 (или семь квинтильонов пять квадриллионов).
40 зеттабайт — это в 57 раз больше, чем количество песчинок на всех
пляжах планеты.

  • Если записать 40 зеттабайт данных на современные диски
    Blu-ray, общий вес дисков (без бумажной и пластиковой упаковки) будет
    равен весу 424 авианосцев!
    Есть над чем задуматься. Тем более, что по данным IDC
    анализируется в лучшем случае 1.5 % этой информации (!).

Как видим, в накрывшем человечество девятом вале информации
найти крупицы действительно полезных и интересных данных
становится все труднее и труднее. В том числе телевизионным
компаниям, которые давно утратили монополию поставщика самых
свежих новостей, сдавая одну за другой, казалось бы, непоколебимые
позиции в информационном пространстве. Потому что, несмотря на
отмеченные выше ограничения поисковиков, Интернет и социальные
сети стремительно отбирают у телевидения самую активную и
любознательную часть их аудитории.

Чтобы противостоять этим негативным тенденциям телеканалы и
телевизионные компании постоянно укрепляют свои аналитические
службы, сотрудники которых непрерывно мониторят российские и
мировые СМИ в поисках эксклюзивной информации. Естественно, при
этом квалифицированные эксперты широко используют достижения
современных IT технологий, в том числе профессиональные системы
мониторинга, способные в автоматическом режиме перелопачивать
огромные объёмы информации в разумные сроки (информация, как
известно, товар скоропортящийся).

Об одной из таких систем, созданной в Московском научно-
исследовательском телевизионном институте (ЗАО «МНИТИ») — наш
рассказ.
Его пример – другим наука
ЗАО «МНИТИ» является многопрофильной научно-
исследовательской компанией, проводящей исследования и разработки
широкого спектра информационных технологий и телевизионной
аппаратуры. Одной из наиболее интересных разработок института
последних лет является создание технологии «интеллектуальной»
программно-аппаратной платформы автоматического мониторинга
открытых источников для поиска нужной информации, обработки,
анализа и хранения собираемых данных. От конкурирующих
«поисковиков» разработка ЗАО «МНИТИ» выгодно отличается
масштабируемостью, обучаемостью, возможностью синхронного поиска
информации в различных информационных средах с использованием
постоянно обновляемых лингвистических словарей с автоматической
геопространственной привязкой данных к месту их получения.
В первом варианте системы, работа над которой началась почти
десять лет назад, задачи ставились гораздо скромнее. Разработчики 1-го
поколения системы «смарт – мониторинга» попытались просто
автоматизировать сбор, обработку и анализ данных эфирного
телевидения с целью систематизации информации о том, как часто в них
обсуждаются актуальные российские и международные новости. При
этом фиксировалась не просто частота упоминаний и цитирования
высказываний ведущих политиков в электронных СМИ, но проводилась
их систематизация с документированием статистики. Затем зона поиска
и анализа информации была расширена на область интернет-
телевидения, а в последующем к ней были присоединены и другие
открытые источники информации, включая социальные сети.
Результаты работы даже 1-го поколения системы мониторинга ЗАО
«МНИТИ» позволило значительно облегчить работу персонала службы
новостей, так как он позволял практически мгновенно осуществлять
поиск и извлечение из архива любой требуемой по ходу передачи
информации.

Например, во время визита Президента России В.Путина в Китай
можно было извлечь и ретроспективно исследовать материалы
информационных программ освещения его предыдущих встреч с
Председателем КНР, Генеральным секретарём ЦК КПК Си Цзиньпинем.
Причём материалы не только российских и китайских, но и других
зарубежных телекомпаний и СМИ на их родных языках.
Даже этот простой пример показывает, что использование
подобного «умного поисковика» позволит поднять качество работы
журналистов информационных программ на принципиально иной,
гораздо более высокий профессиональный уровень.

А ведь эти «простые» с точки зрения сегодняшнего уровня
технологий задачи были решены в ЗАО «МНИТИ» ещё в далёким 2010
году! Именно тогда был создан и успешно испытан первый вариант
Геоинформационной системы тематического мониторинга теле-,
радиовещания и Интернета (для краткости будем условно называть её
«Система Мониторинга ТВ/Интернет», или просто «Система»).
Как мы уже упоминали, «Система» является программно-
аппаратной платформой, объединяющей в единый комплекс
высокопроизводительные серверы, «перемалывающие» на лету
огромные объёмы информации, собственно «умные» поисковые
программы и, наконец, дружественный пользователю интерактивный
графический интерфейс, максимально упрощающий взаимодействие
компьютера и оператора для повышения эффективности поиска
информации.

Благодаря целому ряду уникальных технических решений и
использованию специальных, составленных профессиональными
лингвистами, словарей на различных языках народов мира, «Система
Мониторинга ТВ/Интернет» обеспечивает непрерывное автоматическое
сканирование открытых телевизионных каналов (эфирных, кабельных,
спутниковых, IPTV) и электронных СМИ (включая их сайты) по всему
миру. При этом она осуществляет сбор, обработку, анализ,
систематизацию и геопространственную привязку и визуализации
информации, полученной в результате мониторинга.
Эксклюзивными особенностями системы ЗАО «МНИТИ», выгодно
отличающую ее от существовавших на тот момент времени систем
мониторинга открытых источников являлись:
— возможность совместной автоматической обработки разнородных
(фото, видео, аудио, текстовых и картографических) данных;
— распознавание текстов и речевых сообщений с переводом их в
электронный вид с возможностью распечатки и иных способов представления
данных;
— возможность автоматической геопространственной привязки
собираемой информации.

Указанные особенности до сих пор являются важнейшим
конкурентным преимуществом как первого, так и последующих
(значительно более совершенных) вариантов данной «Системы» и
перед российскими, и перед зарубежными аналогами.
Новизна разработанной «Система Мониторинга ТВ/Интернет» и её
ключевые алгоритмы были зафиксированы в Патенте RU 87280, МПК
G06F 17/30, полученном коллективом разработчиков ЗАО «МНИТИ» в
2011 г. А в 2012 г. эта «Система» прошла своего рода международный
аудит, так как была представлена на Международной выставке
изобретений и новых технологий (г. Куньшань, КНР). Большая Золотая
медаль салона красноречиво свидетельствует, что данная разработка на
тот момент соответствовала уровню «лучших мировых образцов».

Патенты и свидетельства ЗАО «МНИТИ» на систему мониторинга
Однако, так как тема поиска и систематизации информации
чрезвычайно востребована в наши дни, разработчики ЗАО «МНИТИ» не
могут позволить себе почивать на лаврах и непрерывно работают над
совершенствованием своей системы.
Тем более, что конкуренция растёт день ото дня, и в данном
сегменте рынка помимо ЗАО «МНИТИ» в России успешно работают
такие сильные компании как «Медиалогия», «Катюша», 3i Technologies и
др.

Гонка за лидером
Разработчиком системы мониторинга «Катюша» является компания
«М-13». По заявлению представителей компании, система
разрабатывалась на деньги частных инвесторов без привлечения
государственных средств.
Клиентами, использующими данную систему мониторинга,
являются такие крупные заказчики как подразделения Министерства
обороны РФ, правительство РФ и пресс-служба Президента России. В
своей работе «Катюша» использует 20 тыс. источников СМИ.
Подаваемая пользователю информация проходит автоматизированную
премодерацию, вследствие чего аналитик получает отфильтрованное
информационное поле, в котором отсутствуют лишние, по мнению
эксперта-модератора, события.

Разработчиком системы мониторинга «Медиалогия» является
одноименная компания, принадлежащая ООО «ИБС-Холдинг». Ранее
указанная компания инвестировалась американской группой Citibank и
была эксклюзивным дистрибьютором британской корпорации Dell.
«Медиалогия» является поставщиком услуг в области мониторинга
СМИ многим предприятиям и организациям России. В своей работе
«Медиалогия» использует около 32 тыс. источников СМИ.
Система мониторинга средств массовой информации «Скан»
разработана в «Интерфаксе». Эта система нацелена на мониторинг
базы данных СМИ Интерфакса, анализ собранных данных и создание

отчётов. Основные её пользователи, это те, кто делают новости и
занимаются анализом медиасферы: главные редакторы, специалисты
мониторинга, отраслевые журналисты, PR-специалисты,
медиатехнологи, специалисты служб безопасности. Одним словом, все
те, кто составляет медийные отчёты, проверяет контрагентов и борется
с информационным негативом.

Консорциум 3i Technologies учрежден в 2014 г. компаниями DSS
Lab и InfoQubes, в 2016 г. к нему присоединилась компания PROMT.
Консорциум объединяет российских разработчиков технологий,
продуктов и сервисов для интеллектуальной обработки больших
массивов разнородных данных и позиционирует себя на рынке как
компания информационной поддержки бизнеса, делая основной упор на
распознавание образов, анализ мультимедийных данных и аудиоархивов
большого объёма.

Как видно из приведённого обзора на рынке информационных
услуг России стали появляться компании, владеющие передовыми
технологиями по сбору и анализу информации, которые имеют все
необходимые составляющие для успешного продвижения. Но, несмотря
на это, можно сказать, что рынок «интеллектуальных» информационных
услуг в России ещё не сформирован, и поэтому по уровню
насыщенности (по объёму и структуре) его можно отнести к категории
дефицитного рынка.

В чем же секрет успеха разработки ЗАО «МНИТИ», которая нашла
и прочно занимает свою особую нишу как IT-продукт премиального
класса на высоко конкурентном рынке «интеллектуальных» систем
мониторинга?

Высокую эффективность решения целевых задач существующим в
настоящее время вариантом системы мониторинга открытых источников
ЗАО «МНИТИ» обеспечивает единство трёх её основных составляющих:
— высокопроизводительного комплекса технических средств,
— специального программного обеспечения (СПО) собственной
разработки, обеспечивающего мониторинг открытых источников, сбор,
обработку, анализ и геопространственную привязку разнородных данных;
— собственного информационно-лингвистического обеспечения,
позволяющего автоматизировать процессы тематического мониторинга
открытых источников.

Основу комплекса технических средств системы составляют
высокопроизводительное серверное оборудование, рабочие станции и
средства отображения информации, объединённые коммуникационными
средствами в локальные вычислительные сети.

В составе комплекса используется современное
высокотехнологичное оборудование. Модульные платформы позволяют
объединять высокопроизводительные сервера обработки данных и
сервера хранения данных большой ёмкости. Высокая скорость обмена и
обновления информации обеспечивается за счет передачи данных

между серверами и системами хранения данных по оптоволоконной
ЛВС. Дисковые массивы с многократным резервированием позволяют
избежать сбоев и исключить остановку комплекса.
Система непрерывного контроля работоспособности комплекса
показывает состояние всех его компонентов в режиме реального
времени. В случае аварийных ситуаций, например, долгосрочного
отключения питания, она автоматически штатно выключает все системы,
что позволяет избежать ошибок и сбоев в работе комплекса.
СПО собственной разработки позволяет обеспечить реализацию
наиболее сложных процессов поиска, обработки и представления
информации, включая процессы поиска и селекции информации с
анализом смыслового содержания для каждого типа обрабатываемых
входных данных, осуществления пространственной привязки
смыслового контекста, совместного анализа и визуализации
разнородных материалов.

В частности, применительно к сбору видеоданных в ходе
мониторинга эфирного и интернет-телевидения и др. источников
данное СПО способно:
— вести запись вещательного потока в формате 24/7;
— выполнять периодическую запись в установленное время;
— выполнять разовые записи по расписанию;
— вести базу метаданных записанного контента;
— добавлять в архив видеоматериалы пользователя;
— производить отбор (сортировку) собранного материала по дате и
времени записи, источнику (вещательному каналу), метаданным пользователя;
— производить поиск и отбор видеоматериала из архива по
аудиоданным (словам) при установке модуля распознавания речи
(транскрибирование – создание транскриптов), в том числе и на иностранных
языках;
— просматривать отобранный материал с использованием
инструментов навигации (перемотки, ускоренного просмотра);
— сохранять и передавать отобранный материал в заданном формате
внешнему потребителю;
— вести учет возможного доступного объема для записи данных;
— производить автоматизированную очистку архива (удаление) по
сроку давности хранимых материалов;
— возможность записи вещательного контента из сети Интернет
(Интернет- телевидение);
— получение, извлечение, отображение и автоматическое сохранение
метаданных программы передач из различных интернет-источников (сайтов).
Программное обеспечение ЗАО «МНИТИ» реализовано по клиент-
серверной технологии. Серверная часть программы работает в
автономном режиме без участия оператора и отвечает за сбор контента.
Клиентская часть обеспечивает доступ пользователю к содержимому
архива.

Кросс-платформенная реализация программного обеспечения
позволяет ему работать как под управлением ОС семейства Windows,
так и под управлением Linux-систем, в том числе и защищённых
отечественных ОС Астра-Линукс.
Архитектурная реализация позволяет выполнять масштабирование
комплекса для приёма любого количества контента.
Информационно-лингвистическое обеспечение состоит из
разработанных под конкретные целевые задачи тематических и
географических словарей, наборов картографических данных,
используемых при пространственной привязке и визуализации
результатов и др.

В частности, в настоящее время для автоматического мониторинга
открытых источников и выбора данных по заданной тематике в
распоряжении ЗАО «МНИТИ» имеется целый ряд тематических
словарей собственной разработки, как на русском, так и на английском,
а также других языках мира.
Таким образом, разработанная в инеституте система мониторинга
открытых источников позволяет обеспечить решение широкого круга
задач в интересах различных федеральных, региональных и
муниципальных органов власти и управления, промышленных
корпораций, торговых сетей, отдельных предприятий и организаций
России.

Контроль природных пожаров по материалам региональных СМИ
И нет проблем!
Как видим, уровень разработок ведущих российских IT компаний
вполне соответствует мировому, и слухи о том, что мы безнадёжно
отстали в технологической гонке от зарубежных «партнеров» оказались
«несколько преувеличенными». По крайней мере, в сегменте

интеллектуальных поисковых систем, разработки ЗАО «МНИТИ» и его
российских коллег вполне конкурентоспособны.
С такой системой Шерлок Холмс при необходимости срочно найти
нужную ему для раскрытия очередного дела информацию мог бы смело
сказать своему другу и напарнику доктору Ватсону — «Элементарно,
Ватсон». И был бы совершенно прав!

Источник: «Телеспутник» №2 за 2018 г.

Leave a Reply

Ваш e-mail не будет опубликован. Обязательные поля помечены *