Интернет-среда сильно зашумлена, необходим какой-то способ автоматического распознавания типа и качества текстов, чтобы знакомиться с лучшими из них, не тратя силы понапрасну.
Фото пресс-службы компании Intel
Если интернет, очень утрированно, можно представить как хранилище огромного количества разрозненной информации, то так называемый web 3.0 – это хранилище осмысленной информации. Хотя интернет-поисковики выдают миллион ссылок по запросу, известно, что 70% пользователей смотрят не более десяти первых. То есть, как правило, вы сужаете весь информационный массив до какой-то «попсы» и начинаете манипулировать только ею. Путь человека до нужного ему информационного продукта измеряется не временем, а качеством продукта, который он получает┘ Функциональность web 3.0 – это когда мы вводим не только поисковый сервис, но и функцию аналитической обработки материалов. В рунете вот уже несколько лет работает рекомендательный сервис на основе коллаборативной фильтрации – имхонет. «Программный движок имхонета способен не только работать с разными типами контента, но и генерировать кросс-культурные рекомендации. Например, на основании литературных предпочтений подсказать абоненту кинофильмы, и наоборот. Базы оценок, наработанные в каждой из областей, способствуют уточнению прогнозов по другим видам искусства и досуга», – подчеркивает профессор ГУ – Высшая школа экономики, управляющий рекомендательным сервисом Имхонет Александр Долгин. С ним мы беседуем о будущем интеллектуальных сервисов в интернете. То, что часто называют сегодня – семантический веб.
– Александр Борисович, на имхонете недавно открылся раздел web 3.0, позволяющий пользователям находить субъективно значимую информацию в общем потоке новостей, фото- и видеоматериалов – аналитику на злобу дня, блоговые записи, шутки, ссылки и прочий актуальный контент. Итак, перед нами новая функциональность? Семантическая сеть?
– Действительно, до недавнего времени под термином web 3.0 подразумевали так называемый семантический веб – компьютерный лингвистический анализ содержимого файла. Идея третьего веба, web 3.0, появилась в связи с тем, что интернет-среда сильно зашумлена, необходим какой-то способ автоматического распознавания типа и качества текстов, чтобы знакомиться с лучшими из них, не тратя силы понапрасну.
С моей точки зрения, ларчик проще открывается другим ключом – с помощью так называемой технологии коллаборативной фильтрации. В этом случае качество анализируют сами читатели, которые делят работу по апробации контента и обмениваются своим частным опытом. Хотя суждения (оценки), которые выдают пользователи, грешат субъективностью, но они адресуются только единомышленникам – людям, для которых имеют субъективную ценность! То есть субъективная сертификация качества соответствует субъективным же представлениям о том, что такое качество.
– Первые версии рекомендательных сервисов на основе коллаборативной фильтрации появились около 15 лет назад. Что нового добавляет предложенный вами сервис?
– С моей точки зрения, пользовательская фильтрация контента, или третий веб, – важнейшая ступень эволюции интернета. Чтобы понять – почему, напомним в общих чертах суть второго веба.
Web 2.0 – это пользовательская генерация текстов и изображений (user generated content). Пользователи пишут что хотят, выкладывая свои записки и фотовидеосъемку в слегка каталогизированные кучки без ранжирования качества. Понятно, почему столь популярен web 2.0. Для создателей сайтов – это способ получать контент бесплатно. В интернете платят неохотно, а серверы и прочую инфраструктуру содержать нужно. Если еще и контент создавать за свой счет, то поддержание сайта становится вовсе накладным (профессиональная редакция – самая весомая статья затрат).
Поэтому переходят на «подножный корм» – контент создают сами пользователи. А те и рады, поскольку получают замечательную площадку для общения и самовыражения. И все бы хорошо, но самодеятельность есть самодеятельность: пользователи пишут и снимают, как умеют: выискивать по крупицам качественный контент – отдельная работа.
Web 3.0 отличается от web 2.0 тем, что пользователи не только находят или создают контент, но и сами же его фильтруют. Собственно, на этом принципе – пользовательской фильтрации – и построен имхонет.
– Получается, что из общей морфологии сети можно выделять какие-то интересующие точки, структуры, которые невооруженным глазом и не видны чаще всего. Но кто оценит качество этой фильтрации?
– А в третьем вебе не важно, кто генерирует контент – юзеры или профи, – он растет из разветвленной грибницы культуры: сотни тысяч песен в год, 250 приличных фильмов плюс десятикратно большее чисто коммерческих лент, миллионы текстов и множество прочих объектов┘ Всю эту «информационную массу» сообщество имхонета сертифицирует и расфасовывает в соответствии с разными этажами вкусовой вертикали, чтобы каждый мог получать то, что ему нужно.
И тут обнаруживается одна подзадача, которая не выходит за рамки базовой технологии фильтрации контента, но имеет особое прикладное значение. Это – актуальный контент: новости, статьи, эссе, аналитика на злобу дня, смешные ролики и фото, блоговые записи, анекдоты и проч., и проч. Это информация с коротким жизненным циклом, поэтому она как ничто другое нуждается в фильтрации. О фильме-лауреате Каннского фестиваля рано или поздно все равно услышишь. Существует, правда, очень хорошее кино, которое показывают на фестивалях второго-третьего ряда и которое никогда так и не попадает в широкий прокат – ему рекомендательный сервис помогает выйти из забвения. Но тут нет таких зажатых временных рамок.
Другое дело актуальный, ситуационный, быстроустаревающий контент. Здесь пользовательская фильтрация (user certificated) особенно важна. И это главная задача web 3.0 – сертификация новостного, злободневного контента.
Люди выкладывают в этот раздел все, что их зацепило, – новости, видео, шутки, истории, забавные картинки, серьезную аналитику, ссылки┘ А фирменный коллаборативный движок фильтрует эти разнообразные месседжи в соответствии с предпочтениями каждого человека.
– Каковы все же основные параметры, по которым идет фильтрация?
– Информация структурируется следующим образом: общий поток; поток от друзей; рекомендуемое.
Если просматривать общий поток, он будет похож на информационные ленты других ресурсов. Уникальность разделу придает кнопка «рекомендуемое». Некоторые сайты, например ЖЖ или Рамблер.Друзья, выдают ленты активности друзей. Но это иной уровень обработки информации. Друзей не так много, и они вылавливают далеко не все в информационном потоке, что пользователя могло бы интересовать. Кроме того, у них другие вкусы и приоритеты.
Web 3.0 имхонета уникален тем, что предоставляет выборку от единомышленников, автоматически подобранных системой на основе близости вкусов и предпочтений. Буквально сделав пару кликов, человек получает рафинированный набор текстов и изображений. Технология освобождает его от необходимости «серфить» по сети, самостоятельно собирать и селекционировать все, что заслуживает внимания.