Web-NS. Первое приближение

Я все чаще замечаю в сети новые интересные интернет-сервисы. Pinterest, Tumblr, Prismatic, Gumroad - это самые выдающиеся, на мой взгляд, новинки. Что в них особенного? - Атомарность: сервисы сфокусированы на одной единственной задаче. А недавние событий с Instagram лишь подтвердили успешность этой модели (рекомендую в дополнение посмотреть презентацию “3 Lessons Businesses Could Learn from Instagram”). Но если я скажу, что мой интерес привлекла лишь атомарность, то утаю одну очень важную деталь - эти сервисы являются предвестниками Web 3.0 архитектуры сети. Но мое видение web’a следующего поколения несколько отличается от изложенного в Wikipedia. В Wiki четкое определение практически отсутствует, а то что есть можно изложить следующим образом: “Настольные компьютеры исчезнут, появится много высококачественных сервисов, а местами будет попахивать семантическим вебом”. Поэтому, чтобы не ввести пользователя в замешательство, свое представление о будущей концепции сети я отмечу как Web-NS. Итак, поговорим о грядущей всемирной паутине, поговорим о Web-NS.

Аббревиатура NS означает “Near Semantic”. Почему всего лишь “около семантический”? Концепция “Semantic Web” была придумана в начале 60-х годов. Идея сама по себе крайне интересная, но в ней присутствует очень много спорных моментов, главный из которых: “кто же будет снабжать содержимое сетевых ресурсов семантической информацией?”. В то же время, многие люди относятся к “Semantic Web” как к серебряной пули. Я же не считаю, что грядущие перемены в жизни сети станут идеальным воплощением концепции “Semantic Web”, но они будут очень тесно связаны с ней.

Появление социальных сетей и социальных медиа позволили создать огромную базу информации о людях, событиях, явлениях. Некоторые сетевые ресурсы непосредственно нацелены на сбор и аналитику пользовательских предпочтений и вкусов. К таковым можно отнести GetGlue. Я как-то уже упоминал о нем. Вкратце, сервис, основываясь на ранее внесенных вами в него предпочтениях, позволяет создавать список рекомендаций. Но ключевая проблема, на мой взгляд, заключается в том, что предпочтения вам приходится вносить самостоятельно, вручную. Кому захочется совершать регулярное паломничество в GetGlue лишь с одной целью - поставить “Like” свежеотсмотренному фильму, или прослушанной композиции? Посмотрим на проблему иначе - как мы слушаем музыку или смотрим фильмы? Мы можем а) ходить на концерты и посещать кинотеатры; б) прослушивать и просматривать медиконтент в сети; в) потреблять контент с различного рода устройств с помощью соответствующего ПО. Можно ли автоматизировать сбор информации о предпочтениях пользователя? Конечно! Для офлайн событий нам отлично подойдет такой сервис как Foursquare. Анализируем ленту check-in’ов человека, собираем информацию о киносеансах, совмещаем - и получаем список потенциально возможных потребленных человеком медиаданных. С плеерами и online-сервисами еще проще - информацию о просмотренных медиаданных можно успешно сохранять и, по согласию пользователя, передавать на тот же GetGlue. Первый подход можно назвать “crawling way”, второй - “direct delivery”. Рассмотрим эти подходы подробнее.

Direct delivery - прямая доставка около-семантической информации одним сервисом другому. И вновь “около”. На мой взгляд сервисы не обязаны создавать метаданные для событийного контента придерживаясь RDF-антологии (или OWL). Это желательна, но совсем не обязательно. Главное - наличие информации, снабжение же ее семантической основной - дело DA-сервисов, об этом чуть позже. Прямую доставку могут осуществлять как сетевые сервисы, так и desktop-приложения. Пожалуй, лучший пример direct delivery - RSS. Один ресурс порождает информацию, другие - могут на нее подписаться. RSS - это хороший пример с точки зрения концепции, но доставляемый им медийный контент крайне плох для использования. Причина - отсутствием упомянутой в самом начале статьи "атомарности". Большинство гипертекстового материала доставляемого средствами RSS непригодно для машинного использования без предварительного анализа и переработки. Но если ресурсы атомарны и оперируют узким набором типов данных, то контент будет крайне легко поддаваться автоматической обработке без дополнительных операций.

Crawling way - на мой взгляд это то, что решает проблему создания семантических метаданных для материалов предоставляемых сетевыми службами, или любыми иными системами, в том числе и desktop-приложениями. Crawling - составная часть процесса сбора данных ("data acquisition"). На мой взгляд, процесс создания семантических метаданных - это отдельный вид бизнеса в Web-NS архитектуре. Сервисы сбора данных (DA-сервисы) будут генерировать метаинформацию на основе одного или множества слабоструктурированных источников. Проблема наполнения информации семантическими связями более не ложится на плечи производителя данных. Если ранее, чтобы использовать какую-либо стороннюю надстройку над системами информационного оборота приходилось зачастую вносить изменения в существующую систему, то теперь это выглядит примерно так: "-Ребята, у вас есть отличные данные, и мы вам можем предоставить инструмент потрясающего управления ими. -Звучит здорово, но нам придется что-то менять? - Нет, вы будете работать так, как вы к этому привыкли. - Не может быть!? - Может, мы сами разберем вашу информацию, отсортируем и проиндексируем в лучшем виде. Но это еще не все - производимую нами метаинформацию поддерживает еще ряд систем.". Шикарно звучит, не правда ли? Если вы считаете, что это фантастика - то посетите сайт компании Inforbix, а в особенности уделите внимание этой статье.

Что будет способствовать развитию Web-NS. Рост вычислительных мощностей дает новый инструментарий семантическому вебу. В частности на сегодняшний день стало возможным построение семантических баз данных, эффективно работающих на больших наборах информации. Один из хороших примеров - Bigdata® RDF Database. Но подход использования семантических хранилищ коренным образом отличается от применяемого для построения интернет-ресурсов на реляционной основе. В интернете на текущий момент практически отсутствуют какие-либо исследования и сравнения подходов, руководства по эффективному использованию семантических хранилищ.

Каков же мой итог? На сегодняшний день в сети крайне не хватает связанности накопленной информации. Зачастую она лежит мертвым грузом в социальных сетях в виде фотографий, видео, статусов, скупых списков увлечений и графов "друзей". Но не стоит ждать, что владельцы ресурсов возьмут и сами "наполнят информацию смыслом". Будущее за околосемантическим вебом - вебом, где огромная роль отводится службам наполнения информации смыслом - семантическими данными. Такие интернет-ресурсы позволят соединить разрозненную инфраструктуру сети воедино, и дать возможность выстраивать пользовательскую цепь потребления информации по кирпичикам с крайне высоким процентом таргетированности.

Nav

RedCraft - Craft Yourself

воскресенье, 22 апреля 2012 г.