Республиканская научная интернет-конференция
молодых исследователей

 

MediaLex-2016

 

 

Концевой Михаил Михайлович

Cемантическая микроформатная разметка
для интернет-ресурсов транспортных средств

УО "Брестский государственный технический университет"

 

Schema.org [1] – инициатива по разработке единой схемы для семантической разметки в HTML5, объединившая создателей крупнейших поисковых систем (Google, Yahoo! и Microsoft, Яндекс).

В качестве основной цели Schema.org декларируется улучшение Интернете и, в частности, повышение качества поиска на основе эффективной структуризации поставляемых информационных ресурсов и их разметки микроформатами. Метаданные на ресурсах, использующие предлагаемые Schema.org схемы, представляют собой семантическую разметку, предназначенную для поисковых роботов, и могут быть непосредственно проанализированы ими с целью извлечения и обработки информации о содержимом веб-ресурсов. Таким образом, Schema.org открывает новое направление в контексте становления Semantic Web.

В качестве основного формата разметки веб-страницы метаданными Schema.org предлагаются microdata (микроданные) – теги и атрибуты для разметки структурированной информации на веб-страницах  стандарта HTML5. Применяются также онтологии schema.org, выраженные в формате RDFS при разметке RDF-данных.

Микроформаты – это сущности поверх HTML, с помощью которых можно описывать любую информацию на Web-страницах. Спецификация микроформатов HTML5 представляет собой способ пометки содержания для определения такого специального типа информации. Стандарт представляет собой набор классов, описывающих всевозможные сущности и их свойства. Сейчас их уже несколько сотен [2].

Наиболее обобщенный тип сущности – это Thing (нечто), у которого есть четыре свойства: name (название), description (описание), url (ссылка) и image. Более специализированные, частные типы имеют общие свойства с более универсальными. Например, Place (место) — частный случай Thing, а LocalBusiness (местная компания) — частный случай Place. Частные типы наследуют свойства родительских типов, которых может быть несколько. В качестве примеров популярных типов сущностей отметим: CreativeWork (творческое произведение), Book (книга), Movie (фильм), MusicRecording (музыкальная запись), Recipe (рецепт), TVSeries (телесериал), AudioObject (аудио), ImageObject (изображение), VideoObject (видео), Event (событие), Organization (организация), Person (человек), Place (место), LocalBusiness (местная фирма), Product (продукт), Offer (предложение), Review (отзыв), AggregateRating (сводный рейтинг).

В Schema.org постоянно идет работа по улучшению стандарта, добавляются новые свойства, уточняются существующие для расширения функциональности и улучшения релевантности и пертинентности результатов поиска. В настоящее время поисковые системы корректно поддерживают микроформатную разметку веб-страниц в результатах поиска людей, событий, обзоров, товаров, кулинарных рецептов и элементов навигации. Вместе с тем стандарт schema.org предусматривает возможность добавлять свойства и дочерние типы для имеющихся типов сущностей.

Разметка микроформатами не требует создания отдельных экспортных файлов и происходит непосредственно в HTML-коде страниц оборачиванием описания определенного типа в контейнер и указанием схемы разметки отдельных свойств с помощью специальных атрибутов. Каждый тип информации описывает определенный тип элемента, например, человека, мероприятие или отзыв. Например, человек имеет свойства: имя, место жительства, место работы, занимаемая должность и т.д.

В качестве примера приведем фрагмент документа с информацией о транспортном средстве, с разметкой на основе предлагаемого микроформата hCar (vCar) – для публикации контактной информации самого транспортного средства, владеющий им компании, предоставляемых услугах и местонахождении:

<div itemscope itemtype="http://data-vocabulary.org/Car">

Имя владельца <span itemprop="name">Михаил Концевой</span>,

Вот главная страница компании:

<a href="http://www.brstu.by" itemprop="url">www.brstu.by</a>.

Компания расположена в <span itemprop="address" itemscope

itemtype="http://data-vocabulary.org/Address">

<span itemprop="locality">Бресте</span>,

<span itemprop="country-name">Беларусь</span> </span>

и является <span itemprop="title">арендодателем</span>

<span itemprop="role">транспортных средств</span>

в <span itemprop="affiliation">БрГTУ</span>.

</div>

В первой строке itemscope указывает, что <div> является элементом. itemtype="http://data-vocabulary.org/Car указывает, что это элемент "автомобиль". Каждое свойство элемента "автомобиль" отмечается атрибутом itemprop. Например, itemprop="name" описывает имя владельца автомобиля. Свойство address само по себе является элементом, содержащим собственный набор свойств. Для их определения можно добавить в элемент атрибут itemscope, который объявляет свойство address, и с помощью атрибута itemtype указать тип описываемого элемента следующим образом: <span itemprop="address" itemscope itemtype="http://data-vocabulary.org/Address">. Свойство title указывает на характер деятельности, role – на специализацию, affiliation – название организации, с которой связан этот владелец транспортного средства.

Существенно, что разметку Schema.org можно использовать на веб-страницах на любом языке. Сегодня самый популярный вид использования семантической разметки поисковиками – создание snippets (фрагментов исходного кода или текста, для повторного использования) на странице результатов поиска.

Код микроформатов прост для написания в любом текстовом редакторе, но лучше  воспользоваться специальными программами, которые позволяют добавлять микроформатированный контент в создаваемые с их помощью документы. Например, плагин для Dreamweaver (webstandards.org/action/dwtf/microformats) дает возможность пользователям программы вставлять hCard-, rel-tag-, hCalendar-, rel-license- и XFN-данные. Онлайн-приложения hCard Creator (microformats.org/code/hcard/creator), hCalendar Creator (microformats.org/code/hcalendar/creator) и hReview Creator (microformats.org/code/hreview/creator) также позволяют создавать микроформатированный контент. Многие CMS (WordPress, Moveable Type, Drupal, TextPatternи др.) предоставляют инструменты, способные добавлять различный микроформатированный контент в блоги и сайты, созданные с использованием этих систем.

Извлечение данных поисковыми роботами из микроформатной разметки осуществляется одновременно с проводимой им индексацией сайта. Так как разные сайты обходятся роботами с разной скоростью, которая обычно зависит от частоты обновления сайта, то рекомендуется добавлять адреса страниц, содержащие размеченную информацию, в файл Sitemap, чтобы сообщить роботу, что данная страница является важной.

Специализированные сервисы позволяют проверить корректность разметки и выявить возможные ошибки в коде, которые могут помешать корректной обработке данных, проверить, как поисковые роботы данных систем видят и обрабатывают предложенную семантическую разметку страницы.

Парсинг микроформатов имеет особенности в сравнении с XML-парсингом. Причина этих особенностей в том, что микроформаты рассчитаны на работу с HTML, для которого не обязательно документ должен быть корректно сформирован (допускается отсутствие закрывающих тегов и т.п.). Если использовать для извлечения микроформатов XSLT, то необходимо, прежде всего, откорректировать HTML-документ с помощью TIDY, HTMLlib или loadHTML, после чего можно использовать шаблоны XSLT, выполняющие большинство работы по извлечению микроформатных данных (доступны на hg.microformats.org).

Микроформаты – полностью открытый формат. Следовательно, данные, размеченные по стандарту семантической разметки schema.org, становятся общедоступными и могут быть извлечены и использованы любыми сервисами. Успех новой поисковой технологии зависит от того, насколько широкое она получит распространение, но уже сейчас применение микроформатов создает качественно новую среду для децентрализации разработки контента и сетевых сервисов, в том числе для логистических и транспортных услуг.

 


 

 

 

1. Schema.org [Электронный ресурс]. - http://schema.org/ - Дата доступа: 10.03.2016.

2. РMicroformats Wiki [Электронный ресурс]. http://microformats.org/wiki/Main_Page-ru - Дата доступа: 10.03.2016.

 

 

MediaLex 2016