Текстобзор: Истнет | Way23

Текстобзор: Истнет

Этот пост является частью серии обзоров текстологических проектов. Общее описание и список постов находиться на этой странице.

Описание

Проект Истнетopen in new window — стандарт (набор правил) для форматирования книг и исторических документов. Истнет был опубликован в 2012-2013 годах Григорием Белонучкиным. Цель стандарта решить две проблемы:

  • Нет универсальных способов ссылаться на части книги при цитировании. Формат ссылки (URL) должен быть прост и понятный для человека и одновременно позволять гибко ссылаться на источник цитаты;
  • Поисковики часто не могут найти цитату из-за служебной информации (например, номеров страниц исходной книги) в разметке страницы.

Стандарт основан на HTLM + CSS и состоит из двух частей

  • Формат ссылки;
  • Набор тегов у которых устанавливать якоря и которые прозрачны для поисковиков.

Формат ссылки следующий

some-library.ru/pushkin/4/#32
1

Что означает ссылку на А.С.Пушкин, Соч., т.4, с.32.

Для установки якорейopen in new window с номерами страниц предлагается добавлять теги которые прозрачны для поисковиков. Эксперименты с поиском приведены в таблице на сайте проекта.

Отдельным пунктом в стандарт включено предложение отображать номер страницы с помощью выплывающей подсказки (hint).

html_pagenumber

Формат был применен на сайте с собранием сочинений Л. И. Брежнева — brezhnev.suopen in new window.

Комментарий

Наиболее полезным в этом проекте является ясное обозначение проблемы: необходима возможность ссылаться на части документа. Предлагаемое решение позволяет делать ссылки только до уровня страниц. Нет возможности сослаться на отдельный абзац или даже текст внутри него. А такая возможность полезна для максимально точной ссылки на цитируемый фрагмент. Кроме того недостаточно регламентировано название книги. По сути решение стандартизирует только то как указывать на номер тома и номер страницы.

Способ реализации ссылок, представленный материале:

Для этого каждая книга (том, выпуск) издания сохраняется в виде файла с именем index.html в отдельной директории, название которой состоит из одного числа - номера тома.

основан на ручном размещении html файлов, либо без использования всех возможностей современных программных средств в этой области. Сейчас URL может быть разобран как угодно сложным образом и его части не всегда связаны со структурой каталогов на сервере.

Решение проблемы обозначенной в Истнет важно и требует глубокого анализа с учетом современных средств веб-программирования. Вероятно, решение должно быть совместимо с Citation Style Languageopen in new window.

Открытый вопрос: нужны ли вообще человекочитаемые ссылки? Чаще всего ссылка может быть сформирована автоматически, а значит читаемость не так важна. Если же человеку нужно найти на какой-то фрагмент, то он будет искать его через графический интерфейс, а не с помощью ручного ввода ссылки.

Проблема с поиском по цитате так же важна, но решить её через подстройку под поисковики общего назначения невозможно. Поисковики это коммерческие продукты с закрытым исходным кодом. Про их способ индексации с одной стороны нет точной информации, а с другой алгоритмы постоянно меняются. Завязывать текстологическую работу на такие вещи нельзя. Для поиска требуется специализированное средство которое будет удовлетворять всем требованиям, в том числе поиск без учета разрыва страниц и другой служебной информации.

Более важно, то что поиск по сайту это поиск уже по производному результату текстологической работы — по представлению книги в виде веб-страницы. Таких представлений может быть несколько и в виде веб-страниц и виде интерактивных веб-приложений и просто в виде популярных форматов электронных книг. Текстологический формат должен быть ориентирован на оформление исходного текста работы, а все производные форматы генерироваться автоматически. То же относиться и к способу отображения номеров страниц на сайте. Критика применения HTML в качестве основного формата детально разобрана в статье Технические аспекты цифровой текстологииopen in new window.

Последниее изменение: 03.04.2022, 12:41:41