You are here

КРИПТОГАМНЫЕ ИНФОРМАЦИОННЫЕ СИСТЕМЫ (НА ПРИМЕРЕ СОИНГГГИЛД) В НАУЧНОЙ ИНФОРМАЦИОННОЙ СРЕДЕ

Дата создания: 
01.09.2011
Дата последнего изменения: 
19.04.2012
Автор(ы): 

то, что было отрезано от этого текста, для придания более печатного формата

Сокращения:
1. СОИНГГГИЛД - система организации интегрированных наблюдений, гербарных, графических, географических и литературных данных.
2. ИС - информационная система (информационная система )
3. СУБД - система управления базами данных
4. БД - база данных

В Сети Интернет существует немало ИС ботанической направленности, пополняемый список которых представлен, например на данной странице. Все это, главным образом, БД в которых собраны или литературные данные или гербарные, - редко и те и другие в одних выборках.

Сегодня, естественным образом (вследствие развития как информационных технологий, так и все большей интеграции в информационную среду ботанического сообщества), сформировался новый, не существовавший до 00-х годов способ работы ботаника с информацией: данные собираются в ИС уже не из публикаций и отчетов, а наоборот; исследователь организует свои данные так, что его деятельность вне информационных сред (Интернет (БД, хранилища), локальные сети, документооборотные системы, накопители и т.п.) уже, мягко говоря, архаична.

Ниже мы переходим к обсуждению проблем, перспектив и путей развития ИС в криптоботаническом деле, приводя, чтобы не быть голословными, описание истории развития и текущее состояние ИС СОИНГГГИЛД, используемой (и "придуманной") нами.

Для хранения данных и в нуждах автоматизации гербаризации в 2007 году был написан комплекс скриптов (скриптовый язык php, встроенные в него SQL команды для СУБД MySQL), который работал на локальном сервере в гербарии лишайников ПАБСИ. Данный комплекс был результатом логического развития и синтеза баз данных гербария лишайников ПГПУ (структура разработана Селивановым А.Е. - СУБД Access) и баз данных гербария мохообразных ПАБСИ (Савченко А.Н. - СУБД DBase). Структура таблиц, в которых хранились данные, с которыми взаимодействовали скрипты, была ориентирована не столько на анализ, сколько на структурирование информации на этапе сбора. В целях аутентификации мы назвали наш способ структурирования данных "структура MUSIK-типа" (вне зависимости от используемой СУБД).
С 2009 года данные о гербарных образцах лишайников ПАСБИ стали доступны в сети Интернет. Мы зарегистрировали доменное имя и разместили на удаленном коммерческом сервере систему баз данных со структурой MUSIK-типа, регулярно синхронизируемую с локальной системой. Эта ИС называлась "MUSIK".
В 2011 году нами была пересмотрена стратегия развития БД гербария лишайников и цианопрокариот- главной целью стала как можно более полная интегрированность данных разных типов о видах, что предполагает включение в систему литературных данных и наблюдений, а также фотографий и подключения к геоинформационным средам. Так был обозначен переход на способ обработки информации, нераспространенный в ботанической среде, - ИС стала источником отчетов и публикаций, а не наоборот.
На имеющемся хостинге на основе CMS Drupal была развернута СОИНГГГИЛД; локальный сервер с локальной ИС был исключен - сегодня вся информация об образцах вносится через сеть Интернет непосредственно в систему на удаленном сервере.
В результате перехода на готовый движок мы получили ряд преимуществ по отношению к ИС "MUSIK":
1. Готовая CMS (Drupal) - это решение вопросов безопасности и любых вопросов программирования - целое сообщество (drupal.org drupal.ru http://drupalist.org.ru и т.п.) создает и обновляет модули этой CMS, - администратору необходимо лишь следить за обновлениями CMS.
2. Используемая нами CMS - Drupal не только (как и система MUSIK-типа) обеспечивает автоматизацию гербарного дела и вывод информации об образцах, но и позволяет достичь очень высокой степени интеграции данных за счет своей "заточенности на интеграцию" данных.

Однако, в последнее время, нами пересматривается целесообразность использования готового движка по следующим причинам:
1. Остаются нерешенными ряд вопросов, которые выходят за рамки штатной гибкости CMS Drupal - использование же нештатных средств конфигурирования движка приводит к замусориванию кода при отсутствии поддержки своего кода сообществом движка.
2. Обновления мажорных версий движка - нетривиальная задача для такого сложного и нестандартного проекта как ИС СОИНГГГИЛД, а не обновление - это потеря безопасности, отсутствие исправления ошибок и т.п. и как следствие - смерть проекта в ближайшем будущем.
3. Данные, хранимые движком в таблицах СУБД, имеют оригинальную реляционную структуру, осложненную особенностями хранения данных движком, что делает очень непростой конвертацию таких данных в другие ИС при необходимости.

Сегодня мы и продолжаем поддерживать проект на движке и пытаемся снова перевести ИС СОИНГГГИЛД на модель "СУБД+свои скрипты", как наиболее перспективную (по нашему мнению) в плане долговременного обслуживания и существования.
В первой ветви развития (на основе готового "движка") нами используется Drupal по причине достаточной мощности, свободности и гибкости. Остальные широко-используемые в вебе свободные мощные CMS не имеют каких-либо существенных преимуществ, что вместе с изученностью и "привычностью" Drupal, определяет такой выбор.
В ветви "СУБД+скрипты" нами используется FireBird+prel по следующим причинам:
1) наличие заинтересованных людей, имеющих желание и способных оказать техническую поддержку именно по данной связке;
2) отсутствие значимых для нас преимуществ у других свободных и мощных СУБД (MariaDB, MySQL, PostgreSQL).

Нами не использовались СУБД NoSQL-типа по причине неизученности данной группы СУБД. Возможно, среди них найдутся вполне подходящие или лучшие варианты СУБД, нежели используемые нами.
Также, из еще не опробованных нами, мы видим перспективными: гибридный вариант - СУБД+скрипты+движок (такой вариант успешно осуществлен, наример, в проекте lobaria.ru); для несложных проектов - вариант использования только готовых сервисов (с решенной проблемой хостинга и администрирования движка и\или СУБД), например, гугловского сервиса создания сайтов.

Необходимо отметить, что нами всегда использовались программные продукты только с открытым исходным кодом, распространяемым свободно на основе лицензий GNU GPL, также мы придерживаемся позиции копилефтного права на информацию. По этой ссылке приводится текст "Условий использования" информации из СОИНГГГИЛД, как пример условий использования. Как видно из "Условий использования", мы уделили внимание не только способам использования материалов, но обозначения этих материалов - приведение их к формам материалов, ранее не определяемых явно: "Литературный образец", "Образец наблюдения". Ухищрение с вводом "Образец наблюдения" необходимо, для увеличение точности и валидности приводимых данных наблюдения. "Литературный образец" ставит существование современных публикаций списков видов под вопрос.

ВНЕЗАПНО: ЦЕЛИ И ЗАДАЧИ

После создания СОИНГГГИЛД, нами были осознаны цели и задачи ее создания.

Цель - создание инструмента организации данных и удобного доступа к данным.

Задачи:
1) создать подинструмент ввода данных и обеспечить наполнение банка данных;
1а) обеспечить валидность ввода;
1б) пересмотреть связь первичных данных и физического образца;
1в) пересмотреть связь вторичного текста и первичных данных;
2) восстановить, создать или усилить связи между данными разных типов (графические, географические, текстовые) и уровней (первичные, вторичные);
3) создать подинструмент хранения данных;
4) создать подинструмент вывода данных с учетом потребностей ботаников и гербарных работников.

Что делает уже созданный инструмент:

- подинструмент ввода обеспечивает возможность ввода данных
- ввод данных осуществляется
- созданы связи между разными типами и уровнями данных
- данные хранятся
- данные выводятся

Остались нерешенными подзадачи 1а,1б.

Как этот инструмент можно назвать из его функций?
Возможно, так: Система организации данных о видах с гипердоступом данных.

Что такое гипердоступ?
Если до СОИНГГГИЛД, чтобы собрать всю информацию о виде, надо было потратить годы жизни, то гипрдоступ - это получение всей имеющейся информации (как по уровням - первичной\вторичной, так и по типам - графика\текст) о виде одним кликом мыши.

Что такое организация?
Если до СОИНГГГИЛД информация о виде собиралась в отдельные файлы, публикации и т.п., то теперь при подготовке, например, публикации вся информация о виде собирается автором в ИС и там (в ИС) - она наиболее полна, но это не черновик - это то, что делает чистовик ненужным и формальным рефератом черновика.

Если интеграция всех типов и уровней данных принципиально осуществлена в нашей ИС, то только по считанным видам ИС предоставляет исчерпывающую информацию.

Пункты 1а,1б,(1в):

Любая информация устаревает. Из вещей получают новые изображения и слова (тексты). Но не это является проблемой ИС - она, теряя в скорости, выигрывает у разрозненной массы материалов (публикаций и т.п.) в связанности данных, в обеспечении гипердоступа.
Проблема ИС остается в наследство от дезинтегрированной информационной среды и заключается в наличии (или, скорее отсутствии) пробела между вещью и словом, между образцом и его образом, его этикеткой, фотографией. Текст этикетки никак не связан с тем, что лежит в пакете. Связь реферата с референцией не только на совести референта, но и на его уверенности в том что она (связь) есть.
Т.о. эта связь аксиоматична?
По-видимому этот вопрос (1а) пока открыт.

Про валидность ввода думаю и не надо напоминать. Однако и здесь ИС предоставляет исследователю возможности для поиска ошибок: например, отображение местоположения на карте места сбора сразу показывает правильность ввода текстовых данных о месте сбора.

Что же о связи первичных и вторичных (литературных) данных? Редукция данных при переходе от первичных к вторичным (литературным) - чудовищна. ИС решает этот вопрос предоставлением гипердоступа ко всей иерархии данных - у исследователя появляется удобный выбор и возможность сравнения первичных и вторичных данных.

ПЕРСПЕКТИВЫ ИС СОИНГГГИЛД

Сейчас (2012 год) наступает ключевой момент в истории ИС в криптогамной ботанике - мы должны и можем создать ИС, включающую данные всех гербариев России, а также все остальные типы данных представленные в СОИНГГГИЛД. Если мы не сделаем этого так это надо нам, это сделает кто-то другой - наиболее важны, в данном аспекте, не только способы решения но и постановка (которой может не произойти при стороннем исполнении) следующих задач:
1. Нахождение общего формата данных - формат не должен копировать принятый для сосудистых растений, не должен калькировать "традиционно-принятое" бесструктурное описание на практически естественном языке - он должен быть жестким методологически, но гибким в отношении изменения для других нужд (например, конвертирования в другие форматы для инегрирования в другие ИС).
2. Обеспечение удобства и свободы обмена данными.
3. Защита данных от закрытия.

Непосредственное и сиюминутное включение данных о видах, хранящихся в гербариях России или в литературных (русскоязычных) источниках, в международные ИС затруднительна и даже не нужна (хотя и осуществляется, но стихийно и не массово), на современном этапе, по следующим причинам:
1. Формат данных, используемой в международных ИС вряд ли может быть принят без изменений криптогамными исследователями особенно.
2. Существующие международные ИС имеют свои недостатки, а следовательно
3. Многообразие ИС при условии свободного обмена данными между ними создаст здоровую "конкуренцию" (в кавычках - потому что наука - это не бизнес, а научная среда - не сообщество животных), стимул к развитию как старых и больших так и новых ИС.

Мы видим интеграцию в международные ИС в опосредованном виде включения данных наших (пока несуществующих) национальных ИС на основе свободного обмена. Для выполнения такой задачи необходимы следующие условия:
1. Перевод данных на английский язык.
2. Возможность быстрого автоматического приведения данных к удобной для глобальных ИС форме.
3. Копилефтное лицензирование данных.

ВОПРОСЫ ПРАВА (ЛИЦЕНЗИРОВАНИЕ)

Как мы уже неоднократно оговорились, одно из главных условий развития криптогамной информационной среды - свободное использование данных, свободный обмен. Свобода использования и обмена - это соблюдение правил добросовестного использования - это возможно в современном мире и уже более 20 лет практикуется в мире ПО - OpenSourse ПО, чуть меньше - в проектах, ярчайшим примером которых является wikipedia.org.

Выше (в "Условиях использования"), мы продемонстрировали удобный, на наш взгляд, вариант в лицензировании некоторых произведений в соответствии с CC-BY-SA лицензией. Под произведением мы примем здесь: запись в полевом дневнике, этикетку гербарного образца, все содержимое ИС (все типы данных, перечисленных выше в примере "Условиях использования" для СОИНГГГИЛД, а так же фотоматериалы), тексты статей, монографий и т.п. Такое лицензирование должно проводиться или для каждого произведения или для ИС в целом (что является еще одним примуществом ИС перед разрозненными данными), но оно имеет юридическую силу и действительно защищает произведение, в отличие от некой "договоренности" об использовании гербарной информации, приводимой, например, Скворцовым (1977). Только CC-BY-SA или подобные ей (например, FDL, но она не работает в законодательстве РФ) действительно обеспечивают свободу использования информации, одновременно защищая ее от присвоения и закрытия от научного мира, что, к сожалению, имеет прецеденты, а местами практикуется как нормальная деятельность (например, когда издательство отбирает все права у автора научной статьи, в т.ч. на рассылку коллегам данной статьи вне тела бумажного журнала). И если, в случае с текстами статей, лицензирование по типу CC-BY-SA уже не редкость (практически все содержимое Википедии, например; мануалы по работе с ПО), то лицензирование всех остальных произведений (например, текста этикеток) - не имеет прецедентов (известных нам) - исследователи об этом просто не задумываются, надеясь на добросовестное использование и "научную этику". Пока не появляются случаи или опасность присвоения научной информации с целью закрытия и получения выгоды.

Т.о. необходимо лицензирование под свободными, копилефтными лицензиями не только текстов статей, но и всех типов данных, начиная с записей в дневнике и заканчивая записью о гербарном образце.

И первейшим препятствием в деле освобождения (и защищения) научных данных является так называемое "авторское право" ("копирайт"), которое является антиподом "автороского лева" - т.е. копилефта (CC-BY-SA - один из способов\случаев осуществления копилефтного права). Утверждение может показаться парадоксальным на первый взгляд, но перестает быть таковым после ознакомлением с движением по борьбе за Свободу информации, в том числе от цензуры (что можно сделать, зайдя, например, на anticopyright.ru, wikipedia.org , etc.).

Разделы журнала Cripterscript: 
Powered by Drupal