Методика систематизации и индексирования документов. Индексирование документа

Подписаться
Вступай в сообщество «passport13.com»!
ВКонтакте:

07.02.12.

Литература:

  1. ГОСТ 7.59-2003 “Индексирование документов. Общие требования к предметизации”; введён 2006.03.01. – Минск, 2003.- 5 с.
  2. ГОСТ СТБ 7.74-2002 “Інфармацыйна-пошукавыя мовы. Тэрміны і азначэнні”; введён 2003.07.01. – Минск, 2003. – 15 с.
  3. Ляйко Н. А. Каталагізацыя дакументаў. Індэксаванне дакументаў: вучэбны дапаможнік для студэнтаў спецыяльнасці “Бібліятэкавядзенне і бібліяграфія” ВНУ/ Н. А. Ляйко, А. І. Фядорына. – Мінск, БГУКІ. – 115 с.

План:

  1. Индексирование документов – основные термины и определения.

Основным средством раскрытия содержания как одного документа, так и всего библиотечного фонда является индексирование .

Индексирование выражение содержания документа или информационного запроса на ИПЯ (СТБ 7.74-2002).

ИПЯ язык, предназначенный для выражения содержания документов, или запросов, или описания фактов с целью последующего поиска .

Индексирование представляет собой операции перевода (трансформации, конверсии) с одного языка на другой. Т.е. – перевод содержания документа с естественного языка на искусственный. Например, на естественном языке «Физика» - на ИПЯ это по ББК: 22.3.

Результаты перевода содержания документа на ИПЯ представляются в виде поискового образа документа (ПОД) или поискового образа запроса (ПОЗ), которые выражаются терминами индексирования:

· Классификационные индексы

· ключевые слова

· дескрипторы .

Поисковый образ – текст, который выражает содержание поискового запроса, предназначенный для поиска.

Поисковый образ документа – поисковый образ, который выражает основное смысловое содержание документа.

Поисковый образ запроса – поисковый образ, который выражает смысловое содержание информационного запроса (СТБ 7.74-2002).

При индексировании основное содержание следует представлять с необходимой и достаточной полнотой и точностью в поисковом образе документа в виде терминов индексирования , а, при необходимости, и его форму и назначение для обеспечения эффективного информационного поиска.

Видами индексирования являются следующие процессы:

· Систематизация.

· Предметизация.

· Координатное индексирование.

Термин «индексирование» - обобщённое понятие, которое при систематизации можно заменить полным индексом, а при предметизации – соответственно совокупностью предметных рубрик, которые составляют ПОД либо ПОЗ.

  1. Структура ГОСТ 7.59-2003. Общие положения.

Основные процессы и правила (принципы) индексирования представлены в ГОСТ 7.59-2003. В Беларуси данный стандарт введён с 1 марта 2006 года.



Состоит из 6 разделов.

Предназначен для библиотек, органов НТИ, книжных палат, редакций, издательств.

Стандарт устанавливает общие требования к индексированию, к процессам систематизации и предметизации. А так же к ИПЯ, которые применяются при индексировании.

В стандарте приводится перечень из 45 терминов, большая часть которых имеет ссылки на утверждённые терминологические стандарты.


Структура стандарта:

1. Область применения.

3. Определения.

4. Общие положения:

4.1. Сущность индексирования.

4.2. Объект индексирования.

4.3. Условия индексирования.

4.4. Принципы индексирования.

4.5. Виды ИПЯ и терминов индексирования.

5. Требования к ИПЯ:

5.1. Общие требования.

5.2. Требования к классификационным ИПЯ.

5.3. Требования к предметизационным ИПЯ.

6. Технологические процессы и основные правила индексирования:

6.1. Общие правила индексирования.

6.2. Правила систематизации.

6.3. Правила предметизации.

Объектом индексирования является отдельный документ, его часть, или совокупность документов . В качестве объектов индексирования могут рассматриваться различные виды документов: книги, продолжающиеся издания, изоиздания, картографические/нотные издания, кинофонофото документы, неопубликованные издания, документы на микроносителях (микрофиши, микроформы), электронные ресурсы .

Объект индексирования устанавливается на этапе составления библиографической записи документа.

Согласно ГОСТ 7.59-2003 определены основные условия индексирования:

· Индексирование должно производится на основе непосредственного анализа документа.

· Предварительно подготовленная библиографическая запись поступает на индексирование вместе с документом.

· Если объектом индексирования является часть документа, сотрудника необходимо обеспечить документом в целом.

При анализе документа необходимо познакомиться с документом в полном объёме. При не возможности полного ознакомления необходимо изучить основные источники индексирования (текстовые части):

· Заглавие.

· Предисловие.

· Заключение.

· Название разделов, глав.

При индексировании необходимо учитывать специфику библиотеки и информационные потребности пользователей библиотеки.

Принципы индексирования:

· Классификационный.

· Предметизационный.

· Принцип координатного индексирования.

Расшифровку принципов изучить по учебнику .

Класіфікацыйны прынцып індэксавання – у якасці тэрмінаў індэксавання выкарыстоўваюцца класіфікацыйныя індэксы. Класіфікацыйны прынцып індэксавання забяспечвае магчы­масць арганізацыі інфармацыйнага пошуку па іерархічнай прымеце.

Прадметызацыйны прынцып індэксавання – у якасці тэрмінаў індэксавання выкарыстоўваюцца лексічныя адзінкі натуральнай мовы (словы, словазлучэнні прадметнай рубры­кі). Прадметызацыйны прынцып індэксавання забяспечвае магчымасць арганізацыі інфармацыйнага пошуку па алфавіт­най прымеце.

Прынцып каардынатнага індэксавання – у якасці тэрмінаў індэксавання выкарыстоўваюцца дэскрыптары. Дэскрыптар – гэта лексічная адзінка каардынатнага індэксавання, яна выражаецца словам (вербальна) або кодам і абазначае клас блізкіх па сэнсе ключавых слоў. Пішацца дэскрыптар па пэўных правілах ці інструкцыях, прынятых у бібліятэцы, у адпаведнасці з тэзаурусам, альбо дэскрыптарным слоўнікам.

В зависимости от того, какой принцип является ведущим различают классификационные и предметизационные ИПЯ. Таким образом, в соответствии с характером ИПЯ, индексирование осуществляется в соответствии с классификационным, предметизационным, координатным индексирования принципом. В качестве терминов соответственно - индексы, рубрики, ключевые слова и дескрипторы.

  1. Требования к информационно-поисковым языкам (ИПЯ).

Процесс индексирования требует соблюдения определённых требований к ИПЯ. В состав ИПЯ входит множество лексических единиц и грамматические (парадигматические и синтогматические) отношения между ними.

Множество лексических единиц – множество классификационных индексов классификационного ИПЯ (ББК).

Парадигматические отношения – т.е. иерархические , отражают внутреннюю структуру классификационной системы, связи между делениями по вертикали.

Синтогматические отношения – проявляются в сложных и составных индексах.

Индексация документов заключается в присвоении им условных цифровых (иногда буквенно-цифровых) обозначений - индексов, которые предоставляются документам во время регистрации и свидетельствуют о место составления, время исполнения и хранения документов. Обязательным элементом индекса является порядковый регистрационный номер в пределах документопотока, что регистрируется, как правило, за год. В соответствии с задачами поиска порядковый номер может дополняться индексом по номенклатуре дел, а также другими классификационными отметками (индексами структурных подразделений, должностных лиц, корреспондентов, вопросов деятельности, видов документов и т.п.). Составные части регистрационного индекса отделяются друг от друга косой чертой, например: 356/01,134/02/03-10.

Чаще всего с регистрационного порядкового номера документов прилагается номенклатурный индекс, поскольку основной схемой классификации документов в делопроизводстве является номенклатура дел.

Базой для индексации номенклатур дел является перечень или список структурных подразделений с закрепленными за ними индексами или условными отметками. В индекса структурного подразделения добавляется номер дела по номенклатуре дел в пределах структурного подразделения, например: 05-15, где 05 - индекс структурного подразделения (обычно он совпадает с порядковым номером структурного подразделения по штатному расписанию), 15 - номер дела по номенклатуре. Целесообразность нумерации дел в пределах одного структурного подразделения объясняется тем, что таким образом достигается наибольшая стабильность номеров. Появление новых дел или уменьшение количества дел в одном структурном подразделении, создание или ликвидация структурных подразделений (а следовательно, и дел) не влияет на индексацию дел других структурных подразделений.

Одной из составляющих системы регистрации является классификаторы, которые разрабатываются с учетом потребности учреждения по поиску документов.

В случае отсутствия номенклатуры дел во время присвоения регистрационного индекса используют классификатор структурных подразделений, за которым, как правило, установлена последовательность структурных подразделений согласно штатному расписанию. Например: служба делопроизводства - 01; планово-финансовый отдел - 02; отдел маркетинга и рекламы - 03; отдел продаж - 04; отдел персонала - 05; юридический отдел - 06; бухгалтерия - 07; административно-хозяйственный отдел - 08.

Нередко в учреждениях разрабатывают цифровые классификаторы должностных лиц, как правило - руководителя и его заместителей, например: генеральный директор - 01; финансовый директор - 02; коммерческий директор - 03; заместитель генерального директора по административно-хозяйственным вопросам - 04.

Благодаря такой структуре индексации за регистрационным индексом можно определить, кто рассматривал документ и в какое структурное подразделение его направлено на исполнение. Например: 346/02/07, где 346 - порядковый номер входящего письма, 02 - индекс финансового директора, 07 - индекс бухгалтерии.

Использование во время регистрации индексов должностных лиц целесообразно в случае формирования дел (прежде всего переписка за подписью руководства) в структурных подразделениях.

Расположение регистрационного номера документа как составной части его индекса может меняться в зависимости от того, какой документ регистрируется - инициативный входной или инициативный выходной. Регистрация инициативных исходящих документов отличается от регистрации инициативных входных лишь двумя моментами: элементы регистрационного индекса записываются в обратной последовательности, а индексом должностного лица является индекс лица, подписавшего документ.

Итак, при регистрации инициативного исходящего документа сначала проставляется регистрационный номер с группой инициативных входящих документов (например, 1034), затем индекс должностного лица - автора резолюции (например, 02), далее - индекс структурного подразделения, куда направлен документ на исполнение (например, 06), а после исполнения документа - вторая часть индекса - индекс дела по номенклатуре (например, 14). Полный регистрационный индекс будет иметь такой вид: 1034/02/06-14.

Во время регистрации инициативного исходящего документа на документе проставляется сначала индекс дела по номенклатуре (например, 05-12), затем индекс должностного лица, подписавшего документ (например, 01), и регистрационный номер за группой инициативных исходящих документов (например, 960). В этом случае полный регистрационный индекс будет иметь такой вид: 05-12/01/960.

Распорядительные документы (постановления, решения, приказы, распоряжения), а также некоторые внутренние документы (протоколы, акты) имеют только порядковый номер в пределах года (с января по декабрь).

Только в учебных заведениях нумерация внутренних документов может вестись по учебным годом.

В некоторых случаях могут применяться буквенные индексы.

При регистрации обращений граждан порядковый номер дополняется первой буквой фамилии заявителя.

Например: Д-23. С-12.

Регистрация документов с ограниченным доступом предусматривает добавление к регистрационному индексу соответствующей отметки, например: 235/01-05ДСК.

С целью различения групп приказов по личному составу каждому виду может присваиваться буквенный индекс. Система индексов разрабатывается кадровыми службами с учетом специфики регистрации и формирования приказов в данном учреждении. Для приказов по личному составу (о приеме, переводе, увольнении, совместительстве работников учреждения, о материальной помощи, о поощрении работников), номера, как правило, добавляется буква "К" (кадры) или "ОС" (личный состав), например: № 145-К, № 68-ОС. Если приказы о поощрении ведутся отдельно, то добавляется буква "С" (поощрения), например: № 47-3. Приказы о предоставлении отпусков могут иметь такой буквенный индекс: № 83-От., приказы о командировке - № 54-В, приказы о взыскании - № 5-С.

На документах, авторами которых являются несколько организаций, индексы авторов проставляются через косую черту в порядке указания авторов (слева направо). Например, регистрационный индекс совместного приказа трех учреждений будет таким: 356/501/231.

Под индексацией документов в делопроизводстве понимается проставление их порядковых (регистрационных) номеров и определенных условных обозначений, указывающих место их составления, исполнения и хранения. Место простановки определяет ГОСТ Р 6.30-2003, реквизит 12.

Регистрационный индекс означает принадлежность документа к конкретной классификационной крупе и его порядковый номер внутри нее. Порядковый регистрационный номер является обязательным элементом индекса в пределах регистрируемого массива, как правило, за год.

Классификационные группы формируются в соответствии с наименованиями видов документов, их авторов и содержанием. Индексы необходимы для учета, поиска и систематизации документов и в традиционных, и в автоматизированных системах обработки документации.

В пределах одного учреждения или предприятия должна быть разработана единообразная и стабильная система индексирования. Не зависимо от того, где регистрируются документы (в канцелярии или структурных подразделениях), индексы должны иметь постоянное расположение составных частей. В качестве условных обозначений рекомендуется использовать арабские цифры, в отдельных случаях к ним добавляются буквенные литеры.

Для систематизации документов, т.е. разделения их по группам, используется номенклатура дел. Индексы дел, включенных в номенклатуру, входят в состав регистрационных индексов входящих и исходящих документов. Так базовый индекс состоит из индекса дела по номенклатуре, обозначающего принадлежность документа к определенной группе документации, и его порядкового номера внутри данной группы.

Например:

02-10/15, где 02-10 - это индекс дела по номенклатуре, 15 - порядковый номер документа. В соответствии с поисковыми задачами конкретное учреждение или предприятие может добавлять к базовому индексу иные классификационные обозначения: корреспондента, исполнителя и т.п. Части регистрационного индекса могут располагаться и в обратном порядке: 15/02-10, при этом их значение не меняется. Порядковые номера возрастают в течение года и присваиваются отдельно поступающим и отправляемым документам.

При необходимости выделения части документов из единого регистрационного массива возможно использование дополнительного смыслового буквенного индекса. Так, при регистрации приложений, заявлений и жалоб граждан порядковый регистрационный номер дополняется начальной буквой фамилии заявителя, например: И-221, К-212, А-213 и т.д.

При регистрации приказов по вопросам управления кадрами порядковый номер дополняется буквой, например, 18-К, 107 К или 18-л/с, 107-л/с.

К приказам по вопросам управления кадрами относятся приказы о приеме на другую работу, о предоставлении отпусков, обо всех видах поощрений и увольнений, т.е. те на основании, которых вносятся записи в трудовые книжки сотрудников.

При регистрации решений президиумов представительных органов порядковый номер может дополнить индексом (буквой) "П", например, 74-П и т.д.

Индекс документов, составленных несколькими организациями, например, договоров, совместных постановлений, образуется из порядковых регистрационных номеров, присвоенных в каждой организации-авторе, их последовательность определяется последовательностью указания авторов в заголовочной части документа. Например, индекс 16/10 будет означать, что в одной организации документ зарегистрирован под номером 16, а в другой - под номером 10.

При регистрации документ должен получить только один индекс, который одновременно проставляется и на документе и в регистрационной форме. Регистрационные индексы проставляются на входящих документах (приложения к ним не индексируются); на исходящих документах и их копиях, остающихся в учреждении (приложения к ним так же не индексируются); на внутренних документах.

Индексирование –процесс выражения содержания документа и
(или)запроса на информационно-поисковом языке (ИПЯ)с помощью
терминов индексирования– классификационных индексов, предметных
рубрик (ПР), ключевых слов, дескрипторов, кодов. Иными словами,
индексирование – процесс перевода содержания документов и запросов с
естественного языка на ИПЯ, в результате чего создается поисковый образ
документа (ПОД) и поисковый образ запроса (ПОЗ). Таким образом,
происходит «свертывание» информации, содержащейся в документе, и
изложение ее на ИПЯ в виде индекса, предметной рубрики или
дескриптора, ключевого слова

Информационно-поисковый язык (ИПЯ) –это специально созданный
искусственный язык, предназначенный для выражения содержания
документов и (или) запросов с целью их последующего поиска. ИПЯ – это
основной элемент логико-семантического аппарата информационнопоисковой системы (ИПС)
Основные требования, предъявляемые к ИПЯ:
· Однозначность;
· Достаточная семантическая сила
· Открытость (возможность корректировки языка)

Каждый ИПЯ имеет определенный словарный состав, представляющий
совокупность лексических единиц (ЛЕ) – обозначения отдельного
понятия, минимального и неделимого в этой функции. В качестве ЛЕ в
ИПЯ используется лексика естественных языков – слова, словосочетания
предметной рубрики, цифровые или буквенно-цифровые коды и т.д.
Важным моментом при индексировании является создание поискового
образа документов (ПОД).Поисковый образ документа– основное
смысловое содержание документа (а не вся информация, содержащаяся в
нем), выраженное в терминах формализованного ИПЯ. ПОД ставится в
однозначное соответствие этому документу, по нему производится
отыскание документов в массиве документов.

Идексирование запроса также осуществляется путем перевода его
содержания на ИПЯ. Таким образом, совокупность терминов
индексирования, выражающих смысловое содержание запроса, называется
поисковым образом запроса (ПОЗ).
Поиск ведется по совокупности терминов индексирования. С целью
повышения эффективности поиска информации по запросу ПОЗ может быть
дополнен специальными указаниями о последовательности выполнения
логических операций в процессе информационного поиска, которые
называются поисковым предписанием.

Индексирование реализуется в следующих процессах: предметизации,
систематизации и координатном индексировании.
Систематизация –вид индексирования, при котором содержание документа
и (или) запроса выражено классификационными индексами, в соответствии с
правилами определенного классификационного ИПЯ (КС). Такой принцип
индексирования принято считать классификационным. Он обеспечивает
возможность организации информационного поиска по иерархическому
признаку. Специалисты, осуществляющие процесс систематизации в
библиотеках и информационных центрах, называются систематизаторами

Предметизация– вид индексирования, при котором содержание документа и (или)
запроса выражено предметной рубрикой (ПР) в соответствии с правилами определенного
предметизационного ИПЯ. Предметизационный принцип индексирования основан на
использовании ЛЕ, которые входят в состав предметных рубрик, естественного языка (т.е.
предметные рубрики, выражающие ПОД и ПОЗ составляются на основе естественного
языка). Предметизационный принцип индексирования обеспечивает возможность
организации информационного поиска по алфавитному признаку. Процессы
предметизации осуществляются в библиотеках и информационных центрах
предметизаторами.
Координатное индексирование –вид индексирования, при котором смысловое
содержание документа и (или) запроса многоаспектно выражаются множеством ключевых
слов или дескрипторов. ИПЯ, предназначенный для координатного индексирования,
называется дескрипторным языком. Специалисты, осуществляющие координатное
индексирование, называются индексаторами.

.
Итак, в зависимости от вида индексирования, выделяются
предметизационные, классификационные и дескрипторные ИПЯ. В их
состав входит множество ЛЕ и грамматические (парадигматические и
синтагматические) отношения между ними. ЛЕ – обозначение отдельного
понятия, принятое в ИПЯ и неделимое в этой функции. ЛЕ могут
представлять собой принятые в естественном языке слова, устойчивые
словосочетания, аббревиатуры, символы, даты, общепринятые сокращения,
лексически значимые компоненты сложных слов, а также эквивалентные им
кодовые или символические обозначения искусственного языка.
Грамматические отношения позволяют организовать ЛЕ в систему.

Требования к ИПЯ:
· Полно и точно передавать содержание документа, отражаемого в данной ИПС;
· Обеспечить однозначное толкования терминов индексирования;
· Допускать многоаспектное индексирование;
· Допускать внесение изменений (дополнений, исправлений);
· Обеспечивать простоту и удобство индексирования, информационного поиска и
ведение данной ИПС;
· Отражать современное состояние терминосистемы в данной области знания.

10.

Необходимость создания искусственного языка (для
выражения смыслового – семантического содержания
документов с целью их поиска) обусловлена тем, что
естественный язык обладает рядом свойств,
препятствующих его использованию для записи и поиска
информации: это неоднозначность и многозначность слов
естественного языка. Точное значение многих слов можно
определить только из контекста, в котором они
употреблены (ударный инструмент, ударная доза и т.д.).
Эти факторы не позволяют добиться точного соответствия
между содержанием документа и средствами выражения
этого содержания.
Трудности использования естественного языка в качестве
ИПЯ усиливаются еще и тем, что в ИПС в качестве входных
документов могут быть использованы не полные тексты, а
рефераты, аннотации, библиографические описания,
которые являются результатом свертывания содержания
документов.

Индексирование документа обычно организуется через автоматическую обработку его текста и заполнение метаданных. Автоматическая обработка – полнотекстовое индексирование – заключается в преобразовании текста документа в набор слов. Причем обычно для слов сохраняется их позиция в документе, для обеспечения возможности поиска по словосочетаниям. Существуют два принципиально различных метода такого индексирования с учетом применяемых в дальнейшем методов поиска:

    бинарное индексирование – не зависит от языка документа по причине бинарной или словарной индексации;

    морфологическое индексирование – производится с учетом морфологии и семантики языка.

При бинарном индексировании (контекстно-независимом по классификации) поиск ведется на основе алгоритмов “нечеткого поиска”, т.е. поиска с ошибками. В этом случае допускается неполное (с заданным количеством ошибок в начале, середине и конце слова) совпадение слов с шаблоном. При втором методе индексации (контекстно-зависимом по классификации) слова преобразуются в словоформы с отсечением суффиксов и окончаний, что позволяет искать склонения и спряжения шаблонов.

Стандарта на метаданные на текущий момент не существует, но обычно они включают, по крайней мере, дату создания документа, его размер, возможно, тип и автора, краткое содержание – аннотацию и ключевые слова. Стоит отметить, что последние поля (аннотация и ключевые слова) на сегодняшний день заполняются вручную. При этом, если формат документа их предусматривает и автор их заполнил, то все неплохо, но практически всегда в реальных документах они отсутствуют. Поэтому существующие сегодня системы документооборота их обычно игнорируют по причине крайне дорогого и медленного их заполнения оператором, вводящим документы в систему.

Несмотря на несомненные плюсы, полнотекстовое индексирование в любом своем виде имеет и ряд существенных минусов :

    большое количество “мусора” в индексе , т.е. слов никак не характеризующих документ, а связывающих “ключевые” слова – а значит, возможное большое число нерелевантных документов при поиске при попадании шаблона на “мусор”;

    большой объем индекса за счет “мусора” – следовательно, расход ресурсов на его хранение и время на поиск по нему.

Эти недостатки обусловлены самой концепцией такого индексирования – сохранением всего текста за исключением “стоп-слов”. Действительно, с одной стороны наличие в индексе всех слов текста гарантирует его нахождение по любому из них, но с другой стороны встает вопрос: “А насколько это корректно?”. Предположим, мы имеем текст о компьютерных технологиях, в котором приведена пословица: “За двумя зайцами погонишься, ни одного не поймаешь”. При проведении поиска по слову “заяц” система выдаст этот документ, хотя он не будет иметь ни малейшего отношения к фауне. Наглядно иллюстрируют это приведенные чуть выше слова данного текста “предлог”, “союз” и “местоимение”.

Таким образом можно сделать вывод, что индексировать нужно “ключевые” слова документа , а не весь текст, чтобы гарантировать валидность результатов поиска. Только в отличие от документных систем первого поколения, в которых применялось ручное индексирование, данный процесс должен выполняться полностью автоматически в связи со значительно возросшим потоком документов. Все предпосылки в плане технических средств для этого есть. Кроме того, индексирование “ключевых” слов позволит значительно сократить объем индекса, а посему, и время поиска по нему.

← Вернуться

×
Вступай в сообщество «passport13.com»!
ВКонтакте:
Я уже подписан на сообщество «passport13.com»