В зависимости от используемых компонентов ИПЯ бывают разных видов.

К числу первоначально использовавшихся видов ИПЯ Ч. Мидоу относит виды, представленные на рис. 6.6:

Рис. 6.6.

Иерархические классификации. Например, получившая широкое применение Десятичная классификация Дьюи , классификация библиотеки Конгресса США, Универсальная Десятичная классификация (УДК) , которая представляет собой модификацию системы Дьюи.

Иерархические классификации обеспечивают возможность расширения "вниз", т.е. уточнения описания документа, но они отличаются жесткостью, их достаточно трудно изменять.

Язык предметных заголовков.

Подобно иерархической классификации использует фиксированное число предметных классов (часто располагаемых по алфавиту), но для его терминов обычно не используется определенный код. Язык позволяет любому документу приписывать более чем один термин, почти не имеет структуры и средств для выражения взаимоотношений между терминами. Предметные заголовки используются, например, в журналах (рубрики), классификаторах специальностей вузов и Высшей аттестационной комиссии (ВАК) при Минобрнауки России. Этот язык можно считать языком иерархической классификации, но с ослабленной структурой, что облегчает его разработку, но затрудняет изучение и применение.

Рассмотренные языки иногда называют предкоордииированнъши (pre-coordinate ) системами, поскольку семантические комбинации терминов не определены в словарном составе ИПЯ, а составляются его разработчиками. Такие языки неизбежно имеют пробелы, в них трудно отражать новые предметные области (что легко видеть на примере системы УДК).

Поэтому для более совершенного описания содержания документа стало применяться индексирование ключевыми словами – координатное индексирование.

Система ключевых слов с фиксированным словарем.

Такие языки могут применяться для узкоспециализированных ИПС с достаточно формализованной (унифицированной) терминологией (например, система "Унитерм", разработанная М. Таубе ). Эта система подобна системе предметных заголовков, но в отличие от нее, во-первых, ключевые слова короче предметных заголовков (обычно это единичные слова, иногда – короткие словосочетания) и, во-вторых, объем полного словарного состава существенно больше. Словарный состав здесь, как правило, фиксирован, и отсутствуют средства установления связей между словами (синтаксис), но включение набора слов в ПОД или ПОЗ позволяет пользователю как бы угадывать эти связи, что помогает более полно описать исходный документ или запрос.

Система ключевых слов со свободным словарем.

Такие языки позволяют пользователю выбирать для описания документа любые слова (за исключением союзов и предлогов), руководствуясь их ролью в отображении содержания документа. Это позволяет точнее отобразить содержание документа, но может снизить релевантность поиска, поскольку составители ПОЗ не могут предусмотреть точки зрения составителей ПОД.

Языки с синтаксисом (грамматикой).

В качестве простейшего из ИПЯ этого вида Ч. Мидоу выделяет язык помеченных дескрипторов (tagged descriptors), с помощью которого отображение смысла в ПОД и ПОЗ осуществляется путем присоединения к основному дескриптору (или ключевому слову) уточняющих дескрипторов (ключевых слов), роль которых состоит в том, чтобы либо классифицировать основной дескриптор как имя собственное, характерный признак или действие, либо объединить в одну группу дескрипторы, относящиеся к одному и тому же предмету документа. В современных поисковых системах Интернет применяются операции AND, OR, отображающие логические операции дизъюнкции и конъюнкции, в простейшем варианте – слова заключают в кавычки.

В дальнейшем были разработаны ИПЯ с грамматикой, содержащей более сложные правила.

Язык фасетного индексирования.

В более развитых в синтаксическом отношении вариантах такого языка различные дескрипторы могут изменять значения друг друга. Простейшим примером такого синтаксиса является запись команды ЭВМ, состоящей из собственно оператора и адреса хранения информации. В качестве примера можно также привести уточненное описание товара, включая фасон, цвет, цену и тому подобные характеристики товара. Такой синтаксис основан на известном в теории множеств положении: в результате помещения рядом элементов разных множеств возникает эффект появления нового смысла. Языки такого вида позволяют частично устранять омонимию с учетом контекста.

Различные роли, которые играют дескрипторы в таких языках, называют фасетами . Для фасет могут быть использованы дескрипторы из одного и того же словаря. Располагаются фасеты в порядке значимости дескрипторов для отображения содержания индексируемого документа. В отличие от иерархических классификаций фасеты можно располагать в произвольном порядке.

Язык фраз.

В качестве ПОД используются индексирующие фразы. В этом случае контекст ключевых слов позволяет частично снять проблемы семантической неоднозначности.

Трудность здесь состоит в выборе фраз, включаемых в язык. Кроме того, отсутствует возможность расширения ПОД.

Язык пермутационного индексирования.

Пермутационный указатель включает контекст каждого слова, содержащегося в фразе и называется указателем ключевых слов, взятых в контексте, или указателем типа KWIC .

Идею такого указателя легче пояснить примером:

Системы индексирования документов

Системы индексирования документов

Системы индексирования документов

При этом ПОД образует колонка ключевых слов в центре, расположенных в порядке алфавита. Можно считать этот ПОД фразой, но он эффективнее предыдущего с точки зрения смысловыражающих возможностей. Однако пермутационное индексирование трудоемко и неэффективно экономически.

Естественный язык.

Наиболее точно может отразить семантику текста, однако помимо трудоемкости и экономической неэффективности возникают проблемы синонимии, омонимии и другой неоднозначности естественного языка, затрудняющие алгоритмизацию поиска.

Уменьшить неоднозначности языка помогает словарь.

В истории развития информационного поиска разрабатывались и применялись разнообразные словари: словарь синонимичных пар; словарь с многократными связями (например, двуязычный словарь); классификационная таблица; словарь с определениями на естественном языке; отрицательный словарь (содержащий запрещенные словосочетания); словарь-тезаурус ("Тезаурус ASTIA" и др.).

Таким образом, существуют ИПЯ, использующие ключевые слова; дескрипторные ИПЯ без грамматики и с грамматикой, ИПЯ с отрицательным словарем, ИПЯ с тезаурусом и т.д.

Существуют и иные классификации ИПЯ.

Так, в предлагается следующее разделение ИПЯ (рис. 6.7):

  • 1. Предкоординированные ИПЯ.
  • 1.1. Перечислительные классификации: иерархические, алфавитно-предметные (по Мидоу – язык предметных заголовков).
  • 1.2. Фасетные классификации.
  • 2. Посткоординированные (координатные по Мидоу) ИПЯ.
  • 2.1. Дескрипторные языки (с координацией посредством использования операции логического умножения или пересечения Ç).

Рис. 6.7.

  • 2.2. Семантические коды, задающие парадигматические отношения структурами лексических единиц (код Перри – Кента , RX-коды языка "Бит" ).
  • 2.3. Синтагматические языки с развитой системой средств отображения синтагматических отношений (см., например, язык СИНТОЛ ).
  • 3. Языки библиографических ссылок.

Предлагались классификации ИПЯ по типу их словарного состава (см. ссылки в ), типам языковых единиц, степени их сложности, характеру отношений между этими единицами (виду грамматики), системам индексирования и т.п.

При этом следует иметь в виду, что на практике конкретный ИПЯ нельзя строго отнести к тому или иному классу, поскольку: во-первых, некоторые ИПС могут работать и в режиме без грамматики, и в режиме с грамматикой (например, системы СИНТОЛ , СМАРТ ); а во-вторых, ИПС развиваются, и основой является развитие ИПЯ. Поэтому обычно ИПС и ИПЯ описывают рядом характеристик с тем, чтобы пользователь мог выбрать желаемые.

При выборе ИПЯ необходимо оценивать их эффективность. При опенке эффективности ИПЯ используют различные критерии. Проблема оценки ИПЯ, в свою очередь, является составной частью более общей проблемы – оценки качества информационного поиска (см. 6.9).

Статьи

Сукиасян Э.Р.
Школа индексирования. Занятие 4. Требования к классификационным информационно-поисковым языкам. Школа индексирования

[ Библиотека. – 2004. – № 5. – c. 46-48 ]

Классификационные ИПЯ – библиотечно-библиографические или информационные классификационные системы (последние нередко называются рубрикаторами) насчитывают историю в несколько тысячелетий и широко распространены в современном мире. В подразделе 5.2.2 ГОСТ 7.59–2003 рассмотрены составные части и элементы классификационных ИПЯ, подробно охарактеризована типология классификационных индексов, система грамматических отношений, характерная для ИПЯ данного типа. Принципиально важным является приведенный в стандарте перечень применяемых в стране классификационных ИПЯ (подобного положения нет в аналогичном по содержанию Международном стандарте).
5.2.1. Классификационный ИПЯ представляют в виде универсальных или отраслевых таблиц классификации, состоящих, как правило, из основных и вспомогательных таблиц, алфавитно-предметного указателя и правил применения.
Определим приведенные понятия. Универсальные таблицы классификации – таблицы классификации по всем отраслям знаний; отраслевые таблицы классификации – таблицы классификации, включающие полные таблицы по соответствующей отрасли знания, сокращенную выборку из таблиц классификации по смежным отраслям, а также комбинированные индексы.
Стандарт устанавливает, что таблицы классификации состоят, как правило, из четырех частей:

  • основная таблица классификации – составная часть таблиц классификации, включающая иерархические таблицы классификационных делений по основным классификационным признакам. Определение этого термина в ГОСТ 7.74: часть классификационной таблицы, включающая классификационные записи, которые в совокупности исчерпывают предметную область;
  • вспомогательная таблица классификации – часть классификационной таблицы, выделенная из состава основной классификационной таблицы и включающая классификационные записи, которые используются, главным образом, для детализации классов основной классификационной таблицы (здесь надо добавить, что в основу таблиц положены вспомогательные дополнительные классификационные признаки);
  • алфавитно-предметный указатель к систематическому каталогу, АПУ – вспомогательный аппарат к систематическому каталогу, представляющий собой алфавитный перечень предметных рубрик, раскрывающих содержание отраженных в систематическом каталоге документов с указанием соответствующих классификационных индексов;
  • правила применения – термин очевиден и не требует особого объяснения. Иногда эта часть таблиц классификации называется иначе – общей методикой, методическими указаниями, или же правила применения излагаются вместе с описанием ИПЯ во введении к таблицам.

Обратим внимание, что типология изданий таблиц не стандартизована. Специалисты, занимающиеся индексированием, должны знать, что в зависимости от объема представленной лексики таблицы классификации могут быть полными, средними (примерно 40–60% объема) и сокращенными (примерно 10% объема). Виды таблиц классификации по назначению предполагают указание вида библиотек: для научных библиотек, для областных библиотек, для детских и школьных библиотек. В практике нашей страны публиковались также таблицы специального назначения – для краеведческих каталогов и картотек.
5.2.2. Основным элементом таблиц классификации является классификационное деление (запись класса), в состав которого входят классификационный индекс, словесная формулировка (описание класса), при необходимости – методические указания, включающие также справочно-ссылочный аппарат.
Определим новые для нас термины: перечисленные через запятую и выделенные шрифтом являются допустимыми синонимами и могут употребляться равнозначно. Классификационная запись, классификационное деление, запись класса – совокупность элементов, обозначающая в классификационной таблице класс классификационной системы и состоящая из кода класса, описания класса и методических указаний. Классификационный индекс, код класса – обозначение класса средствами нотации (индексации) классификационной системы. Словесная формулировка, описание класса, наименование классификационного деления – обозначение класса на естественном языке.
Термин справочно-ссылочный аппарат не требует определения – ясно, что речь идет о совокупности ссылок и справок. (Надо помнить, что ГОСТ7.76 (п. 5.5) регламентировал применение термина ссылка запись, связывающая между собой части документа, библиографические записи, классификационные деления, предметные рубрики. В примечании к этому определению сказано: различают ссылки «см.», которые организуют поиск в нужном направлении, и «см. также», которые обеспечивают полноту поиска. В связи с этим указанием стандарта теперь применение терминов «отсылка» и «полная ссылка» не рекомендуется: следует применять форму «ссылка см.», а вместо термина «частная ссылка» применяется «ссылка см. также».
5.2.3. Классификационный индекс состоит из одной или нескольких ЛЕ, которые следует выражать цифровыми, буквенными или смешанными (буквенно-цифровыми) обозначениями с использованием синтаксических знаков.
Выше мы уже употребили термин «индекс». Надо иметь в виду, что этот термин введен русскими библиотекарями еще в XIX в. (от французского Indice classificateur). От него в дальнейшем образовалась группа терминов (индексация, база индексации и др.), которые характерны только для русской терминологии. В мировой практике распространен в этом значении термин нотация (вместо индексация). Классификационный индекс в английском языке – classification number. Индексирование и индексация, таким образом, понятия совершенно различные, хотя у этих слов один корень (index – указатель (англ.)).
ГОСТ 7.74 допускает параллельное использование как основных терминов (индексация – нотация), так и всех производных (например, смешанная индексация – смешанная нотация). В библиотечной практике мы традиционно используем привычные для нас термины.
Нотация, индексация – множество символов и правила их применения, используемые для представления лексических единиц и их взаимоотношений; алфавит нотации, база индексации – множество символов, используемых в конкретной нотации (индексации). В индексации используются буквы, цифры и синтаксические знаки.
Основной элемент базы индексации – арабские цифры, десять традиционных математических знаков (0, 1, 2, … 8, 9). На самом деле эти цифры возникли в Индии в V–VI вв. и стали известны в Европе в X–XIII вв. по арабским сочинениям (откуда и получили свое название). В арабской письменности цифры обозначаются совершенно иными знаками. Недостатком арабских цифр является их узкая база – одним знаком можно обеспечить всего 10 классов, двумя – 99, тремя – 999 и т. д. Однако есть и большие достоинства: ясно видна последовательность классов, выразительно начертание индекса, он удобно произносится. Как правило, три знака в индексации отделяются точкой. Если они обозначены цифрами, то мы произносим их поразрядно (555 – пятьсот пятьдесят пять), что очень удобно.
Римские цифры (I=1, V=5, Х=10, L=50, С=100, D=500, М=1000) при–меняются в индексации крайне редко, так как занимают много места. Надо, кроме того, принимать во внимание правила сочетаний знаков: если большая цифра стоит перед меньшей, то они складываются, если же меньшая – перед большей, то меньшая вычитается из большей.
В качестве буквенных индексов используются, как правило, возможности алфавитного ряда латинского языка или национальных алфавитов (например, в России -русского, в Грузии – грузинского и т. д.). По сравнению с цифрами база индексации значительно расширена (например, латинский алфавит – 26 букв). Однако некоторые сочетания букв трудно или неудобно произносить. Одиннадцать букв в латинском и русском алфавитах совпадают по графике: А, В, С, Е, Н, К, М, О, Р, Т, X (ср. с рядом в последовательности русского алфавита: А, В, Е, К, М, Н, О, Р, С, Т, X). Когда не ясна последовательность, приходится запоминать, алфавит какого языка положен в основу индексации.
Синтаксические знаки – пунктуационные и математические символы, которые используются в системе обозначений (нотации, индексации) различных классификационных ИПЯ. Перечислим эти знаки:

Перечень не является исчерпывающим, при необходимости используются и другие знаки (звездочка, знак конгруэнтности и пр.). Надо иметь в виду, что в соответствии с правилами различных классификационных ИПЯ синтаксические знаки могут комбинироваться между собой, приобретая при этом совершенно новые значения.
5.2.4. В зависимости от количе-ства ЛЕ в классификационном индексе различают простой, сложный или составной классификационные индексы.
Определим понятия: простой индекс – классификационный индекс, содержащий один код класса без сочетания с кодами других классов; комбинированный индекс – классификационный индекс, образованный из сочетания кода класса основной таблицы классификации с кодами классов вспомогательных таблиц классификации; составной индекс – комбинированный индекс, включающий в себя один или более сложных индексов.
5.2.5. Один или несколько классификационных индексов, отражающих в совокупности содержание данного документа, составляют ПОД (полный индекс).
В систематическом каталоге полный индекс указывает все деления каталога, в которых отражается данный документ. Полный индекс указывается на основных каталожных карточках всех видов каталогов справа на 3-й снизу строке. Он выполняет связующие, системные функции: с помощью полного индекса поиск из алфавитного каталога перенаправляется в систематический. В этом случае алфавитный каталог становится как бы указателем, дополнительным входом в систематический каталог. Обратную системную функцию (переход при поиске от систематического к алфавитному каталогу) выполняет заголовок БЗ. Надо последовательно добиваться реализации найденных в карточном каталоге решений, удобных при поиске и известных читателям и библиографам, при организации электронных каталогов. Наши коллеги в США, например, выяснили, что большинство читателей хотели бы видеть на экране БЗ в той форме, которая традиционно закрепилась в карточных каталогах.
5.2.6. Система грамматических отношений классификационного ИПЯ включает: парадигматические отношения между классификационными делениями (классами), зафиксированные с помощью иерархической структуры таблиц классификации, а также с помощью ссылочно-справочного аппарата; синтагматические отношения между классификационными индексами в сложных и составных индексах, образованных в соответствии с классификационной формулой.
Напомним, что о парадигматических и синтагматических отношениях мы говорили на предыдущем занятии. Классификационная формула – унифицированный порядок расположения классификационных индексов, определяющий классификационное решение.
5.2.7. В зависимости от вида документа и поставленных задач следует применять одну или несколько универсальных систем классификации – классификационных ИПЯ, приведенных ниже.

  • Библиотечно-библиографическую классификацию (ББК),
  • Государственный рубрикатор научно-технической информации (ГРНТИ),
  • Универсальную десятичную (децимальную) классификацию (УДК),
  • Десятичную классификацию М. Дьюи(ДКД), Классификатор правовых актов (КПА),
  • Межгосударственный классификатор стандартов (МКС),
  • Международную патентную классификацию (МПК).

При необходимости допускается применять также и локальные (отраслевые, специальные) классификационные ИПЯ.
Заключительное положение о требованиях к классификационным ИПЯ рекомендует набор универсальных классификационных систем и рубрикаторов. При этом определяющими для выбора являются вид документа и поставленные задачи. Стандарт не исключает возможности использования каких-либо иных ИПЯ в том случае, если они носят локальный характер, являются отраслевыми или специальными. Такой системой является, например, номенклатура специальностей научных работников ВАК. На последующих занятиях мы поговорим о каждой из перечисленных систем, разберемся в их функциях, назовем последние издания.
В дальнейшем в наших занятиях мы будем применять стандартизованные аббревиатуры: АК (алфавитный каталог), СК (систематический каталог), ПК (предметный каталог), ПР (предметная рубрика), а также аббревиатуры, принятые стандартом для наименований классификационных систем.

Please enable JavaScript to view the

Перейти к: навигация , поиск

Информационно-поисковый язык (ИПЯ) - искусственный язык , представляющий совокупность средств для описания формальной и содержательной структуры для поиска (путем индексирования ) по запросу пользователя .

Структура

В ИПЯ можно выделить алфавит , лексику и грамматику .

    Алфавит - совокупность определенных символов для записи слов и выражений. Во многих языках для этого используются символы естественного языка .

    Лексика - совокупность всех использующихся в языке слов - лексических единиц.

    Грамматика - правила составления выражений. Грамматика во многих ИПЯ формальна, а в некоторых вообще отсутствует.

Для упорядочения лексических единиц при построении лексики служат парадигматические отношения, то есть смысловые отношения между лексическими единицами. Эти отношения устанавливаются и фиксируются в словаре языка, исходя из потребностей информационного поиска.

Типы и виды ипя Способ задания лексических единиц

    Контролируемые - языки, словарный состав которых задается и контролируется с помощью словарей и таблиц. К ним относят различные классификации. (универсальная десятичная классификация,библиографическая классификация, классификацияДьюи ).

    1. Язык предметных рубрик. На основе иерархической классификации строят систематические каталоги. На основе языка предметных рубрик строят предметные каталоги. Алфавитные каталоги - ручной поиск.

      Дескрипторные ИПЯ, а такжеязык ключевых слов- автоматический поиск.

    Неконтролируемые - лексика не задается словарем, а строится на основе выбора терминов естественного языка. Такие ИПЯ широко начали применяться в последне время.

Порядок записи лексических единиц

    Некоординируемые языки - не допускающие координации своих лексических единиц (нет связи между ними) ни в процессе индексирования, ни в процессе поиска. (система расстановки книг в библиотечном фонде, по инвентарным номерам).

    Координируемые ИПЯ - языки, в которых лексические единицы связывается, координируются между собой или в процессе индексирования или в процессе использования.

    1. Предкоординируемые - связи между лексическими единицами устанавливаются перед поиском.

      Посткоординируемые - когда связи между лексическими единицами устанавливаются только при поиске.

Лекция 8. Автоматизированные информационно-поисковые системы.

Информационно-поисковая система

Рассмотрим постановку задачи поиска в общем виде. Для этого нам необходимо ответить на три вопроса: что искать, то есть, какие источники информации, где искать (места размещение этих источников) и как искать (какие инструменты для этого использовать).

Каковы основные источники информации, представленные в Интернете?

Это документы WWW, статьи в группах новостей и списках рассылки, файлы в библиотеках файлов, справочники адресной информации организаций и людей (электронная почта, адрес, телефон), статьи в тематических базах данных, энциклопедиях.

Где эти источники информации размещаются?

Это такие популярные ресурсы Интернет, как WWW, группы новостей, списки рассылки и FTP-серверы. Безусловно, можно искать нужные источники информации вручную, узнавать адреса из специализированных журналов по информатике и Интернету, использовать специальные бумажные справочники с классифицированными по категориям адресами. Однако для такого изменчивого пространства как Интернет необходимо научиться пользоваться специальными инструментами, цель которых - собирать данные об информационных ресурсах и предоставлять пользователям услугу быстрого поиска.

ИПС (информационно-поисковая система) - это система, обеспечивающая поиск и отбор необходимых данных в специальной базе с описаниями источников информации (индексе) на основе информационно-поискового языка и соответствующих правил поиска.

Главной задачей любой ИПС является поиск информации релевантной информационным потребностям пользователя. Очень важно в результате проведенного поиска ничего не потерять, то есть найти все документы, относящиеся к запросу, и не найти ничего лишнего. Поэтому вводится качественная характеристика процедуры поиска - релевантность.

Релевантность - это соответствие результатов поиска сформулированному запросу. Далее мы будем, в основном, рассматривать ИПС для всемирной паутины (WWW). Основными показателями ИПС для WWW являются пространственный масштаб и специализация. По пространственному масштабу ИПС можно разделить на локальные, глобальные, региональные и специализированные. Локальные поисковые системы могут быть разработаны для быстрого поиска страниц в масштабе отдельного сервера. Региональные ИПС описывают информационные ресурсы определенного региона, например, русскоязычные страницы в Интернете. Глобальные поисковые системы в отличие от локальных стремятся объять необъятное - по возможности наиболее полно описать ресурсы всего информационного пространства сети Интернет.

В общем случае, можно выделить следующие поисковые инструменты для WWW: каталоги, поисковые системы, метапоисковые системы.

Каталог - поисковая система с классифицированным по темам списком аннотаций со ссылками на web-ресурсы. Классификация, как правило, проводится людьми. Поиск в каталоге очень удобен и проводится посредством последовательного уточнения тем. Тем не менее, каталоги поддерживают возможность быстрого поиска определенной категории или страницы по ключевым словам с помощью локальной поисковой машины. База данных ссылок (индекс) каталога обычно имеет ограниченный объем, заполняется вручную персоналом каталога. Некоторые каталоги используют автоматическое обновление индекса. Результат поиска в каталоге представляется в виде списка, состоящего из краткого описания (аннотации) документов с гипертекстовой ссылкой на первоисточник.

Адреса популярных каталогов:

Зарубежные каталоги:

Yahoo - www.yahoo.com Magellan - www.mckinley.com

Российские каталоги:

@Rus-www.aport.ruWeblist-www.weblist.ruУлитка -www.ulitka.ru

Поисковая машина

Поисковая машина - поисковая система с формируемой роботом базой данных, содержащей информацию об информационных ресурсах. Отличительной чертой поисковых машин является тот факт, что база данных, содержащая информацию об Web-страницах, статьях Usenet и т.д., формируется программой-роботом. Поиск в такой системе проводится по запросу, составляемому пользователем, состоящему из набора ключевых слов или фразы, заключенной в кавычки. Индекс формируется и поддерживается в актуальном состоянии роботами-индексировщиками. В описании документа чаще всего содержится несколько первых предложений или выдержки из текста документа с выделением ключевых слов. Как правило, указана дата обновления (проверки) документа, его размер в килобайтах, некоторые системы определяют язык документа и его кодировку (для русскоязычных документов). Что можно делать с полученными результатами? Если название и описание документа соответствует вашим требованиям, можно немедленно перейти к его первоисточнику по ссылке. Это удобнее делать в новом окне, чтобы иметь возможность далее анализировать результаты выдачи. Многие поисковые системы позволяют проводить поиск в найденных документах, причем вы можете уточнить ваш запрос введением дополнительных терминов. Если интеллектуальность системы высока, вам могут предложить услугу поиска похожих документов. Для этого вы выбираете особо понравившийся документ и указываете его системе в качестве образца для подражания. Однако, автоматизация определение похожести - весьма нетривиальная задача, и зачастую эта функция работает неадекватно вашим надеждам. Некоторые поисковики позволяют провести пересортировку результатов. Для экономии вашего времени можно сохранить результаты поиска в виде файла на локальном диске для последующего изучения в автономном режиме.

Адреса наиболее популярных поисковых машин за рубежом и в России.

Зарубежные поисковые машины:

Google - www.google.comAltavista - www.altavista.comExcite - www.excite.comHotBot - www.hotbot.comNothern Light - www.northernlight.comGo (Infoseek) - www.go.com(infoseek.com) Fast - www.alltheweb.com

Российские поисковые машины:

Яndex - www.yandex.ru(илиwww.ya.ru) Рэмблер -www.rambler.ruАпорт -www.aport.ru

Метапоисковая машина

етапоисковая система. Обратите внимание на то, что различные поисковые системы описывают разное количество источников информации в Интернет. Поэтому нельзя ограничиваться поиском только в одной из указанных поисковых системах. Теперь познакомимся с инструментами поиска, которые не формируют собственный индекс, но умеют использовать возможности других поисковых систем. Это метапоисковые системы (поисковые службы) - системы, способные послать запросы пользователя одновременно нескольким поисковым серверам, затем объединить полученные результаты и представить их пользователю в виде документа со ссылками.

Адреса известных метапоисковых систем:

MetaCrawler-www.metacrawler.comSavvySearch-www . savvysearch . com

Поиск источников информации

Обсудим проблему поиска такого источника информации, как статьи в группах новостей. Инструментами поиска в данном случае могут являться рассмотренные поисковые машины WWW, которые индексируют не только пространство WWW, но и статьи в телеконференциях и имеют специальный режим поиска именно в этом ресурсе. Поиск в группах новостей поддерживает, например, поисковый сервер Altavistа. Следует отметить, что поисковые системы WWW весьма оперативно индексируют группы новостей и содержат информацию о статьях, реально существующих в сети. Для поиска в архивах новостей существую специализированные системы, самой известной из которых является система Deja (www.deja.com). Эта система позволяет проводить как поиск отдельных статей, содержащих введенный термин, так и поиск определенных групп новостей, посвященных обсуждению заданной темы. Можно зарегистрироваться в Deja и подписаться на определенные группы новостей.

Теперь рассмотрим инструменты, позволяющие проводить поиск файлов. Многие поисковые системы WWW стали оказывать услугу поиска мультимедийных файлов (Altavista, Aport). Для этого вовсе нет необходимости знать специальные операторы, а достаточно перейти с домашней страницы по ссылкам Картинки (Images), MP3/Audio или Video к специальному режиму поиска. Поиск проводится по возможному имени файла или по тексту в комментарии к ссылке на мультимедийный файл.

Что касается поиска программного обеспечения, во всемирной паутине существуют поисковые Web-серверы с коллекциями условно-бесплатного ПО, некоторые из них специализируются на поиск программного обеспечения для Интернета или для конкретной операционной системы. Эти системы в конечном итоге приведут вас к конкретному серверу, с которого и можно скачать искомый программный продукт. Следует упомянуть серверы Archie, также оказывающие услугу поиска файлов на FTP-серверах, однако пользоваться Web-серверами гораздо удобнее.

Рассмотрим поисковые инструменты для поиска адресной информации. Введем понятие Белого(White) и Желтого (Yellow) поиска.

White-поиск - поиск адресной информации по заранее известному собственному имени адресата (имя человека или организации)

Yellow-поиск - поиск собственного имени по дополнительным признакам (по роду деятельности, по географическому признаку), а затем поиск его адресной информации.

Обычно Yellow Pages системы фактически сразу включают в себя и White Pages - у найденного адресата сразу видны его телефон и почтовый адрес. Кроме того, некоторые Yellow Pages позволяют искать просто в алфавитном списке своих абонентов (white-поиск). С другой стороны, White pages также содержат элементы yellow-поиска - кроме задания собственного имени они обычно позволяют указать название города, штата и другие, сужающие поиск, данные (что необходимо в случае многих однофамильцев). Возможно, именно поэтому многие on-line телефонные справочники, выполняющие, фактически white-поиск, называют себя Yellow pages.

Здесь приведены адреса Web-систем для поиска адресной информации для людей и организаций.

Поиск людей:

    Поиск людей на Yahoo (http://people.yahoo.com).

    Система WhoWhere (www.whowhere.com).

    Система Bigfoot (www.bigfoot.com).

Поиск организаций: раздел Желтые страницы (Yellow pages) на поисковых системах специализированные сервера www.yellowpages.com- для поиска в США и других странах.

Пользователям Internet уже хорошо известны названия таких сервисов и информационных служб, как Lycos, AltaVista, Yahoo, OpenText, InfoSeek, а без услуг этих систем сегодня практи чески нельзя найти что-либо полезное в море информационных ресурсов Сети. Но что собой представляют эти сервисы изнутри, как они устроены, почему результат поиска в терабайтных массивах информации осуществляется достаточно быстро и как устроено ранжирование документов при выдаче - все это обычно остается за кадром. Тем не менее без правильного планирования стратегии поиска, знакомства с основными положениями теории ИПС (Информационно-Поисковых Систем), насчитывающей уже двадцатилетнюю историю, трудно эффективно использовать даже такие скорострельные сервисы, как AltaVista или Lycos.

Информационно-поисковые системы появились на свет достаточно давно. Теории и практике построения таких систем посвящено множество статей, основная масса которых приходится на конец 70-х - начало 80-х годов. Среди отечественных источников следует выделить научно-технический сборник "Научно-техническая информация. Серия 2", который выходит до сих пор. На русском языке издана так же и "библия" по разработке ИПС - "Динамические библиотечно-информационные системы" Ж. Солтона , в которой рассмотрены основные принципы построения информационно-поисковых систем и моделирования процессов их функционирования. Таким образом, нельзя сказать, что с появлением Internet и бурным вхождением его в практику информационного обеспечения появилось нечто принципиально новое, чего не было раньше. Если быть точным, то ИПС в Internet - это признание того, что ни иерархическая модель Gopher, ни гипертекстовая модель World Wide Web еще не решают проблему поиска информации в больших объемах разнородных документов. И на сегодняшний день нет другого способа быстрого поиска данных, кроме поиска по ключевым словам. При использовании иерархической модели Gopher приходится довольно долго бродить по дереву каталогов, пока не встретишь нужную информацию. Эти каталоги должны кем-то поддерживаться, и при этом их тематическое разбиение должно совпадать с информационными потребностями пользователя. Учитывая анархичность Internet и огромное количество всевозможных интересов у пользователей Сети, понятно, что кому-то может и не повезти и в сети не будет каталога, отражающего конкретную предметную область. Именно по этой причине для множества серверов Gopher, называемого GopherSpace была разработана информационно-поисковая программа Veronica (Very Easy Rodent-Oriented Net-wide Index of Computerized Archives).

Аналогичное развитие событий наблюдается и в World Wide Web. Собственно еще в 1988 году в специальном выпуске журнала "Communication of the ACM" среди прочих проблем разработки гипертекстовых систем и их использования Франк Халаз назвал в качестве первоочередной задачи для следующего поколения систем этого типа назвал проблему организации поиска информации в больших гипертекстовых сетях. До сих пор многие идеи, высказанные в той статье, не нашли еще своей реализации. Естественно, что система, предложенная Бернерсом-Ли и получившая такое широкое распространение в Internet, должна была столкнуться с теми же проблемами, что и ее локальные предшественники. Реальное подтверждение этому было продемонстрировано на второй конференции по World Wide Web осенью 1994 года, на которой были представлены доклады о разработке информационно-поисковых систем для Web, а система World Wide Web Worm, разработанная Оливером МакБрайном из Университета Колорадо, получила приз как лучшее навигационное средство. Следует также отметить, что все-таки долгая жизнь суждена отнюдь не чудесным программам талантливых одиночек, а средствам, являющимся результатом планового и последовательного движения научных и производственных коллективов к поставленной цели. Рано или поздно этап исследований заканчивается, и наступает этап эксплуатации систем, а это уже совсем другой род деятельности. Именно такая судьба ожидала два других проекта, представленных на той же конференции: Lycos, поддерживаемый компанией Microsoft, и WebCrawler, ставший собственностью America On-line.

Разработка новых информационных систем для Web не завершена. Причем как на стадии написания коммерческих систем, так и на стадии исследований. За прошедшие два года снят только верхний слой возможных решений. Однако многие проблемы, которые ставит перед разработчиками ИПС Internet, не решены до сих пор. Именно этим обстоятельством и вызвано появление проектов типа AltaVista компании Digital , главной целью которого является разработка программных средств информационного поиска для Web и подбор архитектуры для информационного сервера Web.

Архитектура современных ИПС для WWW

Прежде чем описать проблемы построения информационно-поисковых систем Web и пути их решения рассмотрим типовую схему такой системы. В различных публикациях, посвященных конкретным системам, например , приводятся схемы, которые отличаются друг от друга только способом применения конкретных программных решений, а не принципом организации различных компонентов системы. Поэтому рассмотрим эту схему на примере, взятом из работы.

Client (клиент) на этой схеме - это программа просмотра конкретного информационного ресурса. Наиболее популярны сегодня мультипротокольные программы типа Netscape Navigator. Такая программа обеспечивает просмотр документов WWW, Gopher, Wais, FTP-архивов, почтовых списков рассылки и групп новостей Usenet. В свою очередь все эти информационные ресурсы являются объектом поиска информационно-поисковой системы.

User interface (пользовательский интерфейс) - это не просто программа просмотра, в случае информационно-поисковой системы под этим словосочетанием понимают также способ общения пользователя с поисковым аппаратом: системой формирования запросов и просмотров результатов поиска.

Search engine (поисковая машина) - служит для трансляции запроса на информационно-поисковом языке (ИПЯ), в формальный запрос системы, поиска ссылок на информационные ресурсы Сети и выдачи результатов этого поиска пользователю.

Index database (индекс базы данных) - индекс, который является основным массивом данных ИПС и служит для поиска адреса информационного ресурса. Архитектура индекса устроена таким образом, чтобы поиск происходил максимально быстро и при этом можно было бы оценить ценность каждого из найденных информационных ресурсов сети.

Queries (запросы пользователя) - сохраняются в его (пользователя) личной базе данных. На отладку каждого запроса уходит достаточно много времени, и поэтому чрезвычайно важно запоминать запросы, на которые система дает хорошие ответы.

Index robot (робот-индексировщик) - служит для сканирования Internet и поддержания базы данных индекса в актуальном состоянии. Эта программа является основным источником информации о состоянии информационных ресурсов сети.

WWW sites - это весь Internet или точнее - информационные ресурсы, просмотр которых обеспечивается программами просмотра.

Рассмотрим теперь назначение и принципу построения каждого из этих компонентов более подробно и определим, в чем отличие данной системы от традиционной ИПС локального типа.

В традиционных системах используется понятие поискового образа документа - ПОД. Обычно, этим термином обозначают нечто, заменяющее собой документ и использующееся при поиске вместо реального документа. Поисковый образ является результатом применения некоторой модели информационного массива документов к реальному массиву. Наиболее популярной моделью является векторная модель , в которой каждому документу приписывается список терминов, наиболее адекватно отражающих его смысл. Если быть более точным, то документу приписывается вектор размерности, равный числу терминов, которыми можно воспользоваться при поиске. При булевой векторной модели элемент вектора равен 1 или 0, в зависимости от наличия или отсутствия термина в ПОД. В более сложных моделях термины взвешиваются - элемент вектора равен не 1 или 0, а некоторому числу (весу), отражающему соответствие данного термина документу. Именно последняя модель стала наиболее популярной в ИПС Internet .

Вообще говоря, существуют и другие модели описания документов: вероятностная модель информационных потоков и поиска и модель поиска в нечетких множествах . Не вдаваясь в подробности, имеет смысл обратить внимание на то, что пока только линейная модель применяется в системах Lycos, WebCrawler, AltaVista, OpenText и AliWeb. Однако ведутся исследования по применению и других моделей, результаты которых отражены в работах . Таким образом, первая задача, которую должна решить ИПС, - это приписывание списка ключевых слов документу или информационному ресурсу. Именно эта процедура и называется индексированием. Часто, однако, индексированием называют составление файла инвертированного списка, в котором каждому термину индексирования ставится в соответствие список документов в которых он встречается. Такая процедура является только частным случаем, а точнее, техническим аспектом создания поискового аппарата ИПС. Проблема, связанная с индексированием, заключается в том, что приписывание поискового образа документу или информационному ресурсу опирается на представление о словаре, из которого эти термины выбираются, как о фиксированной совокупности терминов. В традиционных системах существовало разбиение на системы с контролируемым словарем и системы со свободным словарем. Контролируемый словарь предполагал ведение некоторой лексической базы данных, добавление терминов в которую производилось администратором системы, и все новые документы могли быть заиндексированы только теми терминами, которые были в этой базе данных. Свободный словарь пополнялся автоматически по мере появления новых документов. Однако на момент актуализации словарь также фиксировался. Актуализация предполагала полную перезагрузку базы данных. В момент этого обновления перегружались сами документы, и обновлялся словарь, а после его обновления производилась переиндексация документов. Процедура актуализации занимала достаточно много времени и доступ к системе в момент ее актуализации закрывался.

Теперь представим себе возможность такой процедуры в анархичном Internet, где ресурсы появляются и исчезают ежедневно. При создании программы Veronica для GopherSpace предполагалось, что все серверы должны быть зарегистрированы, и таким образом велся учет наличия или отсутствия ресурса. Veronica раз в месяц проверяла наличие документов Gopher и обновляла свою базу данных ПОД для документов Gopher. В World Wide Web ничего подобного нет. Для решения этой задачи используются программы сканирования сети или роботы-индексировщики . Разработка роботов - это довольно нетривиальная задача; существует опасность зацикливания робота или его попадания на виртуальные страницы. Робот просматривает сеть, находит новые ресурсы, приписывает им термины и помещает в базу данных индекса. Главный вопрос заключается в том, что за термины приписывать документам, откуда их брать, ведь ряд ресурсов вообще не является текстом. Сегодня роботы обычно используют для индексирования следующие источники для пополнения своих виртуальных словарей: гипертекстовые ссылки, заголовки, заглавия (H1,H2), аннотации, списки ключевых слов, полные тексты документов, а также сообщения администраторов о своих Web-страницах . Для индексирования telnet, gopher, ftp, нетекстовой информации используются главным образом URL, для новостей Usenet и почтовых списков поля Subject и Keywords. Наибольший простор для построения ПОД дают HTML документы. Однако не следует думать, что все термины из перечисленных элементов документов попадают в их поисковые образы. Очень активно применяются списки запрещенных слов (stop-words), которые не могут быть употреблены для индексирования, общих слов (предлоги, союзы и т.п.). Таким образом даже то, что в OpenText, например, называется полнотекстовым индексированием реально является выбором слов из текста документа и сравнением с набором различных словарей, после которого термин попадает в ПОД, а потом и в индекс системы. Для того чтобы не раздувать словарей и индексов (индекс системы Lycos уже сегодня равен 4 Тбайт), применяется такое понятие, как вес термина . Документ обычно индексируется через 40 - 100 наиболее "тяжелых" терминов.

После того как ресурсы заиндексированы и система составила массив ПОД, начинается построение поискового аппарата. Совершенно очевидно, что лобовой просмотр файла или файлов ПОД займет много времени, что абсолютно не приемлемо для интерактивной системы WWW. Для ускорения поиска строится индекс, которым в большинстве систем является набор связанных между собой файлов, ориентированных на быстрый поиск данных по запросу. Структура и состав индексов различных систем могут отличаться друг от друга и зависят от многих факторов: размер массива поисковых образов, информационно-поисковый язык, размещения различных компонентов системы и т.п. Рассмотрим структуру индекса на примере системы , для которой можно реализовывать не только примитивный булевый, но и контекстный и взвешенный поиск, а также ряд других возможностей, отсутствующие во многих поисковых системах Internet, например Yahoo. Индекс рассматриваемой системы состоит из таблицы идентификаторов страниц (page-ID), таблицы ключевых слов (Keyword-ID), таблицы модификации страниц, таблицы заголовков, таблицы гипертекстовых связей, инвертированного (IL) и прямого списка (FL).

Page-ID отображает идентификаторы страниц в их URL, Keyword-ID - каждое ключевое слов в уникальный идентификатор этого слова, таблица заголовков - идентификатор страницы в заголовок страницы, таблица гипертекстовых ссылок - идентификатор страниц в гипертекстовую ссылку на эту страницу. Инвертированный список ставит в соответствие каждому ключевому слову документа список пар - идентификатор страницы, позиция слова в странице. Прямой список - это массив поисковых образов страниц. Все эти файлы так или иначе используются при поиске, но главным среди них является файл инвертированного списка. Результат поиска в данном файле - это объединение и/или пересечение списков идентификаторов страниц. Результирующий список, который преобразовывается в список заголовков, снабженных гипертекстовыми ссылками возвращается пользователю в его программу просмотра Web. Для того чтобы быстро искать записи инвертированного списка, над ним надстраивается еще несколько файлов, например, файл буквенных пар с указанием записей инвертированного списка, начинающихся с этих пар. Кроме этого, применяется механизм прямого доступа к данным - хеширование. Для обновления индекса используется комбинация двух подходов. Первый можно назвать коррекцией индекса "на ходу" с помощью таблицы модификации страниц. Суть такого решения довольно проста: старая запись индекса ссылается на новую, которая и используется при поиске. Когда число таких ссылок становится достаточным для того, чтобы ощутить это при поиске, то происходит полное обновление индекса - его перезагрузка. Эффективность поиска в каждой конкретной ИПС определяется исключительно архитектурой индекса. Как правило, способ организации этих массивов является "секретом фирмы" и ее гордостью. Для того чтобы убедиться в этом, достаточно почитать материалы OpenText .

Индекс - это только часть поискового аппарата, скрытая от пользователя. Второй частью этого аппарата является информационно-поисковый язык (ИПЯ), позволяющий сформулировать запрос к системе в простой и наглядной форме. Уже давно осталась позади романтика создания ИПЯ, как естественного языка, - именно этот подход использовался в системе Wais на первых стадиях ее реализации. Если даже пользователю предлагается вводить запросы на естественном языке, то это еще не значит, что система будет осуществлять семантический разбор запроса пользователя. Проза жизни заключается в том, что обычно фраза разбивается на слова, из которых удаляются запрещенные и общие слова, иногда производится нормализация лексики, а затем все слова связываются либо логическим AND, либо OR. Таким образом, запрос типа:

>Software that is used on Unix Platform

будет преобразован в:

>Unix AND Platform AND Software

что будет означать примерно следующее: "Найди все документы, в которых слова Unix, Platform и Software встречаются одновременно".

Возможны и варианты. Так, в большинстве систем фраза "Unix Platform" будет опознана как ключевая фраза и не будет разделяться на отдельные слова. Другой подход заключается в вычислении степени близости между запросом и документом. Именно этот подход используется в Lycos. В этом случае в соответствии с векторной моделью представления документов и запросов вычисляется их мера близости. Сегодня известно около дюжины различных мер близости. Наиболее часто применяется косинус угла между поисковым образом документа и запросом пользователя. Обычно эти проценты соответствия документа запросу и выдаются в качестве справочной информации при списке найденных документов.

Наиболее развитым языком запросов из современных ИПС Internet обладает Alta Vista. Кроме обычного набора AND, OR, NOT эта система позволяет использовать еще и NEAR, позволяющий организовать контекстный поиск. Все документ в системе разбиты на поля, поэтому в запросе можно указать, в какой части документа пользователь надеется увидеть ключевое слово: ссылка, заглавие, аннотация и т.п. Можно также задавать поле ранжирования выдачи и критерий близости документов запросу.

Важным фактором является вид представления информации в программе-интерфейсе. Различают два типа интерфейсных страниц: страницы запросов и страницы результатов поиска.

При составлении запроса к системе используют либо меню - ориентированный подход, либо командную строку. Первый позволяет ввести список терминов, обычно разделяемых пробелом, и выбрать тип логической связи между ними. Логическая связь распространяется на все термины. На приведенной на рис. 1 схеме имеется сохраненные запросы пользователя - в большинстве систем это просто фраза на ИПЯ, которую можно расширить за счет добавления новых терминов и логических операторов. Но это только один способ использования сохраненных запросов, называемый расширением или уточнением запроса. Для выполнения этой операции традиционная ИПС хранит не запрос как таковой, а результат поиска - список идентификаторов документов, который объединяется/пересекается со списком, полученным при поиске документов по новым терминам. К сожалению, сохранение списка идентификаторов найденных документов в WWW не практикуется, что было вызвано особенностью протоколов взаимодействия программы-клиента и сервера, не поддерживающих сеансовый режим работы.

Итак, результат поиска в базе данных ИПС - это список указателей на удовлетворяющие запросу документы. Различные системы представляют этот список по-разному. В некоторых выдается только список ссылок, а в таких, как Lycos, Alta Vista и Yahoo, дается еще и краткое описание, которое заимствуется либо из заголовков, либо из тела самого документа. Кроме этого, система сообщает, на сколько найденный документ соответствует запросу. В Yahoo, например, это количество терминов запроса, содержащихся в ПОД, в соответствии с которым ранжируется результат поиска. Система Lycos выдает меру соответствия документа запросу, по которой производится ранжирование.

Кроме ссылок на документы в списке, полученном пользователем, могут оказаться ссылки на части документов или на их поля. Это происходит при наличии ссылок типа http://host/path#mark или ссылок по схеме WAIS. Возможны ссылки и на скрипты, но обычно такие ссылки роботы пропускают, и система их не индексирует. Если с http-ссылками все более или менее понятно, то ссылки WAIS - это гораздо более сложные объекты. Дело в том, что WAIS реализует архитектуру распределенной информационно-поисковой системы, при которой одна ИПС, например Lycos, строит поисковый аппарат над поисковым аппаратом другой системы - WAIS. При этом серверы WAIS имеют свои собственные локальные базы данных. При загрузке документов в WAIS администратор может описать структуру документов, разбив их на поля, и хранить документы в виде одного файла. Индекс WAIS будет ссылаться на отдельные документы и их поля как на самостоятельные единицы хранения, программа просмотра ресурсов Internet в этом случае должна уметь работать с протоколом WAIS, чтобы получить доступ к этим документам.

2 часа

Создание лексико-семантической основы ИПЯ.

Часть 3. Организационное оформление лексики

Цель работы: Познакомиться с видами организационного оформления лексики.

Задачи работы: 1. Овладеть правилами систематизации лексических единиц;

2. Приобрести навыки представления лексики в виде

Иерархической классификации, классификаторов,

Информационно-поисковых тезаурусов.

Обеспечивающие средства: массив карточек с лексическими единицами; информационно-поисковые языки (УДК, ББК, ГРНТИ).

Задание 1: Организационно представить лексику в виде иерархической классификации.

Требования к отчету: Итоги выполнения задания представить в виде фрагмента иерархической классификации:

  1. Языки информационно-поисковые

11. Языки информационно-поисковые классификационные

  1. Системы классификации иерархические
    1. Системы классификации комбинационные

11.111 Библиотечно-библиографическая классификация

11.112 Универсальная десятичная классификация

  1. Системы классификации перечислительные

11.121 Международная классификация изобретений

………………………….

Технология работы:

  1. На основе классификационной схемы понятий, созданной в ходе выполнения лабораторной работы 5, присвоить цифровые обозначения представленным в ней лексическим единицам. При построении индекса необходимо отразить в его структуре подчинение понятий, т.е. обеспечить в структуре индекса наглядное выражение парадигматических отношений.
  2. Упорядочить заиндексированные лексические единицы.
  3. Оформить результаты в виде фрагмента иерархической классификации.

Задание 2 : Составить алфавитно-предметный указатель к иерархической классификации.

Требования к отчету: Итоги выполнения задания представить в виде фрагмента алфавитно-предметного указателя к иерархической классификации:

Алфавитно-предметный указатель

ББК см. Библиотечно-библиографическая классификация

Библиотечно-библиографическая классификация 11.111

ИПЯ см. Языки информационно-поисковые

Международная классификация изобретений

МКИ см. Международная классификация изобретений 11.121

Системы классификации иерархические 11.1

Системы классификации комбинационные 11.11

Системы классификации перечислительные 11.12

УДК см. Универсальная десятичная классификация

Универсальная десятичная классификация 11.112

Языки информационно-поисковые 1

Языки информационно-поисковые классификационные 11

Технология работы:

  1. На основе созданного в ходе выполнения задания 1 фрагмента иерархической классификации составить предметные рубрики для алфавитно-предметного указателя.
  2. Отразить в АПУ с помощью ссылки см. синонимы, выделенные в ходе выполнения лабораторной работы 5.
  3. Упорядочить построенные предметные рубрики в алфавитном порядке.
  4. Оформить результаты в виде фрагмента АПУ к иерархической классификации.

Задание 3: Организационно представить лексику в виде классификатора.

Требования к отчету: Итоги выполнения задания представить в виде фрагмента классификатора:

Фрагмент классификатора, созданного на основе порядкового метода кодирования

00001 Библиотечно-библиографическая классификация

00002 Международная классификация изобретений

00003 Системы классификации иерархические

00004 Системы классификации комбинационные

00005 Системы классификации перечислительные

00006 Универсальная десятичная классификация

00007 Языки информационно-поисковые классификационные

………………………

Фрагмент классификатора, созданного на основе последовательного метода кодирования

11000 Языки информационно-поисковые классификационные

11200 Системы классификации иерархические

11210 Системы классификации комбинационные

11211 Библиотечно-библиографическая классификация

11212 Универсальная десятичная классификация

11220 Системы классификации перечислительные

11221 Международная классификация изобретений

…………………..

Технология работы:

  1. На основе классификационной схемы понятий, созданной в ходе выполнения лабораторной работы 5, присвоить цифровые обозначения представленным в ней лексическим единицам.
  2. При построении кода необходимо использовать различные методы кодирования: порядковый, серийно-порядковый, последовательный и параллельный.
  3. Упорядочить закодированные лексические единицы.
  4. Оформить результаты в виде фрагментов классификатора.

Задание 4 : Организационно представить лексику в виде информационно-поискового тезауруса.

Требования к отчету: Итоги выполнения задания представить в виде фрагмента лексико-семантического указателя информационно-поискового тезауруса:

Формула дескрипторной статьи Пример:

Дескриптор СИСТЕМЫ КЛАССИФИКАЦИИ

синонимы КОМБИНАЦИОННЫЕ

вышестоящие понятия в Системы классификации иерархические

нижестоящие понятия н Библиотечно-библиографическая

ассоциативные понятия классификация

Универсальная десятичная

Классификация

А Системы классификации

Перечислительные

Технология работы:

  1. Используя формулу дескрипторной статьи, упорядочить выделенные и представленные в классификационной схеме понятий лексические единицы (см. лабораторную работу 5).
  2. Представить в алфавитном порядке дескрипторные и аскрипторные статьи.
  3. Оформить результаты в виде фрагмента лексико-семантического указателя информационно-поискового тезауруса.

Контрольные вопросы

  1. Перечислите основные способы организационного оформления лексики ИПЯ.
  2. В чем состоит сходство и различие систем классификации, классификаторов, информационно-поисковых тезаурусов?
  1. Гендина Н.И. Лингвистическое обеспечение автоматизированных библиотечных систем. – Алма-Ата: Гылым, 1991. – С. 64-77.
  2. Гендина Н.И., Скипор И.Л. Лингвистические основы информатики: Гипертекстовый учебный терминологический словарь-справочник. – Кемерово: Кузбассвузиздат, 2002.-124 с.


Эта статья также доступна на следующих языках: Тайский

  • Next

    Огромное Вам СПАСИБО за очень полезную информацию в статье. Очень понятно все изложено. Чувствуется, что проделана большая работа по анализу работы магазина eBay

    • Спасибо вам и другим постоянным читателям моего блога. Без вас у меня не было бы достаточной мотивации, чтобы посвящать много времени ведению этого сайта. У меня мозги так устроены: люблю копнуть вглубь, систематизировать разрозненные данные, пробовать то, что раньше до меня никто не делал, либо не смотрел под таким углом зрения. Жаль, что только нашим соотечественникам из-за кризиса в России отнюдь не до шоппинга на eBay. Покупают на Алиэкспрессе из Китая, так как там в разы дешевле товары (часто в ущерб качеству). Но онлайн-аукционы eBay, Amazon, ETSY легко дадут китайцам фору по ассортименту брендовых вещей, винтажных вещей, ручной работы и разных этнических товаров.

      • Next

        В ваших статьях ценно именно ваше личное отношение и анализ темы. Вы этот блог не бросайте, я сюда часто заглядываю. Нас таких много должно быть. Мне на эл. почту пришло недавно предложение о том, что научат торговать на Амазоне и eBay. И я вспомнила про ваши подробные статьи об этих торг. площ. Перечитала все заново и сделала вывод, что курсы- это лохотрон. Сама на eBay еще ничего не покупала. Я не из России , а из Казахстана (г. Алматы). Но нам тоже лишних трат пока не надо. Желаю вам удачи и берегите себя в азиатских краях.

  • Еще приятно, что попытки eBay по руссификации интерфейса для пользователей из России и стран СНГ, начали приносить плоды. Ведь подавляющая часть граждан стран бывшего СССР не сильна познаниями иностранных языков. Английский язык знают не более 5% населения. Среди молодежи — побольше. Поэтому хотя бы интерфейс на русском языке — это большая помощь для онлайн-шоппинга на этой торговой площадке. Ебей не пошел по пути китайского собрата Алиэкспресс, где совершается машинный (очень корявый и непонятный, местами вызывающий смех) перевод описания товаров. Надеюсь, что на более продвинутом этапе развития искусственного интеллекта станет реальностью качественный машинный перевод с любого языка на любой за считанные доли секунды. Пока имеем вот что (профиль одного из продавцов на ебей с русским интерфейсом, но англоязычным описанием):
    https://uploads.disquscdn.com/images/7a52c9a89108b922159a4fad35de0ab0bee0c8804b9731f56d8a1dc659655d60.png