Основные операции с данными и их характеристики

? Предыдущая3456789101112Следующая ?

Данные – диалектическая составная часть информации. Они представляют собой зарегистрированные сигналы. В соответствии с методом регистрации данные могут храниться и транспортироваться на носителях различных видов. Самым распространенным носителем данных является бумага. На бумаге данные регистрируются путем изменения оптических характеристик ее поверхности.

Любой носитель можно характеризовать параметром разрешающей способности (количеством данных, записанных в принятой для носителя единице измерения) и динамическим диапазоном (отношением амплитуд максимального и минимального регистрируемых сигналов). От этих свойств носителя нередко зависят такие свойства информации, как полнота, доступность и достоверность. Обработка и преобразование данных различных форматов являются важнейшими задачами, как общей информатики, так и её прикладных ветвей.

Обработка данных включает в себя множество различных операций (рис. 1.11). Приведенный список операций с данными не является исчерпывающим. Важно другое: работа с информацией может иметь огромную трудоемкость, что и определяет актуальность задачи автоматизации приведенных операций.

С развитием средств связи и вычислительной техники и их использованием для передачи и обработки информации возникла необходимость найти методы измерения количественных характеристик информации.

В настоящее время для измерения количества информации существуют два подхода.

Первый подход основан на определении «физического объема» информации:

— Физический объем информации – это длина представляемого текста.

— Информационная емкость – количество передаваемой информации.

— Компактность – соотношение информационного и физического объемов.

— Информационная плотность – соотношение информационной емкости и информационного объема.

Единицами измерения объемов нормативного текста могут быть: количество статей в нормативно – правовом акте, число типографских страниц, которые занимает изучаемый нормативный акт, число фраз, содержащихся в данном акте, и т. д.

Второй подходоснован на положениях теории информации, разработанной американским ученым К. Шенноном. Здесь фундаментальное значение имеют два понятия: неопределенность и энтропия.

Неопределенность – это отсутствие информации о системе и ее состояниях. Следовательно, понятия информации и неопределенности тесно связаны и дополняют друг друга. Чем более увеличивается знание об исследуемом событии или явлении, тем меньше становится неопределенность.

Информация в сообщении приобретает смысл только тогда, когда состояние исследуемой системы «случайно» (неопределенно, неизвестно). Полученные сведения о событиях или явлениях тем ценнее и содержательнее, чем больше была неопределенность о них до получения этих сведений.

Энтропия – это количественная мера неопределенности. При получении сведений об объекте мера неопределенности уменьшается. Величина, на которую уменьшилась энтропия, и есть количество полученной информации.

Для рассмотрения формулы К. Шеннона примем следующие обозначения:

Н0(х) – энтропия случайной величины до получения сообщения;

Н1(х) – энтропия случайной величины после получения сообщения о ее состоянии (остаточная энтропия);

Н(х) – разность величин Н1(х) и Н0(х).

Тогда количество информации может быть представлено в следующем виде:

Н(х)= Н0(х) –Н1(х).

К. Шеннон предложил знаменитую формулу для измерения энтропии

Н(х) = –Рi *log Рi ,(1.1)

где: Н(х) – символ энтропии;

х – исследуемое случайное событие (явление);

Рi – вероятность реализации i – го элемента сложного явления (i= 1…n);

п – число состояний системы;

– знак суммы;

1оg Рi– логарифм вероятности отдельно взятого элементарного события.

В данной формуле логарифм (показатель степени, в которую нужно возвести некоторое число — основание, чтобы получить данное) используется с целью удобства при выполнении математических действий (сложения, вычитания и др.) над различными величинами, получаемыми в результате измерения информации.

Рассчитываемая таким образом мера неопределенности случайного события может принимать значения от 0 до 1 включительно.

Формула К. Шеннона позволяет ввести единицу информации. За единицу информации принято считать такое количество информации, которое содержится в исходе опыта (сообщения), когда за возможные принимаются только два состояния (1 или 0). При этом каждое состояние может быть реализовано с одинаковой вероятностью.

Приведем элементарный расчет.

Условия:

Р1=Р2= 0,5;n= 2.

Подставляем эти данные в формулу Шеннона, получаем:

H(х) = – [0,5 ?log 1/2 + 0,5 ?log 1/2]= – [0,5?( – 1) + 0,5?( – 1)] = 1.

Полученная единица количества информации, представляющая собой выбор из двух равновероятных событий, получила название двоичной единицы, или бита.

Для радиоэлектронных элементов (радиоламп, полупроводниковых элементов, конденсаторов), которые в основном использовались и используются в вычислительных машинах, характерно наличие двух устойчивых состояний. Например, электронная лампа может быть «открыта» (тогда через нее идет ток) или «заперта» (ток через нее не проходит). По тому же принципу «да» или «нет» работают и полупроводниковые элементы, которые сейчас уже полностью вытеснили радиолампы из вычислительной техники. Эти свойства радиоэлектронных элементов и служат основной причиной применения в вычислительной технике двоичной системы счисления.

В двоичной системы счисления числа записываются с помощью двух цифр 0 и 1 и называются двоичными. Система перевода данных в двоичные числа называется двоичным кодированием. Битом называется такое количество информации, которое можно представить одноразрядным двоичным числом (0 или 1).

Часто используются и другие, более крупные единицы измерения информации, например:

В компьютере один знак текста требует объем памяти, равный одному байту. Стандартный лист формата А4 содержит примерно 3200 знаков размера 12 пунктов. Это примерно 3 Кб. Таким образом, на жестком диске компьютера объемом 20 гигабайт может храниться примерно 60 – 70 миллионов таких страниц.

Одной из важнейших операций, проводимых с данными, является их транспортировка. В большинстве случаев транспортировка производится по каналам связи, которые создавались для передачи аналоговых электрических сигналов (речевых сообщений). Цифровая информация также передается по этим каналам, но она предварительно преобразуется в аналоговый сигнал с помощью различных видов модуляции. Виды сигналов в каналах связи и с выхода компьютера представлены на рисунке 1.12, где по горизонтальной оси отложено время, по вертикальной – амплитуда сигналов.

Для измерения скорости передачи цифровых данных применяется единица измерения бит/сек (количество передаваемых бит в секунду). В среднем, при передаче данных каждым десяти символам соответствует один символ машинописного текста. Часто скорость передачи данных измеряют в символах в секунду (обозначается CPS – от английского Character Per Second).

11. Дескрипторная система классификации

Для организации поиска информации, для внедрения тезаурусов (словарей) эффективно используется дескрипторная (описательная) система классификации, язык которой приближается к естественному языку описания информационных объектов. Особенно широко она используется в библиотечной системе поиска.

Суть дескрипторного метода классификации заключается в следующем:
отбирается совокупность ключевых слов или словосочетаний, описывающих определенную предметную область или совокупность однородных объектов. Причем среди ключевых слов могут находиться синонимы;
выбранные ключевые слова и словосочетания подвергаются нормализации, т. е. из совокупности синонимов выбирается один или несколько наиболее употребимых;
создается словарь дескрипторов (пример) , т. е. словарь ключевых слов и словосочетаний, отобранных в результате процедуры нормализации.

Между дескрипторами устанавливаются связи, которые позволяют расширить область поиска информации. Связи могут быть трех видов:
синонимические, указывающие некоторую совокупность ключевых слов как синонимы;
родо-видовые, отражающие включение некоторого класса объектов в более представительный класс;
ассоциативные, соединяющие дескрипторы, обладающие общими свойствами.

Пример. Синонимическая связь: студент — учащийся — обучаемый.

Родо-видовая связь: университет — факультет — кафедра.

Ассоциативная связь: студент — экзамен — профессор — аудитория.

Нравится Комментировать Пожаловаться

ОТВЕТ

Пользователь удален 9 лет назад

Гуру (2881)

Система структурирования объектов информации для облегчения их дальнейшего использования с применением специальных меток-описателей — дескрипторов.
Короче говоря — раскладывание по папочкам на которых написано: кот, пес, дом. Надо тебе найти что-то про котов черных по имени Вася. Открываешь папку кот, находишь папку цвет и имя, открываешь, находишь в них папку черный или вася соответственно и так далее

12. Системы классификации информации

Классификация ? это система распределения объектов (предметов, явлений, процессов, понятий) по классам в соответствии с определенным признаком.

Под объектом понимается любой предмет, процесс, явление материального или нематериального свойства. Система классификаций позволяет сгруппировать объекты и выделить определенные классы, которые будут характеризоваться рядом общих свойств.

При любой классификации желательно соблюдать следующие требования:

1) Полнота охвата объектов рассматриваемой области

2) Однозначность реквизитов (Реквизит – это логически не делимый информационный объект описывающий определенные свойства, процессы, явления)

3) Возможность включения новых объектов.

Методы классификации:

1. Иерархическая система классификаций:

Особенности:

1) Жесткая структура (особое внимание нужно уделить количеству классифицируемых признаков);

2) Каждый объект на любом уровне должен быть отнесен только к одному классу;

3) Для группировки в каждом последующем классе (уровне) необходимо знать соответствующие классификационные признаки и их значения;

4) Количество уровней классификации характеризует глубину классификации;

Достоинства:

1) Простота

2) Использование независимых классификационных признаков в различных ветвях иерархической структуры.

Недостатки:

1) Жесткость структуры;

2) Невозможность группировки объекта по заранее не предусмотренным состояниям признаков.

2. Фасетная система классификаций:

Фасет (англ. facet) – рамка.

В отличие от иерархической позволяет выбирать признаки классификации как независимо друг от друга так и от семантического содержания классифицируемых признаков. Признаки классификации называются – фасетами.

Фасет 1 Фасет 2 Фасет 3 Фасет 4

Особенности:

1) Процедура классификации состоит в присвоении каждому объекту соответствующих значений из фасета, при этом могут быть задействованы не все фасеты;

2) Для каждого объекта задается конкретная группировка;

3) При построении фасетной системы необходимо учитывать чтобы значения фасетов не повторялись;

4) Эту систему легко модифицировать внося изменения в любой фасет.

Достоинства:

1) Возможность создания большой емкости классификации, т.е. использования большого числа признаков и их значений;

2) Возможность простой модификации всей системы, без изменения структуры существующих группировок;

Недостатки:

1) Сложность построения т.к. необходимо учитывать все многообразие классификационных признаков.

3. Дескрипторная система классификаций:

Используется для классификации объектов на естественном языке (например библиотечное дело)

Суть:

1) Подбирается совокупность ключевых слов или словосочетаний описывающих определенную область (среди этих признаков могут быть синонимы);

2) Выбранные ключевые слова подвергаются процедуре нормализации, т.е. из совокупности синонимов выбрать один (несколько), которые используются наиболее часто;

3) Составляется словарь дескрипторов.

Между дескрипторами устанавливаются связи, которые позволяют расширять область поиска информации, которые бывают трех типов:

— синонимические (студент – ученик – обучающийся)

— родовидовые (университет – факультет – кафедра)

— ассоциативные (студент – учеба – аудитория – лекция)

Основные операции над структурами данных


Похожие статьи.

Понравилась статья? Поделиться с друзьями: