Факультет романо-германской филологии

ВОРОНЕЖСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕСИТЕТ

ДОКЛАД

по прикладной лингвистике

ТЕМА: Информационные технологии в обработке текстов

Работу выполнила студентка:

1 курса (Специалитет – немецкий)

Преподаватель:

Ольга Валерьевна Донина

Воронеж — 2017

Информационные технологии в обработке текстов

Традиционно под словом “Технология” понимают процедуры и средства, позволяющие получить определенный результат в какой-то области человеческой деятельности. Информационные технологии в этом смысле не являются исключением — под ними понимается вся совокупность программного и аппаратного обеспечения, методов и средств организации автоматизированной обработки информации, представленной в цифровой форме.

Ассоциация информационных технологий определяет информационные технологии как “изучение, проектирование, разработку, внедрение, поддержку и управление компьютерно-ориентированных информационных систем, основанных на программах и вычислительной технике”.

В отличие от технологий “материальных” и исходным материалом, и результатом их применения всегда являются данные. Информационная технология — это всегда процедура автоматизированного преобразования этих данных, формирования на их основе новых данных. Целью разработки и применения всех информационных технологий является максимальная автома-тизация тех информационных процессов, которые ранее требовали человеческого труда.

Как отмечалось и отмечается ведущими экспертами (Доклад группы ведущих экспертов ООН), внедрение информационных технологий в деятельность человека позволяет значительно поднять эффективность, уменьшить количество ошибок, оказывает большое положительное влияние на развитие всех сфер деятельности общества.

Информационные технологии как отдельная отрасль деятельности получили наибольшее развитие с появлением и распространением универсальных автоматических средств обработки данных — компьютеров. Имен-но в форме тех или иных программных комплексов ин-формационные технологии воплощаются чаще всего.

В этом разделе “Энциклопедии учителя информатики” речь пойдет о наиболее универсальных и распространенных технологиях, вошедших в школьный курс информатики. Перечисленные технологии далеко не исчерпывают перечень существующих решений по автоматизации различных сторон деятельности общества. В статьях раздела рассказывается о часто применяемых методах решения типовых задач, приводится описание основных методов их решения и названия наиболее популярных и развитых программных средств.

Существует большое количество оснований для классификации информационных технологий. Их делят на индивидуальные и коллективные, на локальные и се-евые, технологии управления данными и процессами, защиты информации, разработки программного обеспечения и т.д.

В этом разделе выбрана классификация по видам обрабатываемой информации, отраженная в стандарте обучения по информатике.

Раздел предусматривает рассмотрение пяти основных блоков:

1. Технологии обработки текста.

2. Технологии обработки графической информации.

3. Мультимедиа-технологии.

4. Электронные таблицы.

5. Базы данных.

Постоянный рост мощности вычислительной техники увеличивает спектр решений, доступных пользователю современного компьютера. Решение многих типовых на сегодняшний день задач еще 10 лет назад представляло серьезную, часто неразрешимую проблему. Многие технологии были недоступны за пределами крупных организаций. Постоянное и быстрое развитие техники и программного обеспечения приблизило их к пользователю.

В школьном курсе информатики за эти 10 лет информационные технологии тоже занимали все больше и больше места. Знание базовых принципов обработки информации, владение наиболее распространенными технологиями — необходимый навык для любого современного человека.

Следует отметить, что одним из магистральных направлений развития современных информационных технологий является разработка подходов и методов интеграции данных различного вида, смешивания функций различных систем, активное использование методов коммуникации для обмена данными.

1. Технологии обработки текста

1.1. Текст: представление, хранение, ввод

Представление текста

Представление информации в виде текста стало одним из первых доступных для обработки с помощью ЭВМ и до сих пор остается одним из наиболее универсальных. Энциклопедический словарь дает такое определение понятию “текст”: “Текст — это упорядоченный набор слов, предназначенный для того, чтобы выразить некий смысл. В лингвистике термин используется в широком значении, включая в себя и устную речь”.

Представление информации в виде текста при обработке с помощью вычислительной техники близко к этому определению. Под “текстовым” понимают такое представление информации, в котором она представлена в виде записи слов (логических элементов) некоторого языка и доступна для чтения человеком.

Язык для такого представления характеризуется некоторым алфавитом — т.е. допустимым набором символов. Поскольку компьютер работает только с двоичным кодом, то для записи и обработки требуется взаимно-однозначно сопоставить символы и двоичные коды. Правило сопоставления кодов и символов, входящих в алфавит, называется кодировкой.

Первый широко распространенный стандарт кодирования — таблица (т.е. прямое сопоставление кодов символам) кодировки ASСII (American Standard Code for Information Interchange, американский стандартный код для обмена информацией) — был разработан в 1963 году. Стандарт предполагал использование не только в вычислительной технике, но и в телеграфии (он стал заменой 5-битного кода Бодо). В нем для кодирования каждого символа отводилось 7 бит. Восьмой бит использовался для служебных целей — контроля четности при передаче.

Эта часть таблицы кодировки содержит символы латинского алфавита, цифры, некоторые знаки препинания и набор управляющих символов (возврат каретки, перевод строки, конец файла, сигнал и т.п.).

Позже восьмой бит стали использовать для представления символов национальных алфавитов: первая часть таблицы — US-ASCII — использовалась по-прежнему, а содержание второй менялось в зависимости от исход-ного естественного языка. Каждый вариант этой второй

половины (расширенной таблицы) исходной таблицы получил название “кодовой страницы” языка (code page).

Для русского языка таких расширений несколько (разрабатывались они в разное время). Наиболее известны: CP866 (DOS), KOI-8R (UNIX), CP1251 (Windows) и MacCyr.

Применение такого способа кодирования сильно затрудняет передачу текстовых сообщений между разными странами, объединение в сообщении текста на не-скольких языках, а в случае с русским языком — и об-мен файлами между разными ОС (для русского языка до сих пор активно применяется 4 разных кодовых таблицы). Для решения этих проблем в 1991 году некоммерческим объединением был предложен стандарт ко-дирования Юникод (Unicode).

Стандарт состоит из двух частей: универсального набора символов (Universal Character Set) и правил транс-формации (Unicode Transformation Format). Универ-сальный набор символов предполагает описание всех возможных при записи текстов символов в виде общей таблицы кодов. Правила трансформации определяют способ записи этих кодов.

Первая версия стандарта предполагала использование двух байтов для кодирования каждого символа. В дальнейшем это кодовое пространство было расширено.

Сейчас чаще всего применяется способ трансформации UTF-8, обеспечивающий совместимость с предыдущими реализациями и стандартами. В частности, коды менее 128 записываются одним байтом, что автоматически превращает их в коды ASCII.

Применение этого стандарта кодирования позволяет объединять в одном тексте слова на различных языках

(без ограничений на их количество), использовать устаревшие языки, дополнительные символы.

Наиболее переносимым и легко используемым с технической точки зрения способом хранения и передачи текста являются текстовые файлы. По сути, эти файлы представляют собой последовательности символов, разбитых на абзацы или строки.

Текстовые файлы

Понятие “текстового файла” не предусматривает строго заданного формата или расширения. Тем не менее, помимо характерной для той или иной ОС таблицы кодировки, в текстовых файлах могут применяться три основных способа деления текста на строки (абзацы):

1. Windows (DOS) — символы “Возврат каретки” + “Перевод строки” (CR+LF).

2. Unix — символ “Перевод строки” (LF).

3. MacOs — символ “Возврат каретки” (CR).

Текстовые файлы применяются для самых различных целей и часто оказываются формой хранения данных, описанных более сложными формальными языками. Эти файлы часто используются для записи конфигура-ции ПО, документирования, переноса данных, описания HTML- или XML-кода.

Правила машинописного набора текста

Для облегчения анализа и последующего преобразования текста при его наборе в самых различных случаях рекомендуется соблюдать общие правила машинопиного набора:

1. Все слова разделяются пробелом, и только одним пробелом.

2. Знаки препинания примыкают к предыдущему слову.

3. Скобки и кавычки всех видов примыкают к первому и последнему слову заключенного в них текста.

4. Текст разрывается только в конце абзаца.

5. Большие форматированные пробелы делаются вставкой символа табуляции, а не несколькими пробелами подряд.

Соблюдение этих правил позволяет легко использовать текст при подготовке более сложных документов, в которые он входит как важнейший элемент, или при организации автоматической обработки.

Текст может появиться из самых разных источников. Чаще всего текстовую информацию вводят с помощью клавиатуры. Стандартная клавиатура и программа, принимающая от нее информацию о нажатых клавишах, позволяют вводить текст (набирая его посимвольно), указывать место ввода в уже введенном тексте (перемещая маркер места ввода клавишами перемещения курсора либо с помощью мыши) и удалять неверно вве-денные символы слева или справа от курсора (с помощью клавиш и ).

Возможность исправлять ошибки и набирать текст постепенно стала одной из существенных причин, по которым подготовка текстовой информации практически повсеместно была переведена с бумажной на компьютерную основу.

Текстовые редакторы с развитыми возможностями предоставляют пользователям возможность протоколировать и сохранять наборы действий — создавать макрокоманды, или макросы. Использование макросов позволяет ускорить выполнение частых простых задач обработки.

Специализированные программы, основной задачей которых является обеспечение набора текста, разделяют на текстовые редакторы, т.е. программы, которые помогают именно подготовить тот или иной специфический текст, но не оформить его для печати, и текстовые процессоры — более сложные программные комплексы, позволяющие выполнить оформление текста, точно задать его расположение, сопроводить его графическими материалами и т.д.

Примеры программных продуктов — текстовых редакторов:

Блокнот, Notepad++, PSPad, vi

Факультет Романо-германской филологии ВГУ Первокурсник 2015


Похожие статьи.

Понравилась статья? Поделиться с друзьями: