Оцінка кількісних параметрів текстових документів
Ключові слова:
4.6.1. Подання текстової інформації в пам'яті комп'ютера
Текст складається з символів - букв, цифр, розділових знаків і т. Д. Які людина розрізняє по зображенню. Комп'ютер розрізняє Зауважте, що ви по їх двійкового коду. Ви натискаєте на клавіатурі клавішу символів, і в комп'ютер надходить певна послідовність електричних імпульсів різної сили, яку можна представити у вигляді ланцюжка з восьми нулів і одиниць (двійкового коду).
Ми вже говорили про те, що розрядність двійкового коду i і кількість можливих кодових комбінацій N пов'язані співвідношенням: 2 i = N. Восьмирозрядних двійковий код дозволяє отримати 256 різних кодових комбінацій: 2 8 = 256.
За допомогою такої кількості кодових комбінацій можна закодувати всі символи, розташовані на клавіатурі комп'ютера, - малі та великі українські та латинські літери, цифри, знаки пунктуації, знаки арифметичних операцій, дужки і т. Д. А також ряд керуючих символів, без яких неможливе створення текстового документа (видалення попереднього символу, переклад рядка, пробіл і ін.).
Відповідність між зображеннями символів і кодами символів встановлюється за допомогою кодових таблиць.
Всі кодові таблиці, використовувані в будь-яких комп'ютерах і будь-яких операційних системах, підкоряються міжнародним стандартам кодування символів.
Кодова таблиця містить коди для 256 різних символів, пронумерованих від Про до 255. Перші 128 кодів у всіх кодових таблицях відповідають одним і тим же символам:
• коди з номерами від Про до 32 відповідають керуючим символам;
• коди з номерами від 33 до 127 відповідають зображуваних символів - латинським буквах, знаків пунктуації, цифр, знаків арифметичних операцій і т. Д.
Ці коди були розроблені в США і отримали назву ASCII (American Standart Code for Information Interchange - Американський стандартний код для обміну інформацією).
У таблиці 4.1 представлений фрагмент кодування ASCII.

Коди з номерами від 128 до 255 використовуються для кодування букв національного алфавіту, символів національної валюти і т. П. Тому в кодових таблицях для різних мов одному і тому ж коду відповідають різні символи. Більш того, для багатьох мов існує кілька варіантів кодових таблиць (наприклад, для української мови їх близько десятка!).
У таблиці 4.2 представлені десяткові і двійкові коди декількох букв українського алфавіту в двох різних кодуваннях.

Наприклад, послідовності двійкових кодів
11010010 11000101 11001010 11010001 11010010
в кодуванні Windows буде відповідати слово «ТЕКСТ», а в кодуванні ЯКІ-8 - безглуздий набір символів «рейяр».
Як правило, користувач не повинен піклуватися про перекодуванні текстових документів, так як це роблять спеціальні про- грами-конвертори, вбудовані в операційну систему і додатки.
Восьмирозрядних кодування володіють одним серйозним обмеженням: кількість різних кодів символів в цих кодуваннях недостатньо велике, щоб можна було одночасно користуватися більш ніж двома мовами. Для усунення цього обмеження був розроблений новий стандарт кодування символів, який отримав назву Unicode. В Unicode кожен символ кодується шестнадцатіразрядного двійковим кодом. Така кількість розрядів дозволяє закодувати 65 536 різних символів:
Перші 128 символів в Unicode збігаються з таблицею ASCII; далі розміщені алфавіти всіх сучасних мов, а також всі математичні та інші наукові символьні позначення. З кожним роком Unicode отримує все більш широке поширення.
які допоможуть вам наочно побачити, як формується код символу, введеного з клавіатури.
4.6.2. Інформаційний обсяг фрагмента тексту
Вам відомо, що інформаційний обсяг повідомлення I дорівнює добутку кількості символів До в повідомленні на інформаційний вага символу алфавіту i: I = K • i.
Залежно від розрядності використовуваного кодування інформаційний вага символу тексту. створюваного на комп'ютері, може бути дорівнює:
• 8 бітів (1 байт) - восьмирозрядна кодування;
• 16 бітів (2 байти) - шестнадцатіразрядного кодування.
Інформаційним об'ємом фрагмента тексту будемо називати кількість бітів, байтів або похідних одиниць (кілобайт, мегабайт і т. Д.), Необхідних для запису цього фрагмента заздалегідь обумовлених способом двійкового кодування.
Завдання 1. Вважаючи, що кожен символ кодується одним байтом, визначте, чому дорівнює інформаційний обсяг наступного висловлювання Жан-Жака Руссо:
Тисячі шляхів ведуть до омани, до істини - тільки один.
Рішення . В даному тексті 57 символів (з урахуванням розділових знаків і пробілів). Кожен символ кодується одним байтом. Отже, інформаційний обсяг всього тексту - 57 байтів.
Завдання 2. У кодуванні Unicode на кожен символ відводиться два байти. Визначте інформаційний обсяг тексту з 24 символів в цьому кодуванні.
Завдання 3. Автоматичний пристрій здійснило перекодування інформаційного повідомлення російською мовою, спочатку записаного в 8-бітовому коді, в 16-бітове кодування Unicode. При цьому інформаційне повідомлення збільшилася на 2048 байтів. Який був інформаційний обсяг повідомлення до перекодування?
Рішення. Інформаційний вага кожного символу в 16-бітової кодуванні в два рази більше інформаційного ваги символу в 8-бітової кодуванні. Тому при перекодуванні вихідного блоку інформації з 8-бітової кодування в 16-бітову його інформаційний обсяг повинен був збільшитися вдвічі, іншими словами, на величину, рівну вихідного інформаційного обсягом. Отже, інформаційний обсяг повідомлення до перекодування становив 2048 байтів = 2 Кб.
Завдання 4. Висловіть в мегабайтах обсяг текстової інформації в «Сучасному словнику іноземних слів» з 740 сторінок, якщо на одній сторінці розміщується в середньому 60 рядків по 80 символів (включно з пробілами). Вважайте, що під час запису використовувався алфавіт потужністю 256 символів.
Рішення. Інформаційний вага символу алфавіту потужністю 256 дорівнює восьми бітам (одному байту). Кількість символів у всьому словнику одно 740 • 80 • 60 = 3 552 ТОВ. Отже, обсяг цього тексту в байтах дорівнює 3 552 ТОВ байтів = 3 468,75 Кбайт ≈ 3,39 Мбайт.
НАЙГОЛОВНІШЕ
Текст складається з символів - букв, цифр, розділових знаків і т. Д. Які людина розрізняє по зображенню. Комп'ютер розрізняє Зауважте, що ви по їх двійкового коду. Відповідність між зображеннями і кодами символів встановлюється за допомогою кодових таблиць.
Залежно від розрядності використовуваного кодування інформаційний вага символу тексту, створюваного на комп'ютері, може бути дорівнює:
• 8 бітів (1 байт) - восьмирозрядна кодування;
• 16 бітів (2 байти) - шестнадцатіразрядного кодування.
Інформаційний обсяг фрагмента тексту - це кількість бітів, байтів (кілобайт, мегабайт), необхідних для запису фрагмента обумовлених способом кодування.
Запитання і завдання
1. Ознайомтеся з матеріалами презентації до параграфу, що міститься в електронному додатку до підручника. Використовуйте ці матеріали при підготовці відповідей на питання і виконанні завдань.
2. Чому кодування, в яких кожен символ кодується ланцюжком з восьми нулів і одиниць, називаються інакше однобайтового?
3. З якою метою була введена кодування Unicode? Знайдіть додаткову інформацію про цю кодуванні.
4. При роботі в Інтернеті інформація на одному з сайтів відобразилася так. як показано нижче.
Це сталося через:
1) встановленої на комп'ютері системи контентної фільтрації
2) неправильні налаштування монітора
3) невірного визначення кодування сторінки
5. Знаючи, що в кодуванні ASCII десятковий код кожної малої латинської літери на 32 більше коду відповідної великої літери, декодує наступне повідомлення:
77 105 107 107 121 32 77 111 117 115 101
6. Вважаючи, що кожен символ кодується одним байтом, визначте, чому дорівнює інформаційний обсяг наступного висловлювання Олексія Толстого:
Не помиляється той, хто нічого не робить, хоча це і є його основна помилка.
7. Вважаючи, що кожен символ кодується 16 бітами, оцініть інформаційний обсяг наступної фрази А. С. Пушкіна в кодуванні Unicode:
Звичка понад нам дана: Заміна щастя вона.
8. У текстовому режимі екран монітора комп'ютера зазвичай розбивається на 25 рядків по 80 символів в рядку. Визначте обсяг тексту, що займає весь екран монітора, в кодуванні Unicode.
9. Повідомлення займає 6 сторінок по 40 рядків, в кожному рядку записано по 60 символів. Інформаційний обсяг всього повідомлення дорівнює 28 800 байтам. Скільки двійкових розрядів було використано для кодування одного символу?
10. Повідомлення, інформаційний обсяг якого дорівнює 5 Кбайт, займає 4 сторінки по 32 рядки, в кожній з яких записано по 40 символів. Скільки символів в алфавіті мови, на якому записано це повідомлення?
Електронний додаток до підручника
Презентація «Оцінка кількісних параметрів текстових документів»
Єдина колекція цифрових освітніх ресурсів
1) тренажер «Інтерактивний задачник. Розділ "Подання символьної інформації" »(N 119265).
ресурси ФЦІОР
(Увага! Для відтворення модуля необхідно встановити на комп'ютері програвач ресурсів.) Завантажити програвач ресурсів ФЦІОР
1) інформаційний модуль по темі «Представлення тексту в різних кодуваннях»;
2) практичний модуль темі «Представлення тексту в різних кодуваннях»;
3) контрольний модуль по темі «Представлення тексту в різних кодуваннях».
Практична частина уроку
1) Виконати завдання № 218, № 219, № 221, № 223, № 225, № 230 в РТ.
2) Робота учнів з тренажером «Інтерактивний задачник. Розділ "Подання символьної інформації" »(N 119265) в режимі практики.
Практична робота №12
"Сканування і розпізнавання текстових документів"
Завдання 1. Сканування
1. Відкрийте кришку підключеного до комп'ютера планшетного сканера. Покладіть документ на скло сканера сканируемой стороною (текстом) вниз. Акуратно закрийте кришку сканера.
2. Запустіть програму сканування, що йде в комплекті з вашим сканером. Досліджуйте панель інструментів програми сканування, знайдіть кнопку Сканувати і клацніть на ній.
3. Дочекайтеся закінчення сканування.
4. Збережіть відсканований документ в особистій папці вигляді графічного файлу з ім'ям Скан і одним з розширень tif, bmb, jpg, png та ін.
5. Завершіть роботу з програмою сканування.
Завдання 2. Розпізнавання
1. Підключіться до Інтернету, запустивши браузер Chrome.
2. Запуск безкоштовний онлайн-сервіс розпізнавання текстів (www.newocr.com).
Для роботи з сайтом можете скористатися автоматичним перекладом. Якщо перекладач не включений, то можна перевести сторінку, натиснувши на ній правою кнопкою миші і вибравши в контекстному меню Перевести на український.
3. Натисніть на кнопку Виберіть файл. знайдіть і відкрийте створений в попередньому завданні файл.
4. Клацніть на кнопці. Дочекайтеся завантаження зображення (); при необхідності поверніть його ().
5. Клацніть на кнопці. Дочекайтеся закінчення розпізнавання () і появи області з розпізнаним текстом.
6. Завантажте розпізнаний текст в текстовий процесор Word.

7. Увімкніть режим відображення прихованих символів форматування (). Проведіть редагування текстового документа: видаліть зайві символи кінця абзацу, зверніть увагу на невпевнено розпізнані слова і символи.
8. Збережіть результат роботи в особистій папці у файлі Розпізнавання.
Тепер ви вмієте:
• сканувати текстові документи;
• виконувати розпізнавання відсканованих текстових документів за допомогою онлайн-сервісу.