IT "Понятно"
Обучение для начинающих
c 8 лет и до бесконечности


Кодировки символов

Кодировки символов

Опубликовано: 04.03.2024

Кодирование символов — это процесс присвоения номеров графическим символам, особенно письменным символам человеческого языка, позволяющий их хранить, передавать и преобразовывать с помощью цифровых компьютеров.


Кодирование символов — это процесс присвоения номеров графическим символам, особенно письменным символам человеческого языка, позволяющий их хранить, передавать и преобразовывать с помощью цифровых компьютеров. Существует множество различных кодировок текста, каждая из которых определяет способ преобразования символов в байтовое представление.

Ранние коды символов, связанные с оптическим или электрическим телеграфом, могли представлять только подмножество символов, используемых в письменных языках, иногда ограничиваясь только заглавными буквами, цифрами и некоторыми знаками препинания.

История символьных кодов иллюстрирует растущую потребность в машинно-опосредованной символьной информации на расстоянии с использованием некогда новых электрических средств. Самые ранние коды были основаны на ручных и рукописных системах кодирования и шифрования, таких как шифр Бэкона, шрифт Брайля, международные морские сигнальные флаги и 4-значная кодировка китайских иероглифов для китайского телеграфного кода (Ханс Шеллеруп, 1869). С внедрением электрических и электромеханических технологий эти самые ранние коды были адаптированы к новым возможностям и ограничениям ранних машин. Самый ранний хорошо известный символьный код с электрической передачей, азбука Морзе, представленный в 1840-х годах, использовал систему из четырех "символов" (короткий сигнал, длинный сигнал, короткий пробел, длинный пробел) для генерации кодов переменной длины.

Распространенные примеры систем кодирования символов включают азбуку Морзе, код Бодо, Американский стандартный код обмена информацией (ASCII) и Unicode. Unicode, четко определенная и расширяемая система кодирования, вытеснила большинство более ранних кодировок символов, но путь разработки кода до настоящего времени довольно хорошо известен.

Некоторые из наиболее распространенных сейчас кодировок:

  1. ASCII (American Standard Code for Information Interchange) - кодировка для представления основных символов латинского алфавита, цифр и специальных символов и управляющих последовательностей, принятый в 1963 году Американской ассоциацией стандартов как основной способ представления текстовых данных в ЭВМ.
  2. Unicode — это универсальная кодировка символов, которая в настоящее время является преобладающей в Интернете. Стандарт предложен в 1991 году некоммерческой организацией «Консорциум Юникода» (англ. Unicode Consortium, Unicode Inc.). Применение этого стандарта позволяет закодировать очень большое число символов из разных систем письменности: в документах, закодированных по стандарту Юникод, могут соседствовать китайские иероглифы, математические символы, буквы греческого алфавита, латиницы и кириллицы, символы музыкальной нотной нотации и т.д.
  3. ISO 8859 — это семейство кодировок символов, каждая из которых предназначена для представления символов определенного языка.
  4. Windows Code Page — это семейство кодировок символов для ОС Windows.
  5. KOI8 — это кодировка символов, разработанная в СССР для представления символов кириллицы.
  6. UTF-8 (от англ. Unicode Transformation Format, 8-bit — «формат преобразования Юникода, 8-бит») — распространённый стандарт кодирования символов, позволяющий более компактно хранить и передавать символы Юникода, используя переменное количество байт (от 1 до 4), и обеспечивающий полную обратную совместимость с 7-битной кодировкой ASCII. Стандарт UTF-8 официально закреплён в документах RFC 3629 и ISO/IEC 10646 Annex D. Кодировка UTF-8 сейчас является доминирующей в веб-пространстве. Она также нашла широкое применение в UNIX-подобных операционных системах.
  7. EUC-JP — это кодировка, для японского текста.
  8. Windows-1251 — набор символов и кодировка, являющаяся стандартной 8-битной кодировкой для русских версий Microsoft Windows до 10-й версии. В прошлом пользовалась довольно большой популярностью. Была создана на базе кодировок, использовавшихся в ранних «самопальных» русификаторах Windows в 1990—1991 гг. совместно представителями «Параграфа», «Диалога» и российского отделения Microsoft.

Вам могут быть интересны материалы:

Что такое docstring в Python?

Docstring в Python — это строка документации, которая описывает, что делает функция, метод, модуль или класс Python.

Ребенок сутками за компьютером – будет айтишником?

Большинство родителей приводит ко мне своих детей с такими словами. Давайте разберемся так ли это или нет, но грамотно и с анализом ситуации.

Наиболее популярные форматы файлов изображений

Разбираемся в самых популярных форматах файлов изображений и отвечаем на главные вопросы о них: чем отличаются друг от друга и для чего они используются.


Наш сайт использует куки.
Пользуясь сайтом вы соглашаетесь
на обработку персональных данных.
Согласиться и закрыть это окно - нажмите «ОК».
OK