Доменное имя на русском? Легко! Часть 1

Реклама
Грандмастер

Терминология
Доменное имя (домен) — область пространства иерархических имен сети Интернет, которая обслуживается набором серверов доменных имен (DNS) и централизованно администрируется. Домен идентифицируется уникальным именем, например, domain.ru.
DNS (сокр. от Domain Name System) — служба имен доменов (механизм, используемый в Интернет и устанавливающий соответствие между числовыми IP-адресами и текстовыми именами).
ICANN (сокр. от Internet Corporation for Assigned Names and Numbers) — некоммерческая организация по назначению адресов и имен в Интернет, параметров протоколов, управлению системами доменных имен.
IETF (сокр. от Internet Engineering Task Force) — проблемная группа проектирования Интернет, отвечающая за решение инженерных задач Интернет, выпускает большинство RFC, используемых производителями для внедрения стандартов в архитектуру TCP/IP).

Реклама

RFC (сокр. от Requests for Comments) — Запросы на комментарии (серия документов IETF, начатая в 1969 г. и содержащая описания набора протоколов Интернет и связанную с ними информацию).
IDN (сокр. от Internationalized Domain Names) — группа поддержки многоязычных доменных имен, была создана в 1999 г. внутри IETF, поддерживает регистрацию доменных имен более, чем на 60 языках.
MINC (сокр. от Multilingual Internet Names Consortium) — Консорциум многоязычных интернет-имен — организация, созданная в июне 2000 г. для поддержки многоязычных доменных имен, осуществляет интернационализацию Интернета.
ASCII (сокр. от American Standard Code for Information Interchange [по-американски произносится эски, по-русски — аски]) — американский стандартный код для обмена информацией, 7-битная компьютерная кодировка для представления латинского алфавита, десятичных цифр, некоторых знаков препинания, арифметических операций и управляющих символов.
Реклама

Unicode (Юникод, Уникод) — 16-битный стандарт кодирования символов, позволяющий представить знаки практически всех письменных языков. Стандарт был предложен в 1991 г. некоммерческой организацией «Консорциум Юникода» (англ. Unicode Consortium), объединяющей крупнейшие IT-корпорации. Применение этого стандарта позволяет закодировать очень большое число символов из разных письменностей: в документах Unicode могут соседствовать китайские иероглифы, математические символы, буквы греческого алфавита, латиницы, кириллицы и т. д.
Стандарт состоит из 2-х основных разделов: универсальный набор символов (UCS, Universal Character Set) и семейство кодировок (UTF, Unicode Transformation Format). Универсальный набор символов задает однозначное соответствие символов кодам — элементам кодового пространства, представляющим неотрицательные целые числа. Семейство кодировок определяет машинное представление последовательности кодов UCS.
Реклама

UTF-8 — это представление (формат) Юникода, обеспечивающее наилучшую совместимость со старыми системами, использовавшими 8-битные символы. Формат UTF-8 был создан 2 сентября 1992 г. Кеном Томпсоном и Робом Пайком.

Что происходит, когда мы в адресной строке браузера набираем, например, http://www.domain.ru? Упрощенная схема такова: система DNS устанавливает соответствие доменному имени www.domain.ru IP-адреса, например, 111.111.111.111. Запрошенный нами ресурс отыскивается на бескрайних просторах Интернета и загружается на наш ПК. А нельзя ли вместо domain.ru набрать домен.ру?

Предыстория вопроса
Исторически сложилось так, что Интернет (как и компьютер!) зародился в англоязычной среде, и основным ограничением DNS является то, что для записи доменных имен необходимо использовать только 37 символов ASCII (латинские буквы от a до z, арабские цифры и символ дефиса).

Реклама

Но многоязычное интернет-сообщество не пожелало с этим мириться: например, китайцы захотели регистрировать доменные имена на китайском, вьетнамцы — на вьетнамском… Организации ICANN, отвечающей за назначение адресов и имен в Интернете, пришлось пораскинуть мозгами: создать «группы поддержки», разработать массу протоколов и стандартов. Но, согласившись с появлением национальных доменных имен, ICANN долго настаивал на латинском написании доменов верхнего уровня. Например, в Рунете сначала появились сайты со смешанным написанием русских и латинских букв — http://www.россия.net/ и http://рбк.com/, а уж значительно позже — http://домены.ру/.

Как это внедрялось
Процесс внедрения национальных доменных имен оказался очень непростым и очень продолжительным. Для того чтобы сохранить работоспособность существующей системы DNS, доменные имена, содержащие символы национальных алфавитов, необходимо перекодировать в общую для всей системы адресации форму. В 2003 г. группа IETF IDN для представления национальных алфавитов выбрала универсальную кодировку UTF-8. Из этой кодировки доменные имена определенным образом преобразовываются в последовательности ASCII-символов. Такое решение позволяет добиться независимости от используемых на стороне клиента операционных систем, и при этом соответствует требованиям уже существующей системы DNS.

Необходимо отметить очень важный нюанс. Применяя русскоязычные (или китайскоязычные) доменные имена, на самом деле, мы просто тешим свое национальное самолюбие: интернационализация доменных имен не отменяет существующих протоколов работы DNS — внутри нее всё так и остается в символах ASCII, мультиязычность как бы добавляется сверху.

Продолжение следует

Реклама