ë = Alt + 137
è = Alt + 138
ï = Alt + 139
î = Alt + 140
ì = Alt + 141
Ä = Alt + 142
Å = Alt + 143
É = Alt + 144 ASCII code
æ = Alt + 145
Æ = Alt + 146
ô = Alt + 147
ö = Alt + 148
ò = Alt + 149
û = Alt + 150
ù = Alt + 151
ÿ = Alt + 152
Ö = Alt + 153
Ü = Alt + 154
¥ = Alt + 157
P = Alt + 158
ƒ = Alt + 159
á = Alt + 160
í = Alt + 161
ó = Alt + 162
ú = Alt + 163
ñ = Alt + 164
Ñ = Alt + 165
ª = Alt + 166
º = Alt + 167
¤ = Alt + 271
¶ = Alt + 276
§ = Alt + 277
– = Alt + 0150
„ = Alt + 0132
... = Alt + 0133
† = Alt + 0134
‡ = Alt + 0135
ˆ = Alt + 0136 ASCII code
‰ = Alt + 0137
‹ = Alt + 0139
' = Alt + 0145
' = Alt + 0146
" = Alt + 0147
" = Alt + 0148
— = Alt + 0151
˜ = Alt + 0152
™ = Alt + 0153 ASCII code
› = Alt + 0155
¨ = Alt + 0168
© = Alt + 0169
® = Alt + 0174
¯ = Alt + 0175
ß = Alt + 225 ASCII
Š = Alt + 0138
Œ = Alt + 0140
š = Alt + 0154
œ = Alt + 0156
Ÿ = Alt + 0159
Ð = Alt + 0208
þ = Alt + 0254
£ = Alt + 156 ASCII code
× = Alt + 0215
ø = Alt + 0248
Ø = Alt + 0216
ý = Alt + 0253
Ý = Alt + 0221
American Standard Code for Information Interchange (ASCII, alternativ US-ASCII, oft [æski] ausgesprochen) ist eine 7-Bit-Zeichenkodierung und bildet die US-Variante von ISO 646 sowie die Grundlage für spätere mehrbittige Zeichensätze und -kodierungen.
ASCII, auch als ANSI X3.4-1968 bezeichnet, wurde im Jahr 1967 erstmals als Standard veröffentlicht und im Jahr 1986 zuletzt aktualisiert. Die Zeichenkodierung definiert 128 ASCII Zeichen, bestehend aus 33 nicht-druckbaren sowie 95 druckbaren. Sie lauten, beginnend mit dem Leerzeichen:
!"#$%&'()*+,-./0123456789:;<=>?
@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_
`abcdefghijklmnopqrstuvwxyz{|}~
ASCII code
Die Zeichen umfassen das lateinische Alphabet in Groß- und Kleinschreibung, die zehn arabischen Ziffern ASCII sowie einige Satz- und Steuerzeichen. Der Zeichenvorrat entspricht weitgehend ASCII dem einer Tastatur oder ASCII Schreibmaschine für die englische Sprache. In Computern und anderen elektronischen Geräten, die Text darstellen, wird dieser in der Regel ASCII gemäß ASCII oder abwärtskompatibel (z. B. ISO 8859, UTF-8) dazu gespeichert.
Inhaltsverzeichnis ASCII code
* 1 Kodierung
* 2 Geschichte
* 3 Zusammensetzung
* 4 Erweiterungen ASCII code
* 5 Kompatible Zeichenkodierungen
o 5.1 Kodierungen mit fester Länge (Auswahl)
o 5.2 Kodierungen mit variabler Länge
* 6 Siehe auch ASCII
* 7 Weblinks
* 8 Quellenangaben ASCII
Kodierung
Jedem Zeichen wird ein Bitmuster ASCII aus 7 Bit zugeordnet. Da jedes Bit zwei Werte annehmen kann, gibt es 27 = 128 verschiedene ASCII Bitmuster, die auch als die ganzen Zahlen 0–127 (hexadezimal 00–7F) interpretiert werden können.
In anderen als der englischen Sprache verwendete Sonderzeichen – wie beispielsweise die deutschen Umlaute – können mit ASCII code dem 7-Bitcode nicht vollständig dargestellt werden; hierfür würden 8 bis 16 Bit benötigt. Die ASCII Datenverarbeitung benutzt in der Regel ASCII 8 Bit ASCII code oder ein Byte als kleinste Einheit zur Datenspeicherung. Das höchstwertige Bit in jedem Byte ist bei Verwendung des ASCII auf den Wert 0 gesetzt.
Die Buchstaben A, B und C als Sieben-Bit-Code Schriftzeichen Dezimal Hexadezimal Binär
A 65 41 (0)1000001
B 66 42 (0)1000010
C 67 43 (0)1000011
… … … …
Schon früh haben Computer mehr als 7 Bits, oft mindestens Acht-Bit-Zahlenworte, verwendet – das achte Bit kann für Fehlerkorrekturzwecke (Paritätsbit) auf den Kommunikationsleitungen oder für ASCII code andere ASCII code Steuerungsaufgaben verwendet werden. Heute wird es aber fast immer zur Erweiterung von ASCII auf einen 8-Bit-Code ASCII code verwendet. Diese Erweiterungen sind mit dem ursprünglichen ASCII weitgehend kompatibel, so dass alle im ASCII definierten Zeichen auch in den verschiedenen Erweiterungen durch die gleichen Bitmuster kodiert werden. Die Erweiterungen ASCII code unterscheiden sich je nach Hard- und Software und sind länderspezifisch.
Geschichte
Eine der frühsten Formen ASCII code der Kodierung war der Morsecode. Der Morsecode wurde mit der Einführung von Fernschreibern aus den Telegrafennetzen verdrängt und durch den Baudot-Code ASCII und ASCII code Murray-Code ersetzt. Vom Fünf-Bit-Murray-Code zum Sieben-Bit-ASCII war es dann nur noch ASCII code ein kleiner ASCII Schritt – auch ASCII wurde zuerst für bestimmte amerikanische Fernschreiber-Modelle ASCII code, wie den ASCII code Teletype ASR33, eingesetzt. In den Anfängen des Computerzeitalters entwickelte sich ASCII zum Standard-Code für Schriftzeichen. Als Beispiel wurden viele Bildschirme (z. B. VT100) und Drucker nur mit ASCII angesteuert.
ASCII diente ursprünglich der Darstellung von Schriftzeichen der englischen Sprache. Die ASCII code erste ASCII code Version, noch ohne Kleinbuchstaben und mit kleinen Abweichungen vom heutigen ASCII, entstand im Jahr 1963. 1968 wurde ASCII dann der bis heute gültige ASCII festgelegt. Um später auch Sonderzeichen anderer Sprachen darstellen zu können (z. B. deutsche ASCII code Umlaute), nahmen neue Kodierungen mit acht Bit pro Zeichen ASCII als kompatible Grundlage. ASCII allerdings boten auch Acht-Bit-Codes, ASCII code in denen ein Byte für ein Zeichen ASCII code ASCII stand, zu wenig Platz, um alle Zeichen der menschlichen Schriftkultur gleichzeitig unterzubringen. Dadurch wurden mehrere verschiedene ASCII spezialisierte ASCII code Erweiterungen notwendig. Daneben existieren vor allem für den ostasiatischen Raum einige ASCII-kompatible Kodierungen, die entweder zwischen verschiedenen Codetabellen ASCII code umschalten oder mehr als ASCII code ein Byte für jedes Nicht-ASCII-Zeichen benötigen. Keine dieser Acht-Bit-Erweiterungen ist aber „ASCII“, denn dies bezeichnet nur ASCII code den einheitlichen Sieben-Bit-Code.
Für die Kodierung lateinischer ASCII Zeichen wird fast nur noch im Großrechnerbereich eine zu ASCII inkompatible ASCII code Kodierung verwendet (EBCDIC).
Zusammensetzung
ASCII-Codetabelle, Nummerierung in Hex Code …0 …1 …2 …3 …4 …5 …6 …7 …8 …9 …A …B …C …D …E …F
0… NUL SOH STX ETX EOT ENQ ACK BEL BS HT LF VT FF CR SO SI
1… DLE DC1 DC2 DC3 DC4 NAK SYN ETB CAN EM SUB ESC FS GS RS US
2… SP ! " # $ % & ' ( ) * + , - . /
3… 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
4… @ A B C D E F G H I J K L M N O
5… P Q R S T U V W X Y Z [ \ ] ^ _
6… ` a b c d e f g h i j k l m n o
7… p q r s t u v w x y z { | } ~ DEL
Die ersten ASCII code 32 ASCII-Zeichencodes (von 00 bis 1F) sind für Steuerzeichen (control character) reserviert; siehe dort für die Erklärung der Abkürzungen in obiger Tabelle. Dies sind Zeichen, die keine Schriftzeichen darstellen, sondern die zur Steuerung von solchen Geräten dienen (oder dienten), die den ASCII verwenden (etwa Drucker). Steuerzeichen sind beispielsweise der Wagenrücklauf für den Zeilenumbruch ASCII code oder Bell (die Glocke); ihre Definition ist historisch begründet.
Code 20 (SP) ist das Leerzeichen ASCII (engl. space oder blank), welches in einem Text als Leer- und Trennzeichen zwischen Wörtern verwendet und auf der Tastatur durch die Leertaste erzeugt wird.
ASCII code Die Codes 21 bis 7E sind alle druckbaren Zeichen, die sowohl Buchstaben, Ziffern und Satzzeichen (siehe Tabelle) enthalten.
ASCII character code ASCII character code referance
Code 7F (alle sieben Bits auf eins gesetzt) ist ein Sonderzeichen, welches auch als „Löschzeichen“ bezeichnet wird (DEL). Dieser Code wurde früher wie ein Steuerzeichen verwendet, um auf Lochstreifen oder Lochkarten ein bereits gelochtes Zeichen nachträglich durch das Setzen aller Bits, d. h. durch Auslochen aller sieben Markierungen, ASCII code löschen zu können – einmal vorhandene Löcher kann man schließlich nicht wieder rückgängig machen ASCII code. Bereiche ohne Löcher (also mit dem Code 00) fanden sich am Anfang und Ende eines Lochstreifens (NUL).
Aus diesem Grund gehörten ASCII code zum eigentlichen ASCII-Code nur 126 Zeichen, denn den Bitmustern 0 (0000000) und 127 (1111111) entsprachen keine Zeichencodes. Der Codierung 0 wurde später auch ASCII code die ASCII Bedeutung „Ende der Zeichenkette“ beigelegt, und dem Zeichen 127 wurden verschiedene grafische Symbole zugeordnet.
Erweiterungen
ASCII enthält keine diakritischen Zeichen, die in fast allen Sprachen auf der Basis des lateinischen Alphabets verwendet werden. Der internationale Standard ISO 646 (1972) war der erste Versuch, dieses Problem anzugehen, was allerdings zu Kompatibilitätsproblemen führte. Er ASCII code ist immer noch ein Sieben-Bit-Code, und weil ASCII code keine anderen Codes verfügbar waren, wurden einige Codes in neuen Varianten verwendet.
So ist etwa die ASCII-Position 93 für die rechte eckige Klammer (]) in der deutschen Zeichensatz-Variante ISO 646-DE durch das große U mit Trema (Umlaut) (Ü) und in der ASCII code dänischen Variante ISO 646-DK durch das große A mit Ring (Kroužek) (Å) ersetzt. Bei der Programmierung mussten dann die in vielen Programmiersprachen benutzten ASCII code eckigen ASCII code Klammern durch die entsprechenden nationalen Sonderzeichen ersetzt werden. Dies verringerte die Lesbarkeit des Programmcodes und führte oft zu ASCII code ungewollt komischen Ergebnissen, indem etwa die Einschaltmeldung des Apple II von „APPLE ][“ zu „APPLE ÜÄ“ mutierte.
Verschiedene Hersteller ASCII code entwickelten eigene Acht-Bit-Codes. Der Codepage 437 genannte Code war lange Zeit der am weitesten verbreitete, er kam auf dem IBM-PC unter MS-DOS, und kommt heute noch in DOS- oder Eingabeaufforderungsfenstern von Microsoft Windows, zur Anwendung ASCII code. ASCII
Auch bei späteren Standards wie ISO 8859 wurden ASCII code acht Bits verwendet. Dabei existieren mehrere Varianten, zum Beispiel ISO 8859-1 für die westeuropäischen Sprachen. ASCII code deutschsprachige Versionen ASCII code von Windows (außer DOS-Fenster) verwenden die auf ISO 8859-1 aufbauende Kodierung Windows-1252 – daher ASCII code sehen z. B. bei unter DOS erstellten Textdateien die deutschen Umlaute falsch aus, wenn man sie unter Windows ansieht. Fälschlicherweise wird für die ASCII code diversen Acht-Bit-Codes oft der Begriff „ANSI-Code“ pauschal ASCII code verwendet.
Viele ältere Programme, die das achte Bit für ASCII code eigene Zwecke verwendeten, konnten damit nicht umgehen. Sie ASCII code wurden im Laufe der Zeit oft den neuen Erfordernissen angepasst. ASCII
Um den verschiedenen Anforderungen der verschiedenen Sprachen gerecht zu werden, wurde der Unicode ASCII code (in seinem Zeichenvorrat identisch mit ISO 10646) entwickelt. Er verwendet bis zu 32 Bit pro Zeichen und könnte somit über vier Milliarden verschiedene Zeichen unterscheiden. Dies ASCII code wird jedoch auf etwa 1 Million erlaubte Code-Werte ASCII code eingeschränkt. Damit können alle bislang von Menschen verwendeten Schriftzeichen dargestellt werden, sofern sie denn in den Unicode-Standard aufgenommen ASCII code wurden. UTF-8 ist eine 8-Bit-Kodierung von Unicode, die zu ASCII abwärtskompatibel ist. Ein Zeichen ASCII kann dabei ein bis vier 8-Bit-Wörter einnehmen. Sieben-Bit-Varianten müssen nicht mehr verwendet werden, dennoch kann Unicode auch mit Hilfe von UTF-7 in sieben Bit kodiert werden. UTF-8 entwickelt sich zurzeit (2005) zum ASCII code einheitlichen Standard unter den meisten Betriebssystemen. So nutzen unter ASCII code anderem Apples Mac OS X einige Linux-Distributionen UTF-8 standardmäßig, und immer mehr Webseiten werden in UTF-8 ausgeliefert. ASCII
ASCII enthält nur wenige Zeichen, die allgemein verbindlich zur Formatierung oder Strukturierung von Text verwendet werden; diese gingen aus den Steuerbefehlen der Fernschreiber ASCII code hervor. Hierzu zählen insbesondere der Zeilenvorschub (Linefeed), ASCII code der Wagenrücklauf ASCII code (Carriage Return), der horizontale Tabulator, der Seitenvorschub (Form Feed) und der vertikale Tabulator. In typischen ASCII-Textdateien findet sich neben den ASCII druckbaren Zeichen meist nur noch der Wagenrücklauf ASCII code oder der Zeilenvorschub, um das Zeilenende zu markieren, wobei ASCII code in DOS- und Windows-Systemen üblicherweise beide nacheinander verwendet werden, bei älteren Apple- und Commodore-Rechnern (ohne Amiga) nur der ASCII code Wagenrücklauf, auf Unix-artigen Systemen sowie Amiga-Systemen nur der Zeilenvorschub. Die Verwendung weiterer Zeichen ASCII code zur Textformatierung ist bei verschiedenen Anwendungsprogrammen zur Textverarbeitung unterschiedlich. Zur Formatierung von Text werden ASCII code inzwischen eher Markup-Sprachen wie z. B. HTML verwendet.
ASCII (англ. American Standard Code for Information Interchange — американский стандартный код для обмена ASCII code информацией; по-американски произносится [э́ски], тогда как в Великобритании чаще произносится [а́ски]; ASCII по-русски также произносится [а́ски]). ASCII представляет собой 8-битную кодировку для представления десятичных цифр, латинского и ASCII национального алфавитов, знаков препинания и управляющих символов. Нижнюю половину кодовой таблицы (0 — 127) занимают символы US-ASCII, а верхнюю (128 — 255) — символы национальных кодировок либо спецсимволы. Слово ASCII чаще употребляется в женском ASCII роде.
Содержание
* 1 Наложение символов
* 2 Национальные варианты ASCII
* 3 Кодировка ASCII code
* 4 Управляющие символы
* 5 Структурные свойства таблицы
* 6 Представление ASCII в компьютерах
* 7 Примечание
* 8 См. также
* 9 Ссылки
Наложение символов
Благодаря символу BS (возврат на шаг) на принтере можно печатать один символ поверх другого. В ASCII было ASCII code предусмотрено добавление таким образом диакритики к буквам, например ASCII:
* a BS ' → á
* a BS ` → à
* a BS ^ → â
* o BS / → ø
* c BS , → ç
* n BS ~ → ñ
Примечание: в старых шрифтах ASCII code апостроф ' рисовался с наклоном влево, а тильда ~ была сдвинута вверх, так что они как раз подходили на роль акута и тильды сверху.
Если на символ накладывается тот же символ, ASCII то получается эффект жирного шрифта ASCII, а если на символ накладывается подчёркивание, то получается подчёркнутый текст.
* a BS a → a
* a BS _ → a
Примечание: это используется, ASCII code например, в справочной системе man.
Национальные варианты ASCII
ASCII
Стандарт ISO 646 (ECMA-6) предусматривает возможность размещения национальных символов на месте @ [ \ ] ^ ` { | } ~. В дополнение к этому, на месте # может быть размещён £, а на месте $ — ¤. Такая система хорошо подходит для европейских языков, где нужны лишь несколько дополнительных символов. Вариант ASCII без национальных символов называется US-ASCII, или «International Reference Version».
Для некоторых языков с нелатинской ASCII code письменностью (русского, греческого, арабского, иврита) ASCII существовали более радикальные модификации ASCII. Одним из вариантов был отказ от ASCII code строчных латинских букв — на их месте размещались национальные символы (для русского и греческого — только заглавные буквы). Другой вариант — переключение ASCII code между US-ASCII и национальным вариантом «на лету» с помощью символов SO (Shift Out) и SI (Shift In) — в этом случае в национальном варианте ASCII code можно полностью устранить латинские буквы и занять всё пространство под свои символы. См. также КОИ-7 ASCII code.
Впоследствии оказалось удобнее использовать ASCII 8-битные кодировки (кодовые страницы), где нижнюю половину кодовой таблицы (0—127) занимают символы US-ASCII, а верхнюю (128—255) — дополнительные ASCII code символы, включая набор национальных символов. В Юникоде первые 128 символов тоже совпадают с ASCII code соответствующими символами US-ASCII.
Верхняя половина таблицы в настоящее время активно используется для представления кириллических ASCII code символов и её вариации (КОИ-8, Windows-1251 и другие) доставляют ASCII code основные проблемы с кодировками.
Кодировка
.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 .A .B .C .D .E .F
0. NUL SOH STX ETX EOT ENQ ACK BEL BS TAB LF VT FF CR SO SI
1. DLE DC1 DC2 DC3 DC4 NAK SYN ETB CAN EM SUB ESC FS GS RS US
2. ! " # $ % & ' ( ) * + , — . /
3. 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
4. @ A B C D E F G H I J K L M N O
5. P Q R S T U V W X Y Z [ \ ] ^ _
6. ` a b c d e f g h i j k l m n o
7. p q r s t u v w x y z { | } ~ DEL
ASCII
Символ 0x5e в первой версии ASCII code стандарта ASCII (1963) соответствовал стрелке вверх, а символ ASCII 0x5f — стрелке влево. Стандарт ECMA-6 (1965) заменил их на знак вставки (используемый также в роли циркумфлекса) и нижнюю черту (подчёркивание) соответственно.
Управляющие символы
Основная статья: Управляющие символы
Поскольку ASCII изначально ASCII code предназначался для обмена информацией (по телетайпу), в нём, кроме информационных символов, используются символы-команды для управления связью. ASCII code Это обычный набор спецсигналов, применявшийся и в других докомпьютерных средствах обмена сообщениями (азбука Морзе, семафорная азбука), дополненный с учётом ASCII специфики устройства.
(После названия каждого символа указан его 16-ричный код)
* NUL, 00 — Null, пустой. Всегда игнорировался. На ASCII code перфолентах 1 представлялась дырочкой, 0 — отсутствием ASCII дырочки. Поэтому пустые части перфоленты до начала и после конца сообщения состояли из таких символов. Сейчас используется во многих языках программирования как конец строки. (Строка понимается как последовательность символов.) В некоторых ASCII операционных системах NUL — последний символ любого текстового файла.
* SOH, 01 — Start Of Heading, начало заголовка.
* STX, 02 — Start of Text, начало текста. Текстом называлась часть сообщения, предназначенная для печати. Адрес, ASCII контрольная сумма и т. д. входили или в заголовок, или в часть сообщения после текста.
* ETX, 03 — End of Text, конец текста. Здесь телетайп прекращал печатать. Использование символа Ctrl-C, имеющего ASCII code 03, для прекращения работы чего-то (обычно программы), восходит ещё к тем временам.
* EOT, 04 — End of Transmission, конец передачи. В системе UNIX Ctrl-D, имеющий тот же код, означает конец файла при вводе с клавиатуры.
* ENQ, 05 — Enquire. Прошу подтверждения.
* ACK, 06 — Acknowledgement. Подтверждаю.
* BEL, 07 — Bell, звонок, звуковой сигнал. Сейчас тоже используется. В языках программирования C и C++ обозначается \a.
* BS, 08 — Backspace, возврат на один ASCII code символ. Сейчас стирает предыдущий символ.
* TAB, 09 — Tabulation. Обозначался также HT — Horizontal Tabulation, горизонтальная табуляция. Во многих языках программирования обозначается \t .
* LF, 0A — Line Feed, перевод строки. Сейчас в конце каждой строчки текстового файла ставится либо этот символ, либо CR, либо и тот и другой (CR, затем LF), в зависимости от операционной системы. Во многих языках ASCII code программирования обозначается \n и при выводе текста приводит к переводу строки.
* VT, 0B — Vertical Tab, вертикальная табуляция.
* FF, 0C — Form Feed, новая страница.
* CR, 0D — Carriage Return, возврат каретки. Во многих языках программирования этот символ, обозначаемый \r, можно использовать для возврата в начало строчки без перевода строки. В некоторых операционных системах этот же символ, обозначаемый Ctrl-M, ставится в конце каждой строчки текстового файла перед LF.
* SO, 0E — Shift Out, измени цвет ленты (использовался для двуцветных лент; цвет менялся обычно на красный). В дальнейшем обозначал начало использования национальной кодировки.
* SI, 0F — Shift In, обратно к Shift Out.
* DLE, 10 — Data Link Escape, следующие символы ASCII code имеют специальный смысл.
* DC1, 11 — Device Control 1, 1-й символ управления устройством — включить устройство чтения перфоленты.
* DC2, 12 — Device Control 2, 2-й символ управления устройством — включить перфоратор.
* DC3, 13 — Device Control 3, 3-й символ управления устройством — выключить устройство чтения перфоленты.
* DC4, 14 — Device Control 4, 4-й символ управления ASCII code устройством — выключить перфоратор.
* NAK, 15 — Negative Acknowledgment, не подтверждаю. Обратно к Acknowledgment.
* SYN, 16 — Synchronization. Этот символ передавался, когда для синхронизации было необходимо что-нибудь передать.
* ETB, 17 — End of Text Block, конец текстового блока. Иногда текст по техническим причинам разбивался на блоки. ASCII.
* CAN, 18 — Cancel, отмена (того, что было передано ранее).
* EM, 19 — End of Medium, кончилась перфолента и т. д.
* SUB, 1A — Substitute, подставить. Следующий символ — другого цвета или из дополнительного набора символов. Сейчас Ctrl-Z используется ASCII code как конец файла при вводе с клавиатуры в системах DOS и Windows. У этой функции нет никакой очевидной связи с символом SUB.
* ESC, 1B — Escape. Следующие символы — что-то специальное.
* FS, 1C — File Separator, разделитель файлов.
* GS, 1D — Group Separator, разделитель групп.
* RS, 1E — Record Separator, разделитель ASCII code записей.
* US, 1F — Unit Separator, разделитель юнитов. То есть поддерживалось 4 уровня структуризации данных: сообщение могло состоять из файлов, файлы из групп, группы из записей, записи из юнитов.
* DEL, 7F — Delete, стереть последний символ. Символом DEL, состоящим в двоичном коде из всех единиц, можно было забить любой символ. Устройства и программы игнорировали DEL так же, как NUL. Код этого символа ASCII code происходит из первых текстовых процессоров с памятью на перфоленте: в них удаление символа происходило забиванием его кода дырочками (обозначавшими логические единицы).
Структурные свойства таблицы
* Цифры 0—9 представляются своими двоичными значениями (например, 5=01012), перед которыми стоит 00112. Таким образом, двоично-десятичные числа (BCD) превращаются в ASCII-строку с помощью простого ASCII добавления слева 00112 к каждому двоично-десятичному полубайту.
* Буквы верхнего и нижнего регистров различаются в своём представлении только одним битом, что упрощает преобразование ASCII code регистра и проверку на диапазон.
Представление ASCII в компьютерах ASCII
На подавляющем большинстве современных компьютеров минимально адресуемая единица памяти — 8-битный байт, поэтому там используются 8-битные, а не 7-битные символы. Обычно символ ASCII расширяют до 8 бит ASCII code, просто добавляя 1 нулевой бит в качестве старшего.
На ASCII code компьютерах системы IBM/360, однако, в случае использования ASCII применялся другой метод: 6-й бит (если считать самый младший бит первым) перемещается в 7-й, а бывший 7-й «раздваивается» и ASCII копируется и в 8-й бит, и в 6-й. Получается такая таблица:
.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 .A .B .C .D .E .F
0. NUL SOM EOA EOM EQT WRU RU BELL BKSP HT LF VT FF CR SO SI
1. DC0 DC1 DC2 DC3 DC4 ERR SYNC LEM S0 S1 S2 S3 S4 S5 S6 S7
2.
3.
4. BLANK ! " # $ % & ' ( ) * + , — . /
5. 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
6.
7.
8.
9.
A. @ A B C D E F G H I J K L M N O
B. P Q R S T U V W X Y Z [ \ ] ↑ ←
C.
D.
E. a b c d e f g h i j k l m n o
F. p q r s t u v w x y z ESC DEL
На тех компьютерах, где ASCII code минимально ASCII адресуемой единицей памяти было 36-битное слово, поначалу использовали 6-битные символы (1 слово = 6 символов). После перехода на ASCII на таких компьютерах в одном слове стали ASCII code размещать либо 5 ASCII code семибитных символов (1 бит оставался лишним), либо 4 девятибитных символа.
A character encoding consists of a code that pairs a sequence of characters from a given character set (sometimes referred to as code page) with something else, such as a sequence of natural numbers, octets or electrical pulses, in order to facilitate the storage of text in computers and the transmission of text through telecommunication networks. Common ASCII code examples include Morse code, which encodes letters of the Latin alphabet as series of long and short depressions of a telegraph key; and ASCII, which encodes letters, numerals, and other symbols, as integers.
In earlier days of computing, the introduction of coded character sets such as ASCII (1963) and EBCDIC (1964) began the ASCII code process of standardization. The limitations of such sets soon became apparent, and a number of ad-hoc methods developed to extend them. ASCII code the need to support multiple writing systems (Languages), including the CJK family of East Asian ASCII code scripts, required support for a ASCII code far larger number of characters and demanded a ASCII code systematic approach to character encoding rather than the previous ad hoc ASCII code approaches.
Simple character sets
ascii character codeascii code
Conventionally character set and ASCII character encoding were considered synonymous, as the same standard would specify both what ASCII code characters were available and how they were to ASCII code be encoded into a stream of code ASCII code units (usually with a single character per code unit). For ASCII code historical reasons, MIME and systems based on it use the term charset to refer ASCII to the complete system for encoding a sequence of ASCII characters into a sequence of octets.
Modern encoding model
Unicode and its parallel standard, ISO 10646 Universal Character Set, which together constitute the most modern character encoding, broke away from this idea, and instead separated the ideas ASCII of what ASCII code characters are available, their numbering, how those numbers are encoded ASCII code as a series of "code units" (limited-size numbers), and ASCII code finally how those units are encoded as a stream of octets (bytes). The idea behind this decomposition ASCII code is to establish a universal set of characters that can be encoded in a variety of ways. To correctly describe this model needs more precise terms than "character set" and "character encoding". The ASCII code terms used in the modern model follow ASCII:
A character repertoire is the full set of abstract characters that a system supports. The repertoire may be closed, that is ASCII no additions are allowed without creating a new standard (as is the case with ASCII and most of the ISO-8859 series), or it may be open, allowing ASCII code additions (as is the case with Unicode and to a limited extent the Windows code pages). The characters in a given ASCII code repertoire reflect decisions that have been made about how to divide writing systems into linear information units. The basic variants of the Latin, Greek, and Cyrillic alphabets, can be broken down into letters, digits, punctuation, and a few special characters like the space, which can all be arranged in simple linear sequences that are displayed in the same order they are read. ASCII even with these alphabets however diacritics pose a complication: they can be ASCII code regarded either as part of a single character containing a letter and diacritic (known in modern terminology as a precomposed character), or as separate characters. The former allows a far simpler text handling system but ASCII code the latter allows any letter/diacritic combination to be used in text. Other writing systems, such as Arabic and Hebrew, are represented with more complex character repertoires due to the need ASCII code to accommodate things like bidirectional text and glyphs that are joined together in different ways for different situations.
A coded character set ASCII code specifies how to represent a repertoire of characters using a number of non-negative ASCII code integer codes called code points. For example, in a given repertoire, a character representing the capital letter "A" in the Latin alphabet ASCII code might be assigned to the integer 65, the character for "B" to 66, and so on. A complete set of characters and corresponding integers is a coded character set. Multiple coded character sets may share the same repertoire; for example ISO-8859-1 and IBM code ASCII code pages 037 and 500 all cover the same repertoire but map them to different codes. In ASCII code a coded character set, each code point only represents one character.
A character encoding form (CEF) specifies the conversion of a coded character set's integer codes into a set of limited-size integer code values that facilitate storage in a system that represents ASCII code numbers in binary form using a fixed number of bits (i.e. practically any computer system). For example, a system that stores numeric information in 16-bit units ASCII would only be able to directly represent integers from 0 to 65,535 in each unit, but larger integers could be represented if more than one 16-bit unit could be ASCII code used. This is what a CEF accommodates: it defines a way of mapping single code point from a range of, say, 0 to 1.4 million, to a series of one or more code values from a range of, say, 0 to 65,535.
The simplest ASCII code CEF system is simply to choose large enough units that the values from the coded character set can be encoded directly (one code point to one code value). This works well for coded character sets that fit in 8 bits (as most legacy non-CJK encodings do) and reasonably well for coded ASCII code character sets that fit in 16 bits (such as early versions of Unicode). However, as the size of the coded character set increases (e.g. modern Unicode requires at least 21 bits/character), this becomes less and less efficient, and it is difficult to adapt ASCII code existing systems ASCII code to use larger code values. Therefore, most systems working with later versions of Unicode use either UTF-8, which maps ASCII Unicode code points to variable-length sequences of octets, or UTF-16, which maps Unicode code points to ASCII code variable-length sequences of 16-bit words.
Next, a character encoding scheme (CES) specifies how the fixed-size integer codes should be mapped into an octet sequence suitable for saving on an octet-based ASCII code file system or ASCII code transmitting over an octet-based network. With Unicode, a simple character encoding scheme is used in most cases, simply specifying whether the bytes for ASCII code each integer should be in big-endian or little-endian order (even this isn't needed with UTF-8). However, there are also compound character encoding schemes, which use escape sequences to switch between several simple schemes (such as ISO 2022), and ASCII code compressing schemes, which try to minimise the number of bytes used per code unit (such as SCSU, BOCU, and Punycode).
Finally, there may be a higher level ASCII protocol which supplies additional information that can be ASCII code used to select the particular variant of a Unicode character, particularly where there are regional variants that have been 'unified' in Unicode as the same character ASCII code. An example is the XML attribute xml:lang.
The American Standard Code for Information Interchange (ASCII) was developed under the auspices of a committee of the American Standards Association, called the X3 committee, by its X3.2 (later X3L2) subcommittee, and later by that subcommittee's X3.2.4 working group. The ASCII code ASA ASCII code became the United States of America Standards Institute or USASI and ultimately the American National Standards Institute.
The X3.2 subcommittee designed ASCII based on earlier teleprinter encoding systems. Like other character encodings, ASCII specifies a correspondence between digital bit patterns and character symbols (i.e. graphemes and control characters). This allows digital devices to communicate with each ASCII code other and to process, store, and communicate character-oriented information such as written language. The encodings in use before ASCII included 26 alphabetic ASCII code characters, 10 numerical digits, and from 11 to 25 special graphic symbols. To include control characters compatible with the Comité Consultatif International Téléphonique et Télégraphique standard, Fieldata and early EBCDIC, more than 64 codes were required ASCII code.
The committee debated the possibility ASCII code of a shift key function (like the Baudot code), which would allow more than 64 codes to be ASCII code represented by six bits. In a shifted ASCII code code, some character codes determine ASCII choices between options for the following character codes. This allows compact encoding, but is less reliable for data transmission; an error in transmitting the shift code typically makes a long part of the transmission unreadable. The standards ASCII code committee decided ASCII code against shifting, and so ASCII required at least a seven-bit code.
Indian Script Code for Information Interchange (ISCII) is a coding scheme for representing various ASCII code writing systems of India. It encodes the main Indic scripts and a Roman transliteration. The supported scripts are: Assamese, Bengali, ASCII code Devanagari, Gujarati, Gurmukhi, Kannada, Malayalam, Oriya, Tamil, and Telugu. ISCII does not encode the writing systems of India based on Arabic, but its writing system switching codes nonetheless provide for Kashmiri, Sindhi, Urdu, Persian, ASCII code Pashto and Arabic. The Arabic-based writing systems have subsequently been encoded in the PASCII encoding.
The Brahmi-derived writing systems are mostly rather similar ASCII code in structure, but have different letter shapes, so ISCII encodes letters with the same phonetic ASCII code value at the same codepoint ASCII, overlaying the various scripts. For example, the ISCII codes 0xB3 0xDB represent [ki]. This will be rendered as कि in Devanagari ASCII code, as ਕਿ in Gurmukhi, and as கி in Tamil. The writing system can be selected in rich text ASCII code by markup or in plain text by means of the ATR code described below ASCII code.
ASCII
One motivation for the use of a single encoding is the idea that it will allow easy transliteration from one writing system to another. However, there are enough incompatibilities that this ASCII code is not really a practical idea. See About ISCII.
ISCII is a fixed-length 8-bit ASCII code encoding. The lower 128 codepoints are plain ASCII, the upper 128 codepoints are ISCII-specific. In addition to the codepoints representing characters, ISCII makes use of a codepoint with mnemonic ATR that indicates that the following byte contains one of two kinds of information. One set of values changes the writing system until the next writing ASCII system indicator or end-of-line. Another set of values ASCII code select display modes, such as bold and italic. ISCII does not provide a means of indicating the default writing system. ASCI
ISCII has not been widely used outside of certain government institutions and has now been rendered largely obsolete by Unicode. While using a separate block for each Indic writing system, Unicode does, however, ASCII code largely preserve the ISCII layout within each block.
Existing standards for codes in respect of Indian Scripts
Internal representation of text in Indian Languages may be viewed as the problem of assigning codes to the aksharas of the languages. The complexities of the syllabic writing systems in use have ASCII code presented difficulties in standardizing internal representations. TeX was an inspiration in the late ASCII code 1980s but using TeX was more suited for Typesetting and not ASCII Text processing per se. In the absence of appropriate fonts, interactive applications could not be ASCII code attempted and when fonts ASCII code became available, applications simply used the Glyph positions as the codes and the number of Glyphs was restricted on account of the eight bit fonts.
ASCII
The following representations ASCII code still apply as many applications have been ASCII code written to use one or the other. It must be remembered that these representations primarily address the issue of internal representation for rendering text.
Use of Roman letters with diacritic marks
ISCII codes
Unicode for Indian Scripts.
ISFOC standard from CDAC
Of the above, the first has been discussed in the section on Transliteration principles. The ISFOC standard ASCII code applies more to standardization ASCII code of Fonts for different scripts and cannot really be thought as as an encoding standard. We confine our discussion ASCII code in this section to ISCII and the Unicode. A brief note on ISFOC will be found in a separate page.
About ISCII
About Unicode for Indian Languages
Detailed Discussion of Unicode for Indian Languages
Report from CDAC on character ASCII code encoding standards for Indian Scripts
Multilingualism and the Internet
(A good exposition of issues dealing with multilingual information on the web)
ASCII
ASCII
Indian Script Code for Information ASCII Interchange (ISCII)
ISCII was proposed in the eighties and a suitable standard was evolved by 1991. Here are the salient aspects of the ISCII representation.
* It is a single ASCII code representation for all the Indian Scripts.
* codes have been assigned in the upper ASCII region (160 - 255) for the aksharas of the language.
* The scheme also assigns codes for the Matras (vowel extensions).
* Special characters have been included to specify how a consonant in a syllable should be rendered. Rendering of Devanagari has been kept in mind.
* A special Attribute character has been included to identify the script to be used in rendering specific ASCII code sections of the text.
shown below is the basic assignment in the form of a Table. There is also a version of this table known as ASCII code PC-ISCII, where there are no characters defined in the range 176-223. In PC-ISCII, The first three columns of the ISCII-91 table have been shifted to the starting location of 128. PC-ISCII has been used in many applications based on ASCII code the GIST Card, a hardware adapter which supported Indian language applications on an IBM PC. ASCII In the table, some code values have ASCII code not been assigned. Six columns of 16 assignments each start at the Hexadecimal value of A0 which is equivalent to decimal 160.
ISCII Code Assignments
ASCII
The following observations are made.
1. The ISCII ASCII code code is reasonably well suited for representing the syllables of Indian languages, though one must remember that a multiple byte representation is inevitable, ASCII code which could vary from one byte to as many as 10 bytes for a syllable.
2. The ISCII code has effected a compromise in grouping the consonants of the languages into a common set that does not preserve the true sorting order of the aksharas across the languages. Specifically, some aksharas of Tamil, Malayalam and Telugu are out of place in the assignment of codes.
3. The ISCII code ASCII code provides for ASCII some tricks to be used in representing some aksharas, specifically ASCI the case of Devanagari aksharas representing Persian letters. ISCII uses a concept known as the Nukta Character to indicate the required akshara.
4. When forming conjuncts, ISCII specifications require that the halanth character be used once or twice depending on whether the halanth form of the consonant or ASCII code half form of the consonant is present. This results in more than one internal representations for the same syllable. Also, ISCII provides for the concept of the soft halanth as well as an ASCII code invisible consonant to handle representations ASCII code of special letters. Parsing a text string made up of ISCII codes is a fairly complex problem requiring a state ASCII code machine which is also language dependent. This is a consequence of the observation that languages like Tamil do not support conjuncts made up of three or more differing ASCII code consonants. In fact it is stated that Tamil has no conjunct aksharas. What is probably implied here is that a syllable in Tamil is always split into its basic consonants ASCII code and the Matra. Several decades ago Tamil writing in palm leaves did show geminated consonants in special form.ASCII
Though ASCII code representation at the level of a syllable is possible in ISCII, processing a syllable ASCII code can become quite complex, i.e., linguistic processing may pose specific difficulties due to the variable length codes for syllables.
5. The code ASCII code assignments, though language independent, do not admit of clean and error free transliteration across languages especially into Tamil from Devanagari.
6. It is difficult ASCII code to perform a check on an ISCII string to see if arbitrary syllables are present. Though theoretically many syllables are possible, in practice the set is ASCII code limited to about 600 - 800 basic syllables which can also combine with all the vowels. The standard provides for arbitrary syllables to handle cases where new words may be introduced ASCII code in the language or syllables from other languages are to be handled.
It must be stated here that ISCII represents the very first attempt at syllable level coding of Indian Language aksharas. Unfortunately, outside of CDAC which promoted ISCII through their GIST technology, very few seem to use ISCII.
ascii character
ISCII codes have nothing ASCII code to do ASCII with fonts and a given text in ISCII may be displayed using many different fonts for the same script. This will require specific rendering software which can map the ISCII codes to the glyphs in a matching ASCII code font for the ASCI script. Multibyte syllables will have to be mapped into multiple glyphs in a font dependent and language dependent manner. ISCII is primarily this complexity that has rendered ISCII less popular. Details of ISCII are covered in the ASCII code Bureau of Indian Standard Documents No. IS:13194-1991.
ascii code
Shown below are some examples of strings in Devanagri and other scripts along with their ISCII representations.
вівторок, 29 липня 2008 р.
Підписатися на:
Дописати коментарі (Atom)
2 коментарі:
ASCII character code referance
ASCII code
Another Ascii code I saw...
Ascii code. Better ascii code referance..
Дописати коментар