Unicode

Article

February 6, 2023

Unicode to standard branżowy, który umożliwia komputerom spójne wyświetlanie i obsługę zwykłego tekstu używanego w systemach pisania większości języków na świecie. Unicode zawiera listę ponad 100 000 wyświetlanych znaków, rozszerzenie standardu Universal Character Set:UCS) i jest opublikowany w The Unicode Standard jako mapa kodu w celach informacyjnych. Ponadto opisano szereg metod kodowania i standardów kodowania znaków. porządek alfabetyczny Zasady łączenia i wyodrębniania znaków w tym kolejność wyświetlania znaków dwukierunkowych (takich jak alfabet arabski lub alfabet hebrajski pisany od prawej do lewej), Unicode Consortium, organizacja non-profit. Odpowiada za rozwój Unicode. Organizacja ma na celu zastąpienie istniejących kodowań znaków standardami Unicode i Unicode Transformation Format:UTF), ale jest to trudne, ponieważ istniejące plany są ograniczone rozmiarem i zakresem. Może to nie być obsługiwane w wielojęzycznym środowisku komputerowym. Sukces Unicode polega na połączeniu wielu kodów znaków w jeden. Doprowadziło to do powszechnego użycia i wpływu tłumaczenia językowego oprogramowania komputerowego. Oznacza to, że program będzie dostępny w wielu językach. Standard ten został zaimplementowany w wielu kluczowych technologiach, takich jak XML, język Java, framework dot network. i nowoczesne systemy operacyjne Unicode można zaimplementować za pomocą różnych zestawów znaków, z których najczęstszym jest UTF-8 (używa 1 bajtu na każdy znak w kodzie ASCII i ma taki sam identyfikator jak standard ASCII). lub więcej do 4 bajtów dla innych znaków) UCS-2 jest teraz przestarzały (2 bajty na każdy znak. ale nie obejmuje wszystkich znaków w Unicode) i UTF-16 (rozszerzenie z UCS-2, używające 4 bajtów do reprezentowania brakujących kodów znaków UCS-2).LUW-2)LUW-2)lub więcej do 4 bajtów dla innych znaków) UCS-2 jest teraz przestarzały (2 bajty na każdy znak. ale nie obejmuje wszystkich znaków w Unicode) i UTF-16 (rozszerzenie z UCS-2, używające 4 bajtów do reprezentowania brakujących kodów znaków UCS-2).lub więcej do 4 bajtów dla innych znaków) UCS-2 jest teraz przestarzały (2 bajty na każdy znak. ale nie obejmuje wszystkich znaków w Unicode) i UTF-16 (rozszerzenie z UCS-2, używające 4 bajtów do reprezentowania brakujących kodów znaków UCS-2).

kodowanie

UTF-8 koduje znaki w jeden do czterech bajtów danych w kolejności punktu kodowego. W poniższej tabeli przedstawiono strukturę kodowania, gdzie x reprezentuje bity punktu kodowego.

wersja Unicode

różne blogi

Ograniczenia i problemy

Unicode został skrytykowany za problemy techniczne. Jednak Unicode stał się najpopularniejszą metodą szyfrowania stosowaną do jednoczesnego uruchamiania wielojęzycznego oprogramowania i systemów operacyjnych. Należą do nich Windows NT, Windows 2000 i Windows XP. Do kodowania tekstu używany jest kod UTF-16. Uniksopodobne systemy operacyjne, takie jak GNU/Linux BSD i Mac OS X, przyjęły UTF-8 Unicode jako podstawę wielojęzycznej reprezentacji tekstu. Obsługa języka tajskiego w Unicode Został skrytykowany, ponieważ kolejność alfabetyczna nie jest tak dokładna, jak powinna. Dzieje się tak, ponieważ kod Unicode w języku tajskim odwołuje się do oryginalnego formatu z tajlandzkiego standardu branżowego 620 (TIS-620), który również ma ten problem. To sprawia, że ​​zamawianie Unicode jest trudniejsze.

wspominać

innych źródeł

DecodeUnicode - Unicode WIKI, 50.000 gifów

Original article in Thailand language