tek kod

Unicode , farklı dillerdeki metinlerin küresel düzeyde değiş tokuşunu sağlayan bir bilgisayar standardıdır . Bilgisayar platformu veya kullanılan yazılım ne olursa olsun, herhangi bir yazı sistemindeki herhangi bir karaktere bir ad ve sayısal bir tanımlayıcı vererek yazılı metni tek bir şekilde kodlamayı amaçlayan Unicode Konsorsiyumu tarafından geliştirilmiştir .

Bu standard ile ilgilidir standart ISO / IEC 10646 eşdeğer karakterlerin bir tablo tarif eder. En son sürüm, Unicode 13.0 , piyasaya sürüldü.Mart 2020.

ISO / IEC 10646'nın Evrensel Karakter Seti (UIC) ile tamamen uyumlu olan Unicode standardı, her karaktere bir dizi özellik vererek (bazıları için standartlaştırılmış ve stabilize edilmiş olabilir) eksiksiz bir temsil ve kelime işleme modeli ekleyerek onu genişletir. karakterin kodlandığı tüm Unicode sürümleri veya bulunan yeni ihtiyaçlara göre gelişebilecek kullanımları hakkında yalnızca bir tavsiye içeren bilgilendirici). Bu özellikler, bir metnin birkaç ardışık karakteri arasında var olabilen anlamsal ilişkileri kesin olarak tanımlar ve dönüştürülen metinlerin anlamlarını mümkün olduğunca koruyan işleme algoritmalarını standartlaştırmayı veya önermeyi mümkün kılar. Unicode, aynı metni tamamen farklı bilgisayar sistemlerinde aynı şekilde kullanılabilir hale getirmeyi amaçlar.

Unicode standardı, 150'den fazla komut dosyasını kapsayan 143.859 karakterlik bir repertuardan, görsel referans için bir dizi kod tablosundan, bir kodlama yönteminden ve birkaç standart karakter kodlamasından, bir numaralandırma karakter özelliklerinden (büyük harf, küçük harf, APL , semboller, noktalama işaretleri) oluşur. , vb. ) bir dizi referans bilgisayar veri dosyası ve normalleştirme kuralları, çift yönlü ayrıştırma, sıralama, oluşturma ve görüntüleme sırası gibi bir dizi ilgili öğe (hem sağdan sola içeren metnin doğru görüntülenmesi için) Arapça ve İbranice gibi komut dosyası karakterleri ve soldan sağa).

Uygulamada, Unicode, ISO / IEC 10646'yı tam olarak içerir , çünkü ikincisi, yalnızca tek tek karakterleri, onlara bir ad ve normatif bir sayı ( kod noktası olarak adlandırılır ) ve çok sınırlı bir bilgilendirici açıklama atayarak standartlaştırır , ancak işleme veya spesifikasyon içermez. yalnızca Unicode standardının tam olarak tanımladığı gerçek dilleri yazarken kullanın. ISO / IEC 10646 (dahil Unicode standardına kısımlarına normatif referans çift yönlü algoritma ve karakter özelliklerine () 'de ); Unicode ayrıca kelime işleme için fiili bir standarttır ve diğer birçok standardın temeli olarak hizmet eder.

Yazılı diller:

Alfabetik

[L] ogografik ve [S] hece

Hanzi [L]
Kana [S]

Doğu Asya [L]

Hangeul / Hanja b [L]

Abjad (Semitik diller)

Abugida

Amaç

Unicode tabloları (plan 0) Anahtar veri

0000 - 0FFF	8000 - 8FFF
1000 - 1FFF	9000 - 9FFF
2000 - 2FFF	A000 - AFFF
3000 - 3FFF	B000 - BFFFF
4000 - 4FFF	C000 - CFFF
5000 - 5FFF	D000 - DFFF
6000 - 6FFF	E000 - EFFF
7000 - 7FFF	F000 - FFFF

Diğer Unicode planları

0000 - FFFF	plan 0 (PMB / BMP )
10.000 - 1FFFF	plan 1 (PMC / SMP )
20.000 - 2FFFF	plan 2 (PSC / SIP )
30.000 - 3FFFF	plan 3 (PST / İPUCU )
40.000 - DFFFF	çekim 4-13 (ayrılmış)
E0000 - EFFFF	plan 14 (PCS / SSP )
F0000 - FFFF	plan 15 (özel A)
100.000 - 10FFFF	plan 16 (özel B)

İlk yayını M.Ö. Ekim 1991, ulusal kod sayfalarının kullanımının yerini alacak şekilde geliştirilmiştir .

Bu kod sayfalarının geçmişte bazı sorunları vardı. Örneğin, üzerinde 3270 terminalleri faaliyet gösteren EBCDIC : Bir elektronik not bir "para işareti" karakterini, bir harcama sınırı aynı metni dahil olduğunda dolar bir İngiliz ekranda aynı miktarda görüntüleyecektir Amerikan okuyucu için sterlinlik , para beri işareti iki ülkenin her birinde farklıydı.

Pratikte, tüm yazı sistemleri henüz mevcut değil, çünkü uzmanlarla yapılan belgesel araştırma çalışmaları, nadir karakterler veya az bilinen yazı sistemleri için hala gerekli olabilir (örneğin, ortadan kalktılar).

Bununla birlikte, dünyada en çok kullanılan senaryoların yanı sıra karakterlerin semantiği, kompozisyonları ve bu farklı sistemlerin nasıl birleştirileceği ile ilgili kurallar temsil edilir . - Örneğin, sağdan sola yazma sisteminin soldan sağa yazma sistemine nasıl ekleneceği ( çift yönlü metin ).

Standardizasyon

birlikte çalışabilirlik

UTF-8 biçiminde, Unicode, ASCII koduyla birlikte çalışabilirlik sunar .

uyma

Unicode standardı, bir sürecin (veya yazılımın) uygulanmasının Unicode'a uygunluğunu değerlendirmek için gereksinimleri tanımlar . Bu gereksinimler özellikle ( sürüm 4.0'da ) ile ilgilidir:

atanmamış Kod Noktalarının işlenmesi;
eşdeğer karakter dizilerinin yorumlanması;
metnin yorumlanmasında bir değişiklik nedir;
karakter kodlaması;
çift yönlü metin ekranı;
standardizasyon;
algoritmalar;
kırılma.

Bu gereksinimler, bir Unicode alt kümesi için desteğe izin verir.

Birlikte ISO / IEC 10646 Unicode arasındaki fark olarak tanımlar aynı karakter kümesi ISO / IEC 10646 ve Unicode bağlı Unicode tarafından sağlanan aşırı uygunluk ihtiyacına esas olarak.

sınırlamalar

Unicode, 2016 yılında bilgisayar karakter kodlaması için önde gelen standarttır. Yazılımın birlikte çalışabilirliği için kullanılır ve örneğin, onlar için özel olarak tasarlanmamış olsa bile farklı yazılımlar arasında farklı alfabedeki karakterleri kullanarak metinleri kopyalamaya izin verir (örneğin , bir LibreOffice metnindeki APL karakterlerindeki bir program veya Gmail altındaki bir e-postadaki ). Ancak, tüm Unicode metinleri aynı şekilde kodlanmaz. Kabul edilen Unicode standardizasyonuna bağlı olarak, aynı grafik işareti bazen farklı şekillerde kodlanabilir. Bazı metinler kullanmak NFC kongre , diğerlerini nfd kongre , vb Ve standart, aynı metinde birkaç kuralın karıştırılmasını yasaklamaz. Aynı şey yazılım için de geçerlidir.

Aynı şeyi yazmanın birkaç yolunun bir arada bulunması , 2000'li yıllarda bilgisayar korsanları tarafından filtreleri atlamalarına izin vererek istismar edildi : bilgisayar korsanları, tehlikeli olarak kabul edilen belirli dizelerin yasaklarını, onları başka bir biçimde kodlayarak oldukça basit bir şekilde atladılar. , daha alışılmadık ve bu nedenle bazen filtrelenmemiş.

Unicode, kurallı denklik kavramını sağlayarak bu sınırlamalara yanıt verir .

Standartlar ve versiyonlar

Unicode üzerinde yapılan çalışmalar , hedefleri aynı olan ISO/IEC 10646 standardı ile paralel ve senkronizedir . ISO / IEC 10646 karakter veya karakterlerin anlamsal özelliklerinin kompozisyon kuralları belirtmez, Fransızca ve İngilizce yayınlanan uluslararası bir standart.

Ancak Unicode, büyük/ küçük harf , alfabetik sıralama ve aksan ve karakter kombinasyonu sorununu ele alır . Yana Unicode sürümü 1.1 ve sonraki tüm versiyonlarda, karakterler aynıdır tanımlayıcıları ISO / IEC 10646 standardına : dizinleri paralel olarak tutulur, aynı nihai standardizasyon sırasında, iki standart neredeyse aynı anda güncelleştirmeleri olmak. İki standart Unicode ( sürüm 1.1'den beri ) ve ISO / IEC 10646 tam geriye dönük uyumluluk sağlar: önceki bir sürüme uyan herhangi bir metin sonraki sürümlerde uyumlu kalmalıdır.

Bu nedenle, Unicode sürüm 3.0'ın karakterleri , ISO/IEC 10646:2000 standardının karakterleridir . Sürüm 3.2 Unicode 95221 karakterler, semboller ve direktifleri sırada yer aldı.

Versiyon 4.1 güncellenmiş Unicode,kasım 2005, şunları içerir:

Özel kullanım için 137.468 karakter (Unicode'un tüm sürümlerinde atanmıştır ve tüm amaçlar için yeterlidir);
97.755'ten fazla harf veya hece, rakam veya rakam, çeşitli semboller, aksan işaretleri ve noktalama işaretleri, bunların arasında:
- 70.207'den fazla ideografik karakter ve
  - bunların arasında, önceden oluşturulmuş 11.172 Hangul hecesi ; birlikte
8.258 kalıcı olarak ayrılmış kod noktası, metin kodlaması için yasaklanmıştır (Unicode'un tüm sürümlerinde atanmıştır); ve
birkaç yüz kontrol karakteri veya özel değiştiriciler;

yani 1.114.112 farklı kodu içerebilen bir alana atanan toplam yaklaşık 245.000 kod noktası.

Bununla birlikte, farklı dillerde kullanılan ideografik kümelerin biraz farklı ve bazen anlamlı kaligrafi ile birleştirilmesi nedeniyle Çince karakterlerin kodlanmasında bazı sorunlar var gibi görünmektedir , ancak bunlar seçicileri tanımlayan Unicode tarafından çözülmektedir. bunları kullanan standart bir dizi kaydı açtı.

Sürüm	Yayın tarihi	Yeni karakterler
1.0.0	Ekim 1991
1.0.1	Haziran 1992
1.1	Haziran 1993
2.0	Temmuz 1996
2.1	Mayıs 1998
3.0	Eylül 1999
3.1	Mart 2001
3.2	Mart 2002
4.0	Nisan 2003
4.1	Mart 2005
5.0	temmuz 2006
5.1	Mart 2008
5.2	ekim 2009
6.0	şubat 2011
6.1	31 Ocak 2012
7.0	16 Haziran 2014	Dahil 2834 yeni karakterler emoji'yi .
8.0	17 Haziran 2015	Birçok emoji dahil 7.716 karakter.
9.0	21 Haziran 2016	7.500 yeni karakter (72 emoji dahil).
10.0	20 Haziran 2017	8518 yeni karakter (56 emoji dahil).
11.0	5 Haziran 2018	684 yeni karakter (66 emoji dahil).
12.0	5 Mart 2019	554 yeni karakter.
13.0	10 Mart 2020	5.390 yeni karakter

Unicode katmanları

Unicode, katmanlı bir modele göre tanımlanır ( Teknik Not Unicode n o 17 ). Diğer standartlar tipik olarak karakter seti ve fiziksel temsil arasında ayrım yapmıyordu. Katmanlar burada en yüksekten (makineden en uzak) başlayarak sunulur.

Soyut karakter dizini ( astract karakter repertuarı )

En üstteki katman, karakter kümesi tanımıdır. Örneğin, Latin-1, 256 karakter kümesine sahipken, Unicode şu anda yaklaşık 110.000 karakteri standartlaştırmaktadır. Ayrıca, Unicode bu karakterlerin her birine bir ad atar.

Bu nedenle adlarıyla birlikte karakterlerin listesi Unicode uygulama katmanını oluşturur.

Örneğin, Ç karakteri "Latin büyük harf c cedilla" olarak adlandırılır.

Bu tanım, dizinin herhangi bir uzantısını onaylayan ISO / IEC 10646 ile tamamen aynıdır . Unicode, standardının metninde yalnızca İngilizce normatif adları kullanır, ancak ISO/IEC 10646 standardı eşit derecede normatif iki dilde yayınlanır. Böylece İngilizce ve Fransızca adların her ikisi de standartlaştırılmıştır.

Aslında, dizinin herhangi bir uzantısı artık ISO / IEC 10646'dan sorumlu çalışma grubu ( oy veren üyeleri yalnızca katılımcı ülkelerin ulusal standardizasyon yetkilileri veya resmi temsilcileri olan JTC1 / SC2 / WG2 ) ile ortaklaşa yapılmaktadır . Unicode UTC Teknik Komitesi (oy veren üyeleri herhangi bir özel veya kamu yararına çalışan kuruluş veya hatta bu kararlara katılmak için yıllık ücret ödeyen ve katılan bir hükümet olabilir) .

Kodlanmış karakter seti ( kodlanmış karakter seti )

Burada, önceki tabloya her karakterle ilişkili bir sayı eklenir. Bunun bellekte bir temsil olmadığını, yalnızca kod noktası adı verilen bir tam sayı olduğunu unutmayın . Bu sayılar için kodlama alanı, 65.536 kod noktasından oluşan 17 alana bölünmüştür. Bu alanlara düzlem denir .

Kod noktası "U + xxxx" olarak belirtilir, burada "xxxx" onaltılıktır ve 4 ila 6 hanelidir :

Temel çok dilli plan olarak adlandırılan ön plan için 4 basamak (dolayısıyla U + 0000 ve U + FFFF arasında);
Aşağıdaki 15 plan için 5 hane (U + 10.000 ile U + FFFFF arasında);
Son plan için 6 hane (U + 100.000 ile U + 10FFFF arasında).

Böylece "Latince büyük harf c cedilla" (Ç) adlı karakter U + 00C7 sayısına sahiptir. Ön plana aittir.

Prensipte U + 0000 ve U + 10FFFF arasındaki tüm kod noktaları mevcuttur, ancak belirli aralıklar sürekli olarak belirli kullanımlar için ayrılmıştır, özellikle UTF-16 kodlamasına izin vermek için hariç tutulan bir dolaylı bölge ( aşağıya bakın), özel kullanım alanları ve uyumlu bir veri alışverişinde kullanımı yasak olan karakter dışı karakterler içeren bazı bölgeler (örn. U + FFFE veya U + FFFF) . Diğer kod noktaları ya önceden karakterlere atanmıştır ya da gelecekteki standardizasyon için ayrılmıştır.

Özel kullanım alanı: Unicode, geçerli karakterlere birçok kod noktası atamıştır, ancak özel kullanım nedeniyle semantikleri bilinmeyen (örneğin, U + F0000 ve U + 10FFFF arasındaki son iki plan, iki kod dışında tamamen bu kullanıma ayrılmıştır) uyumlu metinde karakter olmayanların yasak olduğu her planın sonundaki noktalar).

Burada yine kodlama standardizasyonu, yani ortak repertuardaki karakterlere kod noktalarının atanması, Unicode ve ISO/IEC 10646 standartları arasında paylaşılan ortak bir karardır . Dizindeki tüm karakterlerin benzersiz bir kod noktası vardır (bazı diller veya Unicode için bazı karakterler eşdeğer kabul edilse bile).

Karakter dizini genişletilebilir ise, kodlama alanının üst sınırı ile sınırlandırıldığı belirtilebilir: U + 10FFFF. Olası kod noktalarının büyük bir çoğunluğu herhangi bir belirli karakterle ilişkilendirilmez, ancak herhangi bir zamanda olabilir.

Ayrıca bu hala ücretsiz olan kod noktaları geçersiz sayılmaz, ancak soyut karakterleri temsil ederler (henüz belirtilmemiş ve geçici olarak ayrılmışlardır). Bu soyut karakterler (ve özel kullanım karakterleri), standart dizinin kodlanmış karakter setini, dizinlerin tüm kodlanmış karakter setlerini içeren " evrensel kodlanmış karakter seti " ( Evrensel Kodlu Karakter Seti , genellikle UCS olarak kısaltılır ) adı verilen tek bir oyunda tamamlar. ISO / IEC 10646 ve Unicode'un geçmiş, şimdiki ve gelecekteki sürümlerinin her birinin ( yalnızca sürüm 1.1'den beri ).

Biçimci karakter kodlaması ( karakter kodlama formu )

Bu sefer, fiziksel bir temsile (bellekte, diskte, vb.) ulaşıyoruz : bu katman, hangi kodlama biriminin ( kod birimleri ) veya kodetin bir karakteri veya daha tam olarak bir kod noktasını temsil edeceğini belirtir : byte , seizet (in) ) (16 bit kelime) veya otuz deuzet (tr) (32 bit kelime).

Bu formalizmlerden birkaçı olabilir (ve vardır). Belirli bir biçimcilik, kodlama biriminin boyutunu belirtmeli ve bir kod noktasını temsil eden tamsayının bir dizi kodlama biriminde nasıl temsil edildiğini ve bunun tersini, yani bir kodlama birimi dizisi verilen kod noktasının nasıl bulunacağını belirtmelidir.

Mekanizma serileştirme karakterleri ( karakter kodlama şeması )

Bu katman, önceki katman tarafından tanımlanan kodlama birimlerinin dizilerinin bayt dizilerine serileştirilmesiyle ilgilenir. Burası, bayt sırasının büyük endian (önce en anlamlı bayt) ve küçük endian (önce en az anlamlı bayt) arasında seçildiği yerdir .

Ayrıca bu adımda , dosyanın veya veri akışının başlangıcında büyük endian mı yoksa küçük endian mı olduğunu belirten bir bayt sırası göstergesi (veya bayt sırası işareti için BOM) eklemek mümkündür . İnternet dünyasında, nadiren açık bir işaretlemeyi tercih kullanılır ( " charset = UTF-16BE içinde" MIME , örneğin, bir big-endian veri akışını belirtmek için BE için standları büyük endian ).

Aşırı kodlama aktarımı ( aktarım kodlama sözdizimi )

Burada isteğe bağlı sıkıştırma veya şifreleme mekanizmaları.

Ayrıca, Unicode dizelerinin UTF-8'de kodlanması ve Base64'te aşırı kodlanması gerektiğini belirten LDAP gibi bir aşırı kodlama olabilir .

bayt sınırı

Önceki standartların (bir bit dizisi, bir temsil) katı kısıtlamalarının üstesinden gelmek için, Unicode bundan böyle bir yandan karakter kümesinin tanımını ( adlarına göre karakter listesi) ve bunların indeksini, kod noktasını , kodlamanın kod noktasını ayırır. . Bu nedenle, bir Unicode karakterinin boyutundan söz edemeyiz, çünkü seçilen kodlamaya bağlıdır ve bu nedenle bu, isteğe göre değişebilir. Uygulamada, UTF-8 Batı ülkelerinde yaygın olarak kullanılmaktadır.

Nerede ASCII 7 kullanan bitleri ve ISO / IEC 8859-1 fazla 8 bit birini kullanmak için gereken her kod sayfasından karakterleri toplayan 8 bit (çoğu ulusal kod sayfaları gibi), Unicode, bayt . Sınır başlangıçta Unicode'un ilk sürümleri için 16 bit ve ISO/IEC 10646'nın ilk sürümleri için 32 bit olarak ayarlandı .

Geçerli sınır, artık karşılıklı olarak uyumlu iki standartta standartlaştırılmış karakterlere atanan kod noktası başına 20 ila 21 bit arasına yerleştirilmiştir :

ISO uluslararası çalışma grubu, kod noktalarının karakterlere, resmi adlarına atanmasını standartlaştırır ve her bir komut dosyası veya komut dizisi grubu tarafından kullanılan kod noktası bloklarını saklı tutar. Ayrıca, her karakter için olası bir grafik gösterimi (göstergesel) belgelemektedir (bu grafik gösterim, standartlaştırılmış karakterlerin sınırlı sayıda komut dosyası için uygun kod bloklarına yerleştirilmesi sayesinde mümkünse nettir).
Unicode Konsorsiyumu çalışma grubu, karakter özellik tabloları ve bu özellikleri kullanan standart algoritmaların geliştirilmesi sayesinde otomatik işleme için anlamlarını (Unicode standardında) daha kesin bir şekilde standartlaştırır.
İki standart kuruluşu, standartlaştırılmış repertuarlarını karşılıklı olarak atıfta bulunulan resmi sürümlerle sürekli olarak senkronize etmek için işbirliği yapar ve değişiklikler üzerinde birlikte çalışırlar (her iki kuruluş da her iki kuruluş da onaylayıp yeni karakterleri tam olarak tanımlayana kadar sürümler resmi hale gelmez).
Uygulamada, çoğu uygulama geliştiricisi için ISO/IEC 10646 standardı , daha eksiksiz Unicode standardının bir alt kümesi olarak görünür , ancak standartla tam olarak aynı karakter kümesi için aynı kod noktalarına sahiptir . daha iyi bilinir, çünkü bilgisayarlı işleme için daha uygundur ve ayrıca İnternette ücretsiz olarak bulunur).

Evrensel Dönüşüm Formatı (UTF)

Unicode ve ISO / IEC 10646 , geçerli bir kod noktasını temsil etmek için çeşitli evrensel dönüşüm biçimlerini kabul eder. Alıntı yapalım:

UTF sonra numarası minimum bit sayısını temsil eden codepoints geçerli bir kod noktası temsil edildiği.

Bu dönüşümler orijinal olarak , orijinal olarak 31 bit kod noktalarını tanımlayabilen ISO/IEC 10646'nın dahili temsil ve kod noktası kodlama şemaları için oluşturulmuştur . O zamandan beri, ISO/IEC 10646 standardı , üç formun birbiriyle tam uyumlu olması ve tüm kod noktalarının kodlanmasına izin verecek şekilde değiştirilmiştir (çünkü UTF-16 yalnızca ilk 17 düzlemin kod noktalarının kodlanmasına izin vermektedir). temsil edilir).

Unicode ayrıca, tüm geçerli kod noktalarının (U + 0000'den U + D7FF'ye ve U + E000'den U + 10FFFF'ye) bu üç dönüşüm biçimini ve yalnızca bunları, metni kod noktalarının form dizilerinde temsil edip etmediklerini veya geçerli karakterlere atanan veya ayrılmış veya karakter olmayanlara atanan kod noktaları. Yalnızca UTF-16'da kullanılan yarım bölgelere (U + D800 ila U + DFFF) atanan kod noktaları, bir çift 16 bitlik kod noktası tarafından kod noktalarını temsil etmek için kullanıldıklarından ayrı ayrı geçersizdir. 16 ek plan için.

UTF-8

UTF-8 , belirtilen RFC 3629, en çok kullanıldığı alanlar ise Unix ve Internet . Değişken boyutta kodlaması, bellek kullanımında (Latin alfabesi olan diller için) ortalama olarak daha ucuz olmasını sağlar. Ancak bu, dizeleri tamsayılarla indeksleyen bazı dillerde (örnek = " dizenin 815. karakteri") alt dize çıkarma içeren işlemleri önemli ölçüde yavaşlatır , çünkü bilmek için dizenin başlangıcından itibaren karakterleri saymak gerekir. ayıklanacak ilk karakterin olduğu yer.

UTF-8 de sağlar ve bu ana avantajı, basit dize manipülasyon ile uyumluluk olduğu ASCII içinde programlama dilleri . Bu nedenle, C ile yazılmış programlar genellikle değişiklik yapılmadan çalışabilir.

Başlangıçta UTF-8, U + 0000 ve U + 7FFFFFFF (31 bite kadar) arasındaki herhangi bir kod noktasını kodlayabilirdi. Bu kullanım kullanımdan kaldırılmıştır ve ISO/IEC 10646 standardı , iki kod üzerinde gösterim için UTF-16'da kullanılan kod öğelerine karşılık gelen yarım bölgeninkiler hariç, yalnızca ilk 17 çekimin geçerli kod noktalarını destekleyecek şekilde değiştirilmiştir. elemanlar. 16 ek planın kod noktaları. Ayrıca UTF-8'deki en uzun diziler, önceden 6 yerine maksimum 4 bayt gerektirir. Ek olarak, UTF-8 önce Unicode ve ardından ISO/IEC 10646 tarafından her bir kod noktasının yalnızca en kısa temsilini ( kodlama benzersizliği ) kabul edecek şekilde değiştirilmiştir . Aynı karakterin birkaç farklı şekilde temsil edilebilmesi gerçeği, güvenlik sorunları ortaya çıkardı, çünkü bilgisayar korsanı "filtrelenmiş" bir formu farklı bir yazıyla atlayabilirdi.

UTF-16'ya (ve UTF-32'ye) göre avantajı, bir sözcüğü oluşturan baytların ( endianness ) sıralamasındaki farklılıkların , heterojen sistemler ağında bir sorun oluşturmamasıdır; bu nedenle, bu dönüşüm günümüzde çoğu standartlaştırılmış değişim protokolü tarafından kullanılmaktadır.

Öte yandan, UTF-8, metinlerin ASCII karakter kümesine dayalı protokollerle iletilmesi için tamamen uyumludur veya (ASCII olmayan karakterlerin çok baytlı dönüşümü pahasına) destekleyen değişim protokolleriyle uyumlu hale getirilebilir. 8 bit kodlu karakter kümeleri (ister ISO / IEC 8859'a dayalı olsun, ister ulusal standartlar veya belirli tescilli sistemler tarafından tanımlanan diğer birçok 8 bitlik kodlanmış karakter kümesi).

Ana dezavantajı çok değişken uzunlukta kodlama olduğu (ASCII atanan kod noktası için 1 bayt - ISO / IEC 646 karakter , 2 ile 4 bayt diğer kod noktası için), daha UTF-8 otomatik senkronizasyon özgü kodlama rastgele bir konumdan bir dizinin başlangıcını belirlemeyi mümkün kılar (önceki kod noktalarının en fazla 3 ek okumasını gerçekleştirerek). Ancak, bu kodlama karakter dizilerinin işlenmesini kolaylaştırmak için tasarlanmamıştır: genellikle UTF-16'yı, bazen UTF-32'yi (bellekte açgözlü) tercih ederiz.

türevler

Unicode verilerini UTF-16 formatında dahili olarak temsil eden bazı programlar (örneğin, Oracle veritabanı ) UTF-8'e dönüştürme hatasına sahiptir (veya yaşamıştır): U + 10000 ve U + 10FFFF arasında bir karakter, iki 16-'da depolanır. bit sözcükleri, iki Unicode karakter dizisi olarak UTF-8'e dönüştürülür. Bu, CESU-8'in "yanlışlıkla" oluşturulmasına yol açtı ve Unicode'un 16 bit platformlarda kullanımını kolaylaştırma avantajına sahip.
Unicode boş karakteri U + 0000, UTF-8'de tek bir boş bayt 0x00 olarak kodlanmıştır . Unicode standardına göre bu karakterin özel bir anlamı yoktur; ancak (tarihsel kavramsal nedenlerle), C dili dizesi işleme kitaplıkları, bu kontrol karakterini dizenin sonu olarak kabul eder, bu da bazı uygulama durumlarının uygulanmasını karmaşıklaştırır . Java platformu altında, CESU-8'in “16-bit” taşınabilirliğinden yararlanılarak ve 0xC0 0x80 dizisi altında U + 0000 kodlama imkanı eklenerek “ (en) Modifiye UTF-8 ” versiyonu doğdu. (normalde UTF-8'de yasaklanmıştır): Desteklenen platformun yerel C kitaplıkları ile bu şekilde değiş tokuş yaparak, platform tüm geçerli Unicode metinlerini ve derlenmiş sınıf dosyalarını (taşınabilir alternatif biçim, endianness ve word'den bağımsız olarak) kolayca yönetebilir boy).

UTF-16

UTF-16 (en sık kullanılan karakterler dahil) modern diller yazılarında atanan Unicode karakterleri büyük çoğunluğu dilli planı tabanında ve dolayısıyla temsil edilebilir, çünkü bellek alanı çok küçük olmadığı zaman iyi bir uzlaşmadır 16 bit üzerinde. ISO / IEC 10646'nın Fransızca versiyonu bu 16 bitlik sözcükleri "seizets" olarak adlandırır, ancak uluslararası sürüm yine de bunları iki bayttan oluşan klasik 16 bitlik sözcükler olarak tanımlar ve olağan sonculuk kurallarına tabidir .

UTF-16 kodlaması

merhaba \ lo	DC00	DC01	...	DFFF
D800	10.000	10001	...	103FF
D801	10400	10401	...	107FF
⋮	⋮	⋮	⋱	⋮
DBFF	10FC00	10FC01	...	10FFFF

On altı ek düzlemin kod noktaları, iki 16 bitlik word üzerinde bir dönüşüm gerektirir:

0x00 ila 0xFFFFF aralığında 20 bitlik bir sayı bırakarak kod noktasından 0x10000'i çıkarın;
en önemli 10 bit (0x00 ile 0x3FF arasında bir sayı) 0xD800'e eklenir ve yüksek yarım bölgedeki ilk kod birimini verir ( 0xD800 ila 0xDBFF );
en az anlamlı 10 bit (0x00 ve 0x3FF arasında bir sayı) 0xDC00'a eklenir ve ikinci kod birimini düşük yarım bölgede ( 0xDC00 ila 0xDFFF ) verir;

Yaygın olarak kullanılan karakterlerin çoğu temel düzlemde bulunduğundan, ek kliplerin kodlaması yazılımda genellikle yetersiz test edilir ve yaygın olarak dağıtılan yazılımlarda bile hatalara veya güvenlik sorunlarına yol açar. GB 18030 gibi belirli yasal çerçeveler, özellikle uygun adlarda bulunan karakterleri içeren ek planların desteklenmesini talep edebilir.

UTF-16'da temsil edilen bir metindeki herhangi bir noktadan kodlama dizisinin başlangıcını, yalnızca bu kod noktası alt yarı alanda ise, en fazla bir ek okuma gerçekleştirerek belirlemek mümkündür. Bu form, birkaç ASCII karakteri (U + 0000 - U + 007F) içeren metinlerin gösterimi için UTF-8'den daha ekonomik ve hızlı işlenmesi daha kolaydır.

Bununla birlikte, bu dönüşüm, 16 bitlik tamsayı gösteriminde baytların sırasına bağlı olan iki uyumsuz kodlama şemasına sahiptir. Bu belirsizliği gidermek ve heterojen sistemler arasında iletime izin vermek için, kullanılan kodlama şemasını (UTF-16BE veya UTF-16LE) gösteren bilgileri eklemek veya kodlanmış metnin önüne kod noktasının temsilini eklemek gerekir.geçerli U + FEFF ("sıfır genişlikte bölünmez boşluk" karakterine atanmıştır, artık bir bayt sıralama işareti olarak bu tek kullanım için ayrılmış bir karakter), çünkü "ters çevrilmiş" U + FFFE geçerli kod noktası bir karakter değildir, metinlerde yasaklanmıştır Unicode ve ISO/IEC 10646'ya uygundur .

UTF-16'nın diğer kusuru, onunla dönüştürülen ve iki kodlama şemasından herhangi biri ile iletilen metnin, boş olan veya d değerleriyle çelişen bir değere sahip çok sayıda bayt içermesidir.

Bu özellikle Java platformunun dahili olarak kullandığı kodlamanın yanı sıra Unicode uyumlu API'leri için Windows'tur ( type ile wchar).

UTF-32

UTF-32 bellek alanı bir sorun olmadığında kullanılır ve doğrudan ve boyutu (değişim olmadan karakterlere erişim olması gerekir edilir Mısır hiyeroglifleri ).

Bu standartlaştırılmış dönüşümün avantajı, tüm kod öğelerinin aynı boyuta sahip olmasıdır. Bu nedenle, bir kod noktasının temsilinin başlangıcını belirlemek için ek kod noktalarının okunması gerekli değildir.

Bununla birlikte, bu biçim özellikle ekonomik değildir (bellek dahil), çünkü karakter başına gereksiz yere en az bir bayt (her zaman sıfır) "harcanır". Bir metnin bellekteki boyutu, RAM'in dolması durumunda diske daha fazla okuma ve yazma gerektirdiğinden performans üzerinde olumsuz bir etkiye sahiptir ve ayrıca işlemcilerin bellek önbelleklerinin performansını düşürür.

Mevcut modern dillerde yazılmış metinler için (ek ideografik düzlemin bazı nadir karakterleri dışında) ve bu nedenle yalnızca temel çok dilli düzlemin kod noktalarını kullanarak, bu dönüşüm UTF-16'ya kıyasla gereken bellek miktarını iki katına çıkarır.

UTF-16 gibi, UTF-32 de 8 bitten fazla bir tamsayı oluşturan baytların sırasına bağlı olarak birkaç kodlama şemasına sahiptir (UTF-32'nin iki kodlama şeması standartlaştırılmıştır, UTF-32BE ve UTF-32LE). Bu nedenle, bu kodlama şemasını belirtmek veya U + FEFF kod noktasının UTF-32'deki gösterimi ile metne önek koyarak belirlemek de gereklidir. UTF-16 gibi, UTF-32'nin standartlaştırılmış kodlama şemalarında boş baytların varlığı, onu heterojen sistemler arasında değiş tokuş için birçok protokolle uyumsuz hale getirir.

Ayrıca bu biçim, işlenmesi daha kolay bir ara biçim olarak belirli işlemler için çoğunlukla yalnızca çok yerel olarak kullanılır ve genellikle büyük miktarlardaki metinleri işlemek ve depolamak için genellikle daha verimli olan UTF-16 dönüşümünü tercih ederiz. ikisinin gerçekleştirilmesi çok basit ve işlem karmaşıklığı açısından çok ucuz.

Aslında, birçok kelime işlem kitaplığı sadece UTF-16 ile yazılır ve metinler ek düzlemlerin karakterlerini içerse bile UTF-32'den daha verimlidir (çünkü bu şekil vakası vakaların büyük çoğunluğunda nadirdir).

Bununla birlikte, UTF-32'ye dönüştürmenin, çoğu herhangi bir geçerli kod noktasını temsil etmeyebilecek 32 bit kod noktaları kullandığını unutmayın (geçerli kod noktalarını temsil eden iki aralığın dışındaki değerler U + 0000 - U + D7FF ve U + E000 ila U + 10FFFF), bu nedenle geçerli veya ayrılmış karakter yoktur (bu nedenle burada yer alan herhangi bir bilgi Unicode anlamında metin olamaz). UTF-32'nin standartlaştırılmış kodlama şemalarından birinde bu geçersiz kod değerlerini kullanan metinlerin herhangi bir Unicode uyumlu sistem için iletilmesi yasaktır (bunun yerine kod noktalarını özel kullanım için kullanmak gerekir), çünkü imkansız olacaktır. onları, üç standartlaştırılmış UTF'nin ikili olarak uyumlu olduğu başka bir UTF dönüşümünde temsil etmek.

Çin standardı GB 18030

Bu, Unicode Konsorsiyumu tarafından değil, uygulamalarda desteğinin zorunlu olduğu Çin'deki standartlar yönetimi tarafından tanımlanan bir Unicode dönüşümüdür. Tarihsel olarak bu, büyük bir koddan koda yazışma tablosunu tamamlayan bir algoritmik dönüşümle tüm UCS repertuarını desteklemek için genişletilen kodlanmış bir karakter setiydi.

Unicode yazı tipleri

Unicode'un karakterleri kodladığını iddia etmek, mantıksal kodlama ilkesine göre soyut sembollere bir sayı atadığını iddia etmekle aynı anlama gelir. Unicode ise karakterlerin, gliflerin grafik temsillerini kodlamaz . Bu nedenle , stilin tüm grafik varyasyonları birleştiğinden, karakterin temsili ve numarası arasında bir ayrım yoktur .

Ayrıca, klasik bir ASCII veya Latin-1 yazı tipinden farklı olarak , bir kod tarafından bir glifin seçimi benzersiz değildir ve genellikle bağlamsaldır ve aynı glifi farklı kodlar için de görüntüleyebilir. Bu nedenle, Fransızca "é" karakteri iki şekilde tanımlanabilir: ya doğrudan "é"ye karşılık gelen sayı kullanılarak ya da "e" sayısını, avlanmadan akut vurgununkiyle takip ederek. Hangi seçeneği seçerseniz seçin, aynı glif görüntülenecektir. İlk karakter için önceden oluşturulmuş olduğunu, ikinci karakter için bir kompozisyon olduğunu söyleyeceğiz (iki karakter, her ikisinden oluşan tek bir glif oluşturur). Buna izin verilir ve hatta şiddetle tavsiye edilir, çünkü farklı kodlama biçimleri Unicode tarafından "kanonik olarak eşdeğer" olarak sınıflandırılır, bu da iki eşdeğer kodlama biçiminin aynı şekilde ele alınması gerektiği anlamına gelir.

Bu durumda birçok bileşik karakter vardır ve bu iki yolla kodlanabilir (veya daha fazla, bazı bileşik karakterler, özellikle birkaç aksanları olduğunda, birden fazla şekilde ayrıştırılabilir). Çoğu zaman, eğer varsa, metnin kodlanması için önceden oluşturulmuş karakter tercih edilir ( örneğin, ayrıştırmada kodlanmış olan çok sesli Yunanca için durum budur , grafik olarak tatmin edici olmayabilir: yazı tipi karakterlerine bağlı olarak, farklı glif bileşenleri bazen kötü düzenlenmiş ve okunması zor). Ancak, tüm bileşik karakterlerin önceden oluşturulmuş biçimleri için benzersiz bir kod noktası yoktur.

Benzer şekilde, Devânagarî , Farsça veya Arapça gibi bazı yazı sistemleri, bitişik harflerin karmaşık bir şekilde işlenmesini gerektirir : grafikler , konumlarına veya komşularına bağlı olarak şekil değiştirir (bkz. Bağlamsal değişken ve Ortak harf ). Doğru glifin seçilmesi, tüm bağlamsal şekiller Unicode'da aynı şekilde kodlanmış olsa da, yazı tipinde hangi bağlamsal şeklin seçileceğini belirlemek için işleme gerektirir.

Bu nedenlerden dolayı, bir Unicode yazı tipi dikkatle ele alınmalıdır. Örneğin, mevcut tüm glifleri içeren bir yazı tipi yeterli değildir. Ayrıca görüntüleme sisteminin ( render motoru ) belirli dillere özgü bitişik harfleri , bağlamsal varyantları ve birleşik formları işleyebilecek mekanizmalara sahip olması da gereklidir . Tersine, karakterlerin yalnızca bir kısmını temsil eden ancak bunları doğru şekilde nasıl görüntüleyeceğini bilen bir yazı tipi, "Unicode yazı tipi" başlığını daha iyi hak eder. Son olarak, yazı tipi biçimlerinin belirli teknik kısıtlamaları, bunların tüm dizini desteklemesini engelleyebilir. Uygulamada (2009'da) tüm dizini destekleyen tek bir yazı tipi bulmak imkansızdır.

Bu nedenle bir Unicode karakter yazı tipi, Unicode tarafından yetkilendirilen tüm formlarda kodlanmış bir metni doğrudan görüntülemeyi mümkün kılan ve bir veya daha fazla komut dosyasını desteklemek için bir veya daha fazla dile uyarlanmış tutarlı bir alt kümeyi desteklemeyi mümkün kılan yalnızca bir yazı tipidir. Hiçbir Unicode yazı tipi kendi başına "çalışamaz" ve tam yazma desteği, eşdeğer kodlama formlarını algılayabilen, metinde bağlamsal formları araabilen ve Unicode ile kodlanmış bir yazı tipinin farklı gliflerini seçebilen bir oluşturma motorunda bunlar için destek gerektirir , gerekirse yazı tipinin kendisinde bulunan yazışma tablolarını kullanmak.

Teknik detaylar

Yazılım Kitaplıkları

Yoğun bakım çapraz platform yazılım kütüphanesi Eğer Unicode ile kodlanmış verileri işlemek için izin verir. Platforma özel Unicode desteği de modern sistemlerle ( Java , Microsoft Windows , GNU/Linux , standart C/C++ kitaplıkları , Python , vb.) entegre edilmiştir .

Unicode değişkenlerini depolamak için kullanılacak türler şunlardır:

Programlama Dillerinde Unicode ile Uyumlu Tipler

Programlama dili	Tek bir karakter için yazın	Herhangi bir metin için yazın
VS	char[4] Neresi wchar_t[2]	char[] Neresi wchar_t[]
C++	char[4] Neresi wchar_t[2]	char[]veya wchar_t[]veya std::stringveya veyastd::wstring
Java	char[2] Neresi int	char[] Neresi String
ICU kütüphanesi (C/C++ veya Java için)	UChar	UChar[]veya String,UnicodeString
JavaScript veya ECMAScript	char	string
C# veya J#	char	string
Delfi	char[4] Neresi widechar[2]	string Neresi widestring
piton 2		unicode
piton 3		str
Gitmek	rune(= int32)	string Neresi []byte
Süratli	Character	String

Notlar

UTF-8'de
Bununla birlikte, wchar_tC dil türünün her zaman tüm Unicode karakterlerinin kodlanmasına izin vermediğini unutmayın, çünkü bu dilin standardı bu standart tür için yeterli bir minimum sayı sağlamaz. Ancak, dilin birçok derleyicisi wchar_t, standartlaştırılmış Unicode kodunun herhangi bir noktasını depolamak için yeterli olan 32 bitte (hatta standart 64 bit tam sayıları işleyen ortamlarda 64 bit) tanımlar . Ancak diğer derleyici temsil wchar_tçünkü (gömülü ortamlar, genel işletim sistemine sahip değildir, özellikle de) da 8 bit yalnızca, (16 Windows altında, özellikle de veya 32 bit ortamı) 16 bit olarak wchar_ttürü aynı gösterimi kullanabilir charsahip en az 8 bit.
C ve C++'a benzer şekilde, Java dilinin 16 bit kodlamaya izin veren, ancak herhangi bir değerin tek bir kod noktasını kodlamaya izin vermeyen bir birim türü vardır (yerel tür charyalnızca 16 bitlik pozitif bir tam sayıdır) . Standartlaştırılmış karakterleri ön planın dışında değiştirmek için, her biri UTF-16 formu tarafından tanımlanan iki kod noktasına eşit bir değer içeren bir çift kod noktası kullanmanız gerekir. Ayrıca nesne türleri Stringveya char[2]bir Unicode karakterini temsil etmek için en uygun olanlardır. Java 1.4.1'den bu yana , standart kitaplık, yerel tür int(32 bit üzerinde tanımlanmış bir tamsayı olan) ve standart sınıfın statik yöntemleri Character(ancak bu türdeki bir örneklenmiş nesne Characterizin vermez ) sayesinde tam Unicode desteği sağlar. yerel tür char, herhangi bir kod noktasını saklamak için).
JavaScript'in çeşitli standartlaştırılmamış uygulamaları vardır, bazıları karakter başına en fazla 16 biti ve bazen de yalnızca 8 biti destekleyen bazı eski uygulamalara sahiptir. Bununla birlikte, bu dilin ECMAScript standardı Character, 32 bit üzerinde (aslında sınıfa dayalı olarak Number) bir yardımcı sınıf tanımlar; bu , standartlaştırılmış 17 planın tüm kod noktalarını desteklemesi gerekirken, karakter dizileri zorunlu olarak 16 bitte kodlanmış karakterleri kullanır (ancak UTF-16 kod birimlerinin eşleşmesini güçlendiren kısıtlama, tip ECMAScript dizeleri String, yalnızca UTF-16 kodlaması ile sınırlı olmayıp, (Java ve diğer yerel veri türlerinde UTF-16 uyumluluk kısıtlamalarını da zorlamayan diller). Bu iki dil, değişkenlerin açık bir şekilde yazılmasını desteklemez, tür, kendilerine atanan değerlerle dinamik olarak tanımlanır (ayrıca, çeşitli dahili temsiller mümkündür, farklılıkları normalde programcı için şeffaftır).

Bununla birlikte, ICU ve Java gibi kütüphaneler bunları destekleyebilmesine rağmen , Unicode, bazı yazılımlar tarafından düzenli ifadeler için hala zayıf destekten muzdariptir . Bu tür bir destek henüz ECMAScript için standartlaştırılmamıştır ve sadece diğer sistemlerle (özellikle CORBA , COM ile ) veya dillerle (özellikle C++ ve Java ) birlikte çalışabilirlik için dil veya arayüzler ile oluşturulan kütüphaneler yardımıyla sağlanmaktadır .

bölümleme

Güncel bölümleme resmi Unicode web sitesinde bulunabilir. Ancak Unicode'un günümüzdeki önemli rolü ( ISO / IEC 10646 ) göz önüne alındığında , burada ana karakter blokları açıklanacaktır. Fransızca adlar, Unicode ile aynı karakterleri kullanan uluslararası iki dilli standart olan ISO / IEC 10646'nın resmi adlarıdır . İngiliz isimleri kadar resmidirler.

Eski Unicode 1.0 standardı eskidir ve ISO / IEC 10646 ve Unicode 1.1 ve sonraki tüm sürümleriyle uyumlu değildir; asıl uyumsuzluk, Kore dili yazmak için kullanılan, konumu değişen ve eski kod noktaları o zamandan beri diğer bloklara atanan Hangul karakter bloklarının uyuşmazlığıdır. Aşağıdaki tablo ISO / IEC 10646 (tüm sürümler) ve Unicode 1.1 (veya üstü) ile uyumludur .

NB Blok adları durumu normatif değildir. Bu nedenle "Temel Latince", "TEMEL LATİN" ile eşdeğerdir.

Aşağıdaki tablolarda, resmi bir Unicode PDF ile ilgili not içeren herhangi bir blok adı, o blokla ilişkili Wikipedia sayfasının mevcut olmadığı veya yanlış olduğu anlamına gelir.

Temel çok dilli plan (PMB, 0000 - FFFF)

Kod noktaları		Resmi blok adı	Resmi PDF	Daha fazlasını bul
Başlangıç	Son	Resmi blok adı	Resmi PDF	Daha fazlasını bul
0000	007F	Temel C0 ve Latin komutları	U0000	bkz. ISO / IEC 646 , ASCII , Latin alfabesi , Unicode kontrol karakterleri
0080	00FF	C1 komutları ve Latin-1 eki	U0080	bkz. ISO/IEC 8859 , ISO/IEC 8859-1 , Latin alfabesi , Unicode kontrol karakterleri
0100	017F	Latince Genişletilmiş A	U0100	Latin alfabesine bakın
0180	024F	Latince Genişletilmiş B	U0180	Latin alfabesine bakın
0250	02AF	Uluslararası Fonetik Alfabe (API)	U0250	bkz. Uluslararası Fonetik Alfabe
02B0	02FF	Genişliğe sahip değişiklik harfleri	U02B0	bkz Aksan , Latin alfabesi , Latin alfabesinin Aksan , Uluslararası fonetik alfabe
0300	036F	aksan	U0300	bkz aksan , Latin alfabesinin fonetik işaretlerini , Yunan alfabesinin Aksan , Kıpti alfabesi , Kiril alfabesinin Aksan İşaretleri
0370	03FF	Yunan ve Kıpti	U0370	bkz Yunan Alfabesi ve Kıpti Alfabesi
0400	04FF	Kiril	U0400	bkz. Kiril alfabesi
0500	052F	Kiril eki	U0500	bkz. Kiril alfabesi
0530	058F	Ermeni	U0530	bkz Ermeni Alfabesi
0590	05FF	İbranice	U0590	bkz İbrani Alfabesi , Aksan , İbrani Alfabesi fonetik işaretlerini
0600	06FF	Arap	U0600	Arap alfabesine bakın
0700	074F	Süryanice	U0700	bkz. Süryanice
0750	077F	Arapça ek	U0750	Arap alfabesine bakın
0780	07BF	Thana	U0780	bkz. Maldiv Alfabesi
07C0	07FF	N'ko	U07C0	N'ko'yu görmek
0800	083F	Samiriyeli	U0800	bkz Samaritan Alfabesi
0840	085F	Mandean	U0840	bkz. Mandean Alfabesi
0860	086F	Süryanice ek	U0860	bkz. Süryanice
0870	089F	Rezerv	-	-
08A0	08FF	Genişletilmiş Arapça A	U08A0	bkz Arap alfabesi , Aksan , Arap alfabesinin diacritics
0900	097F	Devanagari	U0900	bkz. Devanagarî
0980	09FF	Bengalce	U0980	bkz. Bengali
0A00	0A7F	Gurmuhi	U0A00	bkz Gurmukhī
0A80	0AFF	Gucerat	U0A80	bkz Gujarati alfabesi
0B00	0B7F	Ortaca	U0B00	Ortaca görmek
0B80	0BFF	Tamilce	U0B80	Tamilce görmek
0C00	0C7F	Telougou	U0C00	Telougou'yu görmek
0C80	0CFF	kannara	U0C80	Kannara'yı görmek
0D00	0D7F	Malayalamca	U0D00	Malayalamca görmek
0D80	0DFF	Singhalese	U0D80	bkz Singhalese
0E00	0E7F	Tay	U0E00	Tayca görmek
0E80	0EFF	Lao	U0E80	Lao'yu görmek
0F00	0FFF	Tibetçe	U0F00	Tibetçe görmek
1000	109F	Burma	U1000	Birmanca görmek
10A0	10FF	Gürcü	U10A0	bkz Gürcü , Gürcü Alfabesi
1100	11FF	jamos hangul	U1100	Hangul'u görmek
1200	137F	Etiyopya	U1200	bkz. Alphasyllabaire geez
1380	139F	Etiyopya takviyesi	U1380	bkz. Alphasyllabaire geez
13A0	13FF	Cherokee	U13B0	bkz. Cherokee Müfredatı
1400	167F	Birleşik Kanada Yerli Heceleri	U1400	bkz Kızılderili dilleri
1680	169F	Ogam	U1680	bkz. Ogamik alfabe
16A0	16FF	rünler	U16A0	bkz Runik alfabe
1700	171F	Tagalog	U1700	Tagalog'a bakın
1720	173F	Hanuno	U1720	bkz. Hanunóo Alfabesi (tr)
1740	175F	Buhide	U1740	bkz. Buhid (tr)
1760	177F	Tagbanoua	U1760	bkz Alfabe Tagbanoua (tr)
1780	17FF	Kmer	U1780	Kmer görmek
1800	18AF	Moğolca	U1800	Moğolca görmek
18B0	18FF	Genişletilmiş Kanada Yerli Heceleri	U18B0	bkz Kızılderili dilleri
1900	194F	Limbu	U1900	Limbou görmek
1950	197F	Tai it	U1950	bkz. Taï-le
1980	19DF	Yeni Taï lü	U1980	Tai lü'ye bakın
19E0	19FF	Kmer sembolleri	U19E0	Kmer görmek
1A00	1A1F	Bougui	U1A00	bkz. Bugis Dili , Lontara Yazma
1A20	1AAF	Tay tam	U1A20	bkz Alfabe Taï Tham ( fr )
1AB0	1AFF	Genişletilmiş aksan	U1AB0	bkz. Aksan
1B00	1B7F	Bali dili	U1B00	Bali dili yazısını görmek
1B80	1BBF	Sounda dili	U1B80	bkz. Soundanese , Sudan Alfabesi (tr)
1BC0	1BFF	Batak	U1BC0	Batak senaryosuna bakın
1C00	1C4F	lepça	U1C00	bkz. Alfabe Lepch (tr)
1C50	1C7F	Ol chiki	U1C50	bkz Alfabe santâlî
1C80	1C8F	Genişletilmiş Kiril C	U1C80	bkz. Kiril alfabesi , Kilise Slavcası
1C90	1CBF	Genişletilmiş Gürcüce	U1C90	bkz Gürcü , Gürcü Alfabesi
1CC0	1CCF	Sunda eki	U1CC0	bkz. Soundanese , Sudan Alfabesi (tr)
1CD0	1CFF	Vedik uzantılar	U1CD0	Sanskritçe görmek
1D00	1D7F	fonetik ek	U1D00	bkz. Uluslararası Fonetik Alfabe
1D80	1DBF	Genişletilmiş fonetik ek	U1D80	bkz. Uluslararası Fonetik Alfabe
1DC0	1DFF	Aksan eki	U1DC0	bkz. Aksan
1E00	1EFF	Latince genişletilmiş ek	U1E00	Latin alfabesine bakın
1F00	1FFF	Genişletilmiş Yunanca	U1F00	bkz Yunan Alfabesi , Politonik Yunanca
2000	206F	Genel noktalama	U2000	bkz. Noktalama , Boşluk
2070	209F	Üsler ve indeksler	U2070	bkz. Üs ve Alt Simge
20A0	20CF	Para birimi sembolleri	U20A0	bkz. Para birimi simgesi
20D0	20FF	Semboller için kombinatoryal işaretler	U20D0	bkz. Ok , döndürme
2100	214F	Harf türü sembolleri	U2100	bkz. Sıcaklık , Matematiksel sembol , Ticari marka kanunu sembolleri
2150	218F	Sayısal formlar	U2150	bkz. Romen rakamı , Kesir
2190	21FF	Oklar	U2190	bkz. ok
2200	22FF	Matematik operatörleri	U2200	bkz. Matematiksel operatörler
2300	23FF	Çeşitli teknik işaretler	U2300	bkz. Yunan Alfabesi , Noktalama İşaretleri , Ok , Matematik Sembolleri , Emoji
2400	243F	Komut piktogramları	U2400	bkz. ISO / IEC 8859 , ISO / IEC 646 , Kontrol C0 (tr)
2440	245F	Optik karakter tanıma	U2430	bkz. Optik karakter tanıma
2460	24FF	Alfanümerik daire içine alınmış	U2460	bkz. Latin alfabesi , Arap rakamları
2500	257F	ağlar	U2500	bkz. Şekil çizim karakteri (tr)
2580	259F	Kaldırım taşları	U2580	bkz. Şekil çizim karakteri (içinde) , Dikdörtgen
25A0	25FF	Geometrik şekiller	U25A0	bkz. Geometrik şekil
2600	26FF	çeşitli semboller	U2600	bkz. Sembol , Emoji , Fransız kart oyunu , Satranç , Cinsiyet sembolü
2700	27BF	Casseau	U2700	bkz. Sembol , Arap rakamları , Noktalama işaretleri , Emoji , Matematik operatörleri , Ok
27C0	27EF	Çeşitli Matematiksel Semboller A	U27C0	bkz. Matematiksel sembol
27F0	27FF	Oklar ek A	U27F0	bkz. ok
2800	28FF	Braille kombinasyonları	U2800	bkz. Braille
2900	297F	Oklar ek B	U2900	bkz. ok
2980	29FF	Çeşitli matematiksel semboller B	U2980	bkz. Matematiksel sembol
2A00	2AFF	Ek matematiksel operatörler	U2A00	bkz. Matematiksel operatörler
2B00	2BFF	Çeşitli semboller ve oklar	U2B00	bkz. Ok , Emoji
2C00	2C5F	Glagotik	U2C00	bkz Glagolitik Alfabe
2C60	2C7F	Latince genişletilmiş C	U2C00	bkz. Latin Alfabesi , Uygurca
2C80	2CFF	Kıpti	U2C80	bkz Kıpti alfabesi
2D00	2D2F	Gürcüce ek	U2D00	bkz Gürcü , Gürcü Alfabesi
2D30	2D7F	Tifinag	U2D30	bkz. Tifinagh ve Berberi Dilleri
2D80	2DDF	Etiyopya genişletilmiş	U2D80	bkz. Alphasyllabaire geez
2DE0	2DFF	Genişletilmiş Kiril A	U2DE0	bkz Kiril Alfabesi , Aksan , Kiril Alfabesi diacritics
2E00	2E7F	noktalama eki	U2E00	bkz. noktalama işaretleri
2E80	2EFF	CJC anahtarlarının ek biçimleri	U2E80	bkz. Çince, Japonca ve Korece , Sinogramme , Çince yazı , Çince diller , kutsal metinler Japonca , Japonca , Hanja , Korece
2F00	2FDF	Çince Kangxi Anahtarları	U2F00	bkz. Kangxi Karakter Sözlüğü
2FE0	2FEF	Rezerv	-	-
2FF0	2FFF	İdeografik açıklama	U2FF0	bkz. İdeografik Açıklama
3000	303F	CJC Sembolleri ve Noktalama İşaretleri	U3000	bkz. Noktalama işaretleri , Çince, Japonca ve Korece , Sinogramme , Çince yazılar , Çince diller , kutsal metinler Japonca , Japonca , Hanja , Korece
3040	309F	Hiragana	U3040	bkz. Hiragana , Japonca Yazıları , Japonca
30A0	30FF	Katakana	U30A0	bkz Katakana , Japonca Yazıları , Japonca
3100	312F	bopomofo	U3100	bkz. Bopomofo , Çince, Japonca ve Korece , Sinogramme
3130	318F	Hangul uyumluluğu jamoları	U3130	bkz Hangûl , Sinogramme , Korece
3190	319F	kanbun	U3190	bkz. Kanbun , Sinogramme
31A0	31BF	Bopomofo uzatıldı	U31A0	bkz. Bopomofo , Sinogramme
31C0	31EF	CJC Özellikleri	U31C0	bkz. Çince, Japonca ve Korece , Sinogramme , Çince yazı , Çince diller , kutsal metinler Japonca , Japonca , Hanja , Korece
31F0	31FF	Katakana fonetik uzantısı	U31F0	bkz Katakana , Japonca Yazıları , Japonca
3200	32FF	Daire içine alınmış CJC Harfleri ve Ayları	U3200	bakınız Şekiller Arap , Çince , Japonca ve Korece , Sinogramme , Çince yazı , Çince diller , kutsal yazılar Japonca , Japonca , Hanja , Korece
3300	33FF	CJC uyumluluğu	U3000	bkz . Ölçü birimi , Çince, Japonca ve Korece , Sinogramme , Çince yazı , Çince diller , kutsal metinler Japonca , Japonca , Hanja , Korece
3400	4DBF	CJC Birleşik İdeogramlarına Ek A ( Kısım 1 ) ( Kısım 2 )	U3400	bkz. Çince, Japonca ve Korece , Sinogramme , Çince yazı , Çince diller , kutsal metinler Japonca , Japonca , Hanja , Korece
4DC0	4DFF	Mutasyonlar Klasiğinin Heksagramları veya Yi Jing	U4DC0	bkz Yi Jing , Heksagram , Çince, Japonca ve Korece , Sinogram
4E00	9FFF	CJC Birleşik İdeogramlar ( Bölüm 1 ) ( Bölüm 2 ) ( Bölüm 3 ) ( Bölüm 4 ) ( Bölüm 5 ) ( Bölüm 6 )	U4E00	bkz. Çince, Japonca ve Korece , Sinogramme , Çince yazı , Çince diller , kutsal metinler Japonca , Japonca , Hanja , Korece , Vietnamca
A000	A48F	Taze Dağların hece yi	UA000	bkz. hece yi
A490	A4CF	Yi tuşları	UA490	bkz. hece yi
A4D0	A4FF	lisu	UA4D0	bkz. Lisu , Alfabe Fraser (tr)
A500	A63F	vai	UA500	bkz. Syllabaire vaï
A640	A69F	Genişletilmiş Kiril B	UA640	bkz. Kiril alfabesi
A6A0	A6FF	Bamun	UA6A0	Bamoun senaryosuna bakın
A700	A71F	Ton harflerinin değiştirilmesi	UA700	bkz . Tonlarda Dil , Çince Diller
A720	A7FF	Latince Genişletilmiş D	UA720	bkz Latin Alfabesi
A800	A82F	Sylotî nâgrî	UA800	bkz. Sylotî nâgrî (tr)
A830	A83F	Hint ortak dijital şekiller	UA830	Hindistan'ı görmek
A840	A87F	phags-pa	UA840	phagpa komut dosyasına bakın
A880	A8DF	saurachtra	UA880	bkz Alfabe Saurashtra (tr)
A8E0	A8FF	Genişletilmiş devanāgarī	UA8E0	bkz. Devanagarî
A900	A92F	kaya li	UA900	bkz Alfabe Kayah Li
A930	A95F	rejang	UA930	bkz. rejang yazmak
A960	A97F	Jamos Hangul Genişletilmiş A	UA960	bkz Hangûl , Sinogramme , Korece
A980	A9DF	Cava	UA980	Cava komut dosyasına bakın
A9E0	A9FF	Birmanya uzatılmış B	UA9E0	bkz Birmanya , Birman alfabesi
AA00	AA5F	Çam	UAA00	Cham'ı görmek
AA60	AA7F	Birmanya uzatılmış A	UAA60	bkz Birmanya , Birman alfabesi
AA80	AADF	Tay viet	UAA80	bkz Alfabe taï viêt , Tay baraj , Tay don , Tay Song ( fr )
AAE0	AAFF	Meitei mayek uzatıldı	BAE0	bkz. Meitei , Meitei yazısı
AB00	AB2F	Etiyopya Genişletilmiş A	UAB00	bkz. Alphasyllabaire geez
AB30	AB6F	Latince Genişletilmiş E	UAB30	bkz Latin alfabesi , Teuthonista , Alfabe d'Ascoli , Alfabe Rousselot-Gilliéron
AB70	ABBF	Cherokee takviyesi	UAB70	bkz. Cherokee Müfredatı
ABC0	ABFF	meitei mayek	UABC0	bkz. Meitei , Meitei yazısı
AC00	D7AF	Hangul heceleri ( Bölüm 1 ) ( Bölüm 2 ) ( Bölüm 3 ) ( Bölüm 4 )	UAC00	bkz Hangûl , Sinogramme , Korece
D7B0	D7FF	Jamos Hangul Genişletilmiş B	U27B0	bkz Hangûl , Sinogramme , Korece
D800	DBFF	Yüksek dolaylı yarım bölge	UD800	bkz. Dolaylılığın üst yarım bölgesi
DC00	DFFF	Düşük dolaylı yarım bölge	UDC00	bkz. Düşük dolaylı yarım bölge
E000	F8FF	Özel kullanım alanı ( Bölüm 1 ) ( Bölüm 2 )	UE000	Resmi olarak tanımlanmış bir özellik yok
F900	FAFF	CJC Uyumluluk İdeogramları	UF900	bkz. Çince, Japonca ve Korece , Sinogramme , Çince yazı , Çince diller , kutsal metinler Japonca , Japonca , Hanja , Korece
FB00	FB4F	Alfabetik sunum formları	UFB00	bkz Latin alfabesi , Alfabe İbranice , Ermeni Alfabesi
FB50	FDFF	Arapça sunum formları A ( Bölüm 1 ) ( Bölüm 2 ) ( Bölüm 3 )	UFB50	Arap alfabesine bakın
FE00	FE0F	Varyant seçiciler	UFE00	bkz. Seçiciler varyantı (içinde)
FE10	FE1F	Dikey şekiller	UFE10	bkz. Noktalama İşareti , GB 18030
FE20	FE2F	Kombinatoryal yarım işaretler	UFE20	bkz. Aksan
FE30	FE4F	CJC Uyumluluk Formları	UFE30	bkz. Çince, Japonca ve Korece , Sinogramme , Çince yazı , Çince diller , kutsal metinler Japonca , Japonca , Hanja , Korece
FE50	FE6F	Şekilde küçük farklılıklar	UFE50	bkz. Noktalama İşaretleri , GBK , GB 2312 , CNS 11643 (tr)
FE70	FEFF	Arapça sunum formları B	UFE70	Arap alfabesine bakın
FF00	FFEF	Yarım ve tam genişlikte şekiller	UFF00	bkz yarım ve tam genişlikli şekilleri , Çince, Japonca ve Korece , Sinogramme , Çince yazma , Çin dilleri , kutsal Japonca , Japonca , Hanja'ya , Korece , ASCII , Latin alfabesinin
FFF0	FFFF	Özel karakterler	UFFF0	Özel karakterlere bakın

Tamamlayıcı çok dilli plan (PMC, 10.000 - 1FFFF)

Kod noktaları		Resmi blok adı	Resmi PDF	Daha fazlasını bul
Başlangıç	Son	Resmi blok adı	Resmi PDF	Daha fazlasını bul
10.000	1007F	Doğrusal hece B	U10000	bkz. Doğrusal B
10080	100FF	Doğrusal B ideogramları	U10080	bkz. Doğrusal B
10100	1013F	Ege numaraları	U10100	bkz. Numbers iEgean (tr)
10140	1018F	Antik Yunan Sayıları	U10140	bkz. Antik Yunan Sayıları
10190	101CF	Antik semboller	U10190	bkz. Birimler Roman , Roma para birimi
101D0	101FF	Phaistos Diski	U101D0	bkz. Phaistos Diski
10200	1027F	Rezerv	-	-
10280	1029F	Likya	U10280	Likya görmek
102A0	102DF	Karien	U102A0	bkz. Karya Alfabesi
102E0	102FF	Kıpti epact numaraları	U102E0	bkz. Kıpti
10300	1032F	italik alfabe	U10300	bkz Eski İtalik Alfabe
10330	1034F	Gotik	U10330	gotik görmek
10350	1037F	eski permiyen	U10350	bkz Eski Permiyen alfabesi
10380	1039F	Ugarit	U10380	bkz. Ugarit alfabesi
103A0	103FF	eski farsça	U103A0	bkz Eski Farsça
10400	1044F	çöl	U10400	bkz Alfabe çölü
10450	1047F	traşlı	U10450	bkz. Shavian alfabesi
10480	104AF	Osmaniye	U10480	bkz. Osmanya Alfabesi
104B0	104FF	Osage	U104B0	bkz. Osage
10500	1052F	Elbasan	U10500	Elbasan yazısına bakın
10530	1056F	Agbanian	U10530	bkz. Agban alfabesi
10570	105FF	Rezerv	-	-
10600	1077F	Doğrusal A	U10600	bkz. Doğrusal A
10780	107FF	Rezerv	-	-
10800	1083F	Kıbrıslı hece	U10800	bkz Kıbrıs hece
10840	1085F	İmparatorluk Aramice	U10840	bkz Aramice Alfabesi
10860	1087F	Palmira alfabesi	U10860	bkz Palmyrenian Alfabesi
10880	108AF	Nebati	U10880	bkz Nebati alfabesi
108B0	108DF	Rezerv	-	-
108E0	108FF	Hatrenian	U108E0	bkz Hatrénien Alfabesi ( fr )
10900	1091F	Fenike	U10900	bkz Fenike alfabesi
10920	1093F	Lidya	U10920	bkz. Lidya Alfabesi
10940	1097F	Rezerv	-	-
10980	1099F	Meroitik hiyeroglifler	U10980	bkz Meroitik komut dosyası
109A0	109FF	Meroitik El Yazısı	U109A0	bkz Meroitik komut dosyası
10A00	10A5F	Kharochthî	U10A00	bkz Alfabe kharoshthi
10A60	10A7F	Güney arapça	U10A60	bkz Güney Arap Alfabesi
10A80	10A9F	kuzey arapça	U10A80	bkz Eski Arap kuzeyi (tr)
10AA0	10ABF	Rezerv	-	-
10AC0	10AFF	Maniheist	U10AC0	bkz. Maniheist Alfabesi (tr)
10B00	10B3F	avest	U10B00	bkz. Avestic Alfabesi (tr)
10B40	10B5F	Part yazıtları	U10B40	Part yazıtlarına bakın (tr)
10B60	10B7F	Pehlevi yazıtları	U10B60	pehlevi yazısına bakın
10B80	10BAF	Zebur Pehlevi	U10B80	Pehlevi kutsal kitabına bakın , Zebur
10BB0	10BFF	Rezerv	-	-
10C00	10C4F	Orhun	U10C00	bkz. Orhon Alfabesi
10C50	10C7F	Rezerv	-	-
10C80	10CFF	eski macarca	U10C80	bkz Macar Runes
10D00	10E5F	Rezerv	-	-
10E60	10E7F	Rumi dijital semboller	U10E60	bkz . Fes , Fez Figürleri
10E80	10FDF	Rezerv	-	-
10FE0	10FFF	Elymaic	U10FE0	bkz. Élymaïque (tr)
11000	1107F	Brahman	U11000	Brahmi'yi görmek
11080	110CF	Khaithi	U11080	bkz Khaithi
110D0	110FF	sora someng	U110D0	bkz. Alfabe sora sompeng (tr)
11100	1114F	çakma	U11100	bkz. Ojhapath
11150	1117F	Mahajanî	U11150	bkz. Mahâjanî (in)
11180	111DF	Çarada	U11180	bkz. alfasyllabary sharda
111E0	111FF	Singhalese arkaik sayılar	U111E0	bkz Singhalese
11200	1124F	Khojki	U11200	bkz. Khojki (tr)
11250	1127F	Rezerv	-	-
11280	112AF	çok dilli	U11280	bkz. Multani Alfabesi (tr)
112B0	112FF	Hudabadi	U112B0	bkz. Khudabadi Yazma (tr)
11300	1137F	Grantha	U11300	Grantha'yı görmek
11380	113FF	Rezerv	-	-
11400	1147F	Newa	U11400	bkz. Alfabe Newa (tr)
11480	114DF	Tirhuta	U11480	bkz. Tirhuta
114E0	1157F	Rezerv	-	-
11580	115FF	Siddham	U11580	bkz. alfasyllabary siddham
11600	1165F	mod	U11600	bkz. Modi Alfa hecesi
11660	1167F	Moğol ek	U11660	Moğolca görmek
11680	116CF	takri	U11680	bkz Alfabe Takri (tr)
116D0	116FF	Rezerv	-	-
11700	1173F	Ahom	U11700	bkz. Alphasyllabaire âhom
11740	1189F	Rezerv	-	-
118A0	118FF	Warang şehri	U118A0	bkz. Warang Citi (tr)
11900	11999	Rezerv	-	-
119A0	119FF	nandinâgarî	U119A0	bkz. Nandinagari (tr)
11A00	11A4F	İkinci Dereceden Zanabazar	U11A00	bkz Zanabazar , Moğol
11A50	11AAF	soyombo	U11A50	soyombo komut dosyasına bakın
11AB0	11ABF	Rezerv	-	-
11AC0	11AFF	Paou chin haou	U11AC0	bkz. Yazma Paou chin haou (tr)
11B00	11BFF	Rezerv	-	-
11C00	11C6F	Bhaiksuki	U11C00	bkz. Alfabe Bhaiksuki (tr)
11C70	11CBF	Marchen	U11C70	bakınız Zhang-Zhung
11CC0	11CFF	Rezerv	-	-
11D00	11D5F	masaram gondi	U11D00	bkz. Masaram Gondi (tr) , Gondi
11D60	11FBF	Rezerv	-	-
11FC0	11FFF	Tamilce ek	U11FC0	Tamilce görmek
12000	123FF	çivi yazısı	U12000	bkz. çivi yazısı
12400	1247F	Noktalama işaretleri ve çivi yazısı numaraları	U12400	bkz. çivi yazısı
12480	1254F	Arkaik hanedanların çivi yazısı	U12480	bkz. çivi yazısı
12550	12FFF	Rezerv	-	-
13000	1342F	Mısır hiyeroglifleri	U13000	bkz Mısır hiyeroglif komut
13430	1343F	Mısır hiyeroglif biçimlendirme kontrolleri	U13430	bkz Mısır hiyeroglif komut
13440	143FF	Ayrılmış (Bölüm 1) (Bölüm 2)	-	-
14400	1467F	Anadolu hiyeroglifleri	U14400	bkz. Anadolu Hiyeroglifleri
14680	167FF	Ayrılmış (Bölüm 1) (Bölüm 2) (Bölüm 3)	-	-
16800	16A3F	Bamoun takviyesi	U16800	Bamoun senaryosuna bakın
16A40	16A6F	Bay	U16A40	bkz. Language Mr (tr)
16A70	16ACF	Rezerv	-	-
16AD0	16AFF	bas	U16AD0	bkz Alfabe basa
16B00	16B8F	pahawh hmong	U16B00	bkz. Pahawh hmong
16B90	16EFF	Rezerv	-	-
16F00	16F9F	Miao	U16F00	bkz. Yazma Miao (tr)
16FA0	16FDF	Rezerv	-	-
16FE0	16FFF	İdeografik semboller ve noktalama işaretleri	U16FE0	bkz. İdeogram , Tangut yazısı , Nüshu
17000	187FF	Tangoute (Bölüm 1) (Bölüm 2)	U17000	bkz. Tangoute yazımı
18800	18AFF	Tangut bileşenleri	U18800	bkz. Tangoute yazımı
18B00	1AFFF	Ayrılmış (Bölüm 1) (Bölüm 2) (Bölüm 3)	-	-
1B000	1B0FF	Kana takviyesi	U1B00	bkz. Japonca , Japonca Yazılar , Kana
1B100	1B12F	Genişletilmiş Kana A	U1B100	bkz. Japonca , Japonca Yazılar , Kana , Hentaigana
1B130	1B16F	Uzantı küçük kana	U1B130	bkz. Japonca , Japonca Yazılar , Kana , Hentaigana
1B170	1B2FF	Nüshu	U1B170	bkz Nüshu
1B300	1BBFF	Rezerv	-	-
1BC00	1BC9F	yinelenen steno	U1BC00	bkz Stenografi , Émile Duployé
1BCA0	1CFFF	Ayrılmış (Bölüm 1) (Bölüm 2)	-	-
1D000	1D0FF	Bizans müzik sembolleri	U1D000	bkz Bizans Müziği
1D100	1D1FF	Batı müzik sembolleri	U1D100	Batı müziğine bakın
1D200	1D24F	Antik Yunan müzik notası	U1D200	bkz. Antik Yunan Müziği
1D250	1D2FF	Rezerv	-	-
1D300	1D35F	Yüce Gizem Klasik Semboller	U1D300	bkz. Tai Xuan Jing (tr)
1D360	1D37F	Çin çubuk figürleri	U1D360	bkz. Çubuk sayımı
1D380	1D3FF	Rezerv	-	-
1D400	1D7FF	Alfanümerik matematiksel semboller	U1D400	bkz. Matematiksel sembol , Latin alfabesi , Arap rakamları
1D800	1DAAF	Sutton'ın İşaretlerini Yazmak	U1D800	bkz. Yazı işaretleri
1DAB0	1DFFF	Rezerv	-	-
1E000	1E02F	Glagolitik ek	U1E000	bkz Glagolitik Alfabe
1E030	1E0FF	Rezerv	-	-
1E100	1E14F	Nyiakeng puachue hmong	U1E800	bkz. Nyiakeng puachue hmong (tr)
1E150	1E2DF	Rezerv	-	-
1E2C0	1E2FF	Wancho	U1E2C0	Wancho'yu görmek
1E300	1E7FF	Rezerv	-	-
1E800	1E8DF	kikakui yalvarıyor	U1E800	Kikakui'yi görmek
1E8E0	1E8FF	Rezerv	-	-
1E900	1E95F	Adlam	U1E900	bkz Alfabe adlam
1E960	1ECFF	Rezerv	-	-
1ED00	1ED4F	Syaq rakamları	U1ED00
1ED50	1ECFF	Rezerv	-	-
1EE00	1EEFF	Arap matematiksel alfabe sembolleri	U1EE00	bkz. Arapça Matematik
1EF00	1EFFF	Rezerv	-	-
1F000	1F02F	Mahjong parçaları	U1F000	Mah-jong'u görmek
1F030	1F09F	Domino	U1F030	Dominos'u görmek
1F0A0	1F0FF	Oyun kağıtları	U1F0A0	bkz. iskambil kartları
1F100	1F1FF	Daire içine alınmış alfasayısal ek	U1F100	bkz ARIB STD-B24 (tr)
1F200	1F2FF	Daire içine alınmış ideografik ek	U1F200	bkz ARIB STD-B24 (tr)
1F300	1F5FF	Çeşitli semboller ve piktogramlar	U1F300	bkz. Piktogram , Emoji
1F600	1F64F	ifadeler	U1F600	bkz. İfade , Emoji
1F650	1F67F	süs kaseti	U1F650	bkz. Wingdings
1F680	1F6FF	Taşıma ve kartografik semboller	U1F680	bkz. Ulaşım , Haritacılık , Emoji
1F700	1F77F	simya sembolleri	U1F700	bkz. simya
1F780	1F7FF	Genişletilmiş geometrik şekiller	U1F780	bkz. Geometrik şekil
1F800	1F8FF	Oklar ek C	U1F800	bkz. ok
1F900	1F9FF	Ek semboller ve piktogramlar	U1F900	bkz. Piktogram , İfade , Emoji
1FA00	1FA6F	Rezerv	-	-
1FA70	1FAFF	Genişletilmiş semboller ve piktogramlar-A	U1FA70	bkz. Piktogram , Emoji
1FB00	1FFFF	Rezerv	-	-

Tamamlayıcı ideografik plan (PIC, 20000 - 2FFFF)

Kod noktaları		Resmi blok adı	Daha fazlasını bul
Başlangıç	Son	Resmi blok adı	Daha fazlasını bul
20.000	2A6DF	CJC Birleşik İdeogramlar Ek B ( Bölüm 1 ) ( Bölüm 2 ) ( Bölüm 3 ) ( Bölüm 4 ) ( Bölüm 5 ) ( Bölüm 6 ) ( Bölüm 7 ) ( Bölüm 8 ) ( Bölüm 9 ) ( Bölüm 10 ) ( Bölüm 11 )	bkz. Çince, Japonca ve Korece
2A6E0	2A6FF	Rezerv	-
2A700	2B73F	CJC Birleşik İdeogramlarına C Eki ( Kısım 1 ) ( Kısım 2 )	bkz. Çince, Japonca ve Korece
2B740	2B81F	Birleşik CJC ideogramlarına D eki	bkz. Çince, Japonca ve Korece
2B820	2CEAF	Birleşik CJC ideogramlarına Ek E	bkz. Çince, Japonca ve Korece
2CEB0	2EBEF	Birleşik CJC ideogramlarına ek F	bkz. Çince, Japonca ve Korece
2EBF0	2F7FF	Rezerv	-
2F800	2FA1F	CJC Uyumluluk İdeogramları Eki	bkz. Çince, Japonca ve Korece
2FA20	2FFFF	Rezerv	-

Ayrılmış tamamlayıcı planlar (30.000 - DFFFF)

Kod noktaları		Resmi blok adı	Daha fazlasını bul
Başlangıç	Son	Resmi blok adı	Daha fazlasını bul
30.000	3FFFF	Ayrılmıştır ( Bölüm 1 ) ( Bölüm 2 ) ( Bölüm 3 ) ( Bölüm 4 ) ( Bölüm 5 ) ( Bölüm 6 ) ( Bölüm 7 ) ( Bölüm 8 ) ( Bölüm 9 ) ( Bölüm 10 ) ( Bölüm 11 ) ( Bölüm 12 ) ( Bölüm 13 ) ( Bölüm 14 ) ( Bölüm 15 ) ( Bölüm 16 ) ( Bölüm 17 )	Plan 3
40.000	4FFFF	Ayrılmıştır ( Bölüm 1 ) ( Bölüm 2 ) ( Bölüm 3 ) ( Bölüm 4 ) ( Bölüm 5 ) ( Bölüm 6 ) ( Bölüm 7 ) ( Bölüm 8 ) ( Bölüm 9 ) ( Bölüm 10 ) ( Bölüm 11 ) ( Bölüm 12 ) ( Bölüm 13 ) ( Bölüm 14 ) ( Bölüm 15 ) ( Bölüm 16 ) ( Bölüm 17 )	4. Plan
50.000	5FFFF	Ayrılmıştır ( Bölüm 1 ) ( Bölüm 2 ) ( Bölüm 3 ) ( Bölüm 4 ) ( Bölüm 5 ) ( Bölüm 6 ) ( Bölüm 7 ) ( Bölüm 8 ) ( Bölüm 9 ) ( Bölüm 10 ) ( Bölüm 11 ) ( Bölüm 12 ) ( Bölüm 13 ) ( Bölüm 14 ) ( Bölüm 15 ) ( Bölüm 16 ) ( Bölüm 17 )	Plan 5
60.000	6FFFF	Ayrılmıştır ( Bölüm 1 ) ( Bölüm 2 ) ( Bölüm 3 ) ( Bölüm 4 ) ( Bölüm 5 ) ( Bölüm 6 ) ( Bölüm 7 ) ( Bölüm 8 ) ( Bölüm 9 ) ( Bölüm 10 ) ( Bölüm 11 ) ( Bölüm 12 ) ( Bölüm 13 ) ( Bölüm 14 ) ( Bölüm 15 ) ( Bölüm 16 ) ( Bölüm 17 )	Plan 6
70.000	7FFFF	Ayrılmıştır ( Bölüm 1 ) ( Bölüm 2 ) ( Bölüm 3 ) ( Bölüm 4 ) ( Bölüm 5 ) ( Bölüm 6 ) ( Bölüm 7 ) ( Bölüm 8 ) ( Bölüm 9 ) ( Bölüm 10 ) ( Bölüm 11 ) ( Bölüm 12 ) ( Bölüm 13 ) ( Bölüm 14 ) ( Bölüm 15 ) ( Bölüm 16 ) ( Bölüm 17 )	Plan 7
80.000	8FFFF	Ayrılmıştır ( Bölüm 1 ) ( Bölüm 2 ) ( Bölüm 3 ) ( Bölüm 4 ) ( Bölüm 5 ) ( Bölüm 6 ) ( Bölüm 7 ) ( Bölüm 8 ) ( Bölüm 9 ) ( Bölüm 10 ) ( Bölüm 11 ) ( Bölüm 12 ) ( Bölüm 13 ) ( Bölüm 14 ) ( Bölüm 15 ) ( Bölüm 16 ) ( Bölüm 17 )	Plan 8
90.000	9FFFF	Ayrılmıştır ( Bölüm 1 ) ( Bölüm 2 ) ( Bölüm 3 ) ( Bölüm 4 ) ( Bölüm 5 ) ( Bölüm 6 ) ( Bölüm 7 ) ( Bölüm 8 ) ( Bölüm 9 ) ( Bölüm 10 ) ( Bölüm 11 ) ( Bölüm 12 ) ( Bölüm 13 ) ( Bölüm 14 ) ( Bölüm 15 ) ( Bölüm 16 ) ( Bölüm 17 )	Plan 9
A0000	AFFFF	Ayrılmıştır ( Bölüm 1 ) ( Bölüm 2 ) ( Bölüm 3 ) ( Bölüm 4 ) ( Bölüm 5 ) ( Bölüm 6 ) ( Bölüm 7 ) ( Bölüm 8 ) ( Bölüm 9 ) ( Bölüm 10 ) ( Bölüm 11 ) ( Bölüm 12 ) ( Bölüm 13 ) ( Bölüm 14 ) ( Bölüm 15 ) ( Bölüm 16 ) ( Bölüm 17 )	Plan 10
B0000	en iyi	Ayrılmıştır ( Bölüm 1 ) ( Bölüm 2 ) ( Bölüm 3 ) ( Bölüm 4 ) ( Bölüm 5 ) ( Bölüm 6 ) ( Bölüm 7 ) ( Bölüm 8 ) ( Bölüm 9 ) ( Bölüm 10 ) ( Bölüm 11 ) ( Bölüm 12 ) ( Bölüm 13 ) ( Bölüm 14 ) ( Bölüm 15 ) ( Bölüm 16 ) ( Bölüm 17 )	Plan 11
C0000	CFFFF	Ayrılmıştır ( Bölüm 1 ) ( Bölüm 2 ) ( Bölüm 3 ) ( Bölüm 4 ) ( Bölüm 5 ) ( Bölüm 6 ) ( Bölüm 7 ) ( Bölüm 8 ) ( Bölüm 9 ) ( Bölüm 10 ) ( Bölüm 11 ) ( Bölüm 12 ) ( Bölüm 13 ) ( Bölüm 14 ) ( Bölüm 15 ) ( Bölüm 16 ) ( Bölüm 17 )	Plan 12
D0000	DFFFF	Ayrılmıştır ( Bölüm 1 ) ( Bölüm 2 ) ( Bölüm 3 ) ( Bölüm 4 ) ( Bölüm 5 ) ( Bölüm 6 ) ( Bölüm 7 ) ( Bölüm 8 ) ( Bölüm 9 ) ( Bölüm 10 ) ( Bölüm 11 ) ( Bölüm 12 ) ( Bölüm 13 ) ( Bölüm 14 ) ( Bölüm 15 ) ( Bölüm 16 ) ( Bölüm 17 )	Plan 13

Özel tamamlayıcı plan (PCS, E0000 - EFFFF)

Kod noktaları		Resmi blok adı	Yorumlar
Başlangıç	Son	Resmi blok adı	Yorumlar
E0000	E007F	Etiketler
E0080	E00FF	Rezerv	-
E0100	E01EF	Varyant seçiciler eki
E01F0	EFFFF	Ayrılmıştır ( Bölüm 1 ) ( Bölüm 2 ) ( Bölüm 3 ) ( Bölüm 4 ) ( Bölüm 5 ) ( Bölüm 6 ) ( Bölüm 7 ) ( Bölüm 8 ) ( Bölüm 9 ) ( Bölüm 10 ) ( Bölüm 11 ) ( Bölüm 12 ) ( Bölüm 13 ) ( Bölüm 14 ) ( Bölüm 15 ) ( Bölüm 16 ) ( Bölüm 17 )	-

Özel kullanım için ek planlar (F0000 - 10FFFF)

Kod noktaları		Resmi blok adı	Resmi PDF	Yorumlar
Başlangıç	Son	Resmi blok adı	Resmi PDF	Yorumlar
F0000	FFFF	Özel kullanım için Ek Bölge A ( Bölüm 1 ) ( Bölüm 2 ) ( Bölüm 3 ) ( Bölüm 4 ) ( Bölüm 5 ) ( Bölüm 6 ) ( Bölüm 7 ) ( Bölüm 8 ) ( Bölüm 9 ) ( Bölüm 10 ) ( Bölüm 11 ) ( Bölüm 12 ) ( Bölüm 13 ) ( Bölüm 14 ) ( Bölüm 15 ) ( Bölüm 16 ) ( Bölüm 17 )	UF0000	Resmi olarak tanımlanmış bir özellik yok
100.000	10FFFF	Özel kullanım için Ek Bölge B ( Bölüm 1 ) ( Bölüm 2 ) ( Bölüm 3 ) ( Bölüm 4 ) ( Bölüm 5 ) ( Bölüm 6 ) ( Bölüm 7 ) ( Bölüm 8 ) ( Bölüm 9 ) ( Bölüm 10 ) ( Bölüm 11 ) ( Bölüm 12 ) ( Bölüm 13 ) ( Bölüm 14 ) ( Bölüm 15 ) ( Bölüm 16 ) ( Bölüm 17 )	U100000	Resmi olarak tanımlanmış bir özellik yok

Özel kullanım alanları , bir fonttan diğerine aynı gözleri içermez ve bu nedenle heterojen sistemler arasında alışverişe yönelik metinleri kodlamaktan kaçınılmalıdır. Ancak, bu özel kullanım kodu noktaları geçerlidir ve kullanımlarıyla ilgili özel bir karşılıklı anlaşma varsa farklı sistemler arasında da dahil olmak üzere Unicode ve ISO/IEC 10646 standartlarına uygun herhangi bir otomatik işlemede kullanılabilir.

İki taraf arasında bir anlaşma olmaması durumunda, bu karakterleri kullanan sistemler, tabi oldukları işleme düzgün çalışmadığından veya güvenlik sorunlarına neden olduğundan, bunları içeren metinleri reddedebilir; bu karakterlere özel bir işlev atfetmeyen diğer sistemler ise onları geçerli olarak kabul etmeli ve nasıl gösterileceğini bilmeseler bile grafik sembollermiş gibi metinlerin ayrılmaz bir parçası olarak tutmalıdır. onları doğru.

Karakter olmayanlar geçerli kod noktalarıdır, ancak standart karakterlere atanmazlar (ve asla atanmayacaklardır). Sistemler arasında iletilen metinlerin (aynı olsalar bile) kodlanmasında kullanımları yasaktır, çünkü bunları standartlaştırılmış evrensel dönüşüm biçimleriyle (UTF-8, UTF-16, UTF-32) karşılık gelen kodlamayla uyumlu hale getirmek imkansızdır ve Unicode ve ISO / IEC 10646 ile uyumlu diğer standartlaştırılmış kodlamalar ( BOCU -1, SCSU , Çin standardı GB 18030'un farklı sürümleri , vb. ). Bununla birlikte, bazı sistemler bunları yerel olarak oluşturur ve kullanır, ancak diğer standartlaştırılmış karakterleri kullanarak kelime işlem algoritmalarının uygulanmasını kolaylaştırmayı amaçlayan kesinlikle dahili işleme için.

Bu sonuncu karakter olmayanlar arasında, yarım bölgeler (özel veya değil) için ayrılmış geçerli kod noktaları bulunur. Bu kod noktaları, bir karakteri kodlamak için ayrı ayrı kullanılamaz. Bunlar, yalnızca UTF-16 evrensel dönüşüm formu (ve karşılık gelen kodlama şemaları) için, iki kod noktasında (her biri 16 bitte) 16 tamamlayıcı düzlemden birinde geçerli kod noktalarını temsil etmek için kullanılırlar (belirli kod noktası kombinasyonları, geçerli karakterlere karşılık gelir). bu planlar, standart veya özel, diğer kombinasyonlar, bu tamamlayıcı planların karakter olmayanlarına tekabül edecekleri için geçerli bir karakteri temsil etmeyebilir ve bu nedenle standarda uygun metinlerde yasaklanmıştır).

Diğer boş alanlar (standartlaştırılmış bir adlandırılmış bloğa atanmamış veya mevcut adlandırılmış bloklarda serbest bırakılmış ve ayrılmış kod noktaları), gelecekteki Unicode ve ISO/IEC 10646 sürümlerinde kullanılmak üzere ayrılmıştır , ancak geçerlidir. Bu ayrılmış kod noktalarını içeren metinlerle ilgilenen herhangi bir sistem, bunları filtrelemeden kabul etmelidir. Unicode, sistemlerin uyumluluğunu (Unicode standardına uygun) korumak için varsayımsal karşılık gelen karakterler için varsayılan özellikleri tanımlar ve bunları içeren gelecekteki uyumlu metinlerle. Hiçbir uygun uygulama onlara özel bir karakter veya anlam atamamalıdır (özel alanlar bu kullanım içindir).

Notlar ve referanslar

(in) " Unicode® Standard açıklayan Versiyon 12.0 " üzerinde Unicode Blog ,5 Mart 2019
(tr) [1] .
(in) " Web siteleri için Karakter Kodlamalarının Kullanım İstatistikleri, Ocak 2017 " üzerine w3techs.com (erişilen 2017 6 Ocak ) .
nextinpact.com'da " Unicode 7.0 , orta parmak dahil 250 emoji ekler " ,16 Haziran 2014( 20 Ocak 2016'da erişildi ) .
(in) " Unicode 8 : Ne, Ve ne zaman " üzerinde emojipedia.org ,17 Haziran 2015( 20 Ocak 2016'da erişildi ) .
(in) " Unicode® 9.0.0 " üzerine http://unicode.org/ (erişilen 2018 23 Nisan ) .
(in) " Unicode® 10.0.0 " üzerine http://unicode.org/ (erişilen 2018 23 Nisan ) .
(in) " Unicode® 11.0.0 " üzerine http://unicode.org/ (erişilen 2018 23 Nisan ) .
(in) " Unicode® 12.0.0 " üzerine http://unicode.org/ (erişilen Mart 2019 6 ) .
Inc Unicode , " Unicode® Standardını Duyuruyor, Sürüm 13.0 " ( 26 Mayıs 2020'de erişildi )
(in) Unicode Teknik Rapor # 17: Unicode Karakter Kodlama Modeli .
(in) " UTF-8, bir transformasyon formatları ISO 10646 ," Yorumlar için talep n o 3629,kasım 2003.
(içinde) Unicode Standardı, Sürüm 5.0 , Bölüm 16 : Özel Alanlar ve Karakterleri Biçimlendir [PDF] - Unicode, Inc., s. 354 .
UTF-8 dizileri mümkün olduğunca kısa olmalıdır. Bu kısıtlama, "/../" gibi belirli güvenlik açıklarından kaçınmak için kontrol edilmelidir - UTF-8 makalesinin "Dezavantajlar" bölümündeki ayrıntılara bakın .
(in) " Apache Xalan 2.7.0'daki kod vekil çiftlerde başarısız olabilir miyiz " , Apache Foundation .
http://unicode.org/charts/PDF/U2B820.pdf
http://unicode.org/charts/PDF/U2CEB0.pdf
http://unicode.org/charts/PDF/U2EBF0.pdf
http://unicode.org/charts/PDF/U30000.pdf
http://unicode.org/charts/PDF/U40000.pdf
http://unicode.org/charts/PDF/U50000.pdf
http://unicode.org/charts/PDF/U60000.pdf
http://unicode.org/charts/PDF/U70000.pdf
http://unicode.org/charts/PDF/U80000.pdf
http://unicode.org/charts/PDF/U90000.pdf
http://unicode.org/charts/PDF/UA0000.pdf
http://unicode.org/charts/PDF/UB0000.pdf
http://unicode.org/charts/PDF/UC0000.pdf
http://unicode.org/charts/PDF/UD0000.pdf
http://unicode.org/charts/PDF/UE0080.pdf
http://unicode.org/charts/PDF/UE01F0.pdf

Şuna da bakın:

İlgili Makaleler

Unicode karakter tablosu
Sinografik karakterlerin birleştirilmesi (Unihan)
Önceden oluşturulmuş Latin Unicode karakterlerinin listesi
Unicode karakterlerin çoğaltılması
Unicode'da APL / APL2 karakterleri
Stringprep
Ücretsiz unicode yazı tipleri

Dış bağlantılar

Normatif referanslar

(tr) Unicode Konsorsiyumunun ana sayfası .
- (tr) Unicode Standardı - Unicode Standardının en son yayınlanan sürümüne kalıcı bağlantı.
- (tr) UAX # 41: UAX'ler için Ortak Referanslar - Unicode standardında kullanılan resmi referans listesi.
- (tr) Unicode Teknik Raporları - standartlaştırılmış ekler, teknik standartlar ve teknik raporlar (bazıları Unicode'un eski sürümleri içindir).
- (tr) “ Eşdeğerliklerle açıklamalı Unicode karakter tabloları ” ( Arşiv • Wikiwix • Archive.is • Google • Ne yapmalı? ) - PDF belgelerinin toplanması.
- (tr) UTS # 10: Unicode Harmanlama Algoritması (UCA) - Unicode standartlaştırılmış zamanlama algoritması (sıralama, tanıma veya metin arama için).
(tr) RFC 3629 : UTF-8, ISO 10646'nın bir dönüştürme formatı - standart (kasım 2003); RFC 2279'un (eski) yerini alır .

bilgilendirici referanslar

(fr) ISO/IEC 10646 ve Unicode standartlarının resmi Fransızca çevirisi .
(fr) Unicode 5.0 pratikte Dunod tarafından yayınlanan Patrick Andries tarafından, (Nisan 2008) - Kaynak kitap.
(tr) RFC 1641 : Unicode'u MIME ile kullanma - deneysel (Temmuz 1994)
(tr) RFC 2152 : UTF-7, Unicode'un Posta Güvenli Dönüşüm Formatı - deneysel (Mayıs 1997); RFC 1642'nin yerini alır (eski)
(tr) RFC 2482 : Unicode Düz Metinde Dil Etiketleme - bilgilendirici (Ocak 1999)
(tr) RFC 3718 : Unicode Konsorsiyum Prosedürlerinin, Politikalarının, Kararlılığının ve Kamu Erişiminin Özeti - bilgilendirici (Şubat 2004)
(tr) RFC 5891 : Uygulamalarda Uluslararası Alan Adları (IDNA): Protokol - önerilen standart; RFC 3490 ve RFC 3491'in (eski) yerini alır , RFC 3492 Punycode'u günceller
(içinde) Unicode - Film Unicode 6.0'ın 109.242 karakterinin tümü tek bir filmde

Tablolar ve veriler

(tr) Unicode Yazı Tipleri Galerisi : 1.239 yazı tipi envanteri (ağustos 2007) ve anladıkları karakterler.
(tr) HTML, Yazı Tipleri, Web Tarayıcıları ve Diğer Uygulamalarda Unicode ve Çok Dilli Destek , Alan Wood'un farklı Unicode bloklarını listeleyen test sayfaları, tavsiyeler ve kaynaklara bağlantılar, yazı tipleri ve web ile söz konusu blokları girmek ve görüntülemek için yardımcı programlar tarayıcılar veya diğer yazılımlar.
(tr) (de) Unicode'un kodunu çözme , Wiki'de resimlerdeki 98.884 Unicode karakterinin tümünü listeleme ve yorumlama.
(fr) CoeurLumiere.com , U + 0000'den U + FFFF'ye kadar basit Unicode karakter tablosu (not, bazılarının HTML'de geçersiz olduğu ve raporlanmadığı).

Kullanım kılavuzları

(tr) Markus Kuhn, UTF-8 ve Unicode SSS
(tr) Unicode'un GNU / Linux'tan bağımsız veya uyumlu sistemlerde nasıl kullanılacağı .
(tr) Fontes et codages kitabının 2, 3 ve 4. bölümleri .
(tr) Acemilerin kullanımı için Unicode ile fonetik karakterlerin girişi ve değişimi .
(tr) Unicode ve testlerin kullanımına ilişkin örnek .
(tr) Unicode'daki Web uygulamalarınız , ( PHP ve MySQL ile Unicode pratiğinin yanı sıra XML , HTML ve CSS belgelerinde istemci tarafı uygulaması hakkında makale ve eğitim )

Tartışmalar ve makaleler

(tr) Unicode, dünyanın yazımı? ( Dijital Belge dergisinin cilt 6 (2003) , 364 sayfa ). İlgi alanı: kritik bakış açıları (tipograflar, bilgisayar bilimcileri, Mısırbilimciler, vb. ) ve Unicode Konsorsiyumu teknik direktörü Ken Whistler ile röportaj .
(tr) Otfried Cheong, Unihan (üzerinde yazı sinogram birleşme sorunlarının ile Unihan Unicode olarak)