Unicode , farklı dillerdeki metinlerin küresel düzeyde değiş tokuşunu sağlayan bir bilgisayar standardıdır . Bilgisayar platformu veya kullanılan yazılım ne olursa olsun, herhangi bir yazı sistemindeki herhangi bir karaktere bir ad ve sayısal bir tanımlayıcı vererek yazılı metni tek bir şekilde kodlamayı amaçlayan Unicode Konsorsiyumu tarafından geliştirilmiştir .
Bu standard ile ilgilidir standart ISO / IEC 10646 eşdeğer karakterlerin bir tablo tarif eder. En son sürüm, Unicode 13.0 , piyasaya sürüldü.Mart 2020.
ISO / IEC 10646'nın Evrensel Karakter Seti (UIC) ile tamamen uyumlu olan Unicode standardı, her karaktere bir dizi özellik vererek (bazıları için standartlaştırılmış ve stabilize edilmiş olabilir) eksiksiz bir temsil ve kelime işleme modeli ekleyerek onu genişletir. karakterin kodlandığı tüm Unicode sürümleri veya bulunan yeni ihtiyaçlara göre gelişebilecek kullanımları hakkında yalnızca bir tavsiye içeren bilgilendirici). Bu özellikler, bir metnin birkaç ardışık karakteri arasında var olabilen anlamsal ilişkileri kesin olarak tanımlar ve dönüştürülen metinlerin anlamlarını mümkün olduğunca koruyan işleme algoritmalarını standartlaştırmayı veya önermeyi mümkün kılar. Unicode, aynı metni tamamen farklı bilgisayar sistemlerinde aynı şekilde kullanılabilir hale getirmeyi amaçlar.
Unicode standardı, 150'den fazla komut dosyasını kapsayan 143.859 karakterlik bir repertuardan, görsel referans için bir dizi kod tablosundan, bir kodlama yönteminden ve birkaç standart karakter kodlamasından, bir numaralandırma karakter özelliklerinden (büyük harf, küçük harf, APL , semboller, noktalama işaretleri) oluşur. , vb. ) bir dizi referans bilgisayar veri dosyası ve normalleştirme kuralları, çift yönlü ayrıştırma, sıralama, oluşturma ve görüntüleme sırası gibi bir dizi ilgili öğe (hem sağdan sola içeren metnin doğru görüntülenmesi için) Arapça ve İbranice gibi komut dosyası karakterleri ve soldan sağa).
Uygulamada, Unicode, ISO / IEC 10646'yı tam olarak içerir , çünkü ikincisi, yalnızca tek tek karakterleri, onlara bir ad ve normatif bir sayı ( kod noktası olarak adlandırılır ) ve çok sınırlı bir bilgilendirici açıklama atayarak standartlaştırır , ancak işleme veya spesifikasyon içermez. yalnızca Unicode standardının tam olarak tanımladığı gerçek dilleri yazarken kullanın. ISO / IEC 10646 (dahil Unicode standardına kısımlarına normatif referans çift yönlü algoritma ve karakter özelliklerine () 'de ); Unicode ayrıca kelime işleme için fiili bir standarttır ve diğer birçok standardın temeli olarak hizmet eder.
Yazılı diller:
Abjad (Semitik diller)
İlk yayını M.Ö. Ekim 1991, ulusal kod sayfalarının kullanımının yerini alacak şekilde geliştirilmiştir .
Bu kod sayfalarının geçmişte bazı sorunları vardı. Örneğin, üzerinde 3270 terminalleri faaliyet gösteren EBCDIC : Bir elektronik not bir "para işareti" karakterini, bir harcama sınırı aynı metni dahil olduğunda dolar bir İngiliz ekranda aynı miktarda görüntüleyecektir Amerikan okuyucu için sterlinlik , para beri işareti iki ülkenin her birinde farklıydı.
Pratikte, tüm yazı sistemleri henüz mevcut değil, çünkü uzmanlarla yapılan belgesel araştırma çalışmaları, nadir karakterler veya az bilinen yazı sistemleri için hala gerekli olabilir (örneğin, ortadan kalktılar).
Bununla birlikte, dünyada en çok kullanılan senaryoların yanı sıra karakterlerin semantiği, kompozisyonları ve bu farklı sistemlerin nasıl birleştirileceği ile ilgili kurallar temsil edilir . - Örneğin, sağdan sola yazma sisteminin soldan sağa yazma sistemine nasıl ekleneceği ( çift yönlü metin ).
UTF-8 biçiminde, Unicode, ASCII koduyla birlikte çalışabilirlik sunar .
Unicode standardı, bir sürecin (veya yazılımın) uygulanmasının Unicode'a uygunluğunu değerlendirmek için gereksinimleri tanımlar . Bu gereksinimler özellikle ( sürüm 4.0'da ) ile ilgilidir:
Bu gereksinimler, bir Unicode alt kümesi için desteğe izin verir.
Birlikte ISO / IEC 10646 Unicode arasındaki fark olarak tanımlar aynı karakter kümesi ISO / IEC 10646 ve Unicode bağlı Unicode tarafından sağlanan aşırı uygunluk ihtiyacına esas olarak.
Unicode, 2016 yılında bilgisayar karakter kodlaması için önde gelen standarttır. Yazılımın birlikte çalışabilirliği için kullanılır ve örneğin, onlar için özel olarak tasarlanmamış olsa bile farklı yazılımlar arasında farklı alfabedeki karakterleri kullanarak metinleri kopyalamaya izin verir (örneğin , bir LibreOffice metnindeki APL karakterlerindeki bir program veya Gmail altındaki bir e-postadaki ). Ancak, tüm Unicode metinleri aynı şekilde kodlanmaz. Kabul edilen Unicode standardizasyonuna bağlı olarak, aynı grafik işareti bazen farklı şekillerde kodlanabilir. Bazı metinler kullanmak NFC kongre , diğerlerini nfd kongre , vb Ve standart, aynı metinde birkaç kuralın karıştırılmasını yasaklamaz. Aynı şey yazılım için de geçerlidir.
Aynı şeyi yazmanın birkaç yolunun bir arada bulunması , 2000'li yıllarda bilgisayar korsanları tarafından filtreleri atlamalarına izin vererek istismar edildi : bilgisayar korsanları, tehlikeli olarak kabul edilen belirli dizelerin yasaklarını, onları başka bir biçimde kodlayarak oldukça basit bir şekilde atladılar. , daha alışılmadık ve bu nedenle bazen filtrelenmemiş.
Unicode, kurallı denklik kavramını sağlayarak bu sınırlamalara yanıt verir .
Unicode üzerinde yapılan çalışmalar , hedefleri aynı olan ISO/IEC 10646 standardı ile paralel ve senkronizedir . ISO / IEC 10646 karakter veya karakterlerin anlamsal özelliklerinin kompozisyon kuralları belirtmez, Fransızca ve İngilizce yayınlanan uluslararası bir standart.
Ancak Unicode, büyük/ küçük harf , alfabetik sıralama ve aksan ve karakter kombinasyonu sorununu ele alır . Yana Unicode sürümü 1.1 ve sonraki tüm versiyonlarda, karakterler aynıdır tanımlayıcıları ISO / IEC 10646 standardına : dizinleri paralel olarak tutulur, aynı nihai standardizasyon sırasında, iki standart neredeyse aynı anda güncelleştirmeleri olmak. İki standart Unicode ( sürüm 1.1'den beri ) ve ISO / IEC 10646 tam geriye dönük uyumluluk sağlar: önceki bir sürüme uyan herhangi bir metin sonraki sürümlerde uyumlu kalmalıdır.
Bu nedenle, Unicode sürüm 3.0'ın karakterleri , ISO/IEC 10646:2000 standardının karakterleridir . Sürüm 3.2 Unicode 95221 karakterler, semboller ve direktifleri sırada yer aldı.
Versiyon 4.1 güncellenmiş Unicode,kasım 2005, şunları içerir:
yani 1.114.112 farklı kodu içerebilen bir alana atanan toplam yaklaşık 245.000 kod noktası.
Bununla birlikte, farklı dillerde kullanılan ideografik kümelerin biraz farklı ve bazen anlamlı kaligrafi ile birleştirilmesi nedeniyle Çince karakterlerin kodlanmasında bazı sorunlar var gibi görünmektedir , ancak bunlar seçicileri tanımlayan Unicode tarafından çözülmektedir. bunları kullanan standart bir dizi kaydı açtı.
Sürüm | Yayın tarihi | Yeni karakterler |
---|---|---|
1.0.0 | Ekim 1991 | |
1.0.1 | Haziran 1992 | |
1.1 | Haziran 1993 | |
2.0 | Temmuz 1996 | |
2.1 | Mayıs 1998 | |
3.0 | Eylül 1999 | |
3.1 | Mart 2001 | |
3.2 | Mart 2002 | |
4.0 | Nisan 2003 | |
4.1 | Mart 2005 | |
5.0 | temmuz 2006 | |
5.1 | Mart 2008 | |
5.2 | ekim 2009 | |
6.0 | şubat 2011 | |
6.1 | 31 Ocak 2012 | |
7.0 | 16 Haziran 2014 | Dahil 2834 yeni karakterler emoji'yi . |
8.0 | 17 Haziran 2015 | Birçok emoji dahil 7.716 karakter. |
9.0 | 21 Haziran 2016 | 7.500 yeni karakter (72 emoji dahil). |
10.0 | 20 Haziran 2017 | 8518 yeni karakter (56 emoji dahil). |
11.0 | 5 Haziran 2018 | 684 yeni karakter (66 emoji dahil). |
12.0 | 5 Mart 2019 | 554 yeni karakter. |
13.0 | 10 Mart 2020 | 5.390 yeni karakter |
Unicode, katmanlı bir modele göre tanımlanır ( Teknik Not Unicode n o 17 ). Diğer standartlar tipik olarak karakter seti ve fiziksel temsil arasında ayrım yapmıyordu. Katmanlar burada en yüksekten (makineden en uzak) başlayarak sunulur.
Soyut karakter dizini ( astract karakter repertuarı )En üstteki katman, karakter kümesi tanımıdır. Örneğin, Latin-1, 256 karakter kümesine sahipken, Unicode şu anda yaklaşık 110.000 karakteri standartlaştırmaktadır. Ayrıca, Unicode bu karakterlerin her birine bir ad atar.
Bu nedenle adlarıyla birlikte karakterlerin listesi Unicode uygulama katmanını oluşturur.
Örneğin, Ç karakteri "Latin büyük harf c cedilla" olarak adlandırılır.
Bu tanım, dizinin herhangi bir uzantısını onaylayan ISO / IEC 10646 ile tamamen aynıdır . Unicode, standardının metninde yalnızca İngilizce normatif adları kullanır, ancak ISO/IEC 10646 standardı eşit derecede normatif iki dilde yayınlanır. Böylece İngilizce ve Fransızca adların her ikisi de standartlaştırılmıştır.
Aslında, dizinin herhangi bir uzantısı artık ISO / IEC 10646'dan sorumlu çalışma grubu ( oy veren üyeleri yalnızca katılımcı ülkelerin ulusal standardizasyon yetkilileri veya resmi temsilcileri olan JTC1 / SC2 / WG2 ) ile ortaklaşa yapılmaktadır . Unicode UTC Teknik Komitesi (oy veren üyeleri herhangi bir özel veya kamu yararına çalışan kuruluş veya hatta bu kararlara katılmak için yıllık ücret ödeyen ve katılan bir hükümet olabilir) .
Kodlanmış karakter seti ( kodlanmış karakter seti )Burada, önceki tabloya her karakterle ilişkili bir sayı eklenir. Bunun bellekte bir temsil olmadığını, yalnızca kod noktası adı verilen bir tam sayı olduğunu unutmayın . Bu sayılar için kodlama alanı, 65.536 kod noktasından oluşan 17 alana bölünmüştür. Bu alanlara düzlem denir .
Kod noktası "U + xxxx" olarak belirtilir, burada "xxxx" onaltılıktır ve 4 ila 6 hanelidir :
Böylece "Latince büyük harf c cedilla" (Ç) adlı karakter U + 00C7 sayısına sahiptir. Ön plana aittir.
Prensipte U + 0000 ve U + 10FFFF arasındaki tüm kod noktaları mevcuttur, ancak belirli aralıklar sürekli olarak belirli kullanımlar için ayrılmıştır, özellikle UTF-16 kodlamasına izin vermek için hariç tutulan bir dolaylı bölge ( aşağıya bakın), özel kullanım alanları ve uyumlu bir veri alışverişinde kullanımı yasak olan karakter dışı karakterler içeren bazı bölgeler (örn. U + FFFE veya U + FFFF) . Diğer kod noktaları ya önceden karakterlere atanmıştır ya da gelecekteki standardizasyon için ayrılmıştır.
Özel kullanım alanı: Unicode, geçerli karakterlere birçok kod noktası atamıştır, ancak özel kullanım nedeniyle semantikleri bilinmeyen (örneğin, U + F0000 ve U + 10FFFF arasındaki son iki plan, iki kod dışında tamamen bu kullanıma ayrılmıştır) uyumlu metinde karakter olmayanların yasak olduğu her planın sonundaki noktalar).
Burada yine kodlama standardizasyonu, yani ortak repertuardaki karakterlere kod noktalarının atanması, Unicode ve ISO/IEC 10646 standartları arasında paylaşılan ortak bir karardır . Dizindeki tüm karakterlerin benzersiz bir kod noktası vardır (bazı diller veya Unicode için bazı karakterler eşdeğer kabul edilse bile).
Karakter dizini genişletilebilir ise, kodlama alanının üst sınırı ile sınırlandırıldığı belirtilebilir: U + 10FFFF. Olası kod noktalarının büyük bir çoğunluğu herhangi bir belirli karakterle ilişkilendirilmez, ancak herhangi bir zamanda olabilir.
Ayrıca bu hala ücretsiz olan kod noktaları geçersiz sayılmaz, ancak soyut karakterleri temsil ederler (henüz belirtilmemiş ve geçici olarak ayrılmışlardır). Bu soyut karakterler (ve özel kullanım karakterleri), standart dizinin kodlanmış karakter setini, dizinlerin tüm kodlanmış karakter setlerini içeren " evrensel kodlanmış karakter seti " ( Evrensel Kodlu Karakter Seti , genellikle UCS olarak kısaltılır ) adı verilen tek bir oyunda tamamlar. ISO / IEC 10646 ve Unicode'un geçmiş, şimdiki ve gelecekteki sürümlerinin her birinin ( yalnızca sürüm 1.1'den beri ).
Biçimci karakter kodlaması ( karakter kodlama formu )Bu sefer, fiziksel bir temsile (bellekte, diskte, vb.) ulaşıyoruz : bu katman, hangi kodlama biriminin ( kod birimleri ) veya kodetin bir karakteri veya daha tam olarak bir kod noktasını temsil edeceğini belirtir : byte , seizet (in) ) (16 bit kelime) veya otuz deuzet (tr) (32 bit kelime).
Bu formalizmlerden birkaçı olabilir (ve vardır). Belirli bir biçimcilik, kodlama biriminin boyutunu belirtmeli ve bir kod noktasını temsil eden tamsayının bir dizi kodlama biriminde nasıl temsil edildiğini ve bunun tersini, yani bir kodlama birimi dizisi verilen kod noktasının nasıl bulunacağını belirtmelidir.
Mekanizma serileştirme karakterleri ( karakter kodlama şeması )Bu katman, önceki katman tarafından tanımlanan kodlama birimlerinin dizilerinin bayt dizilerine serileştirilmesiyle ilgilenir. Burası, bayt sırasının büyük endian (önce en anlamlı bayt) ve küçük endian (önce en az anlamlı bayt) arasında seçildiği yerdir .
Ayrıca bu adımda , dosyanın veya veri akışının başlangıcında büyük endian mı yoksa küçük endian mı olduğunu belirten bir bayt sırası göstergesi (veya bayt sırası işareti için BOM) eklemek mümkündür . İnternet dünyasında, nadiren açık bir işaretlemeyi tercih kullanılır ( " charset = UTF-16BE içinde" MIME , örneğin, bir big-endian veri akışını belirtmek için BE için standları büyük endian ).
Aşırı kodlama aktarımı ( aktarım kodlama sözdizimi )Burada isteğe bağlı sıkıştırma veya şifreleme mekanizmaları.
Ayrıca, Unicode dizelerinin UTF-8'de kodlanması ve Base64'te aşırı kodlanması gerektiğini belirten LDAP gibi bir aşırı kodlama olabilir .
Önceki standartların (bir bit dizisi, bir temsil) katı kısıtlamalarının üstesinden gelmek için, Unicode bundan böyle bir yandan karakter kümesinin tanımını ( adlarına göre karakter listesi) ve bunların indeksini, kod noktasını , kodlamanın kod noktasını ayırır. . Bu nedenle, bir Unicode karakterinin boyutundan söz edemeyiz, çünkü seçilen kodlamaya bağlıdır ve bu nedenle bu, isteğe göre değişebilir. Uygulamada, UTF-8 Batı ülkelerinde yaygın olarak kullanılmaktadır.
Nerede ASCII 7 kullanan bitleri ve ISO / IEC 8859-1 fazla 8 bit birini kullanmak için gereken her kod sayfasından karakterleri toplayan 8 bit (çoğu ulusal kod sayfaları gibi), Unicode, bayt . Sınır başlangıçta Unicode'un ilk sürümleri için 16 bit ve ISO/IEC 10646'nın ilk sürümleri için 32 bit olarak ayarlandı .
Geçerli sınır, artık karşılıklı olarak uyumlu iki standartta standartlaştırılmış karakterlere atanan kod noktası başına 20 ila 21 bit arasına yerleştirilmiştir :
Unicode ve ISO / IEC 10646 , geçerli bir kod noktasını temsil etmek için çeşitli evrensel dönüşüm biçimlerini kabul eder. Alıntı yapalım:
UTF sonra numarası minimum bit sayısını temsil eden codepoints geçerli bir kod noktası temsil edildiği.
Bu dönüşümler orijinal olarak , orijinal olarak 31 bit kod noktalarını tanımlayabilen ISO/IEC 10646'nın dahili temsil ve kod noktası kodlama şemaları için oluşturulmuştur . O zamandan beri, ISO/IEC 10646 standardı , üç formun birbiriyle tam uyumlu olması ve tüm kod noktalarının kodlanmasına izin verecek şekilde değiştirilmiştir (çünkü UTF-16 yalnızca ilk 17 düzlemin kod noktalarının kodlanmasına izin vermektedir). temsil edilir).
Unicode ayrıca, tüm geçerli kod noktalarının (U + 0000'den U + D7FF'ye ve U + E000'den U + 10FFFF'ye) bu üç dönüşüm biçimini ve yalnızca bunları, metni kod noktalarının form dizilerinde temsil edip etmediklerini veya geçerli karakterlere atanan veya ayrılmış veya karakter olmayanlara atanan kod noktaları. Yalnızca UTF-16'da kullanılan yarım bölgelere (U + D800 ila U + DFFF) atanan kod noktaları, bir çift 16 bitlik kod noktası tarafından kod noktalarını temsil etmek için kullanıldıklarından ayrı ayrı geçersizdir. 16 ek plan için.
UTF-8UTF-8 , belirtilen RFC 3629, en çok kullanıldığı alanlar ise Unix ve Internet . Değişken boyutta kodlaması, bellek kullanımında (Latin alfabesi olan diller için) ortalama olarak daha ucuz olmasını sağlar. Ancak bu, dizeleri tamsayılarla indeksleyen bazı dillerde (örnek = " dizenin 815. karakteri") alt dize çıkarma içeren işlemleri önemli ölçüde yavaşlatır , çünkü bilmek için dizenin başlangıcından itibaren karakterleri saymak gerekir. ayıklanacak ilk karakterin olduğu yer.
UTF-8 de sağlar ve bu ana avantajı, basit dize manipülasyon ile uyumluluk olduğu ASCII içinde programlama dilleri . Bu nedenle, C ile yazılmış programlar genellikle değişiklik yapılmadan çalışabilir.
Başlangıçta UTF-8, U + 0000 ve U + 7FFFFFFF (31 bite kadar) arasındaki herhangi bir kod noktasını kodlayabilirdi. Bu kullanım kullanımdan kaldırılmıştır ve ISO/IEC 10646 standardı , iki kod üzerinde gösterim için UTF-16'da kullanılan kod öğelerine karşılık gelen yarım bölgeninkiler hariç, yalnızca ilk 17 çekimin geçerli kod noktalarını destekleyecek şekilde değiştirilmiştir. elemanlar. 16 ek planın kod noktaları. Ayrıca UTF-8'deki en uzun diziler, önceden 6 yerine maksimum 4 bayt gerektirir. Ek olarak, UTF-8 önce Unicode ve ardından ISO/IEC 10646 tarafından her bir kod noktasının yalnızca en kısa temsilini ( kodlama benzersizliği ) kabul edecek şekilde değiştirilmiştir . Aynı karakterin birkaç farklı şekilde temsil edilebilmesi gerçeği, güvenlik sorunları ortaya çıkardı, çünkü bilgisayar korsanı "filtrelenmiş" bir formu farklı bir yazıyla atlayabilirdi.
UTF-16'ya (ve UTF-32'ye) göre avantajı, bir sözcüğü oluşturan baytların ( endianness ) sıralamasındaki farklılıkların , heterojen sistemler ağında bir sorun oluşturmamasıdır; bu nedenle, bu dönüşüm günümüzde çoğu standartlaştırılmış değişim protokolü tarafından kullanılmaktadır.
Öte yandan, UTF-8, metinlerin ASCII karakter kümesine dayalı protokollerle iletilmesi için tamamen uyumludur veya (ASCII olmayan karakterlerin çok baytlı dönüşümü pahasına) destekleyen değişim protokolleriyle uyumlu hale getirilebilir. 8 bit kodlu karakter kümeleri (ister ISO / IEC 8859'a dayalı olsun, ister ulusal standartlar veya belirli tescilli sistemler tarafından tanımlanan diğer birçok 8 bitlik kodlanmış karakter kümesi).
Ana dezavantajı çok değişken uzunlukta kodlama olduğu (ASCII atanan kod noktası için 1 bayt - ISO / IEC 646 karakter , 2 ile 4 bayt diğer kod noktası için), daha UTF-8 otomatik senkronizasyon özgü kodlama rastgele bir konumdan bir dizinin başlangıcını belirlemeyi mümkün kılar (önceki kod noktalarının en fazla 3 ek okumasını gerçekleştirerek). Ancak, bu kodlama karakter dizilerinin işlenmesini kolaylaştırmak için tasarlanmamıştır: genellikle UTF-16'yı, bazen UTF-32'yi (bellekte açgözlü) tercih ederiz.
türevlerUTF-16 (en sık kullanılan karakterler dahil) modern diller yazılarında atanan Unicode karakterleri büyük çoğunluğu dilli planı tabanında ve dolayısıyla temsil edilebilir, çünkü bellek alanı çok küçük olmadığı zaman iyi bir uzlaşmadır 16 bit üzerinde. ISO / IEC 10646'nın Fransızca versiyonu bu 16 bitlik sözcükleri "seizets" olarak adlandırır, ancak uluslararası sürüm yine de bunları iki bayttan oluşan klasik 16 bitlik sözcükler olarak tanımlar ve olağan sonculuk kurallarına tabidir .
merhaba \ lo | DC00 | DC01 | ... | DFFF |
---|---|---|---|---|
D800 | 10.000 | 10001 | ... | 103FF |
D801 | 10400 | 10401 | ... | 107FF |
⋮ | ⋮ | ⋮ | ⋱ | ⋮ |
DBFF | 10FC00 | 10FC01 | ... | 10FFFF |
On altı ek düzlemin kod noktaları, iki 16 bitlik word üzerinde bir dönüşüm gerektirir:
Yaygın olarak kullanılan karakterlerin çoğu temel düzlemde bulunduğundan, ek kliplerin kodlaması yazılımda genellikle yetersiz test edilir ve yaygın olarak dağıtılan yazılımlarda bile hatalara veya güvenlik sorunlarına yol açar. GB 18030 gibi belirli yasal çerçeveler, özellikle uygun adlarda bulunan karakterleri içeren ek planların desteklenmesini talep edebilir.
UTF-16'da temsil edilen bir metindeki herhangi bir noktadan kodlama dizisinin başlangıcını, yalnızca bu kod noktası alt yarı alanda ise, en fazla bir ek okuma gerçekleştirerek belirlemek mümkündür. Bu form, birkaç ASCII karakteri (U + 0000 - U + 007F) içeren metinlerin gösterimi için UTF-8'den daha ekonomik ve hızlı işlenmesi daha kolaydır.
Bununla birlikte, bu dönüşüm, 16 bitlik tamsayı gösteriminde baytların sırasına bağlı olan iki uyumsuz kodlama şemasına sahiptir. Bu belirsizliği gidermek ve heterojen sistemler arasında iletime izin vermek için, kullanılan kodlama şemasını (UTF-16BE veya UTF-16LE) gösteren bilgileri eklemek veya kodlanmış metnin önüne kod noktasının temsilini eklemek gerekir.geçerli U + FEFF ("sıfır genişlikte bölünmez boşluk" karakterine atanmıştır, artık bir bayt sıralama işareti olarak bu tek kullanım için ayrılmış bir karakter), çünkü "ters çevrilmiş" U + FFFE geçerli kod noktası bir karakter değildir, metinlerde yasaklanmıştır Unicode ve ISO/IEC 10646'ya uygundur .
UTF-16'nın diğer kusuru, onunla dönüştürülen ve iki kodlama şemasından herhangi biri ile iletilen metnin, boş olan veya d değerleriyle çelişen bir değere sahip çok sayıda bayt içermesidir.
Bu özellikle Java platformunun dahili olarak kullandığı kodlamanın yanı sıra Unicode uyumlu API'leri için Windows'tur ( type ile wchar).
UTF-32UTF-32 bellek alanı bir sorun olmadığında kullanılır ve doğrudan ve boyutu (değişim olmadan karakterlere erişim olması gerekir edilir Mısır hiyeroglifleri ).
Bu standartlaştırılmış dönüşümün avantajı, tüm kod öğelerinin aynı boyuta sahip olmasıdır. Bu nedenle, bir kod noktasının temsilinin başlangıcını belirlemek için ek kod noktalarının okunması gerekli değildir.
Bununla birlikte, bu biçim özellikle ekonomik değildir (bellek dahil), çünkü karakter başına gereksiz yere en az bir bayt (her zaman sıfır) "harcanır". Bir metnin bellekteki boyutu, RAM'in dolması durumunda diske daha fazla okuma ve yazma gerektirdiğinden performans üzerinde olumsuz bir etkiye sahiptir ve ayrıca işlemcilerin bellek önbelleklerinin performansını düşürür.
Mevcut modern dillerde yazılmış metinler için (ek ideografik düzlemin bazı nadir karakterleri dışında) ve bu nedenle yalnızca temel çok dilli düzlemin kod noktalarını kullanarak, bu dönüşüm UTF-16'ya kıyasla gereken bellek miktarını iki katına çıkarır.
UTF-16 gibi, UTF-32 de 8 bitten fazla bir tamsayı oluşturan baytların sırasına bağlı olarak birkaç kodlama şemasına sahiptir (UTF-32'nin iki kodlama şeması standartlaştırılmıştır, UTF-32BE ve UTF-32LE). Bu nedenle, bu kodlama şemasını belirtmek veya U + FEFF kod noktasının UTF-32'deki gösterimi ile metne önek koyarak belirlemek de gereklidir. UTF-16 gibi, UTF-32'nin standartlaştırılmış kodlama şemalarında boş baytların varlığı, onu heterojen sistemler arasında değiş tokuş için birçok protokolle uyumsuz hale getirir.
Ayrıca bu biçim, işlenmesi daha kolay bir ara biçim olarak belirli işlemler için çoğunlukla yalnızca çok yerel olarak kullanılır ve genellikle büyük miktarlardaki metinleri işlemek ve depolamak için genellikle daha verimli olan UTF-16 dönüşümünü tercih ederiz. ikisinin gerçekleştirilmesi çok basit ve işlem karmaşıklığı açısından çok ucuz.
Aslında, birçok kelime işlem kitaplığı sadece UTF-16 ile yazılır ve metinler ek düzlemlerin karakterlerini içerse bile UTF-32'den daha verimlidir (çünkü bu şekil vakası vakaların büyük çoğunluğunda nadirdir).
Bununla birlikte, UTF-32'ye dönüştürmenin, çoğu herhangi bir geçerli kod noktasını temsil etmeyebilecek 32 bit kod noktaları kullandığını unutmayın (geçerli kod noktalarını temsil eden iki aralığın dışındaki değerler U + 0000 - U + D7FF ve U + E000 ila U + 10FFFF), bu nedenle geçerli veya ayrılmış karakter yoktur (bu nedenle burada yer alan herhangi bir bilgi Unicode anlamında metin olamaz). UTF-32'nin standartlaştırılmış kodlama şemalarından birinde bu geçersiz kod değerlerini kullanan metinlerin herhangi bir Unicode uyumlu sistem için iletilmesi yasaktır (bunun yerine kod noktalarını özel kullanım için kullanmak gerekir), çünkü imkansız olacaktır. onları, üç standartlaştırılmış UTF'nin ikili olarak uyumlu olduğu başka bir UTF dönüşümünde temsil etmek.
Bu, Unicode Konsorsiyumu tarafından değil, uygulamalarda desteğinin zorunlu olduğu Çin'deki standartlar yönetimi tarafından tanımlanan bir Unicode dönüşümüdür. Tarihsel olarak bu, büyük bir koddan koda yazışma tablosunu tamamlayan bir algoritmik dönüşümle tüm UCS repertuarını desteklemek için genişletilen kodlanmış bir karakter setiydi.
Unicode'un karakterleri kodladığını iddia etmek, mantıksal kodlama ilkesine göre soyut sembollere bir sayı atadığını iddia etmekle aynı anlama gelir. Unicode ise karakterlerin, gliflerin grafik temsillerini kodlamaz . Bu nedenle , stilin tüm grafik varyasyonları birleştiğinden, karakterin temsili ve numarası arasında bir ayrım yoktur .
Ayrıca, klasik bir ASCII veya Latin-1 yazı tipinden farklı olarak , bir kod tarafından bir glifin seçimi benzersiz değildir ve genellikle bağlamsaldır ve aynı glifi farklı kodlar için de görüntüleyebilir. Bu nedenle, Fransızca "é" karakteri iki şekilde tanımlanabilir: ya doğrudan "é"ye karşılık gelen sayı kullanılarak ya da "e" sayısını, avlanmadan akut vurgununkiyle takip ederek. Hangi seçeneği seçerseniz seçin, aynı glif görüntülenecektir. İlk karakter için önceden oluşturulmuş olduğunu, ikinci karakter için bir kompozisyon olduğunu söyleyeceğiz (iki karakter, her ikisinden oluşan tek bir glif oluşturur). Buna izin verilir ve hatta şiddetle tavsiye edilir, çünkü farklı kodlama biçimleri Unicode tarafından "kanonik olarak eşdeğer" olarak sınıflandırılır, bu da iki eşdeğer kodlama biçiminin aynı şekilde ele alınması gerektiği anlamına gelir.
Bu durumda birçok bileşik karakter vardır ve bu iki yolla kodlanabilir (veya daha fazla, bazı bileşik karakterler, özellikle birkaç aksanları olduğunda, birden fazla şekilde ayrıştırılabilir). Çoğu zaman, eğer varsa, metnin kodlanması için önceden oluşturulmuş karakter tercih edilir ( örneğin, ayrıştırmada kodlanmış olan çok sesli Yunanca için durum budur , grafik olarak tatmin edici olmayabilir: yazı tipi karakterlerine bağlı olarak, farklı glif bileşenleri bazen kötü düzenlenmiş ve okunması zor). Ancak, tüm bileşik karakterlerin önceden oluşturulmuş biçimleri için benzersiz bir kod noktası yoktur.
Benzer şekilde, Devânagarî , Farsça veya Arapça gibi bazı yazı sistemleri, bitişik harflerin karmaşık bir şekilde işlenmesini gerektirir : grafikler , konumlarına veya komşularına bağlı olarak şekil değiştirir (bkz. Bağlamsal değişken ve Ortak harf ). Doğru glifin seçilmesi, tüm bağlamsal şekiller Unicode'da aynı şekilde kodlanmış olsa da, yazı tipinde hangi bağlamsal şeklin seçileceğini belirlemek için işleme gerektirir.
Bu nedenlerden dolayı, bir Unicode yazı tipi dikkatle ele alınmalıdır. Örneğin, mevcut tüm glifleri içeren bir yazı tipi yeterli değildir. Ayrıca görüntüleme sisteminin ( render motoru ) belirli dillere özgü bitişik harfleri , bağlamsal varyantları ve birleşik formları işleyebilecek mekanizmalara sahip olması da gereklidir . Tersine, karakterlerin yalnızca bir kısmını temsil eden ancak bunları doğru şekilde nasıl görüntüleyeceğini bilen bir yazı tipi, "Unicode yazı tipi" başlığını daha iyi hak eder. Son olarak, yazı tipi biçimlerinin belirli teknik kısıtlamaları, bunların tüm dizini desteklemesini engelleyebilir. Uygulamada (2009'da) tüm dizini destekleyen tek bir yazı tipi bulmak imkansızdır.
Bu nedenle bir Unicode karakter yazı tipi, Unicode tarafından yetkilendirilen tüm formlarda kodlanmış bir metni doğrudan görüntülemeyi mümkün kılan ve bir veya daha fazla komut dosyasını desteklemek için bir veya daha fazla dile uyarlanmış tutarlı bir alt kümeyi desteklemeyi mümkün kılan yalnızca bir yazı tipidir. Hiçbir Unicode yazı tipi kendi başına "çalışamaz" ve tam yazma desteği, eşdeğer kodlama formlarını algılayabilen, metinde bağlamsal formları araabilen ve Unicode ile kodlanmış bir yazı tipinin farklı gliflerini seçebilen bir oluşturma motorunda bunlar için destek gerektirir , gerekirse yazı tipinin kendisinde bulunan yazışma tablolarını kullanmak.
Yoğun bakım çapraz platform yazılım kütüphanesi Eğer Unicode ile kodlanmış verileri işlemek için izin verir. Platforma özel Unicode desteği de modern sistemlerle ( Java , Microsoft Windows , GNU/Linux , standart C/C++ kitaplıkları , Python , vb.) entegre edilmiştir .
Unicode değişkenlerini depolamak için kullanılacak türler şunlardır:
Programlama dili | Tek bir karakter için yazın | Herhangi bir metin için yazın |
---|---|---|
VS | char[4] Neresi wchar_t[2] | char[] Neresi wchar_t[] |
C++ | char[4] Neresi wchar_t[2] | char[]veya wchar_t[]veya std::stringveya veyastd::wstring |
Java | char[2] Neresi int | char[] Neresi String |
ICU kütüphanesi (C/C++ veya Java için) | UChar | UChar[]veya String,UnicodeString |
JavaScript veya ECMAScript | char | string |
C# veya J# | char | string |
Delfi | char[4] Neresi widechar[2] | string Neresi widestring |
piton 2 | unicode | |
piton 3 | str | |
Gitmek | rune(= int32) | string Neresi []byte |
Süratli | Character | String |
Bununla birlikte, ICU ve Java gibi kütüphaneler bunları destekleyebilmesine rağmen , Unicode, bazı yazılımlar tarafından düzenli ifadeler için hala zayıf destekten muzdariptir . Bu tür bir destek henüz ECMAScript için standartlaştırılmamıştır ve sadece diğer sistemlerle (özellikle CORBA , COM ile ) veya dillerle (özellikle C++ ve Java ) birlikte çalışabilirlik için dil veya arayüzler ile oluşturulan kütüphaneler yardımıyla sağlanmaktadır .
Güncel bölümleme resmi Unicode web sitesinde bulunabilir. Ancak Unicode'un günümüzdeki önemli rolü ( ISO / IEC 10646 ) göz önüne alındığında , burada ana karakter blokları açıklanacaktır. Fransızca adlar, Unicode ile aynı karakterleri kullanan uluslararası iki dilli standart olan ISO / IEC 10646'nın resmi adlarıdır . İngiliz isimleri kadar resmidirler.
Eski Unicode 1.0 standardı eskidir ve ISO / IEC 10646 ve Unicode 1.1 ve sonraki tüm sürümleriyle uyumlu değildir; asıl uyumsuzluk, Kore dili yazmak için kullanılan, konumu değişen ve eski kod noktaları o zamandan beri diğer bloklara atanan Hangul karakter bloklarının uyuşmazlığıdır. Aşağıdaki tablo ISO / IEC 10646 (tüm sürümler) ve Unicode 1.1 (veya üstü) ile uyumludur .
NB Blok adları durumu normatif değildir. Bu nedenle "Temel Latince", "TEMEL LATİN" ile eşdeğerdir.
Aşağıdaki tablolarda, resmi bir Unicode PDF ile ilgili not içeren herhangi bir blok adı, o blokla ilişkili Wikipedia sayfasının mevcut olmadığı veya yanlış olduğu anlamına gelir.
Temel çok dilli plan (PMB, 0000 - FFFF)Kod noktaları | Resmi blok adı | Resmi PDF | Daha fazlasını bul | |
---|---|---|---|---|
Başlangıç | Son | |||
0000 | 007F | Temel C0 ve Latin komutları | U0000 | bkz. ISO / IEC 646 , ASCII , Latin alfabesi , Unicode kontrol karakterleri |
0080 | 00FF | C1 komutları ve Latin-1 eki | U0080 | bkz. ISO/IEC 8859 , ISO/IEC 8859-1 , Latin alfabesi , Unicode kontrol karakterleri |
0100 | 017F | Latince Genişletilmiş A | U0100 | Latin alfabesine bakın |
0180 | 024F | Latince Genişletilmiş B | U0180 | Latin alfabesine bakın |
0250 | 02AF | Uluslararası Fonetik Alfabe (API) | U0250 | bkz. Uluslararası Fonetik Alfabe |
02B0 | 02FF | Genişliğe sahip değişiklik harfleri | U02B0 | bkz Aksan , Latin alfabesi , Latin alfabesinin Aksan , Uluslararası fonetik alfabe |
0300 | 036F | aksan | U0300 | bkz aksan , Latin alfabesinin fonetik işaretlerini , Yunan alfabesinin Aksan , Kıpti alfabesi , Kiril alfabesinin Aksan İşaretleri |
0370 | 03FF | Yunan ve Kıpti | U0370 | bkz Yunan Alfabesi ve Kıpti Alfabesi |
0400 | 04FF | Kiril | U0400 | bkz. Kiril alfabesi |
0500 | 052F | Kiril eki | U0500 | bkz. Kiril alfabesi |
0530 | 058F | Ermeni | U0530 | bkz Ermeni Alfabesi |
0590 | 05FF | İbranice | U0590 | bkz İbrani Alfabesi , Aksan , İbrani Alfabesi fonetik işaretlerini |
0600 | 06FF | Arap | U0600 | Arap alfabesine bakın |
0700 | 074F | Süryanice | U0700 | bkz. Süryanice |
0750 | 077F | Arapça ek | U0750 | Arap alfabesine bakın |
0780 | 07BF | Thana | U0780 | bkz. Maldiv Alfabesi |
07C0 | 07FF | N'ko | U07C0 | N'ko'yu görmek |
0800 | 083F | Samiriyeli | U0800 | bkz Samaritan Alfabesi |
0840 | 085F | Mandean | U0840 | bkz. Mandean Alfabesi |
0860 | 086F | Süryanice ek | U0860 | bkz. Süryanice |
0870 | 089F | Rezerv | - | - |
08A0 | 08FF | Genişletilmiş Arapça A | U08A0 | bkz Arap alfabesi , Aksan , Arap alfabesinin diacritics |
0900 | 097F | Devanagari | U0900 | bkz. Devanagarî |
0980 | 09FF | Bengalce | U0980 | bkz. Bengali |
0A00 | 0A7F | Gurmuhi | U0A00 | bkz Gurmukhī |
0A80 | 0AFF | Gucerat | U0A80 | bkz Gujarati alfabesi |
0B00 | 0B7F | Ortaca | U0B00 | Ortaca görmek |
0B80 | 0BFF | Tamilce | U0B80 | Tamilce görmek |
0C00 | 0C7F | Telougou | U0C00 | Telougou'yu görmek |
0C80 | 0CFF | kannara | U0C80 | Kannara'yı görmek |
0D00 | 0D7F | Malayalamca | U0D00 | Malayalamca görmek |
0D80 | 0DFF | Singhalese | U0D80 | bkz Singhalese |
0E00 | 0E7F | Tay | U0E00 | Tayca görmek |
0E80 | 0EFF | Lao | U0E80 | Lao'yu görmek |
0F00 | 0FFF | Tibetçe | U0F00 | Tibetçe görmek |
1000 | 109F | Burma | U1000 | Birmanca görmek |
10A0 | 10FF | Gürcü | U10A0 | bkz Gürcü , Gürcü Alfabesi |
1100 | 11FF | jamos hangul | U1100 | Hangul'u görmek |
1200 | 137F | Etiyopya | U1200 | bkz. Alphasyllabaire geez |
1380 | 139F | Etiyopya takviyesi | U1380 | bkz. Alphasyllabaire geez |
13A0 | 13FF | Cherokee | U13B0 | bkz. Cherokee Müfredatı |
1400 | 167F | Birleşik Kanada Yerli Heceleri | U1400 | bkz Kızılderili dilleri |
1680 | 169F | Ogam | U1680 | bkz. Ogamik alfabe |
16A0 | 16FF | rünler | U16A0 | bkz Runik alfabe |
1700 | 171F | Tagalog | U1700 | Tagalog'a bakın |
1720 | 173F | Hanuno | U1720 | bkz. Hanunóo Alfabesi (tr) |
1740 | 175F | Buhide | U1740 | bkz. Buhid (tr) |
1760 | 177F | Tagbanoua | U1760 | bkz Alfabe Tagbanoua (tr) |
1780 | 17FF | Kmer | U1780 | Kmer görmek |
1800 | 18AF | Moğolca | U1800 | Moğolca görmek |
18B0 | 18FF | Genişletilmiş Kanada Yerli Heceleri | U18B0 | bkz Kızılderili dilleri |
1900 | 194F | Limbu | U1900 | Limbou görmek |
1950 | 197F | Tai it | U1950 | bkz. Taï-le |
1980 | 19DF | Yeni Taï lü | U1980 | Tai lü'ye bakın |
19E0 | 19FF | Kmer sembolleri | U19E0 | Kmer görmek |
1A00 | 1A1F | Bougui | U1A00 | bkz. Bugis Dili , Lontara Yazma |
1A20 | 1AAF | Tay tam | U1A20 | bkz Alfabe Taï Tham ( fr ) |
1AB0 | 1AFF | Genişletilmiş aksan | U1AB0 | bkz. Aksan |
1B00 | 1B7F | Bali dili | U1B00 | Bali dili yazısını görmek |
1B80 | 1BBF | Sounda dili | U1B80 | bkz. Soundanese , Sudan Alfabesi (tr) |
1BC0 | 1BFF | Batak | U1BC0 | Batak senaryosuna bakın |
1C00 | 1C4F | lepça | U1C00 | bkz. Alfabe Lepch (tr) |
1C50 | 1C7F | Ol chiki | U1C50 | bkz Alfabe santâlî |
1C80 | 1C8F | Genişletilmiş Kiril C | U1C80 | bkz. Kiril alfabesi , Kilise Slavcası |
1C90 | 1CBF | Genişletilmiş Gürcüce | U1C90 | bkz Gürcü , Gürcü Alfabesi |
1CC0 | 1CCF | Sunda eki | U1CC0 | bkz. Soundanese , Sudan Alfabesi (tr) |
1CD0 | 1CFF | Vedik uzantılar | U1CD0 | Sanskritçe görmek |
1D00 | 1D7F | fonetik ek | U1D00 | bkz. Uluslararası Fonetik Alfabe |
1D80 | 1DBF | Genişletilmiş fonetik ek | U1D80 | bkz. Uluslararası Fonetik Alfabe |
1DC0 | 1DFF | Aksan eki | U1DC0 | bkz. Aksan |
1E00 | 1EFF | Latince genişletilmiş ek | U1E00 | Latin alfabesine bakın |
1F00 | 1FFF | Genişletilmiş Yunanca | U1F00 | bkz Yunan Alfabesi , Politonik Yunanca |
2000 | 206F | Genel noktalama | U2000 | bkz. Noktalama , Boşluk |
2070 | 209F | Üsler ve indeksler | U2070 | bkz. Üs ve Alt Simge |
20A0 | 20CF | Para birimi sembolleri | U20A0 | bkz. Para birimi simgesi |
20D0 | 20FF | Semboller için kombinatoryal işaretler | U20D0 | bkz. Ok , döndürme |
2100 | 214F | Harf türü sembolleri | U2100 | bkz. Sıcaklık , Matematiksel sembol , Ticari marka kanunu sembolleri |
2150 | 218F | Sayısal formlar | U2150 | bkz. Romen rakamı , Kesir |
2190 | 21FF | Oklar | U2190 | bkz. ok |
2200 | 22FF | Matematik operatörleri | U2200 | bkz. Matematiksel operatörler |
2300 | 23FF | Çeşitli teknik işaretler | U2300 | bkz. Yunan Alfabesi , Noktalama İşaretleri , Ok , Matematik Sembolleri , Emoji |
2400 | 243F | Komut piktogramları | U2400 | bkz. ISO / IEC 8859 , ISO / IEC 646 , Kontrol C0 (tr) |
2440 | 245F | Optik karakter tanıma | U2430 | bkz. Optik karakter tanıma |
2460 | 24FF | Alfanümerik daire içine alınmış | U2460 | bkz. Latin alfabesi , Arap rakamları |
2500 | 257F | ağlar | U2500 | bkz. Şekil çizim karakteri (tr) |
2580 | 259F | Kaldırım taşları | U2580 | bkz. Şekil çizim karakteri (içinde) , Dikdörtgen |
25A0 | 25FF | Geometrik şekiller | U25A0 | bkz. Geometrik şekil |
2600 | 26FF | çeşitli semboller | U2600 | bkz. Sembol , Emoji , Fransız kart oyunu , Satranç , Cinsiyet sembolü |
2700 | 27BF | Casseau | U2700 | bkz. Sembol , Arap rakamları , Noktalama işaretleri , Emoji , Matematik operatörleri , Ok |
27C0 | 27EF | Çeşitli Matematiksel Semboller A | U27C0 | bkz. Matematiksel sembol |
27F0 | 27FF | Oklar ek A | U27F0 | bkz. ok |
2800 | 28FF | Braille kombinasyonları | U2800 | bkz. Braille |
2900 | 297F | Oklar ek B | U2900 | bkz. ok |
2980 | 29FF | Çeşitli matematiksel semboller B | U2980 | bkz. Matematiksel sembol |
2A00 | 2AFF | Ek matematiksel operatörler | U2A00 | bkz. Matematiksel operatörler |
2B00 | 2BFF | Çeşitli semboller ve oklar | U2B00 | bkz. Ok , Emoji |
2C00 | 2C5F | Glagotik | U2C00 | bkz Glagolitik Alfabe |
2C60 | 2C7F | Latince genişletilmiş C | U2C00 | bkz. Latin Alfabesi , Uygurca |
2C80 | 2CFF | Kıpti | U2C80 | bkz Kıpti alfabesi |
2D00 | 2D2F | Gürcüce ek | U2D00 | bkz Gürcü , Gürcü Alfabesi |
2D30 | 2D7F | Tifinag | U2D30 | bkz. Tifinagh ve Berberi Dilleri |
2D80 | 2DDF | Etiyopya genişletilmiş | U2D80 | bkz. Alphasyllabaire geez |
2DE0 | 2DFF | Genişletilmiş Kiril A | U2DE0 | bkz Kiril Alfabesi , Aksan , Kiril Alfabesi diacritics |
2E00 | 2E7F | noktalama eki | U2E00 | bkz. noktalama işaretleri |
2E80 | 2EFF | CJC anahtarlarının ek biçimleri | U2E80 | bkz. Çince, Japonca ve Korece , Sinogramme , Çince yazı , Çince diller , kutsal metinler Japonca , Japonca , Hanja , Korece |
2F00 | 2FDF | Çince Kangxi Anahtarları | U2F00 | bkz. Kangxi Karakter Sözlüğü |
2FE0 | 2FEF | Rezerv | - | - |
2FF0 | 2FFF | İdeografik açıklama | U2FF0 | bkz. İdeografik Açıklama |
3000 | 303F | CJC Sembolleri ve Noktalama İşaretleri | U3000 | bkz. Noktalama işaretleri , Çince, Japonca ve Korece , Sinogramme , Çince yazılar , Çince diller , kutsal metinler Japonca , Japonca , Hanja , Korece |
3040 | 309F | Hiragana | U3040 | bkz. Hiragana , Japonca Yazıları , Japonca |
30A0 | 30FF | Katakana | U30A0 | bkz Katakana , Japonca Yazıları , Japonca |
3100 | 312F | bopomofo | U3100 | bkz. Bopomofo , Çince, Japonca ve Korece , Sinogramme |
3130 | 318F | Hangul uyumluluğu jamoları | U3130 | bkz Hangûl , Sinogramme , Korece |
3190 | 319F | kanbun | U3190 | bkz. Kanbun , Sinogramme |
31A0 | 31BF | Bopomofo uzatıldı | U31A0 | bkz. Bopomofo , Sinogramme |
31C0 | 31EF | CJC Özellikleri | U31C0 | bkz. Çince, Japonca ve Korece , Sinogramme , Çince yazı , Çince diller , kutsal metinler Japonca , Japonca , Hanja , Korece |
31F0 | 31FF | Katakana fonetik uzantısı | U31F0 | bkz Katakana , Japonca Yazıları , Japonca |
3200 | 32FF | Daire içine alınmış CJC Harfleri ve Ayları | U3200 | bakınız Şekiller Arap , Çince , Japonca ve Korece , Sinogramme , Çince yazı , Çince diller , kutsal yazılar Japonca , Japonca , Hanja , Korece |
3300 | 33FF | CJC uyumluluğu | U3000 | bkz . Ölçü birimi , Çince, Japonca ve Korece , Sinogramme , Çince yazı , Çince diller , kutsal metinler Japonca , Japonca , Hanja , Korece |
3400 | 4DBF | CJC Birleşik İdeogramlarına Ek A ( Kısım 1 ) ( Kısım 2 ) |
U3400 | bkz. Çince, Japonca ve Korece , Sinogramme , Çince yazı , Çince diller , kutsal metinler Japonca , Japonca , Hanja , Korece |
4DC0 | 4DFF | Mutasyonlar Klasiğinin Heksagramları veya Yi Jing | U4DC0 | bkz Yi Jing , Heksagram , Çince, Japonca ve Korece , Sinogram |
4E00 | 9FFF | CJC Birleşik İdeogramlar ( Bölüm 1 ) ( Bölüm 2 ) ( Bölüm 3 ) ( Bölüm 4 ) ( Bölüm 5 ) ( Bölüm 6 ) |
U4E00 | bkz. Çince, Japonca ve Korece , Sinogramme , Çince yazı , Çince diller , kutsal metinler Japonca , Japonca , Hanja , Korece , Vietnamca |
A000 | A48F | Taze Dağların hece yi | UA000 | bkz. hece yi |
A490 | A4CF | Yi tuşları | UA490 | bkz. hece yi |
A4D0 | A4FF | lisu | UA4D0 | bkz. Lisu , Alfabe Fraser (tr) |
A500 | A63F | vai | UA500 | bkz. Syllabaire vaï |
A640 | A69F | Genişletilmiş Kiril B | UA640 | bkz. Kiril alfabesi |
A6A0 | A6FF | Bamun | UA6A0 | Bamoun senaryosuna bakın |
A700 | A71F | Ton harflerinin değiştirilmesi | UA700 | bkz . Tonlarda Dil , Çince Diller |
A720 | A7FF | Latince Genişletilmiş D | UA720 | bkz Latin Alfabesi |
A800 | A82F | Sylotî nâgrî | UA800 | bkz. Sylotî nâgrî (tr) |
A830 | A83F | Hint ortak dijital şekiller | UA830 | Hindistan'ı görmek |
A840 | A87F | phags-pa | UA840 | phagpa komut dosyasına bakın |
A880 | A8DF | saurachtra | UA880 | bkz Alfabe Saurashtra (tr) |
A8E0 | A8FF | Genişletilmiş devanāgarī | UA8E0 | bkz. Devanagarî |
A900 | A92F | kaya li | UA900 | bkz Alfabe Kayah Li |
A930 | A95F | rejang | UA930 | bkz. rejang yazmak |
A960 | A97F | Jamos Hangul Genişletilmiş A | UA960 | bkz Hangûl , Sinogramme , Korece |
A980 | A9DF | Cava | UA980 | Cava komut dosyasına bakın |
A9E0 | A9FF | Birmanya uzatılmış B | UA9E0 | bkz Birmanya , Birman alfabesi |
AA00 | AA5F | Çam | UAA00 | Cham'ı görmek |
AA60 | AA7F | Birmanya uzatılmış A | UAA60 | bkz Birmanya , Birman alfabesi |
AA80 | AADF | Tay viet | UAA80 | bkz Alfabe taï viêt , Tay baraj , Tay don , Tay Song ( fr ) |
AAE0 | AAFF | Meitei mayek uzatıldı | BAE0 | bkz. Meitei , Meitei yazısı |
AB00 | AB2F | Etiyopya Genişletilmiş A | UAB00 | bkz. Alphasyllabaire geez |
AB30 | AB6F | Latince Genişletilmiş E | UAB30 | bkz Latin alfabesi , Teuthonista , Alfabe d'Ascoli , Alfabe Rousselot-Gilliéron |
AB70 | ABBF | Cherokee takviyesi | UAB70 | bkz. Cherokee Müfredatı |
ABC0 | ABFF | meitei mayek | UABC0 | bkz. Meitei , Meitei yazısı |
AC00 | D7AF | Hangul heceleri ( Bölüm 1 ) ( Bölüm 2 ) ( Bölüm 3 ) ( Bölüm 4 ) |
UAC00 | bkz Hangûl , Sinogramme , Korece |
D7B0 | D7FF | Jamos Hangul Genişletilmiş B | U27B0 | bkz Hangûl , Sinogramme , Korece |
D800 | DBFF | Yüksek dolaylı yarım bölge | UD800 | bkz. Dolaylılığın üst yarım bölgesi |
DC00 | DFFF | Düşük dolaylı yarım bölge | UDC00 | bkz. Düşük dolaylı yarım bölge |
E000 | F8FF | Özel kullanım alanı ( Bölüm 1 ) ( Bölüm 2 ) |
UE000 | Resmi olarak tanımlanmış bir özellik yok |
F900 | FAFF | CJC Uyumluluk İdeogramları | UF900 | bkz. Çince, Japonca ve Korece , Sinogramme , Çince yazı , Çince diller , kutsal metinler Japonca , Japonca , Hanja , Korece |
FB00 | FB4F | Alfabetik sunum formları | UFB00 | bkz Latin alfabesi , Alfabe İbranice , Ermeni Alfabesi |
FB50 | FDFF | Arapça sunum formları A ( Bölüm 1 ) ( Bölüm 2 ) ( Bölüm 3 ) |
UFB50 | Arap alfabesine bakın |
FE00 | FE0F | Varyant seçiciler | UFE00 | bkz. Seçiciler varyantı (içinde) |
FE10 | FE1F | Dikey şekiller | UFE10 | bkz. Noktalama İşareti , GB 18030 |
FE20 | FE2F | Kombinatoryal yarım işaretler | UFE20 | bkz. Aksan |
FE30 | FE4F | CJC Uyumluluk Formları | UFE30 | bkz. Çince, Japonca ve Korece , Sinogramme , Çince yazı , Çince diller , kutsal metinler Japonca , Japonca , Hanja , Korece |
FE50 | FE6F | Şekilde küçük farklılıklar | UFE50 | bkz. Noktalama İşaretleri , GBK , GB 2312 , CNS 11643 (tr) |
FE70 | FEFF | Arapça sunum formları B | UFE70 | Arap alfabesine bakın |
FF00 | FFEF | Yarım ve tam genişlikte şekiller | UFF00 | bkz yarım ve tam genişlikli şekilleri , Çince, Japonca ve Korece , Sinogramme , Çince yazma , Çin dilleri , kutsal Japonca , Japonca , Hanja'ya , Korece , ASCII , Latin alfabesinin |
FFF0 | FFFF | Özel karakterler | UFFF0 | Özel karakterlere bakın |
Kod noktaları | Resmi blok adı | Resmi PDF | Daha fazlasını bul | |
---|---|---|---|---|
Başlangıç | Son | |||
10.000 | 1007F | Doğrusal hece B | U10000 | bkz. Doğrusal B |
10080 | 100FF | Doğrusal B ideogramları | U10080 | bkz. Doğrusal B |
10100 | 1013F | Ege numaraları | U10100 | bkz. Numbers iEgean (tr) |
10140 | 1018F | Antik Yunan Sayıları | U10140 | bkz. Antik Yunan Sayıları |
10190 | 101CF | Antik semboller | U10190 | bkz. Birimler Roman , Roma para birimi |
101D0 | 101FF | Phaistos Diski | U101D0 | bkz. Phaistos Diski |
10200 | 1027F | Rezerv | - | - |
10280 | 1029F | Likya | U10280 | Likya görmek |
102A0 | 102DF | Karien | U102A0 | bkz. Karya Alfabesi |
102E0 | 102FF | Kıpti epact numaraları | U102E0 | bkz. Kıpti |
10300 | 1032F | italik alfabe | U10300 | bkz Eski İtalik Alfabe |
10330 | 1034F | Gotik | U10330 | gotik görmek |
10350 | 1037F | eski permiyen | U10350 | bkz Eski Permiyen alfabesi |
10380 | 1039F | Ugarit | U10380 | bkz. Ugarit alfabesi |
103A0 | 103FF | eski farsça | U103A0 | bkz Eski Farsça |
10400 | 1044F | çöl | U10400 | bkz Alfabe çölü |
10450 | 1047F | traşlı | U10450 | bkz. Shavian alfabesi |
10480 | 104AF | Osmaniye | U10480 | bkz. Osmanya Alfabesi |
104B0 | 104FF | Osage | U104B0 | bkz. Osage |
10500 | 1052F | Elbasan | U10500 | Elbasan yazısına bakın |
10530 | 1056F | Agbanian | U10530 | bkz. Agban alfabesi |
10570 | 105FF | Rezerv | - | - |
10600 | 1077F | Doğrusal A | U10600 | bkz. Doğrusal A |
10780 | 107FF | Rezerv | - | - |
10800 | 1083F | Kıbrıslı hece | U10800 | bkz Kıbrıs hece |
10840 | 1085F | İmparatorluk Aramice | U10840 | bkz Aramice Alfabesi |
10860 | 1087F | Palmira alfabesi | U10860 | bkz Palmyrenian Alfabesi |
10880 | 108AF | Nebati | U10880 | bkz Nebati alfabesi |
108B0 | 108DF | Rezerv | - | - |
108E0 | 108FF | Hatrenian | U108E0 | bkz Hatrénien Alfabesi ( fr ) |
10900 | 1091F | Fenike | U10900 | bkz Fenike alfabesi |
10920 | 1093F | Lidya | U10920 | bkz. Lidya Alfabesi |
10940 | 1097F | Rezerv | - | - |
10980 | 1099F | Meroitik hiyeroglifler | U10980 | bkz Meroitik komut dosyası |
109A0 | 109FF | Meroitik El Yazısı | U109A0 | bkz Meroitik komut dosyası |
10A00 | 10A5F | Kharochthî | U10A00 | bkz Alfabe kharoshthi |
10A60 | 10A7F | Güney arapça | U10A60 | bkz Güney Arap Alfabesi |
10A80 | 10A9F | kuzey arapça | U10A80 | bkz Eski Arap kuzeyi (tr) |
10AA0 | 10ABF | Rezerv | - | - |
10AC0 | 10AFF | Maniheist | U10AC0 | bkz. Maniheist Alfabesi (tr) |
10B00 | 10B3F | avest | U10B00 | bkz. Avestic Alfabesi (tr) |
10B40 | 10B5F | Part yazıtları | U10B40 | Part yazıtlarına bakın (tr) |
10B60 | 10B7F | Pehlevi yazıtları | U10B60 | pehlevi yazısına bakın |
10B80 | 10BAF | Zebur Pehlevi | U10B80 | Pehlevi kutsal kitabına bakın , Zebur |
10BB0 | 10BFF | Rezerv | - | - |
10C00 | 10C4F | Orhun | U10C00 | bkz. Orhon Alfabesi |
10C50 | 10C7F | Rezerv | - | - |
10C80 | 10CFF | eski macarca | U10C80 | bkz Macar Runes |
10D00 | 10E5F | Rezerv | - | - |
10E60 | 10E7F | Rumi dijital semboller | U10E60 | bkz . Fes , Fez Figürleri |
10E80 | 10FDF | Rezerv | - | - |
10FE0 | 10FFF | Elymaic | U10FE0 | bkz. Élymaïque (tr) |
11000 | 1107F | Brahman | U11000 | Brahmi'yi görmek |
11080 | 110CF | Khaithi | U11080 | bkz Khaithi |
110D0 | 110FF | sora someng | U110D0 | bkz. Alfabe sora sompeng (tr) |
11100 | 1114F | çakma | U11100 | bkz. Ojhapath |
11150 | 1117F | Mahajanî | U11150 | bkz. Mahâjanî (in) |
11180 | 111DF | Çarada | U11180 | bkz. alfasyllabary sharda |
111E0 | 111FF | Singhalese arkaik sayılar | U111E0 | bkz Singhalese |
11200 | 1124F | Khojki | U11200 | bkz. Khojki (tr) |
11250 | 1127F | Rezerv | - | - |
11280 | 112AF | çok dilli | U11280 | bkz. Multani Alfabesi (tr) |
112B0 | 112FF | Hudabadi | U112B0 | bkz. Khudabadi Yazma (tr) |
11300 | 1137F | Grantha | U11300 | Grantha'yı görmek |
11380 | 113FF | Rezerv | - | - |
11400 | 1147F | Newa | U11400 | bkz. Alfabe Newa (tr) |
11480 | 114DF | Tirhuta | U11480 | bkz. Tirhuta |
114E0 | 1157F | Rezerv | - | - |
11580 | 115FF | Siddham | U11580 | bkz. alfasyllabary siddham |
11600 | 1165F | mod | U11600 | bkz. Modi Alfa hecesi |
11660 | 1167F | Moğol ek | U11660 | Moğolca görmek |
11680 | 116CF | takri | U11680 | bkz Alfabe Takri (tr) |
116D0 | 116FF | Rezerv | - | - |
11700 | 1173F | Ahom | U11700 | bkz. Alphasyllabaire âhom |
11740 | 1189F | Rezerv | - | - |
118A0 | 118FF | Warang şehri | U118A0 | bkz. Warang Citi (tr) |
11900 | 11999 | Rezerv | - | - |
119A0 | 119FF | nandinâgarî | U119A0 | bkz. Nandinagari (tr) |
11A00 | 11A4F | İkinci Dereceden Zanabazar | U11A00 | bkz Zanabazar , Moğol |
11A50 | 11AAF | soyombo | U11A50 | soyombo komut dosyasına bakın |
11AB0 | 11ABF | Rezerv | - | - |
11AC0 | 11AFF | Paou chin haou | U11AC0 | bkz. Yazma Paou chin haou (tr) |
11B00 | 11BFF | Rezerv | - | - |
11C00 | 11C6F | Bhaiksuki | U11C00 | bkz. Alfabe Bhaiksuki (tr) |
11C70 | 11CBF | Marchen | U11C70 | bakınız Zhang-Zhung |
11CC0 | 11CFF | Rezerv | - | - |
11D00 | 11D5F | masaram gondi | U11D00 | bkz. Masaram Gondi (tr) , Gondi |
11D60 | 11FBF | Rezerv | - | - |
11FC0 | 11FFF | Tamilce ek | U11FC0 | Tamilce görmek |
12000 | 123FF | çivi yazısı | U12000 | bkz. çivi yazısı |
12400 | 1247F | Noktalama işaretleri ve çivi yazısı numaraları | U12400 | bkz. çivi yazısı |
12480 | 1254F | Arkaik hanedanların çivi yazısı | U12480 | bkz. çivi yazısı |
12550 | 12FFF | Rezerv | - | - |
13000 | 1342F | Mısır hiyeroglifleri | U13000 | bkz Mısır hiyeroglif komut |
13430 | 1343F | Mısır hiyeroglif biçimlendirme kontrolleri | U13430 | bkz Mısır hiyeroglif komut |
13440 | 143FF |
Ayrılmış (Bölüm 1) (Bölüm 2) |
- | - |
14400 | 1467F | Anadolu hiyeroglifleri | U14400 | bkz. Anadolu Hiyeroglifleri |
14680 | 167FF |
Ayrılmış (Bölüm 1) (Bölüm 2) (Bölüm 3) |
- | - |
16800 | 16A3F | Bamoun takviyesi | U16800 | Bamoun senaryosuna bakın |
16A40 | 16A6F | Bay | U16A40 | bkz. Language Mr (tr) |
16A70 | 16ACF | Rezerv | - | - |
16AD0 | 16AFF | bas | U16AD0 | bkz Alfabe basa |
16B00 | 16B8F | pahawh hmong | U16B00 | bkz. Pahawh hmong |
16B90 | 16EFF | Rezerv | - | - |
16F00 | 16F9F | Miao | U16F00 | bkz. Yazma Miao (tr) |
16FA0 | 16FDF | Rezerv | - | - |
16FE0 | 16FFF | İdeografik semboller ve noktalama işaretleri | U16FE0 | bkz. İdeogram , Tangut yazısı , Nüshu |
17000 | 187FF | Tangoute (Bölüm 1) (Bölüm 2) |
U17000 | bkz. Tangoute yazımı |
18800 | 18AFF | Tangut bileşenleri | U18800 | bkz. Tangoute yazımı |
18B00 | 1AFFF |
Ayrılmış (Bölüm 1) (Bölüm 2) (Bölüm 3) |
- | - |
1B000 | 1B0FF | Kana takviyesi | U1B00 | bkz. Japonca , Japonca Yazılar , Kana |
1B100 | 1B12F | Genişletilmiş Kana A | U1B100 | bkz. Japonca , Japonca Yazılar , Kana , Hentaigana |
1B130 | 1B16F | Uzantı küçük kana | U1B130 | bkz. Japonca , Japonca Yazılar , Kana , Hentaigana |
1B170 | 1B2FF | Nüshu | U1B170 | bkz Nüshu |
1B300 | 1BBFF | Rezerv | - | - |
1BC00 | 1BC9F | yinelenen steno | U1BC00 | bkz Stenografi , Émile Duployé |
1BCA0 | 1CFFF |
Ayrılmış (Bölüm 1) (Bölüm 2) |
- | - |
1D000 | 1D0FF | Bizans müzik sembolleri | U1D000 | bkz Bizans Müziği |
1D100 | 1D1FF | Batı müzik sembolleri | U1D100 | Batı müziğine bakın |
1D200 | 1D24F | Antik Yunan müzik notası | U1D200 | bkz. Antik Yunan Müziği |
1D250 | 1D2FF | Rezerv | - | - |
1D300 | 1D35F | Yüce Gizem Klasik Semboller | U1D300 | bkz. Tai Xuan Jing (tr) |
1D360 | 1D37F | Çin çubuk figürleri | U1D360 | bkz. Çubuk sayımı |
1D380 | 1D3FF | Rezerv | - | - |
1D400 | 1D7FF | Alfanümerik matematiksel semboller | U1D400 | bkz. Matematiksel sembol , Latin alfabesi , Arap rakamları |
1D800 | 1DAAF | Sutton'ın İşaretlerini Yazmak | U1D800 | bkz. Yazı işaretleri |
1DAB0 | 1DFFF | Rezerv | - | - |
1E000 | 1E02F | Glagolitik ek | U1E000 | bkz Glagolitik Alfabe |
1E030 | 1E0FF | Rezerv | - | - |
1E100 | 1E14F | Nyiakeng puachue hmong | U1E800 | bkz. Nyiakeng puachue hmong (tr) |
1E150 | 1E2DF | Rezerv | - | - |
1E2C0 | 1E2FF | Wancho | U1E2C0 | Wancho'yu görmek |
1E300 | 1E7FF | Rezerv | - | - |
1E800 | 1E8DF | kikakui yalvarıyor | U1E800 | Kikakui'yi görmek |
1E8E0 | 1E8FF | Rezerv | - | - |
1E900 | 1E95F | Adlam | U1E900 | bkz Alfabe adlam |
1E960 | 1ECFF | Rezerv | - | - |
1ED00 | 1ED4F | Syaq rakamları | U1ED00 | |
1ED50 | 1ECFF | Rezerv | - | - |
1EE00 | 1EEFF | Arap matematiksel alfabe sembolleri | U1EE00 | bkz. Arapça Matematik |
1EF00 | 1EFFF | Rezerv | - | - |
1F000 | 1F02F | Mahjong parçaları | U1F000 | Mah-jong'u görmek |
1F030 | 1F09F | Domino | U1F030 | Dominos'u görmek |
1F0A0 | 1F0FF | Oyun kağıtları | U1F0A0 | bkz. iskambil kartları |
1F100 | 1F1FF | Daire içine alınmış alfasayısal ek | U1F100 | bkz ARIB STD-B24 (tr) |
1F200 | 1F2FF | Daire içine alınmış ideografik ek | U1F200 | bkz ARIB STD-B24 (tr) |
1F300 | 1F5FF | Çeşitli semboller ve piktogramlar | U1F300 | bkz. Piktogram , Emoji |
1F600 | 1F64F | ifadeler | U1F600 | bkz. İfade , Emoji |
1F650 | 1F67F | süs kaseti | U1F650 | bkz. Wingdings |
1F680 | 1F6FF | Taşıma ve kartografik semboller | U1F680 | bkz. Ulaşım , Haritacılık , Emoji |
1F700 | 1F77F | simya sembolleri | U1F700 | bkz. simya |
1F780 | 1F7FF | Genişletilmiş geometrik şekiller | U1F780 | bkz. Geometrik şekil |
1F800 | 1F8FF | Oklar ek C | U1F800 | bkz. ok |
1F900 | 1F9FF | Ek semboller ve piktogramlar | U1F900 | bkz. Piktogram , İfade , Emoji |
1FA00 | 1FA6F | Rezerv | - | - |
1FA70 | 1FAFF | Genişletilmiş semboller ve piktogramlar-A | U1FA70 | bkz. Piktogram , Emoji |
1FB00 | 1FFFF | Rezerv | - | - |
Kod noktaları | Resmi blok adı | Daha fazlasını bul | |
---|---|---|---|
Başlangıç | Son | ||
20.000 | 2A6DF | CJC Birleşik İdeogramlar Ek B ( Bölüm 1 ) ( Bölüm 2 ) ( Bölüm 3 ) ( Bölüm 4 ) ( Bölüm 5 ) ( Bölüm 6 ) ( Bölüm 7 ) ( Bölüm 8 ) ( Bölüm 9 ) ( Bölüm 10 ) ( Bölüm 11 ) |
bkz. Çince, Japonca ve Korece |
2A6E0 | 2A6FF | Rezerv | - |
2A700 | 2B73F | CJC Birleşik İdeogramlarına C Eki ( Kısım 1 ) ( Kısım 2 ) |
bkz. Çince, Japonca ve Korece |
2B740 | 2B81F | Birleşik CJC ideogramlarına D eki | bkz. Çince, Japonca ve Korece |
2B820 | 2CEAF | Birleşik CJC ideogramlarına Ek E | bkz. Çince, Japonca ve Korece |
2CEB0 | 2EBEF | Birleşik CJC ideogramlarına ek F | bkz. Çince, Japonca ve Korece |
2EBF0 | 2F7FF | Rezerv | - |
2F800 | 2FA1F | CJC Uyumluluk İdeogramları Eki | bkz. Çince, Japonca ve Korece |
2FA20 | 2FFFF | Rezerv | - |
Kod noktaları | Resmi blok adı | Daha fazlasını bul | |
---|---|---|---|
Başlangıç | Son | ||
30.000 | 3FFFF |
Ayrılmıştır ( Bölüm 1 ) ( Bölüm 2 ) ( Bölüm 3 ) ( Bölüm 4 ) ( Bölüm 5 ) ( Bölüm 6 ) ( Bölüm 7 ) ( Bölüm 8 ) ( Bölüm 9 ) ( Bölüm 10 ) ( Bölüm 11 ) ( Bölüm 12 ) ( Bölüm 13 ) ( Bölüm 14 ) ( Bölüm 15 ) ( Bölüm 16 ) ( Bölüm 17 ) |
Plan 3 |
40.000 | 4FFFF |
Ayrılmıştır ( Bölüm 1 ) ( Bölüm 2 ) ( Bölüm 3 ) ( Bölüm 4 ) ( Bölüm 5 ) ( Bölüm 6 ) ( Bölüm 7 ) ( Bölüm 8 ) ( Bölüm 9 ) ( Bölüm 10 ) ( Bölüm 11 ) ( Bölüm 12 ) ( Bölüm 13 ) ( Bölüm 14 ) ( Bölüm 15 ) ( Bölüm 16 ) ( Bölüm 17 ) |
4. Plan |
50.000 | 5FFFF |
Ayrılmıştır ( Bölüm 1 ) ( Bölüm 2 ) ( Bölüm 3 ) ( Bölüm 4 ) ( Bölüm 5 ) ( Bölüm 6 ) ( Bölüm 7 ) ( Bölüm 8 ) ( Bölüm 9 ) ( Bölüm 10 ) ( Bölüm 11 ) ( Bölüm 12 ) ( Bölüm 13 ) ( Bölüm 14 ) ( Bölüm 15 ) ( Bölüm 16 ) ( Bölüm 17 ) |
Plan 5 |
60.000 | 6FFFF |
Ayrılmıştır ( Bölüm 1 ) ( Bölüm 2 ) ( Bölüm 3 ) ( Bölüm 4 ) ( Bölüm 5 ) ( Bölüm 6 ) ( Bölüm 7 ) ( Bölüm 8 ) ( Bölüm 9 ) ( Bölüm 10 ) ( Bölüm 11 ) ( Bölüm 12 ) ( Bölüm 13 ) ( Bölüm 14 ) ( Bölüm 15 ) ( Bölüm 16 ) ( Bölüm 17 ) |
Plan 6 |
70.000 | 7FFFF |
Ayrılmıştır ( Bölüm 1 ) ( Bölüm 2 ) ( Bölüm 3 ) ( Bölüm 4 ) ( Bölüm 5 ) ( Bölüm 6 ) ( Bölüm 7 ) ( Bölüm 8 ) ( Bölüm 9 ) ( Bölüm 10 ) ( Bölüm 11 ) ( Bölüm 12 ) ( Bölüm 13 ) ( Bölüm 14 ) ( Bölüm 15 ) ( Bölüm 16 ) ( Bölüm 17 ) |
Plan 7 |
80.000 | 8FFFF |
Ayrılmıştır ( Bölüm 1 ) ( Bölüm 2 ) ( Bölüm 3 ) ( Bölüm 4 ) ( Bölüm 5 ) ( Bölüm 6 ) ( Bölüm 7 ) ( Bölüm 8 ) ( Bölüm 9 ) ( Bölüm 10 ) ( Bölüm 11 ) ( Bölüm 12 ) ( Bölüm 13 ) ( Bölüm 14 ) ( Bölüm 15 ) ( Bölüm 16 ) ( Bölüm 17 ) |
Plan 8 |
90.000 | 9FFFF |
Ayrılmıştır ( Bölüm 1 ) ( Bölüm 2 ) ( Bölüm 3 ) ( Bölüm 4 ) ( Bölüm 5 ) ( Bölüm 6 ) ( Bölüm 7 ) ( Bölüm 8 ) ( Bölüm 9 ) ( Bölüm 10 ) ( Bölüm 11 ) ( Bölüm 12 ) ( Bölüm 13 ) ( Bölüm 14 ) ( Bölüm 15 ) ( Bölüm 16 ) ( Bölüm 17 ) |
Plan 9 |
A0000 | AFFFF |
Ayrılmıştır ( Bölüm 1 ) ( Bölüm 2 ) ( Bölüm 3 ) ( Bölüm 4 ) ( Bölüm 5 ) ( Bölüm 6 ) ( Bölüm 7 ) ( Bölüm 8 ) ( Bölüm 9 ) ( Bölüm 10 ) ( Bölüm 11 ) ( Bölüm 12 ) ( Bölüm 13 ) ( Bölüm 14 ) ( Bölüm 15 ) ( Bölüm 16 ) ( Bölüm 17 ) |
Plan 10 |
B0000 | en iyi |
Ayrılmıştır ( Bölüm 1 ) ( Bölüm 2 ) ( Bölüm 3 ) ( Bölüm 4 ) ( Bölüm 5 ) ( Bölüm 6 ) ( Bölüm 7 ) ( Bölüm 8 ) ( Bölüm 9 ) ( Bölüm 10 ) ( Bölüm 11 ) ( Bölüm 12 ) ( Bölüm 13 ) ( Bölüm 14 ) ( Bölüm 15 ) ( Bölüm 16 ) ( Bölüm 17 ) |
Plan 11 |
C0000 | CFFFF |
Ayrılmıştır ( Bölüm 1 ) ( Bölüm 2 ) ( Bölüm 3 ) ( Bölüm 4 ) ( Bölüm 5 ) ( Bölüm 6 ) ( Bölüm 7 ) ( Bölüm 8 ) ( Bölüm 9 ) ( Bölüm 10 ) ( Bölüm 11 ) ( Bölüm 12 ) ( Bölüm 13 ) ( Bölüm 14 ) ( Bölüm 15 ) ( Bölüm 16 ) ( Bölüm 17 ) |
Plan 12 |
D0000 | DFFFF |
Ayrılmıştır ( Bölüm 1 ) ( Bölüm 2 ) ( Bölüm 3 ) ( Bölüm 4 ) ( Bölüm 5 ) ( Bölüm 6 ) ( Bölüm 7 ) ( Bölüm 8 ) ( Bölüm 9 ) ( Bölüm 10 ) ( Bölüm 11 ) ( Bölüm 12 ) ( Bölüm 13 ) ( Bölüm 14 ) ( Bölüm 15 ) ( Bölüm 16 ) ( Bölüm 17 ) |
Plan 13 |
Kod noktaları | Resmi blok adı | Yorumlar | |
---|---|---|---|
Başlangıç | Son | ||
E0000 | E007F | Etiketler | |
E0080 | E00FF | Rezerv | - |
E0100 | E01EF | Varyant seçiciler eki | |
E01F0 | EFFFF |
Ayrılmıştır ( Bölüm 1 ) ( Bölüm 2 ) ( Bölüm 3 ) ( Bölüm 4 ) ( Bölüm 5 ) ( Bölüm 6 ) ( Bölüm 7 ) ( Bölüm 8 ) ( Bölüm 9 ) ( Bölüm 10 ) ( Bölüm 11 ) ( Bölüm 12 ) ( Bölüm 13 ) ( Bölüm 14 ) ( Bölüm 15 ) ( Bölüm 16 ) ( Bölüm 17 ) |
- |
Kod noktaları | Resmi blok adı | Resmi PDF | Yorumlar | |
---|---|---|---|---|
Başlangıç | Son | |||
F0000 | FFFF |
Özel kullanım için Ek Bölge A ( Bölüm 1 ) ( Bölüm 2 ) ( Bölüm 3 ) ( Bölüm 4 ) ( Bölüm 5 ) ( Bölüm 6 ) ( Bölüm 7 ) ( Bölüm 8 ) ( Bölüm 9 ) ( Bölüm 10 ) ( Bölüm 11 ) ( Bölüm 12 ) ( Bölüm 13 ) ( Bölüm 14 ) ( Bölüm 15 ) ( Bölüm 16 ) ( Bölüm 17 ) |
UF0000 | Resmi olarak tanımlanmış bir özellik yok |
100.000 | 10FFFF |
Özel kullanım için Ek Bölge B ( Bölüm 1 ) ( Bölüm 2 ) ( Bölüm 3 ) ( Bölüm 4 ) ( Bölüm 5 ) ( Bölüm 6 ) ( Bölüm 7 ) ( Bölüm 8 ) ( Bölüm 9 ) ( Bölüm 10 ) ( Bölüm 11 ) ( Bölüm 12 ) ( Bölüm 13 ) ( Bölüm 14 ) ( Bölüm 15 ) ( Bölüm 16 ) ( Bölüm 17 ) |
U100000 | Resmi olarak tanımlanmış bir özellik yok |
Özel kullanım alanları , bir fonttan diğerine aynı gözleri içermez ve bu nedenle heterojen sistemler arasında alışverişe yönelik metinleri kodlamaktan kaçınılmalıdır. Ancak, bu özel kullanım kodu noktaları geçerlidir ve kullanımlarıyla ilgili özel bir karşılıklı anlaşma varsa farklı sistemler arasında da dahil olmak üzere Unicode ve ISO/IEC 10646 standartlarına uygun herhangi bir otomatik işlemede kullanılabilir.
İki taraf arasında bir anlaşma olmaması durumunda, bu karakterleri kullanan sistemler, tabi oldukları işleme düzgün çalışmadığından veya güvenlik sorunlarına neden olduğundan, bunları içeren metinleri reddedebilir; bu karakterlere özel bir işlev atfetmeyen diğer sistemler ise onları geçerli olarak kabul etmeli ve nasıl gösterileceğini bilmeseler bile grafik sembollermiş gibi metinlerin ayrılmaz bir parçası olarak tutmalıdır. onları doğru.
Karakter olmayanlar geçerli kod noktalarıdır, ancak standart karakterlere atanmazlar (ve asla atanmayacaklardır). Sistemler arasında iletilen metinlerin (aynı olsalar bile) kodlanmasında kullanımları yasaktır, çünkü bunları standartlaştırılmış evrensel dönüşüm biçimleriyle (UTF-8, UTF-16, UTF-32) karşılık gelen kodlamayla uyumlu hale getirmek imkansızdır ve Unicode ve ISO / IEC 10646 ile uyumlu diğer standartlaştırılmış kodlamalar ( BOCU -1, SCSU , Çin standardı GB 18030'un farklı sürümleri , vb. ). Bununla birlikte, bazı sistemler bunları yerel olarak oluşturur ve kullanır, ancak diğer standartlaştırılmış karakterleri kullanarak kelime işlem algoritmalarının uygulanmasını kolaylaştırmayı amaçlayan kesinlikle dahili işleme için.
Bu sonuncu karakter olmayanlar arasında, yarım bölgeler (özel veya değil) için ayrılmış geçerli kod noktaları bulunur. Bu kod noktaları, bir karakteri kodlamak için ayrı ayrı kullanılamaz. Bunlar, yalnızca UTF-16 evrensel dönüşüm formu (ve karşılık gelen kodlama şemaları) için, iki kod noktasında (her biri 16 bitte) 16 tamamlayıcı düzlemden birinde geçerli kod noktalarını temsil etmek için kullanılırlar (belirli kod noktası kombinasyonları, geçerli karakterlere karşılık gelir). bu planlar, standart veya özel, diğer kombinasyonlar, bu tamamlayıcı planların karakter olmayanlarına tekabül edecekleri için geçerli bir karakteri temsil etmeyebilir ve bu nedenle standarda uygun metinlerde yasaklanmıştır).
Diğer boş alanlar (standartlaştırılmış bir adlandırılmış bloğa atanmamış veya mevcut adlandırılmış bloklarda serbest bırakılmış ve ayrılmış kod noktaları), gelecekteki Unicode ve ISO/IEC 10646 sürümlerinde kullanılmak üzere ayrılmıştır , ancak geçerlidir. Bu ayrılmış kod noktalarını içeren metinlerle ilgilenen herhangi bir sistem, bunları filtrelemeden kabul etmelidir. Unicode, sistemlerin uyumluluğunu (Unicode standardına uygun) korumak için varsayımsal karşılık gelen karakterler için varsayılan özellikleri tanımlar ve bunları içeren gelecekteki uyumlu metinlerle. Hiçbir uygun uygulama onlara özel bir karakter veya anlam atamamalıdır (özel alanlar bu kullanım içindir).