Kọmputa, Mmemme
UTF-8 - agwa ngbanwe
Unicode akwado nta nile dị na agwa tent. The kasị mma n'ụdị nke ngbanwe Unicode agwa set bụ UTF-8 ngbanwe. Ọ na-akwado ndakọrịta na ascii, iguzogide distortion nke data, arụmọrụ na ala nke nhazi. Ma mbụ ihe mbụ.
nzuzo ụdị
Computers rụọ ọrụ bụghị nanị dị ka nọmba nkịtị mgbakọ na mwepụ ihe, nakwa dị ka n'ịgwa nke nkeji nke nchekwa na-ejizi ofu-size data - byte na 32-bit okwu. Ngbanwe ọkọlọtọ ga-nke a n'uche mgbe ịchọpụta otú chee ọnụ ọgụgụ nke ndị na-agụ akụkọ.
Na kọmputa usoro, integers echekwara na ebe nchekwa na mkpụrụ ndụ nke 8 ibe n'ibe (1 byte), 16 ma ọ bụ 32 ibe n'ibe. Onye ọ bụla ụdị na-akọwa Unicode ngbanwe, nke usoro nke ebe nchekwa na mkpụrụ ndụ bụ ihe integer kwekọrọ a akpan akpan akara. Na ọkọlọtọ e nwere atọ dị iche iche nke nzuzo Unicode odide 8, 16 na 32-bit blocks. Ntem, ha na-mara dị ka UTF-8, UTF-16 na UTF-32. Aha UTF anọchi Unicode Mgbanwe Format. Onye ọ bụla nke atọ iche nke ngbanwe n'aka hà onodi Unicode agwa nwere uru dị iche iche ngwa.
Data na izo ya ezo ike ga-eji na-anọchi anya ihe niile na-agụ akụkọ na Unicode ọkọlọtọ. N'ihi ya, ha n'ụzọ zuru ezu dakọtara na ngwọta maka a dịgasị iche iche, iji dị iche iche iche nke nzuzo. Onye ọ bụla nzuzo nwere ike unambiguously-converted n'ime ihe ọ bụla nke ndị ọzọ na abụọ na-enweghị ọnwụ nke data.
nenalozheniya ụkpụrụ
Onye ọ bụla nke forms Unicode ngbanwe mepụtara na-ele ndị na-abụghị ele mmadụ anya n'ihu yitewere. Ka ihe atụ, Windows-932 Nleta odide nke onye ma ọ bụ abụọ bytes nke koodu. The usoro ogologo na-adabere na nke mbụ byte, otú ahụ na-eduga byte ụkpụrụ na usoro nke abụọ-byte na otu byte disjoint. Otú ọ dị, uru nke a otu byte na trailing byte usoro nwere ike idako. Nke a pụtara ihe atụ na-agwa search D (code 44) nwere ike ịhụ na ọ na-ezighị na-abanye n'ime nke abụọ òkè nke usoro nke abụọ-byte agwa "D" (code 84 44). Iji chọpụta nke usoro ziri ezi, ihe omume kwesịrị n'ime akaụntụ gara aga bytes.
Ọnọdụ bụ mgbagwoju anya, ma ọ bụrụ na ndị na-eduga na trailing bytes egwuregwu. Nke a pụtara na iji wepụ ngwọju-anya ọbụla ga-a reverse Nchọgharị tupu eru mmalite nke ederede ma ọ bụ ihe pụrụ iche na koodu usoro. Nke a abụghị nanị adighi ike, ma na-adịghị na-echebe site na o kwere omume na njehie, ebe ọ bụ nanị otu ezighị ezi byte zuru ederede aghọwo unreadable.
Format akakabarede Unicode ezere nsogbu a n'ihi na uru nke na-eduga, trailing, na a otu unit nke nchekwa na-adịghị na otu ozi. Nke a ana achi achi na niile Unicode ịchọ na tụnyere, mgbe na-enye na-ezighị ezi na-arụpụta ruru ka ukem ini nke dị iche iche nke agwa koodu. The eziokwu na ndị a iche nke nzuzo na-edebe ụkpụrụ nenalozheniya, gosiri ọdịiche ha si ọzọ East Asian multi-byte kwado.
Akụkụ ọzọ nonintersection Unicode kwado bụ na onye ọ bụla agwa nwere a doro anya ókè. Nke a eliminates mkpa ka iṅomi ihe ebighị ebi nọmba nke gara aga nnọchianya. Nke a na atụmatụ na-akpọ mgbe ụfọdụ onwe-clocking ngbanwe. Distortion nke koodu nkeji ga-ewebata a distortion nke naanị otu agwa, na gburugburu odide ndị ka na-emebibeghị. Na 8-bit format akakabarede, ma ọ bụrụ na ndị pointer ihe na byte, malite na 10xxxxxx (na ọnụọgụ abụọ koodu) chọta mmalite nke ihe nnọchianya a chọrọ maka otu atọ reverse ikwu n'ụzọ.
anọgidesi
Unicode Consortium n'ụzọ zuru ezu na-akwado niile 3 forms of kwado. Ọ dị mkpa na-emegide ndị UTF-8 na Unicode, dị ka ihe niile akakabarede formats - dokwara nti forms of n'onwe nke Unicode agwa-ngbanwe ọkọlọtọ.
Byte-nghazi
Iji na-anọchi anya UTF-32 odide ga-mkpa a 32-bit code unit, nke-ekwekọ n'àgwà nke Unicode koodu. UTF-16 - onye abụọ 16-bit nkeji. A UTF-8 na-eji aka 4 bytes.
UTF-8 ngbanwe e mere na-dakọtara na byte na-abara ascii dabeere na usoro. Ọtụtụ n'ime ndị na-achị software na omume nke ọmụma technology maka a ogologo oge dabeere na ihe yiri nke a na a usoro nke bytes. Multiple ogbugba ndu na-adabere na mgbe niile nke ascii ngbanwe na-eji ma ezere pụrụ iche akara odide. A ụzọ dị mfe imeghari ka ọnọdụ Unicode nwere ike, site na iji 8-bit nzuzo maka na-anọchite anya Unicode odide, ọ bụla Ẹkot ascii agwa ma ọ bụ a akara agwa. Iji mezuo nke a, na ọ bụ UTF-8 ngbanwe.
agbanwe ogologo
UTF-8 - nzuzo nke agbanwe n'ogologo, esịnede 8-bit nchekwa nkeji, elu ibe n'ibe nke na-egosi na nke akụkụ nke usoro nke ọ bụla byte bụ nke. Otu nso nke ụkpụrụ kenyere mbụ mmewere nke koodu usoro, ọzọ - maka ọzọ. Nke a na-enye disjointness ngbanwe.
ascii
UTF-8 ngbanwe a n'ụzọ zuru ezu na-akwado ascii codes (0x00-0x7F). Nke a pụtara na Unicode odide U + 0000-U + 007F na-converted n'ime otu byte 0x00-0x7F UTF-8 ma si otú na-indistinguishable si ascii. Ọzọkwa, zere ngwọju-anya ọbụla, uru 0x00-0x7F adịghị eji ihe ọ bụla ọzọ na-alụbeghị di byte nnọchiteanya nke Unicode odide. Encode akara neideograficheskih ọzọ karịa ascii, eji a usoro nke abụọ bytes. Symbols mbio U + 0800-U + FFFF na-anọchi anya ya atọ bytes, na ndị ọzọ codes na ihe karịrị U + FFFF achọ anọ bytes.
nọ nke ngwa
UTF-8 ngbanwe na-emekarị e nyere mmasị na HTML protocol, na dị ka.
XML aghọwo mbụ ọkọlọtọ na niile na-akwado UTF-8 ngbanwe. Standards òtù nwekwara ike ikwu na ọ. Nkwado nsogbu na URL adreesị na si dị iche na ascii-odide, e doziri mgbe Constrium W3C na IETF engineering ìgwè ahụ bịara nkwekọrịta na nzuzo nke niile URL adreesị nanị UTF-8.
Ndakọrịta na ascii mmemmem mgbanwe ndị ọhụrụ software. Na UTF-8 na-arụ ọrụ kasị ederede editọ, gụnyere JEdit, Emacs, BBEdit, eklips, na "Notepad" ndị Windows arụ ọrụ usoro. Ọ dịghị ọzọ ụdị ngbanwe Unicode nwere ike ghara ịnya isi nke ndị dị otú a nkwado nke ngwá ọrụ.
nzuzo uru bụ na ọ mejupụtara a usoro nke bytes. Na UTF-8 eriri dị mfe na-arụ ọrụ na C na ndị ọzọ na mmemme asụsụ. Nke a bụ naanị ụdị ngbanwe, na iji na-adịghị achọ kpọọ bytes BOM ma ọ bụ ihe ngbanwe nkwupụta na XML.
onwe-mmekọrịta
Na gburugburu ebe na-eji 8-bit nnọchianya nke nhazi tụnyere ndị ọzọ multi-byte agwa tent, UTF-8 nwere ndị na-esonụ uru:
- The mbụ byte koodu usoro e dere ozi banyere ya ogologo. A na-enwekwu arụmọrụ nke kpọmkwem search.
- Simplified achọta mmalite nke akara dị ka na-amalite byte bụ nanị a ofu nso nke ụkpụrụ.
- Ọ dịghị nrutu byte ụkpụrụ.
Tụlee uru
UTF-8 ngbanwe bụ kọmpat. Ma mgbe eji maka ngbanwe East Asian odide (Chinese, Japanese, Korean, Chinese odide iji ihe ịrịba ama) eji 3-byte usoro. Ọzọkwa UTF-8 ngbanwe bụ ala karịa ụdị ndị ọzọ nke nzuzo nhazi ọsọ. A ọnụọgụ abụọ sorting edoghi arụpụta Otu N'ihi dị ka ọnụọgụ abụọ sorting Unicode.
The agwa ngbanwe atụmatụ
The agwa ngbanwe atụmatụ mejupụtara ngbanwe akara ụdị na usoro nke otu byte ebe koodu nkeji. Iji chọpụta ngbanwe atụmatụ Unicode ọkọlọtọ enye ojiji nke onye mbụ byte iji akara (BOM, Byte iji akara).
Mgbe BOM na UTF-8 feature mkpado na-ejedebeghị naanị site banyere ojiji nke iche nke nzuzo. Nsogbu na-ekpebi ndị endian UTF-8 nwere, dị ka ya ngbanwe unit size bụ otu byte. Iji BOM maka ụdị nzuzo na-abughi chọrọ ma ọ bụ na-atụ aro. BOM nwere ike ime na ederede na-converted si ọzọ codings iji byte iji akara ma ọ bụ mbinye aka maka UTF-8 ngbanwe. Bụ a usoro nke 3 bytes EF BB 16 16 BF 16.
Olee otú ịtọ UTF-8 ngbanwe
The HTML nzuzo UTF-8 arụnyere na ndị na-esonụ koodu:
isi
Meta http-equiv = "Content-Type" ọdịnaya = "ederede / html; charset = utf-8" ˃
Na PHP UTF-8 ngbanwe atọrọ iji nkụnye eji isi mee () ọrụ na mmalite nke faịlụ mgbe mwube mmepụta larịị uru njehie:
˂? Php
error_reporting (-1);
nkụnye eji isi mee ( "Content-Type: ederede / html; charset = utf-8 ');
Iji jikọọ a MySQL database UTF-8 ngbanwe atọrọ:
˂? Php
mysql_set_charset ( 'utf8');
The CSS-faịlụ ngbanwe bụ UTF-8 odide kpọmkwem dị ka ndị a:
@charset "utf-8";
Mgbe ị na-azọpụta faịlụ niile ụdị họrọ UTF-8 ngbanwe enweghị BOM, ma ọ bụghị na saịtị ga-arụ ọrụ. Iji mee nke a DreamWeave mkpa iji họrọ menu item "Mmegharị - Page Properties - Title / ngbanwe" ịgbanwe ngbanwe na UTF-8. Sochiri reloading na page, wepụ ego akara si "Jikọọ Unicode mbinye aka (BOM)» ma na-eme mgbanwe. Ọ bụrụ na ihe ọ bụla ederede na a page ma ọ bụ na a database ẹkenam ụdị ọzọ nke nzuzo, ọ dị mkpa na-re-na-abanye ma ọ bụ na re-encode. Mgbe ị na-arụ ọrụ na mgbe nile okwu, ijide n'aka na-eji mmegharị u.
I nwekwara ike ịzọpụta faịlụ na UTF-8 ngbanwe na "Notepad" nke Windows. Mgbe ahọpụta ndị menu item "File - Zọpụta Dị ka ..." na wụnye mkpa ụdị ngbanwe na chekwaa faịlụ na UTF-8.
Na a ederede nchịkọta akụkọ Notepad ++, ma ọ bụrụ na enịm ọzọ karịa UTF-8, site na menu item "Tọghatara UTF-8 enweghị BOM» ịgbanwe àgwà na ichekwa na UTF-8.
e nweghị ọzọ
Na onodu nke ụwa ọnụ, ebe ndọrọ ndọrọ ọchịchị na asụsụ ókè na denye ederede, agwa tent nwere obodo e ji mara, bụ nke obere uru. Unicode bụ otu agwa set na-akwado ndị niile localizations. A UTF-8 - otu ihe atụ nke kwesịrị ekwesị mmejuputa Unicode, nke bụ:
- Ọ na-akwado a dịgasị iche iche nke ngwá ọrụ, gụnyere ndakọrịta na ascii ngbanwe;
- Ọ bụ eguzogide ọgwụ distortion data;
- mfe ma dị irè na ọgwụgwọ;
- bụ ikpo okwu onwe ha.
Na biakwa obibia nke UTF-8 arụmụka banyere ihe ụdị ngbanwe ma ọ bụ agwa set dị mma, ọ na-aghọ isi.
Similar articles
Trending Now