ڪمپيوٽرپروگرامنگ

UTF-8 - اکري انگ اکر

يونيسيڊ تقريبن تمام موجوده حرفن واري سيٽ جي حمايت ڪري ٿو. يونيڪڊ اکرن وارو سيٽ لاء بهترين ڪوڊنگ UTF-8 انڪوڊنگ آهي. اهو ASCII، ڊيٽا جي ڪرپشن جي مزاحمت، ڪارڪردگي ۽ پروسيسنگ جي آسان سان مطابقت مهيا ڪري ٿو. پر هر شيء جي باري ۾.

ڪوڊنگ جا فارم

ڳڻپيوڪر رياضياتي شين جي حيثيت سان ڳڻپيوڪر نمبرن سان گڏ ناهي، پر مقرر ڪيل سائيٽن جي اسٽوريج ۽ پروسيسنگ يونٽس جي 32 يونٽس لفظن جي اسٽوريج ۽ گڏوگڏ جون گڏوگڏ. انڪوڊنگ معيار کي لازمي طور تي انگن جي نمائندگي ڪندڙ طريقن کي طئي ڪرڻ وقت اهو حساب ۾ وٺڻ گهرجي .

ڪمپيوٽر سسٽم ۾، انٽرنس 8 بٽ (1 بائيٽ)، 16 يا 32 بٽ جي ميموري ميموري ۾ محفوظ ٿيل آهن. هر يونيڪوڊ انڪوڊنگ فارم کي اهو بيان ڪري ٿو ته ميموري خانداني سيل جي ترتيب هڪ خاص ڪردار جي مطابق هڪ انٽيٽر کي نمائندگي ڪري ٿو. معيار يونيڪڊ جا اکر انڪوڊنگ جا ٽي مختلف صورتون مهيا ڪن ٿا: 8، 16 ۽ 32 بٽ بلاڪ. ان سان گڏ، اھي UTF-8، UTF-16 ۽ UTF-32 سڏيا ويا آهن. نالو UTF يونيڪوڊ تبديلين جي شڪل لاء بيٺل آهي. هر انڪوڊنگ جا ٽي فارم هڪ يونيڪڊ اکرن کي نمائندگي جي برابر هڪ برابر آهي، مختلف ايپليڪيشنن ۾ فائدا آهن.

انهن جا جزا استعمال ڪري يونيڪڊ معيار جي سڀني اکرن کي نمائندگي ڪرڻ لاء استعمال ڪري سگھجن ٿيون. ان ڪري، اهي ڪوڊنگ جي مختلف صورتون استعمال ڪرڻ جي مختلف سببن جي حل لاء مڪمل طور تي مطابقت آهن. هر ڪوڊنگ انفرادي طور تي ٻين ٻن مان ڪنهن جي ڊيٽا جي نقصان کان بغير تبديل ٿي سگهي ٿو.

بغير اصول جو اصول

هر يونيڪڊ ڪوڊنگ فارمن مان هر هڪ جزوي ايٽلانڊنگ جي غيرقانوني طور تي ٺاهيل آهي. مثال طور، Windows-932 کي ڪوڊ جي هڪ يا ٻه بيتن مان ڪردارن ٺاهي ٿو. ان جي ترتيب جي ڊيگهه پهرين بائيٽ تي منحصر آهي، تنهنڪري هڪڙو ٻيٽ جي قيمتن جي ٻن بيتن جي ترتيب ۽ هڪ اڪيلو بيتن ۾ شامل نه ٿيندو. بهرحال، واحد اڪيلو جو قدر ۽ تسلسل جي مڪمل بٿا به ساڳي ٿي سگهي ٿي. مثال طور، مثال طور، جيڪو ڪردار جي سڃاڻپ D (ڪوڊ 44)، توهان غلطيء سان اهو لفظ "D" جي جوڙجڪ جي ٻئين ڀاڱي جي ٻئي حصي ۾ داخل ڪري سگهو ٿا (ڪوڊ 84 44). انهي جو اندازو لڳائڻ صحيح آهي، اهو پروگرام لازمي آهي ته اڳئين بيتن کي رکڻ گهرجي.

صورت ۾ ماسٽر ۽ بند ٿيڻ واريون ميچ مچائي جي صورتحال وڌيڪ پيچيدگي ٿي ويندي. ان جو مطلب اهو آهي ته مونجهاري کي رد ڪرڻ لاء، هڪ تلاشي ڳولا جي شروعات کان وٺي يا ڪوڊ جي غير معمولي ترتيب تائين جاري هوندي. اهو صرف ناگزير آهي، پر ممڪن غلطي جي خلاف محفوظ نه آهي، ڇاڪاڻ ته هڪ خراب بٽ سڄي متن کي ناگزير بڻائڻ لاء ڪافي آهي.

انيڪڊڊ بدلي فارمٽ هن مسئلي کي بچائي ڇڏيو آهي ڇاڪاڻ ته معلومات اسٽوريج جي معروف، ٽرڻ ۽ واحد يونٽ جي قيمت ملندو نه آهي. انهي جي ڪري، سڀ يونيڪڊ ڪوڊنگ ڳولڻ ۽ مقابلي لاء مناسب آهن، ڪنهن به ڪردار جو ڪوڊ جي مختلف حصن جي لحاظ سان ڪڏهن به غلط نتيجو نه ڏنا. حقيقت اها آهي ته اهي انکوڊنگ فارم غير عزم جي اصول جي مطابق عمل ڪن ٿا انهن کي ٻين کثير الٽ اوڀر ايشيا جي ايجادنگ کان الڳ.

يونيڪڊ ڪوڊ جي غير چونڪ جو ٻيو انداز اهو آهي ته هر ڪردار کي واضح بيان ڪيل حدون آهن. اهو اڳوڻو ڪردارن جي اڻ ڄاڻايل نمبر کي اسڪين ڪرڻ جي ضرورت ختم ڪري ٿو. ھن خاصيتن جي چڪاس ڪڏهن ڪڏهن پاڻمرادو پاڻ سان گڏ آھي. ڪوڊ يونٽ جي هڪ يونٽ کي صرف هڪ شخصيت جي مساوات بنائي ويندي آهي، ۽ ڀرسان علامات برقرار رهي ٿي. 8 بٽ بٽڻ جي صورت ۾، جيڪڏهن پوسٽر 10xxxxxx سان (بائنري انڪوڊنگ) ۾ شروع ٿيڻ کان اشارو ڪري ٿي، هڪ کان ٽي رور ٽرانزشن کي اکرن جي شروعات لاء ڳولڻ ضروري آهي.

لاڳيتو

يونيسيڊ ڪنسوروريميم سڀني 3 انڪوڊنگ فارم کي مڪمل طور تي سهارو ڪري ٿو. اهو ضروري آهي ته UTF-8 ۽ يونيڪوڊ جي مخالفت نٿا ڪن، ڇو ته سڀني تبديلين جي شڪلين يونيڪڊ ڪارڪرد ڪوڊ انڪوڊنگ فارم جي برابر قانوني طريقا آهن.

بيٽ جي ترتيب

UTF-32 علامت جي نمائندگي ڪرڻ لاء، توهان ڪوڊ جو 32-بٽ يونٽ هجي جيڪو يونيسيڊ ڪوڊ سان ملي ٿو. UTF-16 - هڪ کان ٻه 16-بٽ يونٽ مان. ۽ UTF-8 4 بائڪ تائين استعمال ڪري ٿو.

UTF-8 جي انڪوڊنگ ASCII جي بنياد تي بائيٽ پر مبني سسٽم سان مطابقت لاء ٺهيل آهي. موجوده موجود سافٽ ويئر ۽ انفارميشن ٽيڪنالاجي طريقا گهڻو وقت سان علامت جي ترتيب جي صورت ۾ علامات جي نمائندگي تي منحصر آهن. ڪيتريون پروٽوڪولس ASCII انڪوڊنگ جي انشورنس تي منحصر آهن يا خاص ڪنٽرول جي اکرن کي استعمال يا استعمال ڪري ٿو. اهڙين حالتن ۾ يونيسيڊ کي ترتيب ڏيڻ لاء هڪ آسان رستو آهي، جيڪو يونيڪوڊ اکرن کي ڪنهن به ASCII ڪردار يا ڪنٽرول جي نمائندگي ڪرڻ لاء 8-bit انڪوڊنگ استعمال ڪندي آهي. هن لاء، UTF-8 انڪوڊنگ جو مقصد آهي.

ڪيفيت جي ڊيگهه

UTF-8 ھڪ متغير-ڊيگريڊ انڪوڊنگ آھي جنھن ۾ 8-bit معلومات اسٽوريج يونٽ شامل آھن جن جي اعلي آرڊر بٽ ظاھر آھي جنھن جي ھڪڙي ڀاڱي جو ھڪڙو تعلق آھي. ھڪڙي قدرن جي اھميتن کي آرٽيڪل جو پهريون عنصر، ۽ ٻين عناصر لاء ٻين لاء مخصوص آھي. اهو يقيني بڻائي انڪوڊنگ کي ختم ڪرڻ.

ASCII

UTF-8 انڪوڊنگ مڪمل طور تي ASCII ڪوڊس (0x00-0x7F) جي حمايت ڪندو آهي. هن جو مطلب آهي ته يونيڪڊ اکرنڊ U + 0000-U + 007F هڪ اڪيلو بٽ 0x00-0x7F UTF-8 ۾ تبديل ٿي ويا آهن ۽ اهڙي طرح اڻ ڄاڻايل ASCII کان. ان کان علاوه، مونجهاري کان بچڻ لاء، قدر 0x00-0x7F استعمال ڪيو ويو آهي يونيڪوڊ ڪردار جي نمائندگي جي ڪنهن بائيٽ ۾. ASCII کان سواء غير نظرياتي نموني کي ڪوڊ ڪرڻ لاء، ٻن بيتن جو هڪ ترتيب استعمال ٿيندو آهي. رينج جي علامات U + 0800-U + FFFF ٽي باڪس طرفان نمائندگي ڪيا ويا آهن، ۽ ايڇ ايف اي ايف ايف ايف کان وڌيڪ اضافو ماڻهن جي چار بائٽ جي ضرورت هوندي آهي.

اپليڪيشن جو دائرو

UTF-8 جي انڪوڊنگ عام طور تي HTML جي پروٽينڪول ۾ ۽ ترجيح ڏني وئي آهي.

ايڪس ايم ايل ايم ايف اي 8 انڪوڊنگ سپورٽ سان پهريون معيار بڻجي ويو. تنظيمون معيار ۾ شامل آهن، پڻ سفارش ڪن ٿا. URL جي ڄاڻايل ڄاڻ ۾ ASCII اکرن کانسواء ٻين جي حل جو مسئلو حل ڪيو ويو جڏهن W3C کنسوريميم ۽ آئي اي ايف ايف انجنيئرنگ گروپ خاص طور تي UTF-8 ۾ سڀني URL کي انڪوڊ ڪرڻ تي اتفاق ڪيو ويو آهي.

ASCII سان مطابقت نئين سافٽ ويئر جي منتقلي کي آسان بڻائي ٿي. UTF-8 سان، ونڊ آپريٽنگ سسٽم جو جيو ايڊٽ، ايميڪس، بي بي اي ايڊ، ايليپپس ۽ نوٽس پيپ شامل آهن. ڪو به يونيڪوڊ ڪوڊنگ جي ڪا ٻي شڪل اهڙي قسم جي مدد کان آگاهه ڪري سگھي ٿو.

انڪوڊنگ جو فائدو اهو آهي ته اهو بائٽس جي ترتيب تي مشتمل آهي. UTF-8 نالن سان، سي سي ۽ ٻين پروگرامنگ ٻولين ۾ ڪم ڪرڻ آسان ناهي. هي انڪوڊنگ جو هڪ واحد فارم آهي جنهن کي بي ايم بائونس جي حڪم جي نشان جي ڪا ضرورت ناهي يا اي ايم ايل ۾ انڪوڊنگ بيان جي ضرورت ناهي.

پاڻمرادو هم وقت

ماحول ۾ 8-bit ڪردار پروسيسنگ استعمال ڪندي، ٻين ملٽي باڪس انڪوڊنگ جي مقابلي ۾، UTF-8 هيٺ ڏنل فائدا آهن:

  • ڪوڊ جي ترتيب جي پهرين بائيٽ جي ڊيگهه بابت ڄاڻ هوندي آهي. اهو سڌي طريقي جي ڪارڪردگي وڌائي ٿو.
  • ڪردار جي شروعات کي ڳولڻ لاء اهو آسان آهي، ڇاڪاڻ ته شروعاتي بائيٽ جي قيمت جي حد تائين محدود آهي.
  • بائيٽ ويلن جي ڪابه چوڪ ناهي.

فوٽن جي مقابلي ۾

UTF-8 انڪوڊنگ ڪمپني آھي. پر جڏهن ايسٽ ايشيائي اکرن جي انگن اکرننگ (چيني، جاپاني، ڪورينڪ، چيني چيني اکرن کي استعمال ڪندي) لاء 3 بائيٽ تصويرون استعمال ٿينديون آهن. پروسيسنگ اسپيڊ پاران پڻ UTF-8-encoding انڊرنگ جي ٻين شڪلن کي کمتر آهي. بائنري ٽائپنگ جي جوڙجڪ ساڳئي نتيجن کي يونيسيڊ بائنري قسم وانگر پيدا ڪري ٿو.

اکر اکري انگ اکر

ڪارڪردگي انڪوڊنگ اسڪيم هڪ اکرن انڪوڊنگ فارم ۽ طريقن سان ڪوڊ يونٽ جي ترتيب سان ترتيب ڏيڻ واري طريقن تي مشتمل آهي. يونيڪڊڊ معياري پاران انڪوڊنگ اسڪرپٽ کي طئي ڪرڻ لاء، شروعاتي بائيٽ آرڊر جي نشان (BOM، بائيٽ امان نشان) مهيا ڪيل آهي.

جڏهن توهان UTF-8 ۾ BOM تي ڦيرايو ٿا، ليبل جي ڪارڪردگي صرف انڪوڊنگ فارم جي استعمال جي اشاري سان محدود آهي. UTF-8 ۾ بيتن جي ترتيب کي حل ڪرڻ جو مسئلو نه آهي، ڇاڪاڻ ته ان جي ڪوڊنگ يونٽ جي شڪل هڪ بائيٽ آهي. هن انڪوڊنگ فارم لاء BOM جو استعمال لازمي نه آهي ۽ نه سفارش ٿيل. BOM ۾ ٻين اکرننگن ۾ تبديل ڪيل متن ۾ ٿي سگھي ٿو جيڪو بائيٽ آرٽ مارڪ استعمال ڪندو، يا UTF-8 انڪوڊنگ دستخط لاء. اهو 3 بائبل اي ايف 16 بي بي 16 بي ايف 16 جي ترتيب آهي .

UTF-8 انڪوڊنگ کي ڪيئن سيٽيو

HTML ۾، UTF-8 انڪوڊنگ هيٺ ڏنل ڪوڊ استعمال ڪيو ويو آهي.

˂head˃

˂meta http-equiv = "مواد جي قسم" مواد = "ٽيڪسٽ / html؛ چارس = utf-8" ˃

پي پي ۾، UTF-8 انڪوڊنگ غلطي جي سطح جي سطح جي قيمت مقرر ڪرڻ کان پوء فائل جي شروعات ۾ مٿو () فني فنڪشن استعمال ڪندي بيان ڪئي وئي آهي:

˂؟ پي

غلطي_ رپورٽنگ (-1)؛

هيڊر ('مواد جي قسم: ٽيڪسٽ / html؛ چيٽس = utf-8')؛

MySQL ڊيٽابيس سان ڳنڍڻ لاء، UTF-8 جي انڪوڊنگ هيٺ ڏنل آهي:

˂؟ پي

Mysql_set_charset ('utf8')؛

سي ايس ڊي فائيلز ۾، UTF-8 اکر انڪوڊنگ ھيٺ ڏنل طور تي بيان ڪئي وئي آھي:

charset "utf-8"؛

جڏهن BOM هر قسم جي فائلن کي بچايو، UTF-8 انڪوڊنگ کي منتخب ڪيو ويندو، ٻي صورت ۾ اهو سائيٽ ڪم نه ڪندو. هن کي ڪرڻ لاء، DreamWeave پروگرام ۾، مينيو آئوٽ کي منتخب ڪريو "ترميميشن - صفحو پراڊڪٽس - عنوان / انڪوڊنگ"، UTF-8 ڪوڊ ڪوڊنگ تبديل ڪريو. وري توھان صفحي کي وري لوڊ ڪرڻ گھرجي، دٻي کي چيڪ ڪريو "يونيڪوڊ دستخط ڪريو (BOM)" ۽ تبديلين تي لاڳو ڪريو. جيڪڏهن صفحي تي ڪا به لکت يا ڊيٽابيس ۾ ڪوڊنگ جي هڪ ٻئي قسم جي داخل ڪئي وئي آهي، پوء اهو ٻيهر ٻيهر داخل يا ٻيهر انڪوڊ ڪيو وڃي. جڏهن باقاعده اظهار سان ڪم ڪندي، اهو توهان کي بهتر نموني استعمال ڪرڻ لازمي آهي.

توهان Windows ونڊ پيپر ۾ UTF-8 انڪوڊنگ ۾ فائل محفوظ ڪري سگهو ٿا. مينيو جي ايڪس شئي کي چونڊڻ کان پوء "فائل - محفوظ طور ..." ضروري انڪوڊنگ فارم مقرر ڪريو ۽ UTF-8 انڪوڊنگ ۾ فائل محفوظ ڪريو.

Notepad ++ ٽيڪسٽ ايسٽريشن ۾، جيڪڏهن انڪوڊنگ UTF-8 کان مختلف آهي، انڪوڊنگ کي تبديل ڪريو ۽ ان کي UTF-8 انڪوڊنگ مين مينيو جي ذريعي محفوظ ڪريو "BOM کان UTF-8 ۾ تبديل ڪريو".

اتي ڪي متبادل ناهي

گلوبلائزیشن جي تناظر ۾، سياسي ۽ ٻوليء جي حدون خاموش ٿي ويندا آهن، ڪردار کي مقرر ڪري ٿو ته مقامي جڳهن ۾ گهٽ مفيد ٿي ويا آهن. يونيڪوڊ واحد اکريٽ سيٽ آهي جيڪو سڀني مقامياتن کي سهارو ڏئي ٿو. ۽ UTF-8 درست يونيڪڊ جي صحيح عمل جو هڪ مثال آهي، جنهن ۾:

  • اوزار جي وسيع رينج جي سهولت شامل آهي، بشمول ASCII انڪوڊنگ سان مطابقت؛
  • اعداد و شمار جي ڪرپشن جي مزاحمت آھي.
  • پروسيسنگ ۾ آسان ۽ موثر؛
  • پليٽ فارم تي منحصر نه آهي.

UTF-8 جي اچڻ سان، انهي جي جوڙجڪ يا ڪردار جي جوڙجڪ بابت ڪيترا ئي بهتر مطلب بي معني ٿي چڪا آهن.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 sd.birmiss.com. Theme powered by WordPress.