Fayl Entropiyasi Nima?

Fayl Entropiyasi Nima?
Fayl Entropiyasi Nima?

Video: Fayl Entropiyasi Nima?

Video: Fayl Entropiyasi Nima?
Video: Fayl va papka tushunchasi | Informatika 5-sinf | 4-dars | ITOne Uz 2024, Aprel
Anonim

Har qanday kompyuter fayli baytlardan iborat. Bayt 0 dan 255 gacha qiymatlarni qabul qilishi mumkin. Axborot entropiyasi - bu faylda ma'lum baytlarning paydo bo'lish ehtimolligini ko'rsatadigan statistik parametr.

Fayl entropiyasi nima?
Fayl entropiyasi nima?

Entropiya darajasini gistogramma yordamida vizual ravishda baholashingiz mumkin - faylda bir xil baytlarni takrorlash ehtimolini taqsimlash. Fayl entropiyasidan biz faqat uning gistogrammasini ko'rib, qanday fayl turini oldimizda turganligini taxmin qilishimiz mumkin.

Namoyish uchun har xil turdagi uchta faylni olamiz va ularning gistogrammalarini taqqoslaymiz. Birinchisi matnli fayl (*. TXT) bo'lsin. Uning gistogrammasi rasmda ko'rsatilgan:

гистограмма=
гистограмма=

Matn fayli faqat matnni o'z ichiga oladi. Matnning har bir belgisi kodlash jadvaliga muvofiq ma'lum baytlar bilan kodlangan. Kodlash turlari juda ko'p bo'lsa-da, cheklangan miqdordagi alfasayısal belgilar mavjudligi aniq, odatda bu raqamlar soni 255 dan kam. Shuning uchun birinchi gistogrammada faqat ba'zi joylar egallab olingan va ba'zi baytlar umuman yo'q.

Quyidagi fayl PDF formatida bo'ladi:

гистограмма=
гистограмма=

Ushbu fayl barcha mumkin bo'lgan baytlarni o'z ichiga oladi, chunki PDF matnli fayllardan boshqacha kodlangan. Unda ko'plab xizmat ma'lumotlari saqlanadi: formatlash, shriftlar, rasmlar va hk. Ammo uning gistogrammasi shuni ko'rsatadiki, ba'zi baytlar taxminan teng ehtimollik bilan, boshqalari esa boshqalarnikiga qaraganda tez-tez uchraydi. Shunday qilib, gistogrammada bir nechta keskin portlashlar va umuman olganda u mavjud bo'lgan kenglikni egallagan bo'lsa-da, juda "yirtiq" ko'rinishga ega.

Va oxirgi fayl 7Z formatida ziplangan:

гистограмма=
гистограмма=

Ushbu gistogrammaning ikkita asosiy xususiyati bor: birinchidan, barcha baytlar ziplangan faylda katta yoki ozroq teng ehtimollik bilan (juda tekis yuqori chekka) topilgan, ikkinchidan, gistogramma ustida deyarli bo'sh joy yo'q, bu deyarli to'liq yo'qligini bildiradi bunday faylning ortiqcha bo'lishi. Demak, xulosa qilishimiz mumkinki, arxivator algoritmi fayllarning baytlarini maksimal darajada bir xil taqsimlanishiga erishish uchun ularni qandaydir maxsus tarzda "aralashtirib yuboradi".

Shunday qilib, fizikada bo'lgani kabi kompyuter fanida ham entropiya tizimdagi buzilish o'lchovidir, bu holda fayldagi baytlarning tarqalishidagi buzilish. Entropiya sizga faylning siqilish darajasi va bilvosita - uning turi to'g'risida hukm chiqarishga imkon beradi.

Tavsiya: