Abstrak
Penyandian Sumber, merupakan salah satu mekanisme yang digunakan untuk mengatasi berbagai keterbatasan kapasitas ruang baik untuk penyimpanan, maupun pengiriman informasi. Menurut Shannon, nilai rata-rata simbol biner per keluaran sumber dapat digunakan untuk mendekati entropi sumber asli. Efisiensi sumber sendiri dapat dihasilkan dari penyandian sumber tersebut.
A. Pendahuluan
Pengolahan informasi diperlukan untuk keamanan data, kemudahan dalam transmisi, pemanfaatan ruang yang terbatas, dan sebagainya. Diperlukan suatu cara untuk mengolah informasi agar muatan informasinya tidak hilang. Hilangnya muatan informasi, menyebabkan informasi tidak dapat diketahui maknanya.
Ilmu statistik digunakan untuk mencari nilai rerata muatan informasi (entropi) yang terkandung dalam suatu sumber pesan. Kandungan entropi tersebut dapat dimanfaatkan salah satunya sebagai penyandian sumber. Penyandian Sumber dilakukan sebagai salah satu cara untuk memanfaatkan kapasitas ruang yang terbatas.
B. Dasar Teori.
Pada Sumber informasi, terdapat nilai rerata muatan informasi yang dinyatakan dengan entropi (H). Teori informasi menggunakan istilah entropi sebagai suatu ukuran tentang berapa banyak suatu informasi disandikan di setiap pesan. Semakin tinggi nilai entropi dari suatu pesan, maka akan semakin banyak informasi yang dikandungnya.
Prinsip pemisahan Shannon menyatakan bahwa nilai rerata simbol-simbol biner per keluaran sumber dapat digunakan untuk mendekati entropi sumber. Penyandian Sumber dengan demikian diterapkan untuk mengurangi jumlah bit yang akan disimpan atau ditransmisikan. Dengan kata lain, efisiensi sumber dapat dihasilkan dari penyandian sumber.
Sumber informasi diskret terdiri atas sumber diskret dengan memori dan tanpa memori. Pada sumber diskret dengan memori kemunculan suatu simbol pada suatu pesan tidak saling bebas, melainkan tergantung pada simbol yang sudah muncul sebelumnya. Dengan demikian kombinasi simbol keluarannya mengikuti orde tertentu yang dapat dijelaskan melalui proses Markov. Markov orde-0 untuk simbol yang secara statistik berdiri sendiri, Markov orde-1 untuk kombinasi 2 simbol (digram), Markov orde-2 untuk kombinasi 3 simbol (trigram) dan orde-3 untuk kombinasi 4 simbol (tetragram). Perolehan entropi pada orde Markov yang semakin tinggi akan semakin menurun.
Penyandian Huffman merupakan sistem penyandian sumber berbasis entropi yang paling optimal. Hal ini disebabkan nilai entropi pada penyandian mendekati nilai entropi pada sumber.
C. Perancangan
Perancangan dimulai terlebih dahulu dengan melakukan proses statistik terhadap teks tertulis Bahasa Indonesia. Setelah diketahui frekuensi pemunculannya, maka dilakukan penghitungan terhadap entropinya. Hal ini dilakukan untuk masing-masing kombinasi 1, 2, 3 dan 4 karakter.
Setelah diperoleh nilai entropinya, maka kombinasi karakter disusun dengan dimulai pada jumlah yang terbesar. Dari urutan tersebut dilakukan proses penyandian menggunakan algoritma Huffman.
Alur penelitian adalah sebagai berikut:
D. Hasil dan Pembahasan
Diperoleh hasil bahwa pada kombinasi karakter yang semakin banyak (Orde Markov yang semakin tinggi), entropi yang dihasilkan akan semakin menurun. Dengan demikian muatan informasinya akan semakin tinggi. Hal ini berarti bahwa untuk kegayutan pada orde Markov yang semakin tinggi , hilangnya salah satu kombinasi karakter dapat menyebabkan hilangnya kandungan informasi yang dibawa oleh suatu berita.
Setelah dilakukan penyandian menggunakan algoritma Huffman statis, diperoleh hasil bahwa nilai entropi sumber asli cenderung mendekati nilai entropi pada sandi. Hal ini membuktikan bahwa penyandian Huffman merupakan penyandian berbasis entropi yang paling optimal.
Penerapan hasil penyandian berbasis entropi pada Bahasa Indonesia dilakukan terhadap teks dalam Bahasa Indonesia dan Bahasa Inggris yang terdiri atas 1000, 2500 dan 5400 karakter untuk mengetahui sejauh mana unjuk kerja dan perbandingan penyandian yang dihasilkan tersebut.
Dari perbandingan terhadap gambar 5, 6 dan 7 dapat terlihat bahwa sandi Huffman yang dihasilkan memiliki tingkat perbandingan antara berkas asli dan hasil penyandian yang sangat optimal bila diterapkan pada Bahasa Indonesia dan hal ini berbanding lurus terhadap kombinasi karakter yang semakin tinggi.
Berdasarkan pembahasan pada laporan, dapat disimpulkan hal-hal sebagai berikut:
- Rerata muatan informasi dalam teks tertulis dapat dimanfaatkan untuk melakukan penyandian, khususnya penyandian sumber berbasis entropi.
- Nilai entropi untuk karakter saling gayut akan semakin mengecil seiring dengan bertambahnya gayutan dan semakin kecil nilai entropi suatu karakter, semakin tinggi kandungan informasinya. Untuk karakter sebanyak sekitar 800.000 pada gayutan 1 hingga 4 diperoleh nilai entropi berturut-turut sebesar 4,012 bit/simbol; 3,6046 bit/simbol; 3,33547 bit/simbol dan 3,0588 bit/simbol.
- Penyandian Huffman statis merupakan penyandian sumber berbasis entropi yang memenuhi syarat-syarat sebagai sandi instan yang terawasandikan unik. Dan diperoleh nilai entropi hasil penyandian yang mendekati nilai entropi sumber berturut-turut dari kombinasi 1 hingga 4 karakter sebesar 4,015 bit/simbol; 3,649 bit/simbol; 3,3585 bit/simbol dan 3,0768 bit/simbol.
- Perbandingan hasil penyandian menunjukkan bahwa penyandian menggunakan kombinasi 4 karakter memiliki kompresi paling optimal dengan perbandingan jumlah bit hasil penyandian terhadap bit sumber sebesar 35 %.