KOMPRESI AUDIO
Kompresi audio bertujuan untuk mengecilkan atau mengurangi ukuran file audio. Kompresi audio dilakukan pada saat pembuatan file audio dan saat distribusi file audio tersebut. Metode kompresi audio berupa :
  1. Lossy : File berupa Vorbis, MP3.
  2. Lossless : FLAC. Pengguna : audio engineer, audiophiles.

Kendala yang terjadi pada saat kompresi audio yaitu terletak pada perkembangan sound recording yang cepat dan beraneka ragam. Selain itu juga berupa nilai dari audio sample berubah dengan cepat.

Fokus Penggunaan
Lossless audio codec tidak mempunyai masalah dalam kualitas suara, penggunaannya dapat difokuskan pada :
  • Kecepatan kompresi dan dekompresi
  • Derajat kompresi
  • Dukungan hardware dan software.

Lossy audio codec penggunaannya difokuskan pada :
  • Kualitas audio
  • Faktor kompresi
  • Kecepatan kompresi dan dekompresi
  • Internet latency of algorithm (penting bagi real-time streaming)
  • Dukungan hardware dan software

Metode Kompresi Audio
Metode kompresi lossless yang masih tradisional seperti Huffman dan LZW. Penggunaanya tidak bekerja dengan baik pada kompresi audio, sama seperti  sebagian kompresi untuk gambar. Sehingga dibentuklah sebuah metode kompresi untuk mengatasi keterbatasan pada metode kompresi lossless, yaitu disebut dengan metode kompresi lossy.
Ciri-ciri kompresi lossy pada audio
1.      Adaptive Differetial Pulse Code Modulation, contohnya CCITT G.721,16 tau 32 Kbit/sec
  • Melakukan encode dua atau lebih sinyal yang berbeda, perbedaan kuantisasi pada encode tersebut adalah kehilangan sinyal data suara.
  • Mengadaptasi terhadap kuantisasi terhadap beberapa bit dapat digunakan asalkan isi data sinyal suara sedikit.

2. Linier Predective Coding (LPC) difungsikan untuk menyesuaikan sinyal data yang ada dengan sinyal suara manusia, kemudian mengirimkan parameter model suara tersebut ketempat tujuan, seperti sebuah computer yang dapat berbicara dengan bahasa manusia dengan kecepatan 2,4 kbps.

3.Code Excited Linear Predicator (CELP) bekerja mirip seperti LPC, tetapi ada tambahan CELP dapat memancarkan data suara yang salah, sedangkan PLC tidak, contohnya mutu percakapan audio pada kecepatan 4,8 kbps
Metode kompresi audio yang lain juga bisa berupa :
1. Metode Transformasi
Menggunakan algoritma seperti MDCT (Modified Discreate Cosine Transform) untuk mengkonversikan gelombang bunyi ke dalam sinyal digital agar tetap dapat didengar oleh manusia (20 Hz s/d 20kHz) , yaitu menjadi frekuensi 2 s/d 4kHz dan 96 dB.
2. Metode Waktu
Menggunakan LPC (Linier Predictive Coding) yaitu digunakan untuk speech (pidato), dimana LPC akan menyesuaikan sinyal data pada suara manusia, kemudian mengirimkannya ke pendengar. Jadi seperti layaknya komputer yang berbicara dengan bahasa manusia dengan kecepatan 2,4 kbps.
Sistem suara manusia memiliki keterbatasan, dimana resolusi frekuensinya terbatas. Keragaman leber frekuensi dapat dibedakan menjadi critical bands. Jika frekuensi yang ada kuramng dari 100 Hz maka diangap frekuensi audio yang rendah, dan apabila lebih dari 4 kHz disebut frekuensi audio yang tinggi. Kesemuanya frekuensi audio dapat dibagi menjadi 25 critical bands.
Satuan frekuensi suara dapat diubah menjadi nilai satuan yang baru yaitu bark,di mana;
  1. Bark = jangkauan satu critical band
  2. Untuk frekuensi < 500 Hz, dapat diubah menjasi Bark
  3. Untuk frekuensi > 500 Hz, adalah Bark

Teknik Kompresi Audio dengan Format MPEG
Beberapa fakta mengenai format MPEG :
  1. MPEG-1: 1,5 Mbits/sec untuk audio dan video, dimana 1,2 Mbits/sec digunkan untuk video dan 0,3 Mbits/sec digunkan untuk audio, nilai ini lebih kecil dibandingkan dengan CD audio yang belum dikompresi sebesar 44,100 samples/sec * 16 bits/sample * 2 channel  lebih dari 1,4 Mbits/sec.
  2. Jangkauan Faktor kompresi dari MPEG-1 adalah dari 2,7 s/d 24. Sehingga dengan kompresi rasio sebesar 6:1 untuk 16 bit stereo dan frekuensi 48 Khz didapatkan kapasitas rate data sebesar 256 kbit/sec, ini merupakan suara yang sangat baik didengar oleh telinga manusia.
  3. MPEG audio mendukung  frekuensi sebesar 32 kHz, 44,1 kHz dan 48 kHz.
  4. Mampu bekerja pada satu  atau dua buah kanal, dari empat jenis suara, antara lain:
  5. Monophonic (single audio channel)
  6. Dual Monophonic, dua buah cahanel yang berbeda dan tidak ada kaitan satu sama lain
  7. Stereo, untuk kanal stereo adalah dua buah kanal adalah pengabungan beberapa bit, tapi tidak menggunakan koding jont stereo
  8. joint stereo, mengambil nilai yang paling baik dari jenis suara stereo, bisanya lebih dari dua buah kanal (channel)
Algoritma MPEG Audio
  • Menggunakan filter untuk membagi sinyal audio: misalnya pada 48 kHz, suara dibagi menjadi 32 subband frekuensi.
  • Memberikan pembatas pada masing-masing frekuensi yang telah dibagi-bagi, jika tidak akan terjadi intermodulasi (tabrakan frekuensi).
  • Jika sinyal suara terlalu rendah, maka tidak dilakukan encode pada sinyal suara tersebut.
  • Diberikan bit parity yang digunakan untuk mengecek apakah data tersebut rusak atau tidak (yang mungkin disebabkan oleh gangguan/noise), apabila rusak, maka bit tersebut akan digantikan bit yang jenisnya sama dengan bit terdekatnya.

Fungsi masing-masing lapisan adalah sebagai berikut :
  • Lapisan 1 : fungsi dari lapisan ini adalah melakukan penyaringan pada tiap frame dengan model DCT dan melakukan pengelompokan terhadap sinyal yang memepunyai bandwidth yang sama.
  • Lapisan 2 : menggunakan 3 frame dalam filter sehingga total pada 3 fame tersebut ada 1152 sample.
  • Lapisan 3: membuat critical band yang paling baik untuk frekuensi yang tidak sama dengan menggunakan  model psychoacoustic yang didalamnya terdapat efek masking , dimana efek masking diambil untuk menghitung nilai strereo redudancy, dan juga menggunakan Huffman coder.

Kompresi Audio MP3
Asal-usul MP3 dimulai dari penelitian IIS-FHG (Institut Integriette Schaltungen-Fraunhofer Gesellschaft), sebuah lembaga penelitian terapan di Munich, Jerman dalam penelitian coding audio perceptual. Penelitian tersebut menghasilkan suatu algoritma yang menjadi standard sebagai ISO-MPEG Audio Layer-3 (MP3).
Teknik Kompresi MP3
Beberapa karakteristik dari MP3 memanfaatkan kelemahan pendengaran manusia.
1.     Model psikoakustik
  • Model psikoakustik adalah model yang menggambarkan karakteristik pendengaran manusia.
  • Salah satu karakteristik pendengaran manusia adalah memiliki batas frekuensi 20 Hz s/d 20 kHz, dimana suara yang memiliki frekuensi yang berada di bawah ambang batas ini tidak dapat didengar oleh manusia, sehingga suara seperti itu tidak perlu dikodekan.

2.     Auditory masking
Manusia tidak mampu mendengarkan suara pada frekuensi tertentu dengan amplitudo tertentu jika pada frekuensi di dekatnya terdapat suara dengan amplitudo yang jauh lebih tinggi.
3.     Critical band
Critical band merupakan daerah frekuensi tertentu dimana pendengaran  manusia lebih peka pada frekuensi-frekuensi rendah, sehingga alokasi bit dan alokasi sub-band pada filter critical band lebih banyak dibandingkan frekuensi lebih tinggi.
4.     Joint Stereo
Terkadang dual channel stereo mengirimkan informasi yang sama. Dengan menggunakan joint stereo, informasi yang sama ini cukup ditempatkan dalam salah satu channel saja dan ditambah dengan informasi tertentu. Dengan teknik ini bitrate dapat diperkecil.
Beberapa persyaratan dari suatu encoder/decoder MP3:
  • Ukuran file terkompresi harus sekecil mungkin.
  • Kualitas suara file yang telah terkompresi haruslah sedekat mungkin dengan file asli yang belum dikompresi.
  • Tingkat kesulitan rendah, sehingga dapat direalisasikan dengan aplikasi yang mudah dibuat dan perangkat keras yang ‘sederhana’ dengan konsumsi daya yang rendah

5.  Filter Bank
adalah kumpulan filter yang berfungsi memfilter masukan pada frekuensi tertentu, sesuai dengan critical band yang telah didefinisikan. Filter yang dipakai adalah gabungan dari filter bank polyphase dan Modified Discrete Cosine Transform (MDCT).

6. Perceptual Model
dapat menggunakan filter bank terpisah atau penggabungan antara perhitungan nilai energi dan filter bank utama. Keluaran model ini adalah nilai masking treshold. Apabila noise berada dibawah masking treshold, maka hasil kompresi tidak akan dapat dibedakan dari sinyal aslinya.

7. Quantization/Coding
merupakan proses kuantisasi setelah sinyal disampling. Proses ini dilakukan oleh power-law quantizer, yang memiliki sifat mengkodekan amplitudo besar dengan ketepatan rendah, dan dimasukkannya proses noise shaping. Setelah itu nilai yang telah dikuantisasi dikodekan menggunakan Huffman Coding.

8. Encoding Bitstream,
merupakan tahap terakhir dimana bit-bit hasil pengkodean sampling sinyal disusun menjadi sebuah bitstream.

Kompresi Video
Kompresi Video Digital
Untuk mendigitalkan dan menyimpan klip video full-motion selama 10 menit ke dalam komputer, Anda harus mentransfer data dalam jumlah banyak dalam waktu yang singkat. Untuk mereproduksi satu frame dari komponen video digital 24 bit, diperlukan data komputer hamper 1 MB; video tidak terkompresi dengan layer pernuh selama 30 detik akan memenuhi Harddisk bermuatan gigabyte. Video dengan ukuran penuh akan dan full motion memerlukan komputer yang dapat mengirimkan data kurang lebih 30 MB per detik. Kemacetan Teknologi yang besar dapat diatasi menggunakan skema kompresi video digital atau codec (coder/decoder). Codec adalah algoritma yang digunakan untuk mengompresi (kode) sebuah video untuk dikirimkan, kemudian didekode secara langsung untuk pemutaran yang cepat. Codec yang berbeda dioptimasi untuk metode pengiriman yang berbeda (misalnya, dari hard drive, dari CD-ROM, atau melalui Web)
Tujuan dari pemampatan/kompresi video yakni :

1. Minimisasi bit rate dalam penyajian digital sinyal video
2. Memelihara tingkat kualitas sinyal yang dikehendaki
3. Meminimalkan kompleksitas codec (coder dan decoder-penyandi dan pengurai)
4. Kandungan delay atau penundaan

Dalam melakukan kompresi video, pemilihan metode pemampatan yang akan digunakan melbatkan tukar tambah (trade off) pada empat dimensi yakni Efisiensi, Kualitas Sinyal, Kompleksitas, Tundaan Pengkodean.
Kita tidak bias memaksakan untuk bagus disemua dimensi ini. Tetap ada yang harus dikorbankan . tergantung kebutuhan kompresi yang kita lakukan. Sinyal Video cocok untuk dimampatkan karena
beberapa faktor, yaitu :

a. Korelasi Spasial: Korelasi antar piksel-piksel tetangga
b. Korelasi Spektral : Citra-citra berwarna
c. Korelasi temporal : Korelasi antara piksel pada frame yang berbeda Serta terdapat informasi yang sangat tidak relevan (dari sudut pandang perseptual) dalam data video.
Seperti halnya pada image dan Audio, pada Video secara umum juga terdapat dua macam pemampatan yaitu :

a. Pengkodean Losless
Merupakan proses yang dapat dibolak-balik pemulihan sempurna sebelum dan sesudah memiliki nilai yang sama persis. Dalam menggunakan pengkodean ini biasanya tidek mempedulikan medianya. Pengkodean Losless memiliki rasio pemampatan yang rendah. Contohnya antara lain pengkodean entropi atau entropy coding. Pada Entropy coding :
– data merupakan serangkaian digital sederhana
– proses penguraian mengembalikan kembali ke asal secara penuh
– misalnya RLC, Huffman Codding, Arithmetic Coding

b. Pengkodean Lossy
Merupakan proses yang tidak dapat dibolak-balik pemulihan tidak sempurna video hasil
rekonstruksi secara numeric tidak sama dengan aslinya. Dalam menggunakan pengkodean ini
mempedulikan semantik dari data yang bersangkutan. Kualitas bergantung pada metode dan
rasio pemampatan. Contohnya antara lain pengkodean sumber atau source coding. Pada
source coding :

  • Derajat pemampatan bergantung dari isi data
  • misalnya teknik prediksi isi-DPCM, delta modulation.

Selain pengkodean diatas ada Pengkodean Hibrid yang merupakan kombinasi dari
pengkodean entropi dan sumber. Pengkodean ini sering digunakan dalam system multimedia.
Misalnya, JPEG, H.263, MPEG-1,MPEG-2 atau MPEG-4
Derajat pemampatan video diperoleh bergantung pada kualitas masukkan data, derau
akuisisi(pewaktuan yang gagap(timing jitters), proses A/D yang buruk , dll), Pencuplikan (berakibat
pada korelasi spasial dan temporal), jumlah biat tiap piksel-nya.
Seperti telah disinggung diatas bahwa dalam melakukan kompresi tidak bias menddaptkan
keempat dimensinya baik. Pasti ada yang dikorbankan. Pemilihan rancangan untuk pemampatan mempertimbangkan :
  • Lossless,Lossy, atau kedua-duanya
  • Rasio Pemampatan
  • Variasi rasio pemampatan
  • Ralat transmisi
  • Kompleksitas trade off dalam codec
  • Ke-alamia-an degradasi
  • Penyajian hirarki

Algoritma kompresi video langsung seperti MPEG, Indeo, JPEG, Cinepak, dan Sorenson tersedia untuk mengompresi informasi video digital dengan kecepatan yang memiliki range dari 50:1 sampai 200:1. Selain untuk mengompresi data video, teknologi streaming diimplementasikan untuk menyediakan kualitas video yang bagus dengan bandwidth rendah di Web. Dengan memulai pemutaran video setelah data yang cukup ditransfer ke komputer pengguna untuk mendukung
pemutaran tersebut, pengguna tidak perlu menunggu untuk men-download file yang terkadang terlalu besar. Microsft, RealNetworks, cVideo, dan Motorola secara aktif memburu komersialisasi teknolog streaming di Web. Kodek video umumnya berbasis pada salah satu dari empat tipe algoritma DSP (digital signal processing); yakni DCT (discrete cosine transform), Vector quantization, Fractal compression, dan Discrete wavelet transform. Algoritma tersebut akan dibahas pada bab tersendiri. Agar Pengguna Anda dapat melihat file digital video Anda, ia harus memiliki player yang mampu memainkan format file dan perangkat lunak untuk mendekode video berdasarkan codec yang Anda gunakan saat Anda mengompresi file. Player biasanya disertai beberapa standar codec yang dilisensi yang diinstal bersama player. Jika anda menggunakan codec yang tidak dipasang bersama player,pengguna Anda harus menginstal.