KOMPRESI AUDIO
Kompresi audio
bertujuan untuk mengecilkan atau mengurangi ukuran file audio. Kompresi audio
dilakukan pada saat pembuatan file audio dan saat distribusi file audio
tersebut. Metode kompresi audio berupa :
- Lossy : File berupa Vorbis, MP3.
- Lossless : FLAC. Pengguna : audio engineer, audiophiles.
Kendala yang terjadi
pada saat kompresi audio yaitu terletak pada perkembangan sound recording yang cepat dan beraneka ragam.
Selain itu juga berupa nilai dari audio sample berubah dengan cepat.
Fokus
Penggunaan
Lossless audio codec
tidak mempunyai masalah dalam kualitas suara, penggunaannya dapat difokuskan
pada :
- Kecepatan kompresi dan dekompresi
- Derajat kompresi
- Dukungan hardware dan software.
Lossy audio codec
penggunaannya difokuskan pada :
- Kualitas audio
- Faktor kompresi
- Kecepatan kompresi dan dekompresi
- Internet latency of algorithm (penting bagi real-time streaming)
- Dukungan hardware dan software
Metode
Kompresi Audio
Metode kompresi
lossless yang masih tradisional seperti Huffman dan LZW. Penggunaanya tidak
bekerja dengan baik pada kompresi audio, sama seperti sebagian
kompresi untuk gambar. Sehingga dibentuklah sebuah
metode kompresi untuk mengatasi keterbatasan pada metode kompresi lossless, yaitu disebut dengan metode kompresi lossy.
Ciri-ciri kompresi
lossy pada audio
1. Adaptive
Differetial Pulse Code Modulation, contohnya CCITT G.721,16 tau 32 Kbit/sec
- Melakukan encode dua atau lebih sinyal yang berbeda, perbedaan kuantisasi pada encode tersebut adalah kehilangan sinyal data suara.
- Mengadaptasi terhadap kuantisasi terhadap beberapa bit dapat digunakan asalkan isi data sinyal suara sedikit.
2. Linier Predective Coding (LPC) difungsikan untuk
menyesuaikan sinyal data yang ada dengan sinyal suara manusia, kemudian
mengirimkan parameter model suara tersebut ketempat tujuan, seperti sebuah
computer yang dapat berbicara dengan bahasa manusia dengan kecepatan 2,4 kbps.
3.Code Excited Linear Predicator (CELP) bekerja
mirip seperti LPC, tetapi ada tambahan CELP dapat memancarkan data suara yang
salah, sedangkan PLC tidak, contohnya mutu percakapan audio pada kecepatan 4,8
kbps
Metode kompresi audio
yang lain juga bisa berupa :
1. Metode
Transformasi
Menggunakan algoritma
seperti MDCT (Modified Discreate Cosine Transform) untuk mengkonversikan
gelombang bunyi ke dalam sinyal digital agar tetap dapat didengar oleh manusia
(20 Hz s/d 20kHz) , yaitu menjadi frekuensi 2 s/d 4kHz dan 96 dB.
2. Metode
Waktu
Menggunakan LPC
(Linier Predictive Coding) yaitu digunakan untuk speech (pidato), dimana LPC
akan menyesuaikan sinyal data pada suara manusia, kemudian mengirimkannya ke
pendengar. Jadi seperti layaknya komputer yang berbicara dengan bahasa manusia
dengan kecepatan 2,4 kbps.
Sistem suara manusia
memiliki keterbatasan, dimana resolusi frekuensinya terbatas. Keragaman leber
frekuensi dapat dibedakan menjadi critical bands. Jika
frekuensi yang ada kuramng dari 100 Hz maka diangap frekuensi audio yang
rendah, dan apabila lebih dari 4 kHz disebut frekuensi audio yang tinggi.
Kesemuanya frekuensi audio dapat dibagi menjadi 25 critical bands.
Satuan frekuensi suara
dapat diubah menjadi nilai satuan yang baru yaitu bark,di mana;
- Bark = jangkauan satu critical band
- Untuk frekuensi < 500 Hz, dapat diubah menjasi Bark
- Untuk frekuensi > 500 Hz, adalah Bark
Teknik
Kompresi Audio dengan Format MPEG
Beberapa fakta
mengenai format MPEG :
- MPEG-1: 1,5 Mbits/sec untuk audio dan video, dimana 1,2 Mbits/sec digunkan untuk video dan 0,3 Mbits/sec digunkan untuk audio, nilai ini lebih kecil dibandingkan dengan CD audio yang belum dikompresi sebesar 44,100 samples/sec * 16 bits/sample * 2 channel lebih dari 1,4 Mbits/sec.
- Jangkauan Faktor kompresi dari MPEG-1 adalah dari 2,7 s/d 24. Sehingga dengan kompresi rasio sebesar 6:1 untuk 16 bit stereo dan frekuensi 48 Khz didapatkan kapasitas rate data sebesar 256 kbit/sec, ini merupakan suara yang sangat baik didengar oleh telinga manusia.
- MPEG audio mendukung frekuensi sebesar 32 kHz, 44,1 kHz dan 48 kHz.
- Mampu bekerja pada satu atau dua buah kanal, dari empat jenis suara, antara lain:
- Monophonic (single audio channel)
- Dual Monophonic, dua buah cahanel yang berbeda dan tidak ada kaitan satu sama lain
- Stereo, untuk kanal stereo adalah dua buah kanal adalah pengabungan beberapa bit, tapi tidak menggunakan koding jont stereo
- joint stereo, mengambil nilai yang paling baik dari jenis suara stereo, bisanya lebih dari dua buah kanal (channel)
- Menggunakan filter untuk membagi sinyal audio: misalnya pada 48 kHz, suara dibagi menjadi 32 subband frekuensi.
- Memberikan pembatas pada masing-masing frekuensi yang telah dibagi-bagi, jika tidak akan terjadi intermodulasi (tabrakan frekuensi).
- Jika sinyal suara terlalu rendah, maka tidak dilakukan encode pada sinyal suara tersebut.
- Diberikan bit parity yang digunakan untuk mengecek apakah data tersebut rusak atau tidak (yang mungkin disebabkan oleh gangguan/noise), apabila rusak, maka bit tersebut akan digantikan bit yang jenisnya sama dengan bit terdekatnya.
Fungsi masing-masing
lapisan adalah sebagai berikut :
- Lapisan 1 : fungsi dari lapisan ini adalah melakukan penyaringan pada tiap frame dengan model DCT dan melakukan pengelompokan terhadap sinyal yang memepunyai bandwidth yang sama.
- Lapisan 2 : menggunakan 3 frame dalam filter sehingga total pada 3 fame tersebut ada 1152 sample.
- Lapisan 3: membuat critical band yang paling baik untuk frekuensi yang tidak sama dengan menggunakan model psychoacoustic yang didalamnya terdapat efek masking , dimana efek masking diambil untuk menghitung nilai strereo redudancy, dan juga menggunakan Huffman coder.
Kompresi
Audio MP3
Asal-usul MP3 dimulai
dari penelitian IIS-FHG (Institut Integriette Schaltungen-Fraunhofer
Gesellschaft), sebuah lembaga penelitian terapan di Munich, Jerman dalam
penelitian coding audio perceptual. Penelitian tersebut menghasilkan suatu
algoritma yang menjadi standard sebagai ISO-MPEG Audio Layer-3 (MP3).
Teknik
Kompresi MP3
Beberapa karakteristik
dari MP3 memanfaatkan kelemahan pendengaran manusia.
1.
Model
psikoakustik
- Model psikoakustik adalah model yang menggambarkan karakteristik pendengaran manusia.
- Salah satu karakteristik pendengaran manusia adalah memiliki batas frekuensi 20 Hz s/d 20 kHz, dimana suara yang memiliki frekuensi yang berada di bawah ambang batas ini tidak dapat didengar oleh manusia, sehingga suara seperti itu tidak perlu dikodekan.
2.
Auditory
masking
Manusia tidak mampu
mendengarkan suara pada frekuensi tertentu dengan amplitudo tertentu jika pada
frekuensi di dekatnya terdapat suara dengan amplitudo yang jauh lebih tinggi.
3.
Critical
band
Critical band
merupakan daerah frekuensi tertentu dimana pendengaran manusia lebih
peka pada frekuensi-frekuensi rendah, sehingga alokasi bit dan alokasi sub-band
pada filter critical band lebih banyak dibandingkan frekuensi lebih tinggi.
4.
Joint
Stereo
Terkadang dual channel
stereo mengirimkan informasi yang sama. Dengan menggunakan joint stereo,
informasi yang sama ini cukup ditempatkan dalam salah satu channel saja dan
ditambah dengan informasi tertentu. Dengan teknik ini bitrate dapat diperkecil.
Beberapa persyaratan
dari suatu encoder/decoder MP3:
- Ukuran file terkompresi harus sekecil mungkin.
- Kualitas suara file yang telah terkompresi haruslah sedekat mungkin dengan file asli yang belum dikompresi.
- Tingkat kesulitan rendah, sehingga dapat direalisasikan dengan aplikasi yang mudah dibuat dan perangkat keras yang ‘sederhana’ dengan konsumsi daya yang rendah
5. Filter
Bank,
adalah kumpulan
filter yang berfungsi memfilter masukan pada frekuensi tertentu, sesuai dengan
critical band yang telah didefinisikan. Filter yang dipakai adalah gabungan
dari filter bank polyphase dan Modified Discrete Cosine Transform (MDCT).
6. Perceptual
Model,
dapat menggunakan
filter bank terpisah atau penggabungan antara perhitungan nilai energi dan
filter bank utama. Keluaran model ini adalah nilai masking treshold. Apabila
noise berada dibawah masking treshold, maka hasil kompresi tidak akan dapat
dibedakan dari sinyal aslinya.
7. Quantization/Coding,
merupakan proses kuantisasi setelah sinyal
disampling. Proses ini dilakukan oleh power-law quantizer, yang memiliki sifat
mengkodekan amplitudo besar dengan ketepatan rendah, dan dimasukkannya proses
noise shaping. Setelah itu nilai yang telah dikuantisasi dikodekan menggunakan
Huffman Coding.
8. Encoding
Bitstream,
merupakan tahap
terakhir dimana bit-bit hasil pengkodean sampling sinyal disusun menjadi sebuah
bitstream.
Kompresi
Video
Kompresi Video Digital
Untuk mendigitalkan dan menyimpan
klip video full-motion selama 10 menit ke dalam komputer, Anda harus
mentransfer data dalam jumlah banyak dalam waktu yang singkat. Untuk
mereproduksi satu frame dari komponen video digital 24 bit, diperlukan data
komputer hamper 1 MB; video tidak terkompresi dengan layer pernuh selama 30
detik akan memenuhi Harddisk bermuatan gigabyte. Video dengan ukuran penuh akan
dan full motion memerlukan komputer yang dapat mengirimkan data kurang lebih 30
MB per detik. Kemacetan Teknologi yang besar dapat diatasi menggunakan skema
kompresi video digital atau codec (coder/decoder). Codec adalah algoritma yang
digunakan untuk mengompresi (kode) sebuah video untuk dikirimkan, kemudian
didekode secara langsung untuk pemutaran yang cepat. Codec yang berbeda
dioptimasi untuk metode pengiriman yang berbeda (misalnya, dari hard drive,
dari CD-ROM, atau melalui Web)
Tujuan dari pemampatan/kompresi
video yakni :
1. Minimisasi bit rate dalam
penyajian digital sinyal video
2. Memelihara tingkat kualitas
sinyal yang dikehendaki
3. Meminimalkan kompleksitas
codec (coder dan decoder-penyandi dan pengurai)
4. Kandungan delay atau
penundaan
Dalam melakukan kompresi video,
pemilihan metode pemampatan yang akan digunakan melbatkan tukar tambah (trade
off) pada empat dimensi yakni Efisiensi, Kualitas Sinyal, Kompleksitas, Tundaan
Pengkodean.
Kita tidak bias memaksakan
untuk bagus disemua dimensi ini. Tetap ada yang harus dikorbankan . tergantung
kebutuhan kompresi yang kita lakukan. Sinyal Video cocok untuk dimampatkan
karena
beberapa faktor, yaitu :
a. Korelasi Spasial: Korelasi
antar piksel-piksel tetangga
b. Korelasi Spektral :
Citra-citra berwarna
c. Korelasi temporal : Korelasi
antara piksel pada frame yang berbeda Serta terdapat informasi yang sangat
tidak relevan (dari sudut pandang perseptual) dalam data video.
Seperti halnya pada image dan
Audio, pada Video secara umum juga terdapat dua macam pemampatan yaitu :
a. Pengkodean Losless
Merupakan proses yang dapat
dibolak-balik pemulihan sempurna sebelum dan sesudah memiliki nilai yang sama
persis. Dalam menggunakan pengkodean ini biasanya tidek mempedulikan medianya.
Pengkodean Losless memiliki rasio pemampatan yang rendah. Contohnya antara lain
pengkodean entropi atau entropy coding. Pada Entropy coding :
– data merupakan serangkaian
digital sederhana
– proses penguraian
mengembalikan kembali ke asal secara penuh
– misalnya RLC, Huffman
Codding, Arithmetic Coding
b. Pengkodean Lossy
Merupakan proses yang tidak
dapat dibolak-balik pemulihan tidak sempurna video hasil
rekonstruksi secara numeric
tidak sama dengan aslinya. Dalam menggunakan pengkodean ini
mempedulikan semantik dari data
yang bersangkutan. Kualitas bergantung pada metode dan
rasio pemampatan. Contohnya
antara lain pengkodean sumber atau source coding. Pada
source coding :
- Derajat pemampatan bergantung dari isi data
- misalnya teknik prediksi isi-DPCM, delta modulation.
Selain pengkodean diatas ada
Pengkodean Hibrid yang merupakan kombinasi dari
pengkodean entropi dan sumber.
Pengkodean ini sering digunakan dalam system multimedia.
Misalnya, JPEG, H.263,
MPEG-1,MPEG-2 atau MPEG-4
Derajat pemampatan video
diperoleh bergantung pada kualitas masukkan data, derau
akuisisi(pewaktuan yang
gagap(timing jitters), proses A/D yang buruk , dll), Pencuplikan (berakibat
pada korelasi spasial dan
temporal), jumlah biat tiap piksel-nya.
Seperti telah disinggung diatas
bahwa dalam melakukan kompresi tidak bias menddaptkan
keempat dimensinya baik. Pasti
ada yang dikorbankan. Pemilihan rancangan untuk
pemampatan mempertimbangkan :
- Lossless,Lossy, atau kedua-duanya
- Rasio Pemampatan
- Variasi rasio pemampatan
- Ralat transmisi
- Kompleksitas trade off dalam codec
- Ke-alamia-an degradasi
- Penyajian hirarki
Algoritma kompresi video
langsung seperti MPEG, Indeo, JPEG, Cinepak, dan Sorenson tersedia untuk mengompresi
informasi video digital dengan kecepatan yang memiliki range dari 50:1 sampai 200:1. Selain untuk
mengompresi data video, teknologi streaming diimplementasikan untuk menyediakan kualitas video yang
bagus dengan bandwidth rendah di Web. Dengan memulai pemutaran video setelah data
yang cukup ditransfer ke komputer pengguna untuk mendukung
pemutaran tersebut, pengguna
tidak perlu menunggu untuk men-download file yang terkadang terlalu besar. Microsft,
RealNetworks, cVideo, dan Motorola secara aktif memburu komersialisasi teknolog
streaming di Web. Kodek video umumnya berbasis pada salah satu dari empat tipe
algoritma DSP (digital signal processing); yakni DCT (discrete cosine
transform), Vector quantization, Fractal compression, dan Discrete wavelet
transform. Algoritma tersebut akan dibahas pada bab tersendiri. Agar Pengguna Anda dapat
melihat file digital video Anda, ia harus memiliki player yang mampu memainkan
format file dan perangkat lunak untuk mendekode video berdasarkan codec yang
Anda gunakan saat Anda mengompresi file. Player biasanya disertai beberapa
standar codec yang dilisensi yang diinstal bersama player. Jika anda
menggunakan codec yang tidak dipasang bersama player,pengguna Anda harus
menginstal.
1 Komentar
yuhuuu...bermanfaat sekali
BalasHapuskaca pembesar lampu led