Видеоконференции в сети INTERNET
адрах и из них выбирается лучший.
Ищется прямой вектор, затем обратный и вычисляется среднее между
соответствующими макроблоками в прошлом и будущем. Если это не работает, то
блок может быть закодирован как в I- фрейме.
Последовательность раскодированных кадров обычно выглядит как
I B B P B B P B B P B B I B B P B B P B ...
Здесь 12 кадров от I до I фрейма. Это основано на требовании
произвольного доступа, согласно которому начальная точка должна повторяться
каждые 0.4 секунды. Соотношение P и B основано на опыте.
Чтобы декодер мог работать, необходимо, чтобы первый P- фрейм в потоке
встретился до первого B, поэтому сжатый поток выгдядит так:
0 x x 3 1 2 6 4 5 ...
где числа - это номера кадров. xx может не быть ничем, если это начало
последовательности, или B- фреймы -2 и -1, если это фрагмент из середины
потока.
Сначала необходимо раскодировать I- фрейм , затем P, затем, имея их оба в
памяти, раскодировать B. Во время декодирования P показывается I- фрейм , B
показываются сразу, а раскодированный P показывается во время декодирования
следующего. [11]
Сжатие аудио
При сжатии аудио используются хорошо разработанные психоакустические
модели, полученные из экспериментов с самыми взыскательными слушателями,
чтобы выбросить звуки, которые не слышны человеческому уху. Это то, что
называется "маскированием", например, большая составляющая в некоторой
частоте не позволяет услышать компоненты с более низким коэфициентом в
близлежащих частотах, где соотношение между энергиями частот, которые
маскируются, описывается некоторой эмпирической кривой. Существуют похожие
временные эффекты маскирования, а также более сложные взаимодействия, когда
временной эффект может выделить частоту или наоборот.
Звук разбивается на спектральные блоки с помощью гибридной схемы, которая
объединяет синусные и полосные преобразования, и психоакустической модели,
описанной на языке этих блоков. Все, что может быть убрано или сокращено,
убирается и сокращается, а остаток посылается в выходной поток. В
действительности, все выглядит несколько сложнее, поскольку биты должны
распределяться между полосами. И, конечно же, все, что посылается,
кодируется с сокращением избыточности.
MPEG ( коэффициент сжатия).
Коэффициент сжатия свыше 100:1.
Считают, что MPEG достигает необычайно высокого качества видео при степени
сжатия свыше 100:1. Эти заявления обычно не включают понижение цветового
разрешения исходного цифрового изображения. На практике, поток кодируемого
изображения редко превышает величину потока, закодированного в MPEG, более
чем в 30 раз. Предварительное сжатие за счет уменьшения цветового
разрешения играет основную роль в формировании коэффициентов сжатия с 3
нулями во всех методах кодирования видео, включая отличные от MPEG.
Как MPEG-1, так и MPEG-2, могут быть применены к широкому классу потоков,
частот и размеров кадров. MPEG-1, знакомый большинству людей, позволяет
передавать 25 кадров/с с разрешением 352x288 в PAL или 30 кадр/с с
разрешением 352x240 в NTSC при величине потока менее 1.86 Мбит/с -
комбинация, известная как "Constrained Parameters Bitstreams". Это цифры
введены спецификацией White Book для видео на CD (VideoCD).
Фактически, синтаксис позволяет кодировать изображения с разрешением до
4095х4095 с потоком до 100 Мбит/с. Эти числа могли бы быть и бесконечными,
если бы не ограничение на количество бит в заголовках.
С появлением спецификации MPEG-2, самые популярные комбинации были
объединены в уровни и профили. Самые общие из них:
•Source Input Format (SIF), 352 точки x 240 линий x 30 кадр/с, известный
также как Low Level (LL) - нижний уровень, и •"CCIR 601" (например 720
точек/линию x 480 линий x 30 кадр/с), илиMain Level - основной уровень.
Компенсация движения заменяет макроблоки макроблоками из предыдущих
картинок
Предсказания макроблоков формируются из соответствующих 16х16 блоков точек
(16х8 в MPEG-2) из предыдущих восстановленных кадров. Никаких ограничений
на положение макроблока в предыдущей картинке, кроме ее границ, не
существует.
Исходные кадры - reference - (из которых формируются предсказания) показаны
безотносительно своей закодированной формы. Как только кадр раскодирован,
он становится не набором блоков, а обычным плоским цифровым изображением из
точек.
В MPEG размеры отображаемой картинки и частота кадров может отличаться от
закодированного в потоке. Например, перед кодированием некоторое
подмножество кадров в исходной последовательности может быть опущено, а
затем каждый кадр фильтруется и обрабатывается. При восстановлении
интерполированы для восстановления исходного размера и частоты кадров.
Фактически, три фундаментальных фазы (исходная частота, кодированная и
показываемая) могут отличаться в параметрах. Синтаксис MPEG описывает
кодированную и показываемую частоту через заголовки, а исходная частота
кадров и размер известен только кодеру. Именно поэтому в заголовки MPEG-2
введены элементы, описывающие размер экрана для показа видеоряда.
В I, P и B-фреймах все макроблоки одного типа.
В I- фрейме макроблоки должны быть закодированы как внутренние - без ссылок
на предыдущие или последующие, если не используются масштабируемые режимы.
Однако, макроблоки в P- фрейме могут быть как внутренними, так и ссылаться
на предыдущие кадры. Макроблоки в B- фрейме могут быть как внутренними, так
и ссылаться на предыдущий кадр, последующий или оба. В заголовке каждого
макроблока есть элемент, определяющий его тип.
Без компенсации движения:
С компенсацией движения:
Пропущенные макроблоки в P- фреймах
Пропущенные макроблоки в B- фреймах
Структура последовательности строго фиксирована шаблоном I,P,B.
Последовательность кадров может иметь любую структуру размещения I, P и
B фреймов. В промышленной практике принято иметь фиксированную
последовательность (вроде IBBPBBPBBPBBPBB), однако, более мощные кодеры
могут оптимизировать выбор типа кадра в зависимости от контекста и
глобальных характеристик видеоряда. Каждый тип кадра имеет свои
преимущества в зависимости от особенностей изображения (активность
движения, временные эффекты маскирования,...). Например, если
последовательность изображений мало меняется от кадра к кадру, есть смысл
кодировать больше B- фреймов , чем P. Поскольку B- фреймы не используются
в дальнейшем процессе декодирования, они могут быть сжаты сильнее, без
влияния на качество видеоряда в целом.
Требования конкретного приложения также влияют на выбор типа кадров:
ключевые кадры, переключение каналов, индексирование программ,
восстановление от ошибок и т.д.
Коэффициенты сжатия.
Коэффициент сжатия MPEG видео часто заявляется как 100:1, тогда как в
действительности он находится в районе от 8:1 до 30:1.
Можно получить "более 100:1" для видео на компакт-диске (White Book) с
потоком 1.15 Мбит/с.
1. Высокое разрешение исходного видео.
Большинство источников видеосигнала для кодирования имеют большее
разрешение, чем то, которое актуально оказывается в закодированном потоке.
Самый популярный студийный сигнал, известный как цифровое видео "D-1" или
"CCIR 601", кодируется на 270 Мбит/с.
Цифра 270 Мбит/с получается из следующих вычислений:
Интенсивность (Y):858 точек/линию x 525 линий/кадр x 30 кадр/с x 10
бит/точку ~= 135 Мбит/сR-Y (Cb):429 точек/линию x 525 линий/кадр x 30
кадр/с x 10 бит/точку ~= 68 Мбит/сB-Y (Cb):429 точек/линию x 525 линий/кадр
x 30 кадр/с x 10 бит/точку ~= 68 Мбит/сИтого:27 млн. точек/с x 10 бит/точку
= 270 Мбит/с
2. Следует выбросить гасящие интервалы.
Из 858 точек яркости на линию под информацию изображения задействованы
только 720. В действительности, количество точек на линию - предмет многих
ссор на инженерных семинарах, и это значение лежит в пределах от 704 до
720. Аналогично, только 480 линий из 525 задействованы под изображение по
вертикали. Настоящее значение лежит в пределах от 480 до 496. В целях
совместимости MPEG-1 и MPEG-2 определяет эти числа как 704х480 точек на
интенсивность и 352х480 для цветоразностей. Пересчитывая исходный поток,
будем иметь:
Y704 точек/линию x 480 линий x 30 кадр/с x 10 бит/точку ~= 104 Мбит/сC2
компоненты x 352 точки/линию x 480 линий x 30 кадр/с x 10 бит/точку ~= 104
Мбит/сИтого:~ 207 Мбит/сОтношение (207/1.15) составляет всего 180:1.
3. Следует учесть большее количество бит/точку.
В MPEG на точку отводится 8 бит. Принимая во внимание этот фактор,
отношение становится 180 * (8/10) = 144:1.
4. Учтем более высокое разрешение цветности. Известный студийный сигнал
CCIR-601 представляет сигнал цветности с половинным разрешением по
горизонтали, но с полным вертикальным разрешением. Это соотношение частот
оцифровки известно как 4:2:2. Однако, MPEG-1 и MPEG-2 Main Profile
устанавливают использование формата 4:2:0, который считается достаточным
для бытовых приложений. В этом формате разрешение цветоразностных сигналов
в 2 раза меньше по горизонтали и вертикали, чем интенсивность. Таки
образом, имеем:
720 точек x 480 линий x 30 кадр/с x 8 бит/отсчет x 1.5 остчетов/точку = 124
Мбит/с, и, таким образом, отношение становится 108:1.
5. Учтем размер кодируемого изображения.
Последняя стадия предварительной обработки - это преобразование кадра
формата CCIR-601 в формат SIF уменьшением в 2 раза по горизонтали
| | скачать работу |
Видеоконференции в сети INTERNET |