Noções básicas de vídeo

Noções básicas de vídeo

O vídeo é uma seqüência de imagens paradas que, apresentadas a uma taxa suficientemente rápida, causam a impressão de movimento contínuo. O recurso de imagem em movimento é produzido mediante aproveitamento da limitação de velocidade do olho humano para perceber alterações de imagens.

Para que o vídeo (assim como o áudio) possa ser manipulado pelo computador, este deve ser capturado na sua forma analógica e armazenado como informação digital. Isto pode ser feito através de uma placa de captura de vídeo instalada no computador ou, em alguns casos, por um equipamento de captura externo.

A fonte de vídeo analógica pode ser armazenada em qualquer formato (8 mm, Beta SP, HI-8, Laserdisc, Super VHS ou VHS) ou alimentada ao vivo a partir de uma câmera. A fonte pode ser conectada a placa de captura usando qualquer dos três tipos de conectores listados abaixo, dependendo do tipo de conector que a placa suporta:

S-Video (ou Y/C Video): transmite sinais de vídeo separando as partes de crominância (cor) e luminância (brilho) do sinal de vídeo resultando em uma qualidade de imagem superior comparada a Composite Video. Os cabos deste tipo de conexão transmitem as informações de cor e brilho em dois fios separados. Y e C são as abreviações em inglês de luminância (luminance) e crominância (chrominance). O S-Video utiliza um conector de quatro pinos chamado de mini-DIN.

Composite Video: a informação de vídeo é transmitida em um único sinal combinando as informações de cor e brilho dentro do sinal. Composite video é transferido entre dispositivos de vídeo usando um único cabo de conexão com um conector RCA. Por combinar os sinais de crominância e luminância dentro de um só, essas duas partes de informação devem ser separadas uma da outra na televisão por um filtro. Este processo resulta em alguma distorção e degração da imagem.

Component Video: transfere informações de vídeo usando múltiplos sinais individuais, resultando na transferência de sinal de mais alta qualidade e distorção mais baixa. Component video usa três cabos de vídeo coaxiais com conectores RCA (alguns componentes usam conectores BNC) para transferir os três componentes do sinal.

No processo de captura e digitalização de vídeo, devem ser considerados os seguintes componentes:

Resolução (resolution): são as dimensões horizontal (quantidade de colunas de pixels) e vertical (quantidade de linhas de pixels) da sessão de vídeo.

Quantidade de cores (color depth): este componente refere-se à quantidade de bits utilizados para expressar cada uma das cores básicas RGB (Red/Green/Blue). Essa quantidade varia de 8 bits (256 cores) até 24 bits (usando 8 bits para vermelho, 8 bits para verde e 8 bits para azul, resultando 16.7 milhões de cores).

Taxa de quadros (frame rate): o número de quadros (frames) exibidos por segundo. No cinema, por exemplo, a taxa de quadros é 24 fps (frames por second), enquanto que na televisão essa taxa sobe para 25 fps (sistema PAL) ou 30 fps (sistema NTSC).

É possível determinar, com base nesses parâmetros, a banda necessária para um determinado tráfego de vídeo. Supondo um vídeo com resolução de 640x480, 24 bits (3 bytes) e uma taxa de 30 fps, o tráfego gerado por esse vídeo, por segundo, seria dado pela expressão:

640 * 480 * 3 * 30 = 27,648 Mbps

Ou seja, estas informações requerem grande quantidade de largura de banda para serem transmitidas pela rede (seria necessário no mínimo um canal Fast Ethernet para prover banda passante para essa aplicação).

Portanto, é fundamental aplicar técnicas manipulação de captura de vídeo (alteração dos parâmetros resolução, quantidade de cores e taxa de quadros) e de compressão de dados para que exista uma redução da quantidade de espaço que será alocado para armazenar informações como no caso da videoconferência.

Compressão de vídeo

Trata-se do processo de utilização de técnicas e algoritmos para substituir as informações originais por descrições matemáticas mais compactas. A descompressão é o processo inverso, no qual as descrições matemáticas são convertidas nos dados originais.

O algoritmo responsável pela compressão e descompressão chama-se CODEC (abreviatura de COmpression e DECompression). Este componente pode ser implementado tanto em software quanto em hardware. O termo CODEC também é atribuído ao hardware que realiza o processo de digitalização (enCOder e DECoder).

Considerando que o vídeo é uma sequência ordenada de imagens, pode-se analisar a compressão de vídeo em dois âmbitos distintos: interquadro (interframe) e intraquadro (intraframe).

Compressão interquadro (ou compressão temporal): é compactação entre os quadros de um vídeo. É utilizado um quadro chave (key frame), que é sempre a referência para os quadros que o seguem, funcionando como uma espécie de fonte de informação. O conjunto de informações que contêm as diferenças entre o quadro atual e o quadro chave ou quadro anterior é chamando de delta frame. Todas as técnicas interquadro baseiam sua efetividade na redundância entre os quadros - quanto mais redundância entre os quadros, maior a eficiência deste tipo de método [CIS 02].

Compressão intraquadro (ou compressão espacial): é a compactação dos dados de um quadro, seja ele um quadro chave ou de variação, realizada após a compactação interquadro.

Por ser realizada após a compactação interquadro, a contribuição da compactação intraquadro na performance geral do CODEC é menor. Primeiro, porque a base da eficiência da compactação é a eliminação de redundâncias e, sendo assim, quanto menor for a sequência de dados a serem compactados, menor será a probabilidade de existência de redundâncias, comprometendo o resultado da técnica. Segundo, porque é muito maior a redundância de dados entre um frame e outro do que a redundância contida em um único delta frame [BOR 01].

Padrões ITU-T: H.261 e H.263

A recomendação H.261 descreve e especifica a codificação, multiplexação e transmissão de imagens em movimento em taxas de bits múltiplas de 64 kbit/s. Esse padrão também é referenciado como p x 64 Kbits/s, onde p varia de 1 a 30 (a taxa de bits varia de 64 Kbit/s a 2 Mbit/s). Esse codec foi projetado inicialmente para linhas ISDN, que operam nesta faixa.

O algoritmo de codificação usado é um híbrido de predição interquadro e intraquadro. Inicialmente, as redundâncias temporais entre imagens sucessivas são removidas. As imagens restantes são transformadas usando a técnica DCT. O algoritmo de codificação H.261 é similar ao MPEG, porém estes são incompatíveis entre si. Além disso, o H.261 requer sensivelmente menos poder de processamento para codificação em tempo real do que o MPEG [BOR 01].

São especificados dois formatos de imagem para este padrão:

CIF (Common Intermediate Format) - neste formato, a estrutura de amostragem de luminosidade é de 352 colunas por 288 linhas. A amostragem de cada um dos componentes de diferença de cor é feita em 176 colunas por 144 linhas. A área de imagem coberta por essas quantidades de colunas e linhas possui uma proporção 4:3, que corresponde à área ativa das entradas de vídeo padrão.

QCIF (Quarter-CIF) - esse formato possui a metade das colunas e linhas no formato CIF. Sua implementação é obrigatória nos codecs que cumpram a especificação H.261, ao contrário do CIF (opcional).

A escolha de CIF ou QCIF depende da capacidade disponível do canal (QCIF é normalmente usado se p<3) [CIS 02].

O algoritmo inclui um mecanismo que otimiza a utilização da largura de banda, onde movimentos rápidos possuem qualidade de imagem menor e movimentos mais lentos possuem melhor qualidade. Usada dessa maneira, o H.261 apresenta codificação a taxa constante de bits (CBR), mas não uma taxa constante de qualidade de imagens, que tipicamente gera taxas de bits variáveis (tráfego VBR).

A recomendação H.263 especifica a representação codificada que pode ser usada para compressão de imagem em movimento, para aplicações audiovisuais em baixas taxas de bits.

O algoritmo de codificação é baseado (e muito similar) no algoritmo da recomendação H.261, com a inclusão de algumas opções de codificação para incremento de performance e mecanismos de recuperação de erro.

Além dos dois formatos de imagem apresentados no padrão H.261, outros três formatos foram apresentados. Suas dimensões e obrigatoriedade de implementação estão relacionadas na Tabela X.1, juntamente com os formatos da recomendação anterior.

Formato	Colunas	Linhas	Suporte em H.261	Suporte em H.263
Sub-QCIF	128	96		Obrigatório
QCIF	176	144	Obrigatório	Obrigatório
CIF	352	288	Opcional	Opcional
4CIF	704	576		Opcional
6CIF	1408	1152		Opcional

Tabela X.1 - Formatos de imagem das recomendações H.261 e H.263

Vídeo em ação

A importância do vídeo para a tecnologia de videoconferência é evidente, uma vez que é este recursos que cria a sensação de presença, propiciando aos participantes de uma reunião a noção espacial dos participantes e objetos do local remoto. Através do contato visual, é possível saber o quanto os outros estão envolvidos no assunto, a razão de eventuais pausas no diálogo, além de perceber atitudes e outros aspectos inerentes ao diálogo, tais como humor ou ironia, por exemplo.

Além dos tópicos relacionados a captura, digitalização, padronização, entre outros abordados acima, mais alguns aspectos devem ser considerados para otimização da utilização do vídeo em sessões de videoconferência:

Localização da câmera: dependerá do tipo de conferência e de câmera ou sistema utilizado. Tanto em sistemas desktop quanto em sistemas baseados em sala, deve-se posicionar a câmera próxima da fonte que recebe o vídeo remoto (monitor do PC, televisão, tela de projeção). Desta forma, os participantes podem olhar para esta fonte (ou seja, para os outros participantes) enquanto falam e a câmera representará suas imagens com contato "olho-no-olho", como quando conversamos num mesmo local com outra pessoa.

Foco: nitidez ou clareza de uma imagem. Imagens ou telas fora de foco são borradas e desprovidas de clareza. Inversamente, imagens bem enfocadas são detalhadas e facilmente reconhecíveis. É importante que uma exibição em vídeo seja enfocada corretamente para produzir uma boa qualidade de imagem. O foco é de especial importância para sistemas de projeção de vídeo que dispõe de foco altamente ajustável para permitir uma variedade de tamanhos e distâncias da tela. Em geral, todas as câmeras utilizadas para videoconferência possuem regulagem de foco, desde as mais simples usadas em sistemas desktop (foco manual) até as mais sofisticadas de sistemas baseados em salas (foco automático).

Campo de visão: refere-se à área coberta por uma lente de câmera. É geralmente medido com um ângulo e é uma função do comprimento focal da lente e da distância dos objetos que estão sendo capturados. Em videoconferência, o campo de visão deve ser levado em conta no momento da escolha do tipo de câmera para determinado cenário, de acordo com o número de participantes da sessão, tamanho e layout da sala.