MediaCodec基础

Posted by alonealice on 2020-10-26

MediaCodec是一个Codec,通过硬件加速解码和编码。

MediaCodec 的作用是处理输入的数据生成输出数据。首先生成一个输入数据缓冲区,将数据填入缓冲区提供给 codec,codec 会采用异步的方式处理这些输入的数据,然后将填满输出缓冲区提供给消费者,消费者消费完后将缓冲区返还给 codec。

MediaCodec的数据

MediaCodec 接受三种数据格式:压缩数据,原始音频数据和原始视频数据。这三种数据都可以使用 ByteBuffer 作为载体传输给 MediaCodec 来处理。但是当使用原始视频数据时,最好采用 Surface 作为输入源来替代 ByteBuffer,这样效率更高,因为 Surface 使用的更底层的视频数据,不会映射或复制到 ByteBuffer 缓冲区。

压缩数据

压缩数据可以作为解码器的输入数据或者编码器的输出数据,需要指定数据格式。对于视频数据而言,通常是一帧数据;音频数据,一般是单个处理单元。

原始音频数据

原始音频数据即编码器的输入数据,解码器的输出数据。包含整个 PCM 音频数据帧,这是通道顺序中每个通道的一个样本。每个采样都是以本地字节顺序的 16 位有符号整数。

原始视频数据

原始视频数据也是编码器的输入数据,解码器的输出数据。即yuv数据,MediaCodec主要支持的格式为:

  • native raw video format : COLOR_FormatSurface,用来处理 Surface 模式的数据输入输出
  • flexible YUV buffers : 例如 COLOR_FormatYUV420Flexible
  • specific formats: 支持ByteBuffer模式,有一些厂家会定制

MediaCodec的生命周期

MediaCodec 的生命周期有三种状态:Stopped、Executing、Released,其中Stopped包含三种子状态:Uninitialized、Configured、Error,Executing,包含三种子状态:Flushed、Running、End-of-Stream。

**Stopped **的三种子状态:

  1. Uninitialized:当创建了一个MediaCodec对象,此时处于Uninitialized状态。可以在任何状态调用reset()方法使MediaCodec返回到Uninitialized状态。
  2. Configured:使用configure(…)方法对MediaCodec进行配置转为Configured状态。
  3. Error:MediaCodec遇到错误时进入Error状态。错误可能是在队列操作时返回的错误或者异常导致的。

Executing 的三种子状态:

  1. Flushed:在调用start()方法后MediaCodec立即进入Flushed子状态,此时MediaCodec会拥有所有的缓存。可以在Executing状态的任何时候通过调用flush()方法返回到Flushed子状态。
  2. Running:一旦第一个输入缓存(input buffer)被移出队列,MediaCodec就转入Running子状态,这种状态占据了MediaCodec的大部分生命周期。通过调用stop()方法转移到Uninitialized状态。
  3. End-of-Stream:将一个带有end-of-stream标记的输入buffer入队列时,MediaCodec将转入End-of-Stream子状态。在这种状态下,MediaCodec不再接收之后的输入buffer,但它仍然产生输出buffer直到end-of-stream标记输出。

Released 状态

  1. 当使用完MediaCodec后,必须调用release()方法释放其资源。调用 release()方法进入最终的Released状态。

MediaCodec API

首先是创建 MediaCodec,在知道 MimeType (如"video/avc")的情况下,可以通过 createDecoderByType 方法来创建,也可以使用createByCodecName 方法,根据组件的确切名称(如OMX.google.mp3.decoder来获取实例。如果不知道 MimeType,可以使用 MediaCodecList.findDecoderForFormat、 MediaCodecList.findEncoderForFormat 来获取。创建成功之后,MediaCodec 进入 Uninitialized 状态。

在创建好 MediaCodec 后,需要调用 MediaCodec 的configure方法,主要是配置解码器或者编码器。同时 MediaCodec 的状态也会从 uninitialized 变成 configured 。configure方法中的 MediaFormat 的类型有:

Video 所必须的 Format Setting

Encoder Decoder
KEY_MIME ✔️ ✔️
KEY_BIT_RATE ✔️
KEY_WIDTH ✔️ ✔️
KEY_HEIGHT ✔️ ✔️
KEY_COLOR_FORMAT ✔️
KYE_FRAME_RATE ✔️
KEY_I_FRAME_INTERVAL ✔️

Audio 所必须的 Format Setting

Encoder Decoder
KEY_MIME ✔️ ✔️
KEY_BIT_RATE ✔️
KEY_CHANNEL_COUNT ✔️ ✔️
KEY_SAMPLE_RATE ✔️ ✔️

配置成功后可以调用start方法。

start后相关的buffer处理的接口

dequeueInputBuffer:从输入流队列中取数据进行编码操作。

queueInputBuffer:输入流入队列。

dequeueOutputBuffer:从输出队列中取出编码操作之后的数据。

releaseOutputBuffer:处理完成,释放ByteBuffer数据。

getInputBuffers:获取需要编码数据的输入流队列,返回的是一个ByteBuffer数组。

getOutputBuffers:获取编解码之后的数据输出流队列,返回的是一个ByteBuffer数组。

处理完成之后调用的方法:

flush:清空的输入和输出端口。

stop:终止decode/encode会话

release:释放编解码器实例使用的资源。

API详解

MediaCodec创建

可以使用MediaCodecList为特定的媒体格式创建一个MediaCodec。

  • 可以从 MediaExtractor 的 getTrackFormat 获得track的格式。
  • 使用 MediaFormat setFeatureEnabled 注入想要添加的任何特性。
  • 然后调用MediaCodecList 的 findDecoderForFormat来获取能够处理该特定媒体格式的编解码器的名称。
  • 最后,使用createByCodecName(字符串)创建编解码器。

还可以使用createDecoder/EncoderByType(java.lang.String)为特定MIME类型创建首选的编解码器。但是,这不能用于注入特性,并且可能会创建一个不能处理特定媒体格式的编解码器。

configure

MediaFormat format:输入数据的格式(解码器)或输出数据的所需格式(编码器)。传null等同于传递MediaFormat#MediaFormat作为空的MediaFormat。

Surface surface:指定Surface,用于解码器输出的渲染。如果编解码器不生成原始视频输出(例如,不是视频解码器)和/或想配置解码器输出ByteBuffer,则传null。

MediaCrypto crypto:指定一个crypto对象,用于对媒体数据进行安全解密。对于非安全的编解码器,传null。

flags:当组件是编码器时,flags指定为常量CONFIGURE_FLAG_ENCODE。

MediaFormat:封装描述媒体数据格式的信息(包括音频或视频),以及可选的特性元数据。媒体数据的格式指定为key/value对。key是字符串。值可以integer、long、float、String或ByteBuffer。特性元数据被指定为string/boolean对。

dequeueInputBuffer

返回用于填充有效数据的输入buffer的索引,如果当前没有可用的buffer,则返回-1。long timeoutUs:等待可用的输入buffer的时间。如果timeoutUs == 0,则立即返回,如果timeoutUs < 0,则无限期等待可用的输入buffer,如果timeoutUs > 0,则等待相应的微秒。

queueInputBuffer

在指定索引处填充输入buffer后,使用queueInputBuffer将buffer提交给组件。许多codec要求实际压缩的数据流之前必须有“特定于codec的数据”,即用于初始化codec的设置数据,如AVC视频中的PPS/SPS,vorbis音频中的code tables。

int index:以前调用dequeueInputBuffer(long)返回的输入buffer的索引。

int offset:数据开始时输入buffer中的字节偏移量。

int size:有效输入数据的字节数。

long presentationTimeUs:此buffer的PTS(以微秒为单位)。

int flags:一个由BUFFER_FLAG_CODEC_CONFIG和BUFFER_FLAG_END_OF_STREAM标志组成的位掩码。虽然没有被禁止,但是大多数codec并不对输入buffer使用BUFFER_FLAG_KEY_FRAME标志。

BUFFER_FLAG_END_OF_STREAM:用于指示这是输入数据的最后一部分。

BUFFER_FLAG_CODEC_CONFIG:通过指定这个标志,可以在start()或flush()之后直接提交特定于codec的数据buffer。但是,如果您使用包含这些密钥的媒体格式配置编解码器,它们将在启动后由MediaCodec直接自动提交。因此,不建议使用BUFFER_FLAG_CODEC_CONFIG标志,只建议高级用户使用。

dequeueOutputBuffer

从MediaCodec获取输出buffer。

返回值:已成功解码的输出buffer的索引或INFO_*常量之一(INFO_TRY_AGAIN_LATER, INFO_OUTPUT_FORMAT_CHANGED 或 INFO_OUTPUT_BUFFERS_CHANGED)。

  • 返回INFO_TRY_AGAIN_LATER而timeoutUs指定为了非负值,表示超时了。
  • 返回INFO_OUTPUT_FORMAT_CHANGED表示输出格式已更改,后续数据将遵循新格式。

BufferInfo info:输出buffer的metadata。

long timeoutUs:含义同dequeueInputBuffer中的timeoutUs参数。

BufferInfo

1
2
3
4
5
6
7
8
public final static class BufferInfo {
public void set(
int newOffset, int newSize, long newTimeUs, int newFlags);
public int offset;
public int size;
public long presentationTimeUs;
public int flags;
};

offset:buffer中数据的起始偏移量。

  • 注意设备之间的offset是不一致的。在一些设备上,offset是相对裁剪矩形的左上角像素,而在大多数设备上,offset是相对整个帧的左上角像素。

size:buffer中的数据量(以字节为单位)。如果是0则表示buffer中没有数据,可以丢弃。0大小的buffer的唯一用途是携带流结束标记。

presentationTimeUs:buffer的PTS(以微秒为单位)。来源于相应输入buffer一起传入的PTS。对于大小为0的buffer,应该忽略这个值。

flags:与buffer关联的标识信息,flags包含如下取值:

  • BUFFER_FLAG_KEY_FRAME:buffer包含关键帧的数据。
  • BUFFER_FLAG_CODEC_CONFIG:buffer包含编解码器初始化/编解码器特定的数据,而不是媒体数据。
  • BUFFER_FLAG_END_OF_STREAM:标志着流的结束,即在此之后没有buffer可用,除非后面跟着flush。
  • BUFFER_FLAG_PARTIAL_FRAME:buffer只包含帧的一部分,解码器应该对数据进行批处理,直到在解码帧之前出现没有该标志的buffer为止。

releaseOutputBuffer

使用此方法将输出buffer返回给codec或将其渲染在输出surface。

boolean render:如果在配置codec时指定了一个有效的surface,则传递true会将此输出buffer在surface上渲染。一旦不再使用buffer,该surface将把buffer释放回codec。

异步流程

同步流程:

1
2
3
4
5
6
7
8
9
创建并配置MediaCodec对象。
- 循环直到完成:
- 调用dequeueInputBuffer获取能填充有效数据的输入buffer的索引
- 如果输入buffer准备好了:
- 读取一段输入,将其填充到输入buffer中(queueInputBuffer)
- 调用dequeueOutputBuffer获取输出buffer的索引
- 如果输出buffer准备好了:
- 从输出buffer中获取数据进行处理。
- 处理完毕后,release MediaCodec 对象。

异步流程:

1
2
3
4
5
6
7
8
9
- 创建并配置MediaCodec对象。
- 给MediaCodec对象设置回调MediaCodec.Callback
- 在onInputBufferAvailable回调中:
- 读取一段输入,将其填充到输入buffer中
- onInputBufferAvailable会持续回调,在onInputBufferAvailable中调用mediaExtractor的advance方法, 逐帧输入
- 在onOutputBufferAvailable回调中:
- 从输出buffer中获取数据进行处理。
- 在onOutputBufferAvailable中会不断回调,可以根据BufferInfo的flag判断输出结束
- 处理完毕后,release MediaCodec 对象。