MediaCodec基础 - alonealice

MediaCodec是一个Codec，通过硬件加速解码和编码。

MediaCodec 的作用是处理输入的数据生成输出数据。首先生成一个输入数据缓冲区，将数据填入缓冲区提供给 codec，codec 会采用异步的方式处理这些输入的数据，然后将填满输出缓冲区提供给消费者，消费者消费完后将缓冲区返还给 codec。

MediaCodec的数据

MediaCodec 接受三种数据格式：压缩数据，原始音频数据和原始视频数据。这三种数据都可以使用 ByteBuffer 作为载体传输给 MediaCodec 来处理。但是当使用原始视频数据时，最好采用 Surface 作为输入源来替代 ByteBuffer，这样效率更高，因为 Surface 使用的更底层的视频数据，不会映射或复制到 ByteBuffer 缓冲区。

压缩数据

压缩数据可以作为解码器的输入数据或者编码器的输出数据，需要指定数据格式。对于视频数据而言，通常是一帧数据；音频数据，一般是单个处理单元。

原始音频数据

原始音频数据即编码器的输入数据，解码器的输出数据。包含整个 PCM 音频数据帧，这是通道顺序中每个通道的一个样本。每个采样都是以本地字节顺序的 16 位有符号整数。

原始视频数据

原始视频数据也是编码器的输入数据，解码器的输出数据。即yuv数据，MediaCodec主要支持的格式为：

native raw video format : COLOR_FormatSurface，用来处理 Surface 模式的数据输入输出
flexible YUV buffers : 例如 COLOR_FormatYUV420Flexible
specific formats: 支持ByteBuffer模式，有一些厂家会定制

MediaCodec的生命周期

MediaCodec 的生命周期有三种状态：Stopped、Executing、Released，其中Stopped包含三种子状态：Uninitialized、Configured、Error，Executing，包含三种子状态：Flushed、Running、End-of-Stream。

**Stopped **的三种子状态：

Uninitialized：当创建了一个MediaCodec对象，此时处于Uninitialized状态。可以在任何状态调用reset()方法使MediaCodec返回到Uninitialized状态。
Configured：使用configure(…)方法对MediaCodec进行配置转为Configured状态。
Error：MediaCodec遇到错误时进入Error状态。错误可能是在队列操作时返回的错误或者异常导致的。

Executing 的三种子状态：

Flushed：在调用start()方法后MediaCodec立即进入Flushed子状态，此时MediaCodec会拥有所有的缓存。可以在Executing状态的任何时候通过调用flush()方法返回到Flushed子状态。
Running：一旦第一个输入缓存（input buffer）被移出队列，MediaCodec就转入Running子状态，这种状态占据了MediaCodec的大部分生命周期。通过调用stop()方法转移到Uninitialized状态。
End-of-Stream：将一个带有end-of-stream标记的输入buffer入队列时，MediaCodec将转入End-of-Stream子状态。在这种状态下，MediaCodec不再接收之后的输入buffer，但它仍然产生输出buffer直到end-of-stream标记输出。

Released 状态

当使用完MediaCodec后，必须调用release()方法释放其资源。调用 release()方法进入最终的Released状态。

MediaCodec API

首先是创建 MediaCodec，在知道 MimeType (如"video/avc")的情况下，可以通过 createDecoderByType 方法来创建，也可以使用createByCodecName 方法，根据组件的确切名称(如OMX.google.mp3.decoder来获取实例。如果不知道 MimeType，可以使用 MediaCodecList.findDecoderForFormat、 MediaCodecList.findEncoderForFormat 来获取。创建成功之后，MediaCodec 进入 Uninitialized 状态。

在创建好 MediaCodec 后，需要调用 MediaCodec 的configure方法，主要是配置解码器或者编码器。同时 MediaCodec 的状态也会从 uninitialized 变成 configured 。configure方法中的 MediaFormat 的类型有：

Video 所必须的 Format Setting

	Encoder	Decoder
KEY_MIME	✔️	✔️
KEY_BIT_RATE	✔️	❌
KEY_WIDTH	✔️	✔️
KEY_HEIGHT	✔️	✔️
KEY_COLOR_FORMAT	✔️	❌
KYE_FRAME_RATE	✔️	❌
KEY_I_FRAME_INTERVAL	✔️	❌

Audio 所必须的 Format Setting

	Encoder	Decoder
KEY_MIME	✔️	✔️
KEY_BIT_RATE	✔️	❌
KEY_CHANNEL_COUNT	✔️	✔️
KEY_SAMPLE_RATE	✔️	✔️

配置成功后可以调用start方法。

start后相关的buffer处理的接口：

dequeueInputBuffer：从输入流队列中取数据进行编码操作。

queueInputBuffer：输入流入队列。

dequeueOutputBuffer：从输出队列中取出编码操作之后的数据。

releaseOutputBuffer：处理完成，释放ByteBuffer数据。

getInputBuffers：获取需要编码数据的输入流队列，返回的是一个ByteBuffer数组。

getOutputBuffers：获取编解码之后的数据输出流队列，返回的是一个ByteBuffer数组。

处理完成之后调用的方法：

flush：清空的输入和输出端口。

stop：终止decode/encode会话

release：释放编解码器实例使用的资源。

API详解

MediaCodec创建：

可以使用MediaCodecList为特定的媒体格式创建一个MediaCodec。

可以从 MediaExtractor 的 getTrackFormat 获得track的格式。
使用 MediaFormat setFeatureEnabled 注入想要添加的任何特性。
然后调用MediaCodecList 的 findDecoderForFormat来获取能够处理该特定媒体格式的编解码器的名称。
最后，使用createByCodecName(字符串)创建编解码器。

还可以使用createDecoder/EncoderByType(java.lang.String)为特定MIME类型创建首选的编解码器。但是，这不能用于注入特性，并且可能会创建一个不能处理特定媒体格式的编解码器。

configure：

MediaFormat format：输入数据的格式(解码器)或输出数据的所需格式(编码器)。传null等同于传递MediaFormat#MediaFormat作为空的MediaFormat。

Surface surface：指定Surface，用于解码器输出的渲染。如果编解码器不生成原始视频输出(例如，不是视频解码器)和/或想配置解码器输出ByteBuffer，则传null。

MediaCrypto crypto：指定一个crypto对象，用于对媒体数据进行安全解密。对于非安全的编解码器，传null。

flags：当组件是编码器时，flags指定为常量CONFIGURE_FLAG_ENCODE。

MediaFormat：封装描述媒体数据格式的信息(包括音频或视频)，以及可选的特性元数据。媒体数据的格式指定为key/value对。key是字符串。值可以integer、long、float、String或ByteBuffer。特性元数据被指定为string/boolean对。

dequeueInputBuffer：

返回用于填充有效数据的输入buffer的索引，如果当前没有可用的buffer，则返回-1。long timeoutUs：等待可用的输入buffer的时间。如果timeoutUs == 0，则立即返回，如果timeoutUs < 0，则无限期等待可用的输入buffer，如果timeoutUs > 0，则等待相应的微秒。

queueInputBuffer：

在指定索引处填充输入buffer后，使用queueInputBuffer将buffer提交给组件。许多codec要求实际压缩的数据流之前必须有“特定于codec的数据”，即用于初始化codec的设置数据，如AVC视频中的PPS/SPS，vorbis音频中的code tables。

int index：以前调用dequeueInputBuffer(long)返回的输入buffer的索引。

int offset：数据开始时输入buffer中的字节偏移量。

int size：有效输入数据的字节数。

long presentationTimeUs：此buffer的PTS(以微秒为单位)。

int flags：一个由BUFFER_FLAG_CODEC_CONFIG和BUFFER_FLAG_END_OF_STREAM标志组成的位掩码。虽然没有被禁止，但是大多数codec并不对输入buffer使用BUFFER_FLAG_KEY_FRAME标志。

BUFFER_FLAG_END_OF_STREAM：用于指示这是输入数据的最后一部分。

BUFFER_FLAG_CODEC_CONFIG：通过指定这个标志，可以在start()或flush()之后直接提交特定于codec的数据buffer。但是，如果您使用包含这些密钥的媒体格式配置编解码器，它们将在启动后由MediaCodec直接自动提交。因此，不建议使用BUFFER_FLAG_CODEC_CONFIG标志，只建议高级用户使用。

dequeueOutputBuffer：

从MediaCodec获取输出buffer。

返回值：已成功解码的输出buffer的索引或INFO_*常量之一(INFO_TRY_AGAIN_LATER, INFO_OUTPUT_FORMAT_CHANGED 或 INFO_OUTPUT_BUFFERS_CHANGED)。

返回INFO_TRY_AGAIN_LATER而timeoutUs指定为了非负值，表示超时了。
返回INFO_OUTPUT_FORMAT_CHANGED表示输出格式已更改，后续数据将遵循新格式。

BufferInfo info：输出buffer的metadata。

long timeoutUs：含义同dequeueInputBuffer中的timeoutUs参数。

BufferInfo

public final static class BufferInfo {
        public void set(
                int newOffset, int newSize, long newTimeUs, int newFlags);
        public int offset;
        public int size;
        public long presentationTimeUs;
        public int flags;
};

offset：buffer中数据的起始偏移量。

注意设备之间的offset是不一致的。在一些设备上，offset是相对裁剪矩形的左上角像素，而在大多数设备上，offset是相对整个帧的左上角像素。

size：buffer中的数据量(以字节为单位)。如果是0则表示buffer中没有数据，可以丢弃。0大小的buffer的唯一用途是携带流结束标记。

presentationTimeUs：buffer的PTS(以微秒为单位)。来源于相应输入buffer一起传入的PTS。对于大小为0的buffer，应该忽略这个值。

flags：与buffer关联的标识信息，flags包含如下取值：

BUFFER_FLAG_KEY_FRAME：buffer包含关键帧的数据。
BUFFER_FLAG_CODEC_CONFIG：buffer包含编解码器初始化/编解码器特定的数据，而不是媒体数据。
BUFFER_FLAG_END_OF_STREAM：标志着流的结束，即在此之后没有buffer可用，除非后面跟着flush。
BUFFER_FLAG_PARTIAL_FRAME：buffer只包含帧的一部分，解码器应该对数据进行批处理，直到在解码帧之前出现没有该标志的buffer为止。

releaseOutputBuffer

使用此方法将输出buffer返回给codec或将其渲染在输出surface。

boolean render：如果在配置codec时指定了一个有效的surface，则传递true会将此输出buffer在surface上渲染。一旦不再使用buffer，该surface将把buffer释放回codec。

异步流程

同步流程：

创建并配置MediaCodec对象。
- 循环直到完成：
	- 调用dequeueInputBuffer获取能填充有效数据的输入buffer的索引
  - 如果输入buffer准备好了：
    - 读取一段输入，将其填充到输入buffer中（queueInputBuffer）
  - 调用dequeueOutputBuffer获取输出buffer的索引
  - 如果输出buffer准备好了：
    - 从输出buffer中获取数据进行处理。
- 处理完毕后，release MediaCodec 对象。

异步流程：

- 创建并配置MediaCodec对象。
- 给MediaCodec对象设置回调MediaCodec.Callback
- 在onInputBufferAvailable回调中：
    - 读取一段输入，将其填充到输入buffer中
  	- onInputBufferAvailable会持续回调，在onInputBufferAvailable中调用mediaExtractor的advance方法，				逐帧输入
- 在onOutputBufferAvailable回调中：
    - 从输出buffer中获取数据进行处理。
  	- 在onOutputBufferAvailable中会不断回调，可以根据BufferInfo的flag判断输出结束
- 处理完毕后，release MediaCodec 对象。