Opengl OES 更新YUY2 纹理数据耗时问题

最近在开发Camera 预览的时候遇到了OES 更新YUY2 纹理数据耗时过长的问题，导致预览的帧率只能达到10帧左右，每次同步时间花费在glEGLImageTargetTexture2DOES 接口，耗时时间在 8-9ms, 对于多个Camera 流同时5路合1预览时，帧率就降下来了。

怀疑1：CPU 与 GPU 内存共享问题。

查看 ION Camera 数据的Usages, 是否包含 GRALLOC_USAGE_HW_TEXTURE ，GRALLOC_USAGE_HW_RENDER

怀疑2：Camera 数据格式问题

使用RGBA 数据格式进行测试，发现 glEGLImageTargetTexture2DOES 接口更新纹理耗时在 2-3 ms，远远小于YUY2 数据更新纹理耗时。

怀疑3：OES 纹理支持的数据格式问题。

查询OES 数据支持格式，直接支持 RGBA, YUV420 数据格式，对于YUV422 数据格式没有直接支持。
GL_TEXTURE_EXTERNAL_OES 本身是一个特殊的纹理目标，设计用于直接绑定外部资源（例如通过 EGLImage 引入的图像）。在大多数情况下，数据不会在上传到 GPU 时进行主动转换，因为：

纹理数据通常是由外部设备（如相机或视频解码器）直接提供的，不经过 CPU 的预处理。
通过 glEGLImageTargetTexture2DOES，纹理数据是以硬件驱动支持的格式共享到 GPU 中。
因此，在上传阶段不会发生颜色空间或格式转换。但是，以下情况可能触发某些隐性转换：

GPU 处理需求触发的隐性转换

纹理格式转换
如果外部资源的像素格式（例如 YUV、YUYV）与 GPU 不直接兼容，GPU 或驱动可能会对数据进行纹理格式的解码或转换。这种转换可能发生在硬件内部，不直接暴露给开发者。
例如，将 YUV 格式数据转换为 GPU 可用的 RGB 格式。
内存布局调整
外部设备（如相机或视频解码器）的数据可能以非线性存储（tiled format）方式存储，GPU 在使用这些数据时可能需要重新排列为线性内存布局以适应纹理的处理需求。
对齐和填充
某些硬件可能要求纹理数据以特定的内存对齐方式上传。在绑定过程中，驱动程序可能会对数据进行补齐或重新对齐以满足硬件要求。

所以怀疑OES 纹理上传数据时，触发了GPU的隐形转换，并且使用RGBA 数据纹理时，纹理更新时间在2-3ms，也侧面印证这个问题。

优化策略1：使用 GL_TEXTURE_2D纹理，并且使用PBO 异步更新纹理数据。

PBO（Pixel Buffer Object）是 OpenGL 提供的一种缓冲对象类型，专门用于加速像素数据的上传和下载。它是缓冲对象（Buffer Object）的一种，主要用于处理纹理像素数据的传输，尤其是在需要频繁更新纹理或者读取帧缓冲区时，可以显著提高性能。

// 创建PBO
void BufferConsumer::createPBO() {
    glGenBuffers(1, &mPBOId);
    glBindBuffer(GL_PIXEL_UNPACK_BUFFER, mPBOId);
    glBufferData(GL_PIXEL_UNPACK_BUFFER, mDataSize, NULL, GL_STREAM_DRAW);
    glBindBuffer(GL_PIXEL_UNPACK_BUFFER, 0);
}

// 更新纹理
void BufferConsumer::updateTexture() {
    std::unique_lock <std::mutex> lock(mMutex);
    // 1. acquireBuffer
    android::BufferItem bufferItem;
    ......
    // 2. Lock GraphicBuffer
    uint8_t* img = NULL;
    res = bufferItem.mGraphicBuffer->lock(GRALLOC_USAGE_SW_READ_OFTEN, (void**) (&img));
    if(res != NO_ERROR) {
        LOG_E("%s mGraphicBuffer lock failed ret: %d", mCameraId.c_str(), res);
        return;
    }

    // 3. updateTexture
    updateTextureInner(img);

    // 4. unlock GraphicBuffer
    res = bufferItem.mGraphicBuffer->unlock();
    if(res != NO_ERROR) {
        LOG_E("%s mGraphicBuffer unlock failed ret: %d", mCameraId.c_str(), res);
        return;
    }
}

void BufferConsumer::updateTextureInner(uint8_t* imageData) {
    LOG_D("%s updateTextureInner", mCameraId.c_str());
    // 1. update data To PBO
    glBindBuffer(GL_PIXEL_UNPACK_BUFFER, mPBOId);
    GLubyte* ptr = (GLubyte*) glMapBufferRange(GL_PIXEL_UNPACK_BUFFER, 0, mDataSize, GL_MAP_WRITE_BIT);
    if (ptr) {
        memcpy(ptr, imageData, mDataSize);
        glUnmapBuffer(GL_PIXEL_UNPACK_BUFFER);
    }
    glBindBuffer(GL_PIXEL_UNPACK_BUFFER, 0);
    
    // 2. update PBO TO texture
    glBindTexture(GL_TEXTURE_2D, mTextureId);
    glBindBuffer(GL_PIXEL_UNPACK_BUFFER, mPBOId);
    glTexSubImage2D(GL_TEXTURE_2D, 0, 0, 0, mWidth, mHeight, mGLFormatType, GL_UNSIGNED_BYTE, NULL);
    glBindBuffer(GL_PIXEL_UNPACK_BUFFER, 0);
    glBindTexture(GL_TEXTURE_2D, 0);
}

// 绘制纹理
void RenderFrame::onDraw() {
    ......
    glActiveTexture(GL_TEXTURE0);
    // Render glyph texture over quad
    glBindTexture(GL_TEXTURE_2D, mTextures[cameraId]);
   .......
}

把颜色转换过程放在着色器中完成，这样就可以把纹理更新的时间控制在 1-2ms 左右，从而优化帧率。

优化策略2：使用glDrawArraysInstanced 进行批量绘制，减少绘制调度的耗时。

glDrawArraysInstanced 是 OpenGL 提供的一种绘制函数，用于通过实例化渲染绘制多个相同的对象实例。与普通的绘制函数（如 glDrawArrays）不同，glDrawArraysInstanced 能够在一次调用中高效地绘制多个实例，从而减少 CPU 与 GPU 之间的调用开销。
具体可以参考https://learnopengl-cn.readthedocs.io/zh/latest/04%20Advanced%20OpenGL/10%20Instancing/