Megrez-3B-Omni

无问芯穹开源了全球首个端侧全模态理解模型：Megrez-3B-Omni，能同时处理图片、音频、文本

图像理解上，超越了LLaVA-NeXT-Yi-34B，支持场景理解和OCR

文本理解上，在多个权威测试集上取得端上模型最优精度，优于其上一代14B

音频理解上，支持中英文语音输入及多轮对话，支持对输入图片的语音提问，根据语音指令直接响应文本
github：infinigence/Infini-Megrez
模型：https://huggingface.co/Infinigence/Megrez-3B-Omni

Image description

哇，这是个啥，是AI吗？