无问芯穹开源了全球首个端侧全模态理解模型:Megrez-3B-Omni,能同时处理图片、音频、文本
图像理解上,超越了LLaVA-NeXT-Yi-34B,支持场景理解和OCR
文本理解上,在多个权威测试集上取得端上模型最优精度,优于其上一代14B
音频理解上,支持中英文语音输入及多轮对话,支持对输入图片的语音提问,根据语音指令直接响应文本
github:infinigence/Infini-Megrez
模型:https://huggingface.co/Infinigence/Megrez-3B-Omni