“多模态”通俗易懂的理解_杨振互联网服务中心

“多模态”是大模型领域我们经常碰到的一个词儿，什么是”多模态”？这篇文章中，我们用通俗易懂的语言，尝试解释下，让我们对这些名词有更深入的理解，以便我们更好地应用大模型，更好让其为我们提供服务。

历史文章，

《大模型”幻觉”通俗一些的理解》

《Token通俗一些的理解》

《小白都可以看懂的小龙虾安装教程》

“多模态”（Multimodal）指的是同时涉及或整合多种不同的信息表达方式（即模态）。这里的”模态”可以理解为人类或机器感知、交流时使用的不同通道或形式，例如，

视觉：图像、视频、颜色、形状

听觉：声音、音乐、语音

文本：语言文字

触觉：压力、震动、温度

嗅觉、味觉（较少见）

简单理解，我们人类天生就是多模态的：
看一部电影，你同时接收画面+声音+字幕（文本），这就是多模态体验。

你和朋友聊天，听到声音（听觉），看到对方的表情和手势（视觉），如果发文字消息则是文本模态。

想象你吃一个苹果：你看到它是红色、圆圆的 → 视觉；你听到咬下去“咔嚓”一声 → 听觉；你闻到果香 → 嗅觉；你尝到酸甜 → 味觉；你摸到光滑的皮 → 触觉。你将所有这些信息合在一起，才真正知道”苹果是什么”。如果只靠其中一种，例如只给你看一张苹果照片（只有视觉），你就不知道它吃起来脆不脆、闻起来香不香。

既然有”多模态”，自然有”单模态”，
单靠文字：你看菜谱写”加盐少许”——”少许”是多少？完全不知道，缺了视觉和手感。

单靠语音：你听朋友说”我到了”，但你不知道他在哪个门口（缺视觉）。

单靠图片：一张雪山的照片很美，但你听不到风声、感觉不到寒冷。

你会发现，单一模式的信息总是缺一块，容易误会。

在人工智能/计算机领域的”多模态”通常指模型能够同时处理和理解两种或以上模态的信息，并建立它们之间的关联。典型例子：
图文生成：给你一张猫的图片，模型生成”一只橙色的猫坐在垫子上”——输入是图像（视觉），输出是文本。

视觉问答：问”图中有几个人？”——输入是图像+文本问题，输出是文本答案。

视频理解：分析一段视频，同时识别画面中的人物动作（视觉）和背景音乐的情感（听觉）。

语音转文字：输入音频（听觉），输出文本（这是跨模态，但通常归为语音处理）。

为什么要多模态？
单一模态信息往往不完整。例如：

只看菜谱文字（文本），你无法判断成品长什么样（缺视觉）。

只听一段音乐（听觉），你不知道是谁演奏的（缺视觉或文本标签）。

多模态能让AI更接近人类的感知和推理，在自动驾驶（摄像头+雷达+地图）、医疗诊断（影像+病历文本）、智能助手（语音+屏幕显示）等领域非常关键。

因此，多模态 = 融合多种信息形式（如文本、图像、声音等）来理解或生成内容，让机器”耳聪目明、能读会写”。多模态就像你同时用眼睛看、耳朵听、鼻子闻、手去摸来认识一个东西，而不是只用一种方式。
现在的人工智能，它们被训练成也能同时处理：

你给它一张照片（视觉）

再加一句文字提问”图里的人在笑吗？”（文本）

它输出文字回答“是的，他在笑”。

或者你给它一段视频（视觉+听觉），让它描述发生了什么。这就是让电脑像人一样，将不同感觉通道的信息串起来理解。

阅读原文 >>

声明：来自bisal的个人杂货铺，仅代表创作者观点。链接：https://eyangzhen.com/7340.html

“多模态”通俗易懂的理解

相关推荐