“多模态”是大模型领域我们经常碰到的一个词儿,什么是”多模态”?这篇文章中,我们用通俗易懂的语言,尝试解释下,让我们对这些名词有更深入的理解,以便我们更好地应用大模型,更好让其为我们提供服务。
历史文章,
《大模型”幻觉”通俗一些的理解》
《Token通俗一些的理解》
《小白都可以看懂的小龙虾安装教程》
“多模态”(Multimodal)指的是同时涉及或整合多种不同的信息表达方式(即模态)。这里的”模态”可以理解为人类或机器感知、交流时使用的不同通道或形式,例如,
视觉:图像、视频、颜色、形状
听觉:声音、音乐、语音
文本:语言文字
触觉:压力、震动、温度
嗅觉、味觉(较少见)
简单理解,我们人类天生就是多模态的:
看一部电影,你同时接收画面+声音+字幕(文本),这就是多模态体验。
你和朋友聊天,听到声音(听觉),看到对方的表情和手势(视觉),如果发文字消息则是文本模态。
想象你吃一个苹果:你看到它是红色、圆圆的 → 视觉;你听到咬下去“咔嚓”一声 → 听觉;你闻到果香 → 嗅觉;你尝到酸甜 → 味觉;你摸到光滑的皮 → 触觉。你将所有这些信息合在一起,才真正知道”苹果是什么”。如果只靠其中一种,例如只给你看一张苹果照片(只有视觉),你就不知道它吃起来脆不脆、闻起来香不香。
既然有”多模态”,自然有”单模态”,
单靠文字:你看菜谱写”加盐少许”——”少许”是多少?完全不知道,缺了视觉和手感。
单靠语音:你听朋友说”我到了”,但你不知道他在哪个门口(缺视觉)。
单靠图片:一张雪山的照片很美,但你听不到风声、感觉不到寒冷。
你会发现,单一模式的信息总是缺一块,容易误会。
在人工智能/计算机领域的”多模态”通常指模型能够同时处理和理解两种或以上模态的信息,并建立它们之间的关联。典型例子:
图文生成:给你一张猫的图片,模型生成”一只橙色的猫坐在垫子上”——输入是图像(视觉),输出是文本。
视觉问答:问”图中有几个人?”——输入是图像+文本问题,输出是文本答案。
视频理解:分析一段视频,同时识别画面中的人物动作(视觉)和背景音乐的情感(听觉)。
语音转文字:输入音频(听觉),输出文本(这是跨模态,但通常归为语音处理)。
为什么要多模态?
单一模态信息往往不完整。例如:
只看菜谱文字(文本),你无法判断成品长什么样(缺视觉)。
只听一段音乐(听觉),你不知道是谁演奏的(缺视觉或文本标签)。
多模态能让AI更接近人类的感知和推理,在自动驾驶(摄像头+雷达+地图)、医疗诊断(影像+病历文本)、智能助手(语音+屏幕显示)等领域非常关键。
因此,多模态 = 融合多种信息形式(如文本、图像、声音等)来理解或生成内容,让机器”耳聪目明、能读会写”。多模态就像你同时用眼睛看、耳朵听、鼻子闻、手去摸来认识一个东西,而不是只用一种方式。
现在的人工智能,它们被训练成也能同时处理:
你给它一张照片(视觉)
再加一句文字提问”图里的人在笑吗?”(文本)
它输出文字回答“是的,他在笑”。
或者你给它一段视频(视觉+听觉),让它描述发生了什么。这就是让电脑像人一样,将不同感觉通道的信息串起来理解。
声明:来自bisal的个人杂货铺,仅代表创作者观点。链接:https://eyangzhen.com/7340.html