第 7 课

AI 不只会打字，它还能看、听、画、说。

“多模态”就是 AI 能处理多种信息：文字、图片、声音、视频。你可以把它想成人有眼睛、耳朵和嘴巴：有些 AI 能看一张题目照片并解释，有些能根据文字生成图像或视频，还有些能把语音转成文字。

看图描述、识别、读图表

听说语音识别、朗读、对话

创作图片、视频、音乐草稿

多模态 AI 能做什么？

看一张实验照片、地图或图表，帮你说出可能的信息。

把录音变成文字，或者练习英语发音反馈。

根据你的描述画出海报、角色、场景草图。

把文字脚本变成短视频片段，适合做创意草稿。

如果只说“画一个机器人”，AI 会随便猜。你要说明主体、场景、动作、风格、颜色、画面比例，还要告诉它不要出现什么。

模糊提示

“画一个未来学校。”

清楚提示

“画一个明亮的未来小学科学教室，孩子们围着透明植物培养箱观察，风格温暖、真实、适合课程封面，不要文字和商标。”

手指数量、文字、科学结构、地图位置都可能生成错误。

AI 视频能让没发生的事看起来像发生过，像“假电影片段”。所以不要随便相信。

有人可能模仿别人的声音，像“声音面具”。遇到转账、密码、紧急请求要找真人确认。

你用 AI 生成了一张班级活动海报。最合适的做法是什么？

选择一个答案。

你能解释“多模态”和“看起来真实也要检查”，就可以继续。

上一课