AI AI 探索课第 7 课 / 共 10 课

第 7 课

AI 不只会打字,它还能看、听、画、说。

“多模态”就是 AI 能处理多种信息:文字、图片、声音、视频。你可以把它想成人有眼睛、耳朵和嘴巴:有些 AI 能看一张题目照片并解释,有些能根据文字生成图像或视频,还有些能把语音转成文字。

看图描述、识别、读图表
听说语音识别、朗读、对话
创作图片、视频、音乐草稿

多模态 AI 能做什么?

看图解释

看一张实验照片、地图或图表,帮你说出可能的信息。

听声音

把录音变成文字,或者练习英语发音反馈。

生成图像

根据你的描述画出海报、角色、场景草图。

生成视频

把文字脚本变成短视频片段,适合做创意草稿。

生成图片时,要说清楚什么?

如果只说“画一个机器人”,AI 会随便猜。你要说明主体、场景、动作、风格、颜色、画面比例,还要告诉它不要出现什么。

模糊提示

“画一个未来学校。”

清楚提示

“画一个明亮的未来小学科学教室,孩子们围着透明植物培养箱观察,风格温暖、真实、适合课程封面,不要文字和商标。”

看起来真实,不等于真的

图片可能有错

手指数量、文字、科学结构、地图位置都可能生成错误。

视频可能误导

AI 视频能让没发生的事看起来像发生过,像“假电影片段”。所以不要随便相信。

声音可能伪造

有人可能模仿别人的声音,像“声音面具”。遇到转账、密码、紧急请求要找真人确认。

小练习:AI 生成海报,应该怎么做?

你用 AI 生成了一张班级活动海报。最合适的做法是什么?

本课检查

你能解释“多模态”和“看起来真实也要检查”,就可以继续。