OpenAI发布GPT-4o那天,我熬夜看了发布会直播。当演示者用语音、图像、文本同时和AI交互时,突然意识到:单一文本交互的时代,可能真的要结束了。

表层:交互效率的革命

作为每天跟AI打交道的人,我早受够了只能打字的限制。想让AI分析图表,得手动输数据;想让AI看照片,得文字描述半天。测试GPT-4o时,响应速度比GPT-4快2倍,基本秒回。上周跟做教育的朋友聊,他说正用GPT-4o做在线辅导:学生上传错题照片,AI马上讲解,效率高多了。

深层:中美多模态的垂直竞争

谷歌DeepMind也发布了AlphaFold 3,在蛋白质预测方面又进了一步。中美在多模态领域的竞争,已经从通用场景延伸到垂直领域。GPT-4o主打通用交互,AlphaFold 3深耕科学计算,各有侧重。

终局:多模态的两面性

但多模态也有问题:上传复杂电路图,AI会解读错误;语音提问,口音重就识别不准。更关键的是隐私——上传的照片和语音会不会被滥用?还有成本,处理多模态数据的算力消耗,比文本高多了。

技术总是解决旧问题,带来新问题。GPT-4o到底是多模态时代的开始,还是噱头?

单一模态的AI是工具,多模态的AI才是伙伴。但成为真正的伙伴,还需要跨过隐私、准确性和成本的三道坎。