首页 > 其他 > AI大模型新突破：豆包上线图片理解功能，引领实用化浪潮

AI大模型新突破：豆包上线图片理解功能，引领实用化浪潮

2024-12-04 221

近期，国内AI大模型应用领域迎来了一场“多元化”的变革。

据业内消息，字节跳动旗下的豆包应用近期上线了一项名为“图片理解”的新功能。无论是通过豆包APP还是PC端，用户只需上传图片，即可让应用识别并理解图片中的内容。这一功能突破了传统OCR识别技术的局限，不再局限于文字识别，而是能够全面解析图片信息。

举例来说，用户询问某个景点的位置或动漫人物的身份，豆包都能够迅速给出准确的回答。这一功能的强大之处在于其对于图片内容的深度理解，而不仅仅是简单的文字识别。

不仅如此，豆包还能够解析复杂的图像内容，如四格漫画。以一幅描绘物理学家发现牛顿发明重力的幽默漫画为例，豆包能够准确解读出漫画中的文字与图像信息，进而解析出漫画所表达的笑话含义。漫画中，物理学家在战场上看到士兵倒地，不是考虑士兵的死活，而是思考其背后的科学原理，最终得出牛顿发明了重力的结论，讽刺了物理学家有时不切实际的思考方式。

AI大模型新突破：豆包上线图片理解功能，引领实用化浪潮

豆包的这一功能并非孤例。此前，马斯克的人工智能公司xAI也曾为其产品Grok增加了图像理解功能，并展示了Grok理解并解释笑话的能力。这些案例表明，AI大模型在图像理解领域取得了显著的进展。

随着AI技术的飞速发展，越来越多的企业开始将AI大模型应用于更实用的场景中。图片理解功能正是其中之一，它能够满足用户在搜索、查找评估、文本写作等多个场景中的需求，使AI大模型更加贴近实际应用。

数据显示，2024年10月，AI原生应用行业的月活跃用户规模已达到8976万，同比增长373%。这些应用广泛应用于情感陪伴、职场办公、趣味休闲、文案写作、教育学习、生活助手、图像生成、行业顾问等多个领域。其中，字节跳动的豆包App凭借其强大的功能和丰富的应用场景，已成为中国日活用户最高的AI大模型产品之一。

AI大模型新突破：豆包上线图片理解功能，引领实用化浪潮