导读 高峰论坛期间,上海静安区人工智能、大数据企业合合信息公司与中国人工智能学会(CAI)模式识别专委会共同承办了《多模态大模型与文档图像...

高峰论坛期间,上海静安区人工智能、大数据企业合合信息公司与中国人工智能学会(CAI)模式识别专委会共同承办了《多模态大模型与文档图像智能理解》专题论坛,来自清华大学、华中科技大学、复旦大学、华南理工大学、百度、科大讯飞、合合信息等高等院校、研究机构和企业的技术专家,围绕行业焦点议题展开了探讨。 专题论坛上,合合信息智能技术平台事业部副总经理、高级工程师丁凯博士在《文档图像预训练模型的探索与思考》演讲中表示,在互联网语料“见底”之日逐渐逼近之时,电子书成为了大模型训练的新“燃料”,而电子书很多是由文档图像组成的,文档图像识别分析与智能理解技术可以将大量的文档图像转化为具有丰富格式信息的文本,为大模型提供更丰富更高质量的训练语料,解决大模型训练的“token荒”的问题。 丁凯认为,文档图像处理技术在推动大模型技术发展的同时,大模型的小样本学习能力、多任务能力、智能涌现能力对于文档图像处理问题的解决具有重要的研究价值。“在已有的学术研究中,文档图像专有大模型在更复杂的文档理解问题上存在天然的短板,而一些多模态大模型已经表现出了从含有表格、图片等多重元素的文档中提取关键信息进行分析,理解内容的潜力。”丁凯表示,研究人员可以基于现有的领域做更好的融合,开辟新的研究方向。

来源:TOOM舆情监测