文/图 彭朋
1月11日上午,悉尼大学张敬博士后研究员做客我校“未央导师论坛”,在线作了题为“视觉Transformer模型结构设计及其应用”的学术报告。报告会由研究生院主办,gcgc黄金城集团承办,gcgc黄金城集团研究生导师及研究生参加了此次报告会,会议由gcgc黄金城集团刘伟峰教授主持。
报告会上,张敬研究员围绕Transformer模型结构的改进,首先介绍了将卷积神经网络与Transforme模型相结合,从参数数量、数据集大小、计算量、精度等方面对大模型的性能进行评估;其次,讲解了如何通过改变Transformer模型的图像输入方式,提高Transformer在视觉领域中模型的鲁棒性。最后,对上述模型在图像识别、物体检测、语义分割等领域的应用及取得的显著进展进行展示和汇报。
报告会结束后,与会师生与张敬研究员就报告内容进行了深入的交流与探讨。报告聚焦视觉Transformer前沿技术,拓宽了师生学术视野和科研思路。
新闻小贴士:
张敬,博士,2015年毕业于中国科学技术大学自动化系,目前在悉尼大学计算机系从事博士后研究,主要从事计算机视觉与深度学习等人工智能领域的相关科学研究工作,在 CCF A类国际会议/期刊以及IEEE 汇刊等国际著名期刊已发表学术论文90余篇,谷歌学术引用6200余次。长期担任著名国际学术期刊和会议审稿人、程序委员会委员、高级程序委员会委员及领域主席。2023年晋升为美国电气和电子工程师协会(IEEE)高级会员。提出的ViTAE Transformer可广泛应用于图像分类、目标检测、语义分割、视频实例分割、图像抠图、目标跟踪、文字检测和识别、遥感图像分析等多个领域,并取得了非常有竞争力的结果,相关GitHub仓库关注量超过5000。该模型在相关比赛或者公开数据集多次名列第一,受到广泛关注。