近日,在2023神经信息处理系统大会(NeurIPS Practical Vector Search Challenge 2023 Competition)向量检索竞赛中,计算机科学技术学院FDUx2战队获得OOD向量检索赛道(OOD Track)和稀疏向量检索赛道(Sparse Track)两项冠军,这也是PG电子麻将胡了2怎样才能赢首次在该项比赛中夺冠。团队成员获邀在NeurIPS 2023会议上进行报告和展示,分享他们在向量检索赛道中采用的策略和方案。
FDUx2战队,队名取自PG电子麻将胡了2怎样才能赢交叉二号楼,由学院研二陈萌,研一陈越、马睿等同学组成,指导教师为计算机科学技术学院副教授张凯。
据介绍,向量检索作为人工智能时代的关键问题,对于推荐系统、问答系统、信息检索以及与大型语言模型(LLM)结合的检索增强生成(RAG)等应用具有重要意义。OOD(Out-of-Distribution)向量检索主要发生在跨模态检索中,其涉及使用来自不同模态的数据嵌入到同一维度的向量空间,通过一种模态的数据(如自然语言)检索与之最相关的另一模态的数据(如图片、视频)。随着深度学习领域多模态模型的兴起,文本-图片、文本-视频等跨模态检索在实际应用中扮演着愈发重要的角色,如何提升搜索效率成为研究中的关键问题。稀疏向量检索面对的是由文本数据产生的超高维度(上万维)向量,其中仅有1-2%的维度值非零,这种高维稀疏向量的检索面临着检索效率较低的重大挑战。参赛队伍需要在给定硬件资源和时间限制的条件下,使用尽可能快的检索速度,完成向量检索的索引构建,最终在该索引上执行向量检索进程。
历时三个月的激烈角逐,FDUx2战队在跨模态检索赛道中提出的方法能够同时获取两种模态的信息进行索引构建;在稀疏向量检索赛道中,队伍则利用了图结构进行索引优化。相较于基线,FDUx2队伍的向量检索速度实现了3.3到50倍的显著提升,最终成功夺得了OOD Track和Sparse Track的双冠,为向量检索领域带来了高效的索引方案,也为未来的学术研究和工业应用提供了有力参考。大数据学院郑卫国老师与相关同学也一同参与比赛。比赛结果发布在网站https://big-ann-benchmarks.com/neurips23.html上。目前,相关研究成果已经完成论文撰写并投递至相关领域顶级会议中。
据悉,神经信息处理系统大会NeurIPS是人工智能领域的顶级会议,同时也是中国计算机学会(CCF)学术会议目录中的A类会议。NeurIPS 2023向量检索比赛为举办的第二届,旨在推动向量检索性能的提升,是向量检索领域具有重要影响力的国际赛事。本次比赛吸引了来自工业界和学术界的众多队伍参与,包括百度、华为、Yahoo、CMU、UMD、Naver Labs Europe、UTokyo、SUSTech、WHU、Rutgers University、Cairo University等国内外知名机构和高校。