研究方向-厦门大学媒体分析与计算组 MAC-Media Analytics and Computing

模型压缩

神经网络模型压缩是在神经网络性能影响不大的情况下通过有关方法来减少网络的参数和存储空间。神经网络模型压缩方法大体上可以分为近似、量化和裁剪三类方法。实验室模型压缩组在这三类压缩方法上都有国际领先型成果产出，并且包含高层视觉任务、底层视觉任务与图像生成任务上都有所建树。实验室所构建的核心算法不但发表在CCF-A类的计算机顶刊顶会上，还被广泛应用到业界领先的IT公司，诸如：华为、VIVO、美图等。

自动机器学习

自动机器学习旨在特定的搜索空间上，采取某种精度评估方式，利用黑盒优化算法，针对某个数据集进行网络结构的自动检索。一般的神经网络结构检索分为搜索空间、搜索算法以及精度评估三个部分。搜索算法在搜索空间中进行采样，在精度评估中进行评估，通过得到的性能对搜索算法进行更新。利用神经网络结构检索可以极大的减小人工智能产品开发落地所需要的资源投入，极大的拓展人工智能领域的适用范围，使得人工智能在各个领域更容易落地实现，具有重大的理论意义和应用价值。

高效训练

高效模型训练研究旨在利用海量的互联网多媒体数据训练大规模的单模态或跨模态模型，同时解决预训练模型在下游任务应用中迁移成本昂贵、有效标记稀疏及数据利用率低下等关键问题。该研究所包含的具体应用包括视觉问答、指向性目标检测、图文生成以及半监督目标检测等任务。

图学习

图表示和图网络学习是计算机视觉、社交网络、生物化学领域和推荐领域的重要研究课题。主要研究针对大规模异构数据条件的图构建，图中节点以及整个图的特征表示，包含许多热点研究方向，包括数据的流形表示，超图学习，图敏感深度学习等。在理论层面上，主要关注节点分类、图分类、边预测、图重建等。在应用层面上，主要关注流形结构保持的深度视觉数据表示、社交网络中的好友推荐、电商平台的商品推荐、生物化学分子结构分析，交通预测预测等。

推荐系统

根据用户的历史行为、社交关系、兴趣点、所处上下文环境等信息去判断用户当前需要或感兴趣的物品/服务的一类应用。其本身是一种信息过滤的方法，与搜索和类目导航组成三大主流的信息过滤方法。近年来，复杂图数据挖掘技术和大规模预训练模型技术成为推荐系统领域最重要的研究方向之一，在社交推荐系统、多模态推荐系统和可信推荐系统等问题上得到广泛应用。本组研究围绕推荐系统的相关应用，并结合图数据挖掘算法展开，研究领域覆盖数据挖掘、信息检索和数据库，具体研究方向包括：1)可信推荐系统，包括鲁棒推荐系统（托攻击和防御算法）和基于图数据的推荐系统预训练模型；2)复杂图数据挖掘与检索，包括异构动态图异常检测算法、基于异构动态图的图预训练模型构建与应用；3)多模态时序知识图谱，包括融合多模态信息和时序信息的大规模知识图谱构建和应用。

目标检测

弱监督学习问题的定义为：训练数据标注的精细程度低于要求系统预测的精细程度的学习任务。与传统的学习框架（如全监督学习方法）相比，WSL框架可以大大减少对训练样本进行精细标注的人力成本。目标检测的任务是判断输入图像中物体出现的位置与类别。在目标检测时，由于每张图像中物体的数量、大小及姿态各有不同，也就是非结构化的输出，这是与图像分类非常不同的一点，并且物体时常会有遮挡截断，所以物体检测技术也极富挑战性。全景分割任务包括语义和实例分割，但引入了新的算法挑战。与语义分割不同，它需要区分单个目标实例；这对完全卷积网络提出了挑战。与实例分割不同，对象分割必须不重叠；这对独立操作每个目标的基于区域的方法提出了挑战。

三维视觉

人类视觉中，有一个很重要的能力就是可以从二维图像中理解图像的三维形状。理解三维几何对于了解物体和场景的物理和语义结构至关重要，但当下计算机的视觉仍然很难从二维照片中抽取出三维几何信息。NeRF（神经辐射场）最早是在2020年ECCV会议上的最佳论文中提出的概念，其将隐式表达推上了一个新的高度，仅用2D的posed images作为监督，即可表示复杂的三维场景。

视觉语言

复杂语言功能的形成是人类其它感官高度进化的结果，同时图像、视频还有语言文字，都是我们希望计算机能够理解的对象，将图文联合起来进行研究，符合客观的认知规律。视觉语言研究的既是计算机视觉与自然语言交叉发展的关键问题，也是人工智能与人机交互技术的关键组成部分。该方向主要包括图像描述、视觉问答、图文匹配、视觉定位和基于文本的图像生成（编辑）等任务。这些任务具有广泛的研究价值，在日常生活中具有广阔的应用前景，例如，人机交互、工业巡检、盲人导航、医疗报告生成和艺术创作等。

模型攻防

人工智能技术推动着各个领域向智能化发展的同时也带来了新的安全挑战。AI安全包括针对AI模型自身的对抗攻击威胁以及利用AI技术解决安防场景下关键问题两个层面。研究团队长期致力于人工智能安全关键技术研究，对于对抗攻击威胁，研究多场景、多任务下对抗性干扰生成，提出一系列消除干扰、提升模型鲁棒性工作；针对安防场景，研究团队深入包括伪造人脸检测、伪装目标检测等多种安防场景关键技术研究，为智慧安防等领域提供技术支持。该方向的主要研究内容有：对抗攻击，对抗防御，模型窃取，数据隐私保护等。

行人重识别

针对特定行人活动轨迹的跟踪、定位和检索是智慧城市智能监控任务中的关键技术。由于城市的监控摄像头难以获取高清的行人图像，单纯地依靠传统生物信息（如人脸识别、虹膜识别）无法实现大规模城市监控的行人识别。行人重识别是指，根据已有的需要检索的图片，在非重叠的摄像头拍摄的视频或图片中，根据视觉特征，如人的外观等信息，检索目标行人。行人重识别的研究为智慧城市安全监控提供了全新的解决思路和解决方案，广泛应用与于城市监控、智能安防等诸多领域。