报告题目:数据驱动的代码生成
主讲人:李金阳
报告时间:2025年4月2日星期三上午11:00-12:00
报告地点:厦门大学信息学院5号楼209会议室
报告摘要:
数据作为现代社会的基础资源,在科研、商业和日常生活中发挥着不可替代的作用。数据中心代码生成技术旨在利用大型语言模型将人类自然语言指令转换为针对特定数据的可执行代码,提高数据分析效率。本次报告将探讨构建高质量、广泛应用的评估基准的方法,研究提升模型准确性和可靠性的技术,以及面向隐私保护场景的模型蒸馏方案,并展示这些技术在text-to-SQL、数据科学代码生成等领域的应用价值。
Data, as a fundamental resource in modern society, plays an irreplaceable role in scientific research, business, and daily life. Data-centric code generation technology aims to utilize large language models to convert human natural language instructions into executable code for specific data, improving data analysis efficiency. This talk will explore methods for constructing high-quality, widely applicable evaluation benchmarks, research techniques to enhance model accuracy and reliability, and examine model distillation approaches for privacy-preserving scenarios, demonstrating their application value in domains such as text-to-SQL and data science code generation.
报告人简介:
李金阳博士是香港大学的计算机博士生,获香港大学校长奖学金计划资助。他于美国哥伦比亚大学获得硕士学位,哈尔滨工业大学获得学士学位。他在AAAI、NeurIPS, EMNLP等自然语言处理或AI顶级会议上发表多篇论文,并担任ARR、ICLR、NeurIPS的独立审稿人。此外,他与国际多家AI学术机构保持紧密合作或者研究实习,如阿里巴巴打磨研究院,微软亚洲研究院、微软剑桥研究院、亚马逊Alexa AI和谷歌云AI研究院等。他所领导构建的BIRD-SQL基准,发布两年期间已获400次谷歌学术引用,被甲骨文、IBM、谷歌云研、斯坦福大学、加州伯克利大学等国际一线数据库公司和大学广泛采用。国际一线LLM公司如OpenAI、Google DeepMind和Anthropic也将其作为代码生成的重要评估基准或训练资源。他与谷歌云合作领导的第二代BIRD-SQL 2025同样受到业界广泛关注。
邀请人:计算机科学与技术系 李晓东助理教授