■ 记者 田敬权
经过近5年的深入研究与攻关,一个困扰数据挖掘与大数据分析领域40多年的经典NP难问题(MLCS问题),在西安电子科技大学软件学院李雁妮副教授负责的科研团队手中从理论和算法上取得阶段性突破。目前,该研究的基础性与阶段性成果论文:“A Novel Fast and Memory Efficient Parallel MLCS Algorithm for Long and Large-Scale Sequences Alignments”和“A Real Linear and Parallel Multiple Longest Common Subsequences (MLCS) Algorithm”已分别被数据库与数据挖掘领域的A类顶级国际会议ICDE 2016及其顶级会议SIGKDD 2016全文接收录用。
问题来源:时代的迫切需求
MLCS问题(Multiple Longest Common Subsequences for Multiple Sequences)即为求多个字符序列中的某个或者所有的最长公共子序列问题,它在基因检测、序列相似性比对、模式识别、数据挖掘、代码克隆检测、文献查重、网页聚类等领域都有着重要而普遍的应用。
目前求解MLCS问题通常采用上世纪70年代提出的基于动态规划的MLCS算法,或者上世纪80年代产生的基于支配点的MLCS算法。而随着大数据时代的到来,各种应用领域中的字符序列的长度与规模正呈指数爆炸式增长,已有的MLCS算法已不能满足大规模或较长字符序列的比对需求。
“一般而言,任何信息都可抽象为在一个有限字符集下的字符串,”李雁妮介绍说,“例如,一个基因的DNA就是在字符集{A,C,G,T}下的一个字符序列,当比对字符序列的规模足够大或者长度足够长的时候,如果不能在理论和算法上实现突破,那么无论在高性能计算机上,还是在大数据平台上,求解比对字符序列的MLCS都无法在多项式时间内计算出结果。”
被誉为“生命科学的登月计划”的人类基因组计划已经开展了几十年,而基于“生物基因序列比对”及“基因剪刀”等技术的肿瘤研究问题,受制于数据处理仍进展缓慢:据粗略测算,最长的基因序列长度已接近10的19次方,即便在高性能计算机上,使用目前最好的MLCS算法,也只能对字符集为4、序列个数为5、序列长度为300的基因字符序列进行比对。
大数据分析算法和大数据平台的关系,就好比汽车和高速公路的关系,如果汽车本身存在缺陷或者性能低劣,则高速公路对于这辆车而言就没有充分发挥它本身应有的“高速”作用。“我们要做的,就是要创新提出一种更优的MLCS算法,不仅使其在时间和空间性能上实现突破,而且可以最终实现在一般机器上,对任意规模和任意长度的大字符序列以线性时间进行比对。”李雁妮说。
科研理念:擒贼擒王,舍近求远
李雁妮的研究思路似乎和一般人的不太一样,她把它归结成“擒贼擒王,舍近求远”。众所周知,计算机领域工程化思想十分盛行,而领域内的基础理论研究相对薄弱。“计算机的核心和未来,就是一个算法的世界。目前,在数据挖掘与大数据分析领域,国内外科研工作者重点在以下两方面展开科研攻关:一是设计与构建高效的大数据处理平台。这个工作不仅需要许多尖端理论与技术,而且需要大量的人力、物力与财力,这是我们一般高校所不具备的;二是基础理论研究与算法的创新与突破。这一工作不需要太多的人力财力,适合高校科研尖兵探索,但这也是见效最慢且最艰难的工作。因为从问题抽象、模型构建到算法的设计与实现等环节,从理论到实践都需要深入研究探索,需要大胆创新突破,需要十分艰难和巨大的付出。”李雁妮认真地说。
李雁妮认为,科研的突破在于潜心坚持,沉下心来才会出成果。虽有各项指标作为指挥棒,但作为一个科研工作者,必须端正科研态度,锚定并力争解决好领域内的关键问题,发表论文及发表高等级的论文也就成了水到渠成之事,学术的道路也才会走得长远。
“虽说近两年西电计算机学科在数据挖掘与大数据分析领域走向世界的步伐正在逐步加快,譬如由网络与信息安全学院的李辉副教授和计算机学院的崔江涛教授联合攻关的科研成果,相继入选数据库与数据挖掘领域的顶级A类会议(SIGMOD 2015及VLDB 2014),但我国及我校的计算机学科在数据挖掘及大数据分析领域与国外最先进水平还存在一定的差距,想要赶超世界一流,必须砥砺奋进。另外,我的底子相对较薄,自己所带的研究团队也非常弱小,科研资源比较匮乏,如果想真正和国际大牛PK,赶超世界一流,我和团队成员就必须更加谦虚谨慎、更加埋头实干,更大强度地进行科研攻关,才有可能在和世界强队的科研比拼中获胜。”李雁妮说。
成绩背后:并非一时一人之功
4年多的时间里,多少个日日夜夜,MLCS这一问题始终困扰着李雁妮,令她夜不能寐、茶饭不思。“她太拼了,期间在女儿病逝,自己两次严重骨折的情况下,她擦干眼泪、深埋痛苦,仍克服一切因难,默默地持续坚持这一难题的攻关。”导师王宇平教授这样评价。
有些起初一同攻关的学生和同事在一段时间后相继从中退出,认为这一难题根本无法突破,同时劝说她也放弃这一难题的攻关,但她坚定自己的科研信念,没有停止脚步。
“为了潜心研究,几年来她几乎屏蔽掉了一切不必要的人际交往,从不玩手机与微信,几乎每天坚持实验室——家——食堂三点一线的十几个小时的超强工作。李老师对我们很少说教,而是以自己的实际行动去影响我们。她非常刻苦,除了上课、开会或者出差等事情外,她几乎每天都是第一个进入和最后一个离开实验室的人。榜样的力量告诉我们,要想出成绩,一定要脚踏实地,比别人付出更多的努力,”李雁妮的学生、软件学院研究生杜洋说,“李老师带给我们的不只是对科研态度的转变,更是对人生态度的修正。本来一开始我上研仅仅是想找一份工作,但在李老师的人生理念及认真严谨的治学精神影响下,我们开始放下浮躁,懂得人生需要算大账,领域内还有很多可以尝试的挑战,要取得成就必须先付出,必须刻苦钻研,更加努力工作。”
李雁妮的学生、软件学院研究生成阳说:“李老师的人格魅力深深感染着我。她的研究领域包括Web数据集成与挖掘、大数据分析算法等,同时还承担着四五个纵横向研究课题,还要给我们上课,常常凌晨两三点或者四五点在群里给我们分享她备课或科研的心得与收获。记得今年寒假过年,同学们基本都回家了,她还在坚持工作,只为赶在大年初六论文投稿截止日期前将论文按时投出。那几天北校区老科技楼路面结冰,李老师在去往办公室的路上不慎摔倒,左臂骨折。为了不影响工作,她没去医院也没做任何固定措施,坚持伏案工作,这种科研精神着实令人敬佩。”
“到了我这个年纪,很想真正做点事情,也很想证明,在这个领域,我们国家,我们西电,我们计算机学科能行。”李雁妮颇有感慨地说。
“成果和荣誉并不完全属于我个人,而是团队智慧与辛勤科研攻关的结晶,是西电的成果与荣誉。能最终在这一领域难题中实现阶段性突破,离不开学校和老师们对我的培养,而我也只是用自己的实际行动回馈母校和领导老师以及同事们的支持帮助。”
采访中,李雁妮老师深情地说,从16岁进入西电求学至今,她的本科、研究生及博士阶段都是在西电度过的,加上留校工作,她在西电已待了近四十年。西电是她学习、生活和成长的地方,这种情怀,早已慢慢化作深深的爱和感恩。
李雁妮坦言:“我能有今天,除了对科研工作的热爱外,最大的内驱力就是心怀感恩。非常感谢我的博士生导师王宇平教授。我是45岁上博士,50岁博士毕业的,王老师为我付出了大量的心血。他是一个潜心做学问的人,其科研及人才培养的理念和方法与众不同。他时常叮嘱我,搞科研要认认真真按照要求去做才会有蜕变,才能做出一些成绩。他认为科研素质的培养,最关键的是一种科学严谨的思维和分析、解决问题的能力,是他教会了我科学的思维和方法,给我在学术上的悉心指导,师恩难忘。”
“成绩的取得更离不开软件学院和软件工程研究所领导的支持。由于我名下在读的研究生数量少,科研资源配备也稀缺,开展研究困难重重,可当我带着科研的初步预想和意向硬着头皮向武波院长提出机器和科研场地的请求后,他很快帮我解决了问题。领导和同事对我工作实实在在的支持,我内心一直铭记,说不出也没有必要去说漂亮话,只能用自己的实际行动去报答。”说起外在的巨大支持,李雁妮眼中泛起了感动的涟漪。
“MLCS问题包括大数据分析领域中的一些关键问题我们仍在继续探索攻关,最终最好的科研成果,我们计划冲击更好的国际知名杂志。”李雁妮充满信心地说。
新闻链接:
ICDE和ACM SIGKDD会议均为中国计算机学会CCF推荐的A类数据库与数据挖掘领域最顶级国际会议,其中,ICDE 2016为第32届会议,由IEEE协会主办,已于5月中旬在芬兰赫尔辛基召开;而数据挖掘领域的顶级会议SIGKDD 2016为第22届会议,由ACM协会于今年8月中旬在美国旧金山举办。这两大顶级的数据库与数据挖掘领域的国际会议,素有数据库与数据挖掘理论与技术研究“风向标”、“数据库与数据挖掘界的奥林匹克”之称,是数据库与数据挖掘领域最杰出研究成果的传播场所,其论文的平均录用率低于20%,它们在学术界及工业界都具有极高的知名度与影响力。