本论坛立足计算机系统研究所面临的技术挑战,从多个方面研讨新兴人工智能技术给计算机系统设计带来的机遇 ,并对由此带来的前景进行广泛讨论。
金秋十月,丹桂飘香,由CCF主办,杭州市萧山区政府协办CNCC在杭州市萧山区国际博览中心隆重召开。10月25日下午13:30,在博览中心404会议室召开了“当计算机系统遇上人工智能”技术论坛。此次技术论坛的主题是分享当今学术界与工业界在计算机系统与人工智能的相互应用。
技术论坛由华中科技大学武汉光电国家实验室周可教授和CCF副秘书长、清华大学计算机系陈文光教授共同主持。首先由周可教授致欢迎词,他对各位嘉宾和听众的到来表示欢迎和感谢,并指出:当前人工智能技术在图像分析、人机博弈等领域取得了令人欣喜的进展。随着数据的快速增长,计算机系统正面临着性能、能耗、可靠性等方面的挑战。新兴人工智能技术能否帮助设计人员突破传统技术瓶颈,设计更好的计算机系统以面对当前严峻的挑战?借助人工智能技术,一些研究者另辟蹊径,其设计方案让人大开眼界。本论坛立足计算机系统研究所面临的技术挑战,从多个方面研讨新兴人工智能技术给计算机系统设计带来的机遇 ,并对由此带来的前景进行广泛讨论。随后,会议正式进入报告环节。
第一位报告人是2017CCF-IEEE CS青年科学家奖获得者、华中科技大学廖小飞教授,演讲题目为“内存计算:前沿与动态”。
廖教授从基于异构内存构造新型混合内存系统出发,探讨了可能的价廉、低耗、高性能的处理环境,提出解决大数据处理时效性问题是人工智能应用于计算机系统的一个重要方向。在首先简要介绍了国内外研究进展后,廖教授着重介绍了SCM等非易失性存储介质、基于其发展起来的新存储结构以及层次架构与平行架构的优劣以及异构内存架构的应用,并强调无论什么样的内存结构最终都要向上层提供一致的编程接口以统一编程模型。最后,他介绍了华中科技大学的相关技术实践,诸如内存计算平台仿真器的研发,异构内存架构资源、能耗管理的相关研究。整场报告内容丰富,层次清晰,深入浅出,令在场学者专家大呼过瘾。报告后许多工业界的专家踊跃提问,为会议的活跃气氛奠定了良好的基础。
第二位进行报告的专家是来自清华大学的高品博士,演讲题目为“低延迟循环神经网络推理系统”。
高博士紧跟人工智能前沿算法,以循环神经网络(RNN)模型在系统上的执行应用为主体进行了深入探讨。他首先简要介绍了RNN广泛应用的机器翻译,语音识别和智能问答等领域。提出RNN模型的实际执行,不仅需要高的吞吐还需要低的延迟。于是结合该类计算的的循环特性和模型参数的不变性,探究细胞粒度的批处理方法。进一步提出轻量级GPU 的异步通知机制、提前调度机制等系统优化方法。研制完成的BatchMaker系统在 Seq2Seq 和 TreeLSTM 网络上,可以将延迟缩短17.5%-82.6%,同时吞吐量最多提升 4 倍。高博士的报告鞭辟入里,令人印象深刻。
第三位报告者是中国科学院深圳先进技术研究院须成忠教授,演讲题目为“基于机器学习的数据中心智能调度”。
须成忠教授的关注点在于构建良好的生态体系以完成数据资源调度与管理。在简要介绍了数据中心面临的平台异构多样,任务请求动态多变和混合应用相互干扰等挑战后,将解决方案锁定在人工智能的机器学习算法上。他指出:传统的调度管理方法无法满足资源管理精细化与自动化要求。相比而言,机器学习办法擅长在不确定的环境中谋求类人智能,数据中心计算环境的不确定性及应用的多样性为机器学习提供了理想的应用场景,数据中心的管理积累了大量的数据,为基于机器学习的智能调度创造了必要条件。并以此为初衷,着重讲解了阿里巴巴云数据中心的初步研究成果。其中最令人深刻的是早在2009年,须成忠教授便发现强化学习对于解决资源调度问题的可行性,并进行了实践,取得了令人惊讶的成果。其极具前瞻性的眼光令在场学者无不惊叹佩服。
第四位讲者是来自北京大学的杨智副研究员,演讲题目为“支持大规模图结构的神经网络计算系统”。
杨智副研究员在研究中发现,由于图数据具有高维稀疏、数据依赖等特性,当前的深度学习系统无法有效利用GPU来加速图神经网络模型,并且只支持GPU内存的数据规模。因此设计了NeuGraph系统,支持大规模图结构上神经网络计算的系统。其研究团队在NeuGraph中提出了SAGA-NN编程模型,能够以图编程抽象自然地描述图结构上的计算,同时能翻译为数据流图来表达神经网络计算过程。NeuGraph通过图切分实现了基于块粒度的数据流图流式执行,能够支持超过GPU内存大小的图数据,并可以在多GPU下并行处理。通过实验对比,NeuGraph比Tensorflow快4倍;并能够在多GPU下达到线性的加速比。杨智副研究员的报告为广大学者提供了解决图计算的新思路,并且其团队在GPU计算上的工作提升了人工智能的应用能力。
第五位讲者是华中科技大学周可教授,演讲题目为“存储系统中的人工智能”。
周可教授指出越来越多的数据和设备,导致数据调度和设备管理越来越复杂,采用人工智能技术改进存储系统成为一种趋势。面对腾讯云存储平台在实际开发中遇到的这些困难与挑战时,周可教授同他的团队尝试利用人工智能的方法去解决这些问题。他从三个方面介绍他们的工作,分别是缓存智能调度、磁盘故障预测、数据库智能调参。首先,针对腾讯云存在大量一次性访问请求,他们团队提出了一次访问剔除原则,通过决策树算法分类出一次访问文件,以达到减少缓存空间污染,延长SSD寿命的目的。接着讲到了磁盘故障预测,在实际应用中,同厂商同型号同批次的磁盘太少,导致训练样本较小,造成学习的难度增大。因此,周可教授团队想到使用散度寻找相似统计特性的大样本数据集,运用迁移学习的方法得到性能良好的模型来解决小样本磁盘难以预测的问题。最后周可教授谈到了数据库智能调参问题,数据库调参配置非常复杂,配置参数可达数百个,人工成本高,即使专业的DBA也需要长达一周的时间,才能使数据库运行在一个较高的性能水平。周可教授团队突破性的将强化学习使用在此场景中,实现调参自动化,极大节约了时间与人力成本。
最后一位讲者是中国科学院深圳先进技术研究院喻之斌研究员,演讲题目为“大数据系统高维配置优化关键技术”。
喻之斌研究员从处理器的发展出发,讲解计算机系统结构发展面临的问题:在系统的性能影响因素越来越多,空间的容量需求也越来越大的今天,高维配置问题日益突出。与此同时,性能模型也在逐渐发展,从多假设分析模型,到次多假设统计推理模型,再到今天的少假设机器学习模型,机器学习模型在计算机系统研究中扮演着越来越重要的地位。但是,将机器学习用于计算机系统的研究,存在以下三个方面的问题。一个是算法的选择,一个是训练的数据集规模,最后是模型的参数选择。报告中,喻之斌研究员还介绍了他在基于磁盘的大数据系统配置离线优化和在线优化,以及在基于内存的大数据系统配置离线优化方面的研究和成果,提出采用数据挖掘的方法来处理CPU性能大数据的概念。并最终给出结论:人工智能在体系结构设计与系统优化中大有用武之地,但也存在着模型难以解释,收集训练集成本太高,依赖数据,算法难以选择的问题。整个报告干货满满,赢得了在场听众的阵阵掌声。
在此之后,会议进入panel环节,由来自清华大学的陈文光教授主持,嘉宾包括国防科技大学肖侬教授、华为公司高品博士、东南大学王红兵教授和中国科学院深圳先进技术研究院喻之斌研究员。
Panel中各位专家学者和听众进行了深入交流,主要围绕人工智能与计算机系统的融合进行了讨论。讨论问题包括:计算机系统中使用人工智能技术的难点究竟在哪里?机器学习在应对系统应用时,训练集的收集问题、适应性问题和泛化能力问题应该如何解决?机器学习模型是否会抢职业数据工作人员的“饭碗”等?台上各位专家面对各种问题谈笑风生,机智回答,现场氛围十分热烈,听众们身在其中的感受到了人工智能与计算机系统结合的魅力。
整场会议大家踊跃参与,许多听众只能站在后排聆听。最后,会议在一片激烈的思想碰撞中完美收官。学者们意犹未尽,纷纷互相致意,留下联系方式,以求更深入的了解。感谢中国计算机学会提供了此次平台,让学者们有这样宝贵的机会能够放飞思想,加深了解,让一群计算机系统的研究者爱好者有机会能够认识自己,感受世界。最后,预祝此次中国计算机大会圆满成功!