中国教育网络:复旦大学“政产学研用”助力人工智能高端人才培养
摘要:在数据时代,各行各业每时每刻都在生产着形形色色的数据,如何从这些带有噪声的海量数据中挖掘其有效的价值成为各单位负责人最关注的问题。人工智能无疑成为其最有力工具,相应的高端人才培养不仅仅涉及学习基础的计算理论、数据分析理论和实现知21识,还需具有对应用领域及其相应数据的理解和视野,并能熟练掌握数据获取、预处理、传输和存储的基本技能,最后结合软硬件实现落地的整体能力。为了实现以上人才培养目标,本文将紧密结合实际应用,阐述通过“政产学研用”协同培养出人工智能高端人才,助力中国早日站上“人工智能人才高地”。关键词:人工智能,深度学习,大数据,人才培养,政产学研用当前,中国各大院校除建设相关的人工智能学科之外,还从不同角度探索人工智能人才培养方案,如笔者负责起草并管理的复旦大学本科第二专业“数据科学”,并负责“机器学习”和“领域数据学”
两门课程的教学任务。
2015 年开始,将不同背景(涵盖文、理、工、医科)的学生组织起来,除了学习人工智能理论和实践课程之外,充分发挥不同学生领域知识的优势,完成人工智能理论和领域知识完美结合,使得学生对“融合并超越了人文科学和自然科学”的数据理解及其数据开发应用的基础问题有全局性的认识。该专业于 2019 年向复旦大学本科“2+X”的“人工智能”学程教育转换。笔者总结出了人工智能高端人才培养的三大要点,即培养学生的人工智能思维,为学生指引人工智能计算理论的研究方向,夯实学生进行人工智能实践的基础技能。
一、 人工智能思维的培养
《乌鸦喝水》是《伊索寓言》中一个家喻户晓的故事。一直以来人们从这则寓言里得到的启迪是解决该问题的方法要通过小乌鸦不辞辛劳地以愚公移山式的精神反反复复地搬运,将小石子一颗一颗填满瓶子后才可喝到水。但在人工智能时代,我们有了新的解决思路——一支吸管即可解决问题,采用完全不同的思路(即人工智能思维)大大提高问题解决的效率。实际应用中同样的问题,考虑不同工具,如精度更高的传感器或数据采集方法,结合不同资源,依托全新的人工智能思维方式来解决传统问题,特别对于需要大量重复劳动的工作,人工智能几乎都可以找到完美解决方案,使得人类从繁琐的工作中解放出来,赢得了更多的时间以用于思考和创新。当然,一些接近人类思考和推理方式的工作,将可能在“强人工智能”阶段通过人工智能理论的突破来实现。在培养计划中要将该思维明确列在培养方案里,比如从最简单算法和应用中入手,先尝试经典的解决办法,然后逐渐过渡到“人工智能”方案,让学生切身体会新思维的优势。无独有偶,图灵奖得主、关系型数据库的鼻祖吉姆·格雷(Jim Gray) 在其人生最后一次题为“科学方法的革命”演讲中,提出将科学研究分为四类范式(Paradigm),依次为实验归纳(第一) ,模型推演(第二),仿真模拟(第三)和数据密集型科学发现(Data-Intensive Scientific Discovery),第四范式“数据密集型”即我们所称的“科学大数据”。在漫长人类发展历史长河中,受现实生存环境和生产力条件所限,人们对待科学研究的手段和方法在不同时代采用不同的思维方式。这个思维方式的演变在他的《第四范式:数据密集型科学发现》一书中得以系统阐述,学生也可从该书中体会到在不同阶段采用“正确”处理“大”数据的思维方式的重要性和必要性。
二、人工智能计算理论的指引
第一个人工智能算法——感知器(Perceptron)——最简单的线性分类器[Rosenblatt58],于 1958 年被弗兰克·罗森布莱特(FrankRosenblatt)正式提出至今,人工智能计算理论的发展不足六十载。人工智能算法作为其计算理论的依托,其发展不是一蹴而就,而是随着计算机计算能力的飞速发展蹒跚前行,在学习过程中学生需要充分认识到这一点。从仅仅包含输入输出层的感知器,采用简单梯度下降即可求得闭式解,到二十世纪八十年代中期杰弗里·辛顿(Geoffrey Hinton)等人引入“反向传播算法”(Back-propagation)解决多层感知器中非线性权值优化求解问题[Hinton86],并被用于扬·乐坤(YannLeCun)等人发明的卷积神经网络(第一个深度学习算法)解决手写体简单图像识别问题[LeCun86],以至于现在超过千层的深度神经网络用于解决监控中复杂场景的人脸识别问题,成功的应用取决于人工智能计算理论的突破,由于杰弗里·辛顿的坚持两次计算理论的成功应用都离不开他的努力。当前,我们处于第三次人工智能引爆中心,如何培养人工智能高端人才学会站在巨人的肩膀上看得远走得更远,是一项长期而艰巨的任务。因而,除了学习基础的数理知识之外,培养学生如何从纷繁复杂的现象中抽丝剥茧找到问题的症结,并学会从现有的计算理论中寻找可能的解决方案,这是计算理论知识学习的第一步。截止 2019 年 10 月 9 日,在 Google Scholar 下输入关键词“deeplearning”进行检索,返回大约四百多万个相关科技文献和专利。涉及内容除了高引用论文如 Hinton 等发表在 Nature 上引用率达到18826 次的同名论文之外,还有相关书籍对人工智能计算理论的描述以及不同领域数据分析处理用到和创新的相关计算理论模型等。对人工智能计算理论的前世今生的深刻理解和把握,应渗透在大学课程以及学生参加相关科研项目研发过程中。政府引导的国家重点研发项目、国家自然基金、地方政府的科研攻关项目等为学生理论实践提供最主要来源之一,有了理论方向和经费的保障,培养具有高瞻远瞩和国际视野的高端人工智能人才。除了相关理论论文和书籍之外,网上的公开视频课程也是对学生自我学习能力的有效补充,在确认学习方向和目标之后,共同探讨合适学生的相关视频资料,使得学生能及时跟进人工智能计算理论飞速发展的步伐。有了基础理论储备之后,引导学生将学习以及科研过程中遇到的问题进行抽象,除了尝试现有的计算理论算法之外,可以在神经网络框架、目标函数、优化方法等方面展开理论研究,鼓励学生参与国内外人工智能会议,学习论文总结、论文的撰写和投稿等工作。特别是鼓励学生积极探索人工智能和机器学习的重点发展方向,如自动机器学习(AutoML)和深度增强学习的研究以求可能的理论突破,给非人工智能专业和背景的人们带去福音。
三、人工智能实践和落地的指导
而人工智能的第二核心要素——数据,是实践人工智能解决实际问题的关键。数据掌控能力是实践落地(即可用性)成功与否的重要衡量标准之一。深度学习算法是第三次人工智能浪潮的导火索,但不可忽视数据是其助燃剂,如全球 167 个国家五万余人共同标记的巨无霸数据集 ImageNet 拥有 1500 万张图片,涉及 22000 个类别,毫不夸张地说是该数据点燃了计算机视觉的人工智能革命。在实际应用特别涉及新领域,首要解决是数据问题。结合从产业界提供的实际需求,如何在有限条件下采用人工智能技术解决该问题是对高端人才培养最好的考核方式之一。数据涉及的问题除了传感器选型之外,如何采集“能用”和“够用”的数据以及之后对应的数据清洗、传输、存储、标记等工作对一个项目的完成都至关重要。在我负责的智能制造项目中,研究对象是高速运转并纹理细腻的纺织品,需采用高速线扫工业相机在特殊光源照明情况下多相机协作才可采集到“完整、清晰”的图像,多相机采集不可避免产生图像色差以及多图像拼接错位、拉伸等困难。另外,针对不同颜色和纹理的纺织品,相机相关的参数如曝光时长、白平衡等都需要通过专业图像处理人员进行校对。在该项目的数据采集工作过程中,学生能很好学习和体会“数据”上的困难,对该问题的克服有助于学生在人工智能应用以及理论学习上的快速成长。通过大量实践以及不懈的努力,在实际研发过程中积累的“数据”经验,对后续的数据分析处理带来极大的便利,为数据建模打下了坚实的基础。有了算法和数据能力之后,熟练掌握在计算机或云平台上编程实现是实践人工智能解决实际问题的必备条件。课程学生以及我们研究团队成员均在华为云提供的 ModelArts一站式平台上,学习使用云上的 GPU 计算资源,并利用平台提供的数据、基础算法以及相关的支撑技术如 OBS 数据管理工具实现一个完整的人工智能项目。另外,作为一名优秀的人工智能人才,熟悉某些编程语言是远远不能满足“产用”需求。在很多应用场景中,实时性成为必备条件。因而,熟悉算法细节,实现每个环节的优化成为人才培养不可或缺内容之一。同时,为了满足实际生产环境需求,片上问题解决也成为大势所趋,因而,培养学生软硬一体化设计能力成为人工智能高端人才培养的一个重要环节。
总结
为了全方位培养具有全局视野的人工智能高端人才,“政产学研用”协同是培养人工智能高端人才的催化剂和推动力。“政产”提供人才培养的科研方向和资金保障,“学研”培养学生具有人工智能思维、理论和实践的能力,最后将结合产业需求将人工智能落到实处以解决产业界的“用”问题,如未来中国要长期实施的产业转型升级“智能制造”等。在项目研发和实施过程中,培养学生的研究独立和领导力,鼓励优秀的学生负责子任务的研发并逐渐过渡到对整个项目的负责,并走出去学会独立和政企相关人员进行深入及时沟通,为我国“创新创业”提供新动力并促进双创的长足发展。(来源:中国教育网络)