《小数据人工智能的巨大潜力》摘译

人阅读 2022-06-09 15:06:02

2021年9月，美国安全与新兴技术研究中心（CSET）发布《小数据人工智能的巨大潜力》报告。赛迪智库信息化与软件产业研究所对报告进行了编译，期望对我国有关部门有所帮助。

“ 报告认为，人工智能不完全依赖大数据，“小数据”方法可以针对标记数据不足的情况提供替代性解决方案，拥有巨大人工智能潜力。报告介绍了迁移学习、数据标记、人工数据生成、贝叶斯方法以及强化学习五类小数据方法，分析了各类方法在人工智能应用方面的优势，并通过对论文研究集群的统计分析探究了小数据方法研究进展、领先国家相关领域竞争力分析及研究资金投入情况。”

传统观点认为，尖端人工智能依赖于大量数据，一个国家（或企业）能够获取的数据量是其人工智能进展的关键指标。当前很多人工智能系统确实使用了大量数据，然而，并非所有人工智能系统都需要海量数据作为支撑，小数据也拥有巨大人工智能潜力。为此，本文介绍并概述了“小数据”人工智能方法，该方法有助于解决标记数据不足的问题，进而挖掘数据潜能，并鼓励政府部门、行业企业突破大数据基础设施局限，实现人工智能创新。

一、“小数据”方法的分类

本研究将“小数据”方法分为了五大类：迁移学习、数据标记、人工数据生成、贝叶斯方法以及强化学习。在没有大型预标记数据集的情况下，可以利用这些方法训练人工智能系统。

迁移学习（Transfer learning）是一种机器学习方法，可以在数据丰富的环境中学习执行任务，而后将所学知识“迁移”到可用数据少的任务中。这一方法对于解决关联问题标记数据丰富但所研究问题数据不足的情况有很大价值。

数据标记（Data labeling）方法，即从有限的标记数据和大量无标记数据开始，使用一系列方法来理解可用的未标记数据。例如自动生成标记（自动标记）或识别标记重要数据点（主动学习）。

人工数据生成（Artificial data generation）方法，旨在通过创建新数据点或其他相关技术，最大限度地从少量数据中提取更多信息。该方法可以通过对现有数据的小幅更改（如图像分类数据集中裁剪或旋转图像）或其他更复杂的方法，推断可用数据的基础结构并从中进行推测。

贝叶斯方法（Bayesian methods）是机器学习和统计学的一种大类方法，有两个共同特点。首先，该方法明确地将问题先验信息纳入其解决问题的方法中，而其他方法则更倾向于对研究问题做出最少的假设。贝叶斯方法会在数据进一步改进之前合并这些“先验”信息，因此更适合某些数据较为缺乏，但可以采取实用数学形式写出问题相关信息的环境。其次，贝叶斯方法侧重于对其预测的不确定性进行良好校准后的估计。该方法可以更容易地识别数据点，从而极大减少不确定性，在可用数据有限的情况下能发挥很大作用。

强化学习（Reinforcement learning）是一个关于机器学习方法的广义术语，在强化学习中，计算机系统通过反复试验来学习如何与环境进行交互。强化学习通常用于训练游戏系统、机器人和自动驾驶汽车。

▲图1：小数据研究集群网络图

二、“小数据”方法的意义

与数据密集型方法相比，不依赖预先收集和标记的大型数据集的人工智能方法具有很多优势。

（一）减少大小实体之间的能力差异

很多人工智能应用的大型数据集价值不断增长，同时不同机构收集、存储和处理所需数据的能力存在差异，这有可能在人工智能“拥有者”（如大型科技企业）与人工智能“匮乏者”（如小型机构）之间形成差距。对此，迁移学习、自动标记、贝叶斯方法等小数据方法能够以较少的数据应用人工智能，将有助于减少小型机构进入数据领域的壁垒，缩小大小实体之间的能力差异。

（二）减少收集大量个人数据的动机

多项调查表明，人们认为大型科技企业会持续收集越来越多与个人身份相关的消费者数据，用于训练其人工智能算法，并由此引发人们对人工智能威胁个人隐私的担忧。对此，某些小数据方法通过人工生成新数据（如合成数据生成），或对算法进行模拟训练，将有效去除敏感的个人可识别属性，从而减少为训练机器学习模型而收集真实世界数据的需要，减轻人们对大规模收集、使用或泄露消费者数据的担忧。

（三）推动在可获得数据点较少的领域取得进展

小数据方法可以为人们提供一种处理数据匮乏或缺失情况的可靠途径，解决面对重要问题时，输入人工智能系统的数据很少或不存在的情况。例如，为一组没有电子健康记录的人构建一个疾病风险预测算法，或者预测有很长喷发周期的火山再次喷发的可能性。小数据方法可以利用标记和无标记数据从相关问题中迁移知识，利用人们手头的少量数据点创建更多数据点，利用与研究领域相关的先验知识，或通过构建模拟场景或编码结构化假设来进入一个全新领域。

（四）规避脏数据问题

在数据利用过程中，要获得干净、结构整齐、方便研究的数据常常需要付出大量努力。对此，迁移学习、贝叶斯方法或人工数据生成方法可以通过分别依赖相关数据集、结构化模型和合成数据，减少需要清理的数据量，从而显著降低脏数据问题的规模。例如，美国国防部由于数据基础设施和遗留系统分散孤立的原因拥有大量“脏数据”，需要耗费大量人力和时间对数据进行清理、标记和组织，而数据标记类别中的方法可以自动生成标记，从而更轻松地处理大量无标记数据。

三、研究发现

本节介绍了从相关论文研究集群中的发现，涉及“小数据”方法研究进展、领先国家状况及支持研究的主要资金来源。共为5个类别确定了150个研究集群，包含约80324篇论文，这些论文来自安全与新兴技术中心的学术文献合并语料库（截至2021年2月12日），包含全球90%以上的学术成果。下表为所用研究集群的基本信息。

（一）各类别“小数据”方法研究进展

在研究数量方面，五类“小数据”方法在过去十年中存在发展程度不同步的问题。如图 2 所示，强化学习和贝叶斯方法相关研究论文最多，其中，贝叶斯集群中的论文数在过去十年内持续稳步增长，但强化学习集群从2015年才开始增长，在2017-2019年间增长尤为迅速。这可能与深度强化学习在近年来取得的革命性进展有关，在2015年之前，该领域一直遭受技术挑战。相比之下，人工数据生成和数据标记研究集群中的每年论文发表数量在十年间一直保持在相当低的水平。迁移学习在2010年规模很小，到2020年已有大幅度增长。

▲图2：2010—2020年小数据出版物趋势

（二）“小数据”方法领域各国竞争力分析

本节查看了全球前十的国家在每种方法中取得的研究进展，并据此探究各国在小数据方法领域的竞争力。本研究使用简单的衡量标准，如发表的论文数量和调整年龄后的引用数量，以初步获得各国在各个类别中的相对地位情况。

表2显示了小数据出版物数量排名前十的国家各类别论文总量。与人工智能整体研究的结果一致，中国和美国是本研究集群中所含论文的前两大发表国，英国紧随其后。中国在数据标记和迁移学习方法领域的学术出版物总量最多，而美国在贝叶斯方法、强化学习和人工数据生成方面领先。

（三）“小数据”方法研究的资金投入情况

本研究分析了可用于小数据方法的投资数据，以获得为本研究集群中所含论文提供投资的实体类型的估计。需要注意的是，本研究只有大约20—30%涉及论文的投资信息，但有无投资数据支撑的论文应该不存在系统性差异。下表列出了按实体类型划分的5种小数据类别和人工智能整体研究领域的受投资论文百分比。

四、研究结论

本文介绍并概述了一系列用于人工智能的“小数据”方法，本研究基于发现，提出了以下要点：

1、人工智能不等同于大数据，尤其是不等同于预先标记的大型数据集。虽然在过去十年中，大数据在人工智能热潮中发挥了不可磨灭的作用，但将大规模数据收集和标记作为人工智能发展的先决条件是错误的。小数据替代方法多种多样，可在不同的环境中以不同方式使用，例如，如果手头问题的数据稀缺，但相关问题的数据丰富，那么迁移学习可能会发挥作用；如果问题可通过进入模拟或真实环境加以解决，计算机系统可以通过试错而不是预先收集的数据进行学习，则可能需要强化学习方法。

2、迁移学习相关研究的增长尤其迅速，甚至比范围更广、更为人熟知的强化学习领域增长更快。也就是说，这种方法在未来可能比现在更有成效，并得到更广泛的应用。因此，如果政策制定者缺乏与重点问题相关的数据，那么通过寻求相关数据集，实施迁移学习方法，或许能够解决这一困难。

3、美国和中国正在小数据方法领域竞争激烈，美国在强化学习和贝叶斯方法这两个最大类别中居于领先地位，中国则在增长最快的迁移学习类别中保持微小但不断增长的领先优势。

4、美国政府可能会在迁移学习领域进行更多投资。相对于在整个人工智能领域的投资模式，美国政府在小数据方法领域的投资份额较小。这可能是因为美国政府没有优先考虑这些领域的研究，或因为美国的私营部门倾向于在这些方法的研究领域投入更高比例的资金。无论哪种原因，鉴于迁移学习是一个快速发展的新兴领域，美国政府可能会增加对该领域的资金投入。

译自：

Small Data's Big AI Potential September 2021 by the Center for Security and Emerging Technology

以上是部分内容，完整版译丛，点击“https://docs.qq.com/pdf/DVXVsWmdQd1hkcmhC”查看

来源丨赛迪智库