无人驾驶的未来后疫情时代如何抵达

2020-05-20 20:57 性质：转载作者：马冀，澳鹏来源：新智驾

免责声明：无人系统网（www.youuvs.com)尊重合法版权，反对侵权盗版。（凡是我网所转载之文章，文中所有文字内容和图片视频之知识产权均系原作者和机构所有。文章内容观点，与本网无关。如有需要删除，敬请来电商榷！）

4 抵达车驾智能时代的关键——背后的高质量数据

澳鹏(Appen)的研究和经验发现，要想让 AI 试验项目进入能带来切实利润的大规模部署阶段，企业应该专注于一个关键目标，这是最简单的方法之一。大多数企业都通过构建对消费者体验产生积极影响的 AI 取得了早期成功——无论是坐在车里的乘客或驾驶员，还是站在车外的人，都能获得更高的安全性和自主权。尽管我们已经在这一领域取得了长足的进步，但未来几年无人驾驶汽车并不会大范围普及，我们也不能一蹴而就。人工智能正在推动着汽车行业的深刻变革，随着无人驾驶时代越来越现实化，人工智能和汽车技术也越来越紧密地交织在一起。目前我们已经拥有了无人驾驶汽车所需的所有基本技术——甚至我们也知道该怎么做。但这与大规模运行整个无人驾驶汽车系统截然不同。

对于大量在无人驾驶技术和互联汽车的未来进行投资的公司而言，通常必须借助多个供应商和应用，一同收集、标注、准备和聚合所有数据，以便有效地训练其AI模型。无人驾驶汽车相当复杂，属于由复杂的机器学习算法驱动的机器。随着汽车的前进，机器学习算法模型会处理多种类型的数据，就像驾驶员透过挡风玻璃观察或监视车内外的情况一样。为了使汽车具备“看”、“听”、“理解”、“交谈”和“思考”能力，需要以适当的方式收集视频、图像、音频、文本、LiDAR和传感器数据，对这些数据进行结构化处理，并使其为机器学习模型所理解。汽车需要为大量的图像包含2D/3D数据赋予含义，例如，识别树木或行人，识别动态的路况，听取命令，了解环境的外部变化，将这些信息反馈到汽车的AI中，为决策提供信息支撑，并改善算法，从而实现五级自动驾驶。同样，智慧驾驶-智能驾舱：随着语音识别技术、LiDAR和能跟踪驾驶员情绪的摄像机的发展，人机界面的下一步重要举措就是融合这些技术，让汽车能够识别说话者的情绪和话语，从而分辨出用户是高兴还是沮丧，并给出相应的回应。通过此类车内舆情监控，了解并预测行为，实现卓越的人车互动。

对于无人驾驶汽车来说，就像在医疗保健或其他风险管理至关重要的场景一样，为了在瞬息万变的复杂真实的驾驶场景中发挥作用，训练数据需要由人员进行大规模标注和验证。机器学习系统需要大量经过专门调整的训练数据，这些数据来自不同的驾驶环境。要创建这种高质量的训练数据，就必须从人工标注入手。例如，在训练计算机视觉解决方案时，人们需要标注和标记由传感器收集的 LiDAR 数据，概述图像中包含树木、交通标志等的所有像素。通过这种方式，系统将学会识别这些对象，但它需要大量示例。幸运的是，现在市场上有一些工具包括澳鹏由机器学习提供辅助的LiDAR、视频、事件和像素级标记、以及语音和自然语言，都可以帮助我们加快完成这些任务，并满足日益增长的对结构化数据的需求。通过这些工具与工作流互联，能帮助加速开发无人驾驶能力，提高生产力，成为市场赢家。

随着无人驾驶汽车市场的竞争愈演愈烈，大规模的高质量训练数据仍然是汽车行业正在努力解决的主要挑战。再加上汽车不仅需要遵守严格的国家和地区法规，而且还必须了解数百种语言和方言，这些都构成了巨大的挑战。显然，我们无法规避这其中的偏见和挑战。例如一位母语为英语的男士驾驶一辆美国市场生产的汽车，他的语音识别成功率要比母语不是英语的女性驾驶员高。简而言之，主要依赖基于英语为母语的男性语音所收集和标注数据的语音识别系统，在处理其他语音时很容易出问题。用于事故规避和自动驾驶的视觉数据同样如此。如果训练数据是白天天气晴朗时收集的数据，则该系统在雨天的夜晚响应较差。

5 携手数据合作伙伴，将AI加速从试验阶段推向生产阶段

在真正采用试验模型战略并提供 ROI 时，许多项目都无法提供有意义的结果。这会导致企业高层退缩，无法给 CIO 留下深刻印象，并因为无法实现价值而导致试验被终止。结果就是，管理人员将很难证明项目的价值，并且通常不愿意投资扩大未来的试验。为确保您的 AI 试验不只是看上去好看，直接投资训练数据而不是耗费80%的时间准备训练数据显然事半功倍。

许多 AI 项目从收集立即可用的数据入手，然后尝试了解如何使用这些数据。通过采用适当的方法成功将模型扩展到项目之外，您能够避免使用常规数据（从公共资源和 Web 收集的数据以及脏/暗数据），而将重点放在收集与切实的目标和用例相关的特定数据。为了获得成功，这些数据必须是可靠、干净且有足够标注的数据，并且团队将致力于数据维护工作，将更多专业的工作外包出去。

为了启动世界一流的 AI 计划，您应该寻求数据合作伙伴为您提供可靠、高质量的训练数据，让您能够扩展至以下五个关键的阶段：

试验：在大型试验中为您提供可靠的训练数据，以确保模型可以快速实现扩展。同时还可以帮助您标注置信度低的数据或标注边缘用例场景的数据。

数据标注：小规模试验之后，通常需要大量训练数据。在这种情况下可使用海量数据集训练模型，以确保模型可以适用于每个场景，没有偏见，并且按照预期方式运行。此外，这些数据必须准确无误，否则您的模型不仅无法进行正确的训练，亟待解决的业务问题也被耽搁，还可能导致利益相关者不同意扩展部署规模。寻求数据标注和收集领域专家的帮助。有助于企业大大减少在获取数据上所花费的时间，并确保尽可能高的准确性。

测试和验证：训练模型后，需要使用一组未用于训练模型的数据进行验证，以调优模型。在验证阶段，企业可以更好地测试数据是否妥善标记了正确的意图，并确保模型不会由于极端例子而出现任何偏差或失败。从而无偏见地预估最终调优模型的技能。

扩展部署至生产环境：如果模型在测试和验证阶段都成功了，就该扩展部署了。企业可以进一步评估和验证置信度低的答案，但无论如何，企业都应该自信地扩展试验。

再训练：顺利完成了扩展——但是在全面部署时您的模型可以准确执行多长时间？定期对模型进行再训练，这一点对于避免模型漂移和解决用例转换至关重要。

6 展望未来，澳鹏汇集了所有必要的要素，帮助企业走向成功

未来的交通运输将以世界一流的 AI、超快的连接和对环境的影响为基础。因此，AI 的潜在使用场景范围非常广泛。而且，尽管企业 AI 和机器学习用例变得越来越多样化（从供应链和制造到无人驾驶汽车和移动即服务），但以消费者体验为中心的应用仍然是最普遍也最成功的大规模部署的应用。这是因为车内和车外体验都与明确的 KPI 直接关联，并且很多汽车企业拥有大量未挖掘的数据，他们可以利用这些数据来改善这些体验。

因此为了确保为多模式和多媒体视觉和语音识别系统能够提供足够的无偏见训练数据，就需要大量代表不同地理、文化、性别和语言的标注人员。所有这些数据必须由这一领域的专家进行标注和收集，并用于快速、高效地大规模训练和改进机器学习模型。澳鹏（Appen）在无人驾驶汽车领域是超过15年以上的行业经验专家，享有与世界前十大整车厂丰富的合作经验及深邃的行业洞察能力，为无人驾驶及智能座舱等商业场景训练数据提供多传感器融合的LiDar点云数据标注，PLSS，计算机视觉机器学习辅助标注工具，以及车内数据采集，语言覆盖全球180多种语种。

“汽车和交通运输相关数据的收集、管理和基于 AI 的开发将决定谁能成为下一代移动出行领域的赢家。要成为赢家，企业需要战略愿景、商业头脑和技术实力。澳鹏（Appen）汇集了所有必要的要素，以帮助企业走向成功。” Evangelos Simoudis Synapse Partners 董事总经理如是说。在新基建的春风之下，人工智能作为新一轮产业变革的核心驱动力将释放历次科技革命和产业变革积蓄的巨大能量。任何实施AI 战略的企业都应使用高质量的数据来最大程度地提高成功机会，与经验丰富的合作伙伴合作并借助可靠的流程，对提高成功几率并提供无缝的汽车和驾驶员体验而言至关重要。