金沙js0888_首頁(欢迎您)

  • <td id="dgejl"><strike id="dgejl"></strike></td>
        1. LinkedIn开源Dagli,发布Java机器学习函数库

          作者: 佚名 2020-11-16 12:40:55

           近年来,越来越多的优秀的机器学习工具不断涌现,如 TensorFlow、 PyTorch、 Caffee 和 CNTK、用于大规模数据的 Spark 和 Kubeflow,以及用于各种通用模型的 scikit-learn、 ML.NET 和最近的 Tripo 等。

          根据Algorithmia 2019年的一项调查,虽然企业使用机器学习算法的成熟度普遍在提高,但大多数公司(超过50%) 仍需要花费8至90天时间部署单一机器学习模型(18% 的公司花费的时间超过90天)。

          大多数人将责任归咎于模型规模和复现模型面临的挑战、缺乏管理人员的支持,以及可用的工具缺失等原因。

          对于 Dagli 来说,模型的 pipeline 被定义为一个有向无环图,一个由顶点和边组成的图,每条边从一个顶点定向到另一个顶点,用于训练和推理。

          Dagli 的环境提供了流水线定义、静态类型、近乎无处不在的不变性以及其他特性,以防止大多数潜在的逻辑错误。

          LinkedIn 自然语言处理研究科学家杰夫 · 帕斯特纳克在一篇博客中写道: 「模型通常是集成的管道的一部分, 建造、训练和将这些管道部署到生产环节仍然非常繁琐」, 通常需要进行重复的或无关的工作,以适应训练和推理,从而产生脆弱的「粘合」代码,使模型未来的演化和维护变得复杂。

          Dagli 可以在服务器、 Hadoop、命令行接口、 IDE 和其他典型的 JVM 中工作。许多pipeline组件也已经可以使用,包括神经网络、 逻辑回归、GBDT、 FastText、交叉验证、交叉训练、特征选择、数据读取器、评估和特征转换等。

          通过发布 Dagli,领英希望为机器学习社区做出三个主要贡献:

          1. 一个易于使用、抗bug、基于 JVM 的机器学习框架

          2. 一个综合了各种统计模型和 transformer 的 可以 “开箱即用” 的库

          3. 一个简单但功能强大的机器学习 pipeline 作为有向无环图的新抽象,它支持优化的同时仍然保持每个组件易于实现,可与传统的“黑盒”相媲美。

          对于有经验的数据科学家来说,Dagli 提供了一条通往可维护和可扩展的高性能、可生产的人工智能模型的道路,这些模型可以利用现有的 JVM 技术堆栈。

          对于经验较少的软件工程师来说,Dagli 提供了一个 API,可以与 JVM 语言和工具一起使用,这些语言和工具被设计用来避免典型的逻辑错误。

          帕斯特纳克还指出: 「我们希望 Dagli 能够使高效、可投入生产的模型更容易编写、修改和部署,避免经常伴随而来的技术问题和长期维护的挑战」。

          Dagli 充分利用了先进的多核理器和强大的图形卡,对模型进行有效的单机训练。

          为了具体了解 Dagli 是如何工作的,让我们从一个文本分类器开始,这个文本分类器使用梯度增强决策树模型(XGBoost)的活动叶片,以及一组高维的 N-gram 作为 LR 模型分类器的特征:

          通过使用 Dagli,领英希望使高效的、可投入生产的模型更容易编写、修改和部署,避免经常伴随它们的技术挑战和长期维护。

          最后,附上Dagli的GitHub地址链接:

          https://github.com/linkedin/dagli

          Java 开发 机器学习
          上一篇:AI皇冠上的明珠:人工智能自然语言处理技术 下一篇:激发校园创新火花 2020 DIGIX全球校园AI算法精英大赛圆满收官
          评论
          取消
          暂无评论,快去成为第一个评论的人吧

          更多资讯推荐

          100天搞定机器学习:模型训练好了,然后呢?

          佚名 ·? 1天前
          MIT科学家设计的新系统可以在几小时内创造出海星机器人

          据外媒报道,在研究水下海洋生物时,如果能使用一种不会因为对动物来说显得不自然而吓到它们的设备,就会有所帮助。麻省理工学院(MIT)的科学家们就考虑到了这一点,利用一种新的快速开发系统,创造了一种海星机器人。

          佚名 ·? 2天前
          一个可以进行机器学习特征选择的Python工具

          特征选择 是在数据集中寻找和选择最有用的特征的过程,是 机器学习 pipeline中的一个关键步骤。不必要的特征降低了训练速度,降低了模型的可解释性,最重要的是,降低了测试集的泛化性能。

          佚名 ·? 2天前
          人工智能技术的起点与终点

          人工智能技术发展的结果,不仅体现于机器在一个局部生产环节中可以独立地创造价值。人工智能技术发展的结果,也体现于机器体系在一个行业生产线中的多个局部生产环节中,以科学的方式进行有机地协作。

          哲学发现 ·? 2天前
          人工智能和机器学习的质量保证

          人工智能和机器学校(ML)的质量检查正在快速发展。了解它为什么重要以及数据质量与机器学习(Machine Learning,以下简称ML)模型的准确性以及AI计划的成功有何关系。

          佚名 ·? 2天前
          一种基于机器学习的自动文档标签图谱技术

          本文主要详细讲解了是个方面,即:知识图谱技术发展趋势、基于机器学习的标签图谱技术思路、关键技术分析、典型应用案例分享。

          佚名 ·? 3天前
          Java为什么不能真正支持机器/深度学习?到底还欠缺了什么

          自1998年以来,就多个企业的变革而言,Java一直处于领先地位 - 网络,移动,浏览器与原生,消息传递,i18n和l10n全球化支持,扩展和支持各种企业信息存储值得一提的是,从关系数据库到Elasticsearch。

          佚名 ·? 3天前
          到2025年,机器学习市场规模将达967亿美元

          市场调查机构Grand View Research最近发布的《机器学习市场报告2025》预计,到2025年,全球机器学习市场的价值将达到967亿美元。由于中国等新兴市场对机器学习技术的使用不断增加,亚太地区预计将在未来几年实现最快的增长。

          Yu ·? 3天前
          Copyright?2005-2021 51CTO.COM 版权所有 未经许可 请勿转载
          金沙js0888