本篇文章2881字,读完约7分钟
开源人工智能
人工智能是目前最热门的研究领域之一。ibm、谷歌、微软、Facebook和亚马逊等大公司不仅增加了对其开发研究部门的资本投资,还开始收购一些在机器学习、神经网络、自然语言和图像处理领域取得微小成就的初创企业。鉴于目前人工智能研究的普及,斯坦福大学的教授们最近做了这样一个报告:“人工智能软件的作用越来越强大,对人类社会和经济有着强大影响的人工智能软件将在2030年之前问世。”
国外网站datamation今天已经编译了15个流行的开源人工智能软件。雷锋。搜索“雷锋”。com "公共号注意)全文汇编如下:
1.caffe
加州大学伯克利分校的一名博士生开发的Caffe软件是一个基于表达式框架和可扩展编码的深度学习框架。由于其卓越的处理速度,受到研究者和企业的广泛喜爱。据其主页显示,该软件仅用一个nvidia k40 gpu就能每天处理6000多万张图片。Caffe软件项目由bvlc运营,nvidia和亚马逊提供资金。
2.cntk
Cntk是计算网络工具包的缩写,它是微软的开源人工智能软件之一。它的突出特点是,无论是单个cpu、单个gpu还是多个GPU,或者是多台配有多个GPU的机器,它都具有出色的性能。虽然微软主要用于语音识别研究,但它也可以进行机器翻译、图像识别、图像捕获、文本处理、语言识别和语言建模。
3 .深度学习4j
Deeplearning4j是一个jvm开源深度学习库软件。它可以在分布式环境中运行,并将hadoop与apache spark集成。这使得它能够配置深层神经网络并运行其他jvm语言,如java和scala。
deeplearning4j软件项目由skymind商业公司运营,skymind负责项目的财务支持、人员培训和产品推广。
4.dmtk
和cntk一样,dmtk是分布式机器学习工具包的缩写,这是微软拥有的另一个开源人工智能软件。它专为大数据研究而设计,旨在缩短人工智能系统的训练时间。Dmtk包括三个主要部分:dmtk框架、lightlda模型算法和分布式(多义)单词嵌入算法。为了说明dmtk的处理速度,微软声称它可以通过一个8节点计算机集群来处理一个文档集合中包含100万个主题和1000万个单词(总共10万亿个参数)的主题模型,该文档集合具有超过1000亿个标签,这是类似软件无法比拟的。
5.h2o
H2o更注重企业经验,而不是科学研究,它已经接到了诸如capital one、思科、尼尔森卡特琳娜、paypal和transamerica等大型企业的订单。Oxdata表示,每个人都可以使用h2o机器学习和预测分析功能来解决业务问题。H2o还可用于预测建模、欺诈和风险分析、保险分析、广告技术、医疗保健和客户情报。
有两种开源版本的水:标准版本的水和波光粼粼的水版本的水。这两个版本都集成在apache spark中,oxdata将为付费企业提供技术支持。
6.mahout
Mahout是asf(apache Software Foundation)下的一个开源项目,它提供了一个开源的机器学习框架。根据mahout的官方主页,mahout有三个主要特征:可扩展的算法编程环境,用spark和h2o等工具预先编写的算法,以及名为“轮回”的内置矢量计算环境。Mahout用户包括adobe、埃森哲、foursquare、英特尔、领英、推特和雅虎。
7.mllib
以处理速度著称的Apache spark已经成为大数据处理中最常用的软件之一。Mllib算法是一个可扩展的机器学习火花库。它与hadoop集成在一起,可以跨平台运行numpy和numpy.r。它涵盖了大量的机器学习算法类型,包括分类、返回、决策树、建议、聚合、主题建模、特征转换、模型评估、ml管道构建、ml持久性、生存分析、频繁集、序列模式挖掘、离散线性代数和数据统计分析。
8.nupic
Nupic由numenta公司运营,是一个基于htm(分层时间记忆)理论的开源人工智能项目。事实上,htm理论是根据人脑的新皮层结构设计一个计算机系统,旨在创造一台在处理认知任务方面接近或超过人类能力的计算机
Numenta不仅拥有nupic的开源许可,还拥有其商业许可和专利证书。
9.opennn
Opennn是一款面向研究人员和开发人员的高级人工智能软件,它提供了一个可以运行神经网络的c++编程库。其主要特点是深度框架和高效性能。Opennn官方网站详细介绍了神经网络的操作。西班牙artelnics公司为opennn客户提供技术支持(重点是预测分析和研究)。
10.opencyc
cycorp开发的Opencyc软件拥有内置的cyc知识库和常识推理引擎,包括239,000个术语、大约209.3万个三元组和大约69,000种网络本体语言,就像一个外部语义数据库。它在丰富的领域建模、语义数据融合、文本理解、领域专家系统和游戏人工智能等方面都非常有效。opencyc有两个版本:一个是免费的,对研究人员来说不是开源的,另一个是面向企业的。
11.oryx 2
Oryx 2,基于apache spark和kafka,是一个专门从事大规模机器学习的开发框架软件。它使用独特的三层λ框架。开发人员可以使用oryx 2开发带有内置程序的新软件,用于一般的大规模数据任务,如协同过滤、分类、驯化和聚类。大数据工具提供商Cloudera已经开发了第一个oryx 1项目,并且仍在继续研究和开发。
12 .预测
早在今年2月,salesforce就购买了预测软件项目。作为一个孵化项目,predictionio为asf提供了一个新的平台和商标。尽管salesforce通过predictionio软件项目开发了自己的机器学习技术,但它仍然是开源的。它可以使用机器学习来部署相关的网络服务,并通过实时响应页面动态请求来帮助用户构建预测引擎。
13.systemml
Systemml最初由ibm开发,后来被asf收购,成为其大数据项目。Systemml是一个高度可扩展的平台,它可以执行高级数学运算,并执行R或类似python的语句。Systemml基于spark或hadoop运行,可用于4s店车辆维护的客户回访、空机场控制法规和银行客户的社交媒体数据收集。
14 .张量流
Tensorflow是谷歌的开源人工智能软件之一,它提供了一个使用数据流图的数值计算库,可以在单/多cpu或gpu系统甚至移动设备上运行。谷歌表示,tensorflow是灵活的,真正可移植的,具有自动认证能力,支持python和c++平台。
火炬
Torch将自己描述为“拥有一个科学的计算框架,并支持优先使用图形处理器的机器学习算法。”Torch的特点是其出色的灵活性和处理速度,在处理机器学习、计算机视觉、信号处理、并行处理、图像、视频、音频和计算机网络方面非常方便。它是用luajit语言编写的,这是一种基于lua语言的脚本语言。
自动化资料处理