大数据时代,信息蕴含于数据之中,价值体现在信息之内,获取价值,就要挖掘数据。
数字尚可拖入表格,一系列加减乘除、排序筛选之后,趋势明了、短板可见,发展方向自然清晰。
可视频、音频、图片这些“异类”呢,不能在Excel里操作,没有统一结构,如何挖掘,怎么分析?
简单!
人做不了的事情交给机器去做
人工智能
解密非结构化数据的强大法门
AI数据库到底有什么实用意义呢?很多人并不理解,同样是处理数据,现在我们所谈的AI算法和过去的大数据分析到底有什么不同?
自然语言处理顶级专家、宾夕法尼亚大学教授DanRoth有一个非常重要的观点,可以作为参考,他认为:“AI之所以崛起,根本原因在于对非结构化数据的利用”。
的确,人们生活中接触到的绝大多数数据是非结构化的,比如语音,图片和视频。这些非结构化数据遍布于医学、教育和互联网等行业。所以,这背后的挑战就是,我们要如何了解非结构化数据的结构,如何建立一个系统去分析、利用它们,以了解其背后的意义。
ZIFF看到了新商机
这就是时代赋予AI最重要的价值,通过机器学习对非结构化数据进行处理,过去许多无法想象的应用诞生了。
美国有一家名为ZIFF的小公司,对人工智能(AI)的未来怀有美好愿景。这是一家数字媒体公司,业务主要涉及三个领域:技术、游戏和购物。
ZIFF联合创始人DavidGonzalez说,“当我们谈论非结构化数据时,比如图像、音频和视频,我们是在说这些数据不完全适合Excel表格,尽管它们不是数字,但却是真实工作人员所做的真实工作而生成的真实数据。”
简单的说,非结构化数据是数据结构的不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等。
从行业角度看,非结构化数据可能源于服务台·的电话呼叫、制造车间的照片、医疗诊断中使用的图像,以及在工作日生成的无数其他音频、视频和图像文件。
Gonzalez说,这是与业务相关的数据,而ZIFF非结构化数据库中的深度学习AI大脑可以解锁这些数据中隐藏的洞察力。
所以,这家总部位于犹他州的初创公司率先为非结构化图像、音频和视频数据开发了一个突破性的AI数据库。该数据库能提供内置索引、搜索、训练和推理功能,支持不适合传统数据库整洁行和列的数据类型,对于图像、音频、视频数据以及馈入其中的元数据,可以通过自动构建AI模型来预测数据的使用。
AI数据库到底有什么实用意义呢?
Chatbooks是一家互联网应用公司,主要为客户提供相册制作的服务。这家公司想要简化数字图像转化成相册的过程,就必须通过深度学习构建AI工作负载,把相册组织编辑起来,并预测哪些照片最有可能被选中,或哪些照片是最好的。
在这个案例中,ZIFF的AI数据库起到了关键作用。它能够使应用程序更加直观、智能和人性化。正如Chatbooks公司的创始人NateQuigley所评价的那样:
“ZIFF一直在帮助我们的用户快速地把包含他们最美好回忆的照片变成相册,并且几乎是毫不费力就能做到这一点。”
很多AI创业公司正遇到一些困境
其实,ZIFF公司的发展并也并不是一帆风顺,这家公司遇到过很多人工智能创业公司都会遇到的难题:
如何处理日益增长的非结构化数据?
AI服务器概念出现之前,很多创业公司使用消费级计算机进行图像识别,客观来讲,在数据量不大的情况下,这种方式也是可行的。
然而当今时代,人工智能产业呈爆发式增长,甚至连谷歌的创始人谢尔盖·布林都曾对AI技术的迭代速度感到惊讶。去年的达沃斯经济论坛上,谢尔盖·布林表示:“这场革命声势浩大,作为该部门的管理者,其发展速度让我感到吃惊。”
相关数据显示,年全球AI市场规模预计为1.2万亿美元,到年有望达到3.9万亿美元。而全球人工智能创业公司,仅在年的融资额就达到了创纪录的亿美元。这也从侧面证明AI创业公司所面对的应用和数据样本量的增长也是几何级的。
所以在这种AI快速发展的形势下,ZIFF公司很快意识到自己的“游戏机”无法满足深度学习所需的性能要求——它经常崩溃,当启动并运行时,无法有效扩展性能,去挖掘包含数百万或数千万图像和音频文件的数据集。
“我们像大多数创业公司一样苦苦挣扎,基于游戏GPU和大型游戏主板建了一个自己的系统,不过它经常崩溃,有时每周一次,有时一天一次。”Gonzalez表示。
为了解决令人头疼的服务器问题,满足企业增长需求,Gonzalez和ZIFF的人工智能总监BenTaylor将目光投向了支持高强度深度学习的企业级系统——DellEMCPowerEdgeC服务器。
作为AI服务器供应商中的典范,DellEMC正在从AI基础设施层面推动着AI计算,并为很多个像ZIFF一样的AI创业公司赋能。
DellEMCAI服务器,强大到让人忽略硬件的存在
说到AI服务器的发展,必须要先提一下NVIDIA。
正是这家公司在年推出的TeslaV这一世界上最高性能的并行处理器,——专门用于处理需要强大计算能力支持的密集型HPC、AI和图形处理任务使得AI服务器的实现成为了可能。
而前文所述的ZIFF公司案例中,它所采用的就是专为认知计算和技术计算而设计的DellEMCPowerEdgeC服务器。在1U的机箱中配置了四个NVIDIATeslaVGPU,NVIDIACUDA和TensorCore的配合使用,让GPU像AI超级计算机那样提供强大的功能。
据了解,PowerEdgeC服务器是DellEMC基于NVIDIA深度学习就绪解决方案的核心,当ZIFF准备横向扩展时,DellEMC已经完成了相关的测试和验证工作,以消除有关部署新IT解决方案的不确定性因素和风险。
谈到实际业务效果,Gonzalez坦言:
“Volta架构每秒处理多达8,张图像,这意味着我们能在一天或更短时间内,为人们解决数以千万计的图像问题。而如果使用普通的标准硬件或自己构建系统,需要几周到几个月才能处理完。而通过DellEMC系统,我们只用一两天就扭转了局面。”
DellEMC专注于IT基础设施的研发和创新,为AI公司提供了强大到足以让人忽略硬件存在的计算力保证,使得采用AI计算的公司能够更加专注于自身业务的创新,而不是被搭建硬件平台。
难怪Gonzalez会认为:“对我们的工作来说,PowerEdgeC是上天赐予的礼物,它稳坐于数据中心,不停地工作,让我们公司高效运转。”
在部署PowerEdgeC服务器之前,ZIFF团队必须对硬件配置做出最好的预测,然后花时间与系统配置和组件不兼容问题作斗争。现在这些耗费时间和成本的事情,都被DellEMC用专业解决了。