• 7天建立一个AI Agent应用!好意思妙刀兵:一体化数据库

  • 发布日期:2024-11-12 14:51    点击次数:162

    7天建立一个AI Agent应用!好意思妙刀兵:一体化数据库

    明敏 发自 凹非寺

    量子位 | 公众号 QbitAI

    几个工程师、一个星期,就能作念一个AI Agent应用了。

    效用be like——

    能领悟用户复杂龟龄令,保举适合条件的奶茶店。

    保举两公里内、评分4.5以上、东说念主均耗尽25元以内干净卫生的奶茶店。

    要知说念,这背后需要它能分析处理不同模态的数据,比如文本、地舆信息、图像等。

    放在往时,构建这样的AI应用需要多个不同的数据库,还需要配备教养丰富且规模较大团队来经管复杂技能栈。

    如今,能如斯松弛科罚,多亏了背后的一体化数据库OceanBase。

    最新发布会上,OceanBase推出首个面向及时间析处理场景的GA版块:4.3.3版块。

    不仅推出全新向量检索功能,已毕SQL+AI一体化,还进一步增强多模态数据处理身手。

    嗅觉方方面面皆是为AI时期作念好了准备啊。

    为啥能这样说?

    从最新发布的新身手看起。

    首个面向及时间析的GA版块

    这次OceanBase 4.3.3中枢升级的身手主要有3方面:

    AP场景性能提高多模态数据扶植向量检索与索引

    领先,OceanBase 4.3.3版块升级了对复杂数据类型处理身手。

    新增Array类型,这意味着数据库不错径直存储、查询和操作数组数据。并对Roaringbitmap类型数据的打算性能进行了优化,意味着数据库约略更高效地处理和操作大型集合数据。

    其次,OceanBase 4.3.3在向量和会查询的关键身手上带来提高,推出全新向量检索身手,扶植向量数据类型和向量索引,并基于向量索引提供将强搜索身手。

    用户可通过SQL及Python SDK等式样纯真调用OceanBase的向量检索身手。

    如今,在通用数据库中集成向量插件依然成为一种趋势,这种式样约略径直复用通用数据已有功能和生态。

    OceanBase与蚂辘集团聚拢建立了向量索引库,这个索引库依然在蚂辘集团渊博业务场景中取得考证(如生物识别、企业里面学问库等),性能熟谙。

    现场跑分限度高傲,该向量库在960维的GIST数据集上发达出色,在ANN Benmarks测试中性能远超其他算法,排行第一。

    止境是在 90% 以上的调回率区间,查询性能(QPS)比较此前最优算法 glass 提高 100%,比较基线算法hnswlib提高300%。

    该向量引擎深度和会了OceanBase的存储引擎和SQL引擎,已毕SQL+AI一体化。约略在一条SQL语句中已毕标量、向量、空间地舆等羼杂查询。

    比如“望小京”demo中,用户给的请示词为“保举两公里内、评分4.5以上、东说念主均耗尽25元以内干净卫生的奶茶店”。这背后触及到处理文本、图像和地舆位置等不同类型的数据,需要更将强的数据分析和查询身手。

    临了,OceanBase 4.3.3还针对AP(分析处理)场景进行大幅性能优化,尤其是在海量数据分析时,约略提供更短的反适时间和更高的蒙眬身手。

    TPC-H 1T场景提高64%TPC-DS 1T场景提高36%ClickBench hot- run提高49%cold-run性能提高149%

    同期大幅完善了及时AP功能,包括扶植列存副本、归天视图、外在集成、快速导入导出等。

    已毕孤高TP和AP负载的物理资源强窒碍,可确保系统在处理事务型负载时,不受分析型负载的影响,止境是在及时数据分析和决策场景中,约略保抓系统的高性能与稳重性。

    在易用性方面也作念了升级,通过提供AP参数版块,用户不错针对不同场景采选特定模板,不需要再单独确立参数。并增强了AP场景中对SQL会诊身手的扶植。

    回来来看,OceanBase 4.3.3在基础散布式身手上,带来更强性能、向量多模和会、融入AI技能栈。

    也就是将AI与数据库进一步和会。

    这并不难领悟,AI应用/AI Agent大势所在,各样应用智能化升级窜改,底层数据库必须紧随趋势升级。

    不外在这之中,OceanBase还反复提到了一个关键词——一体化。

    它不仅是OceanBase的本人秉性,如今也慢慢成为行业拥抱AI时期的一个优解。

    Why?

    更快鼓吹AI应用大规模落地

    关于数据库的发展,行业内慢慢达成一些共鸣。

    AI身手大幅提高,导致公共80%以上的非结构化数据被激活,背后的挖掘分析需求井喷,在这一新变化下,数据处理靠近更大规模、更多模态、及时性更强以及数据碎屑和数据孤岛问题。

    这些变化给数据库建议了诸多新的发展需求。

    最要紧的即是,散布式数据库成为一种大趋势。

    华东师范大学数据学院院长、CCF数据库专委会常委钱卫宁建议,互联网时期数据走向了盛开环境,在数据是散布式的时期里,数据库也需如果散布式的。

    散布式数据库不错让多台办事器协同功课,完成单台办事器无法处理的任务,尤其是高并发或者大数据量的任务。

    除此除外,跟着AI、云打算等技能发展,数据库还呈现出以下秉性。

    第一,云打算的普及鼓吹了云数据库的快速发展。云数据库提供按需推广、高可用性和本钱效益。

    第二,大数据和非结构化数据需求增加,多模态是一种趋势,NoSQL数据库(如MongoDB、Cassandra、Redis、Couchbase)越来越受到原谅。NoSQL数据库提供了更好的推广性和纯真性,适用于存储和处理各式数据类型,如文档、键值对、图数据等。

    第三,HTAP数据库成为热门,以致是主流数据库的一项基础身手。这类数据库约略同期处理事务性和分析性责任负载,孤高了企业及时数据处理和分析的需求。

    第四,开源亦然一大趋势。开源数据库(如PostgreSQL、MySQL、MariaDB)凭借其社区运转的发展步地、将强的功能和纯真实部署式样,成为企业和建立者的热门采选。

    不外来到本色落地层面,尽管数据、数据库在变得愈增多元复杂,然而企业用户总如故但愿能只用一套系统来解决不同责任负载。

    比如能同期在事务处理(如支付、订单等高频交游场景)和复杂的及时间析查询,这背后需要TP+AP联接。

    以及AI与多模查询身手的和会,如Rockset和Oracle这样的数据库系统通过hybrid search和会查询技能,将SQL查询与向量化查询相联接,使得数据处理约略同期包含文本、结构化数据和向量数据等不同类型。

    方方面面影响下,一体化联想慢慢成为被阛阓敬爱的门路。

    以MongoDB和Oracle为代表的数据库厂商正在各自鼓吹一体化数据库的发展。国度工业信息安全发展参谋中心等共同编制的《散布式数据库发展趋势参谋讲述》中也默示,散布式数据架构的联想正在走向一体化。

    在这之中,OceanBase的一体化理念特地昭彰。它包括:

    一体化居品:多责任负载(TP+AP)、多模(SQL+NoSQL)、向量(SQL+AI)。一体化引擎:一体化存储,一体化事务,一体化SQL。一体化架构:包括单机散布式一体化与多云原生。

    OceanBase先容,这种一体化的念念路是跟着客户需求连续发展而来。

    领先在底层架构联想上,单机散布式一体化与多云原生并存,不错孤雄壮中小企业的不同需求。OceanBase依然和当今主流云厂商均达成配合,已毕公有云“多云共生”,同期也提供专有云、羼杂云等不同部署环境,保证一致体验。

    其次跟着数据库场景连续变化,从传统场景到泛互联网场景,OceanBase从TP到TP+AP,慢慢走向多责任负载一体化。

    比如在第一阶段OLTP+,会表露出山东迁徙这类客户的需求,他们主要柔和复杂查询场景,需要增强业务处理效用。

    第二阶段表露出了海底捞这类用户的需求。海底捞本来使用两个系统分袂处理OLTP和OLAP,这导致OLTP和OLAP之间存在数据延长,没法保证数据一致性,还需要两份数据两份本钱。OceanBase能将其整合,不仅使举座本钱缩小,还能提高原来的AP性能。

    第三阶段还会表露出及时营销等场景,对及时AP建议更多条件。

    以及在本色实行中,OceanBase发现越来越多客户将OceanBase既应用在KV存储场景,也应用在NoSQL场景,或者替换HBase、Redis等。因为OceanBase约略解决各个场景中许多辣手问题,比如关于NoSQL而言,最大的挑战在于数据规模,散布式架构不错很好解决数据推广的问题。

    因此,适合用户需求,OceanBase在连续增加对多种数据类型的扶植,已毕多模一体化。

    临了,来到AI时期。“AI for DB,DB for AI”成为共鸣。

    AI应用大规模落地的前提是大模子技能约略在百行万企低本钱易用。

    数据库的发展教养不错为AI应用实行提供参考。比如在数据库中引入向量插件,已毕SQL+AI,约略大幅简化原有AI技能栈,让打造AI Agent的门槛骤降。

    临了回来来看,以OceanBase为代表的一体化数据库不仅能为企业提供更更好的数据底座,况兼方方面面皆孤高AI应用发展的需求。它总体呈现出这些秉性:

    第一,高效的数据处理和分析。

    扶植HTAP,约略在并吞个系统中同期处理事务性(OLTP)和分析性(OLAP)负载。企业不错及时地对交游数据进行分析,而不需要恭候数据的同步和转换,从而加速决策速率和反适时间。

    及时间析,不错在数据生成的同期进行分析,确保数据的时效性,这关于及时保举、风控、监控等AI应用至关伏击。

    第二,简化的数据经管。

    一体化数据库约略确保数据的一致性和好意思满性,因为事务处理和分析处理在并吞个系统内完成,幸免了数据同步和调理经过中可能出现的延长和失实。

    通过将多种数据类型(如推断型数据、文档数据、向量数据等)集成在一个系统中,一体化数据库简化了数据存储和经管。企业不需要爱护多个数据库系统,减少了数据孤岛问题和运维复杂性。

    第三,纯真性和推广性。

    一体化数据库扶植多模态数据处理,约略处理和分析结构化、半结构化和非结构化数据。这种纯真性使企业不错在一个平台上处理不同类型的数据,孤高各式业务需求。

    一体化数据库不错在公有云、特有云和土产货数据中心的羼杂环境中部署,扶植异构环境下的数据经管和应用。这使企业约略左证业务需求纯真采选和调理部署决策。

    第四,简化AI应用构建。

    AI应用时时需要进行高效的向量检索和一样性搜索。一体化数据库通过深度集成向量引擎,扶植快速向量化打算和一样度查询,提高AI应用的性能。

    一体化数据库约略将数据存储和AI模子追究联接,扶植复杂的AI责任负载。这种集成减少了数据传输的延长,提高了模子实践和推理的效用。

    第五,缩小本钱和复杂性。

    一体化数据库减少了企业需要爱护的数据库系统数目,简化了技能栈,缩小了系统集成和运维的复杂性。

    通过优化资源讹诈和减少多系统间的数据同步和调理,一体化数据库缩小了总体领有本钱,提高了投资文书率。

    AI时期,Data is Power。

    李飞飞当初详情作念ImageNet,背后的中枢逻辑就在于,她慑服AI改变天下,数据是最浅易最径直的式样。

    如今,AI应用落地趋势依然开启。数据算作出产成分,在AI时期已是水电般的存在。

    而一体化数据库正在为数据更充分纯真高效应用提供新念念路。

    据了解,一体化数据库OceanBase将成为蚂辘集团的AI数据底座,为一系列AI时期新应用“支小宝”、“蚂小财”以及支付宝百宝箱智能体建立平台的数据经管提供扶植。

    一体化正在成为数据库发展历程中,一个卖身投靠的场地。

    — 完 —

    量子位 QbitAI · 头条号

    柔和咱们,第一时间获知前沿科技动态