91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

使用NVIDIA Triton推理服務(wù)器來加速AI預(yù)測

NVIDIA英偉達企業(yè)解決方案 ? 來源:NVIDIA英偉達企業(yè)解決方案 ? 2024-02-29 14:04 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

這家云計算巨頭的計算機視覺和數(shù)據(jù)科學(xué)服務(wù)使用 NVIDIA Triton 推理服務(wù)器來加速 AI 預(yù)測。

作為一名狂熱的自行車愛好者,Thomas Park 深知擁有多個變速檔位對于平穩(wěn)、快速騎行的重要性。

因此,當(dāng)這位軟件架構(gòu)師為 Oracle Cloud Infrastructure(OCI)的視覺 AI 服務(wù)設(shè)計 AI 推理平臺時,他選擇了 NVIDIA Triton 推理服務(wù)器,因為它可以通過變換“檔位”,來快速高效地處理幾乎任何 AI 模型、框架、硬件和運行模式。

Park 表示:“NVIDIA AI推理平臺為我們的全球云服務(wù)客戶帶來了巨大的靈活性,讓他們可以構(gòu)建和運行 AI 應(yīng)用?!盤ark 是一位在蘇黎世工作的計算機工程師,同時也是一名富有競爭力的自行車手,他曾先后就職于四家全球超大型云服務(wù)提供商。

具體而言,Triton 將 OCI 的總擁有成本降低了 10%、將遷移到 Triton 的 OCI 視覺和文檔理解服務(wù)模型的預(yù)測吞吐量提高了 76%,并將推理延遲降低了 51%。Park 和一位同事在今年早些時候發(fā)布的一篇 Oracle 博客中指出,全球有超過 45 個區(qū)域數(shù)據(jù)中心在運行這些服務(wù)。

計算機視覺加速深入洞察

依靠 OCI 視覺 AI,客戶可以進行各種物體檢測和圖像分類工作。例如,美國的一家運輸公司利用它來自動檢測經(jīng)過的車軸數(shù),以計算和結(jié)算過橋費,從而節(jié)省了忙碌的卡車司機在收費站的等待時間。

OCI AI 還通過 Oracle NetSuite 提供,Oracle NetSuite 是全球 37,000 多個企業(yè)組織使用的一套商業(yè)應(yīng)用程序,它可以用于自動識別發(fā)票等工作。

在 Park 的努力下,Triton 如今也被其他 OCI 服務(wù)所采用。

能夠識別 Triton 的數(shù)據(jù)服務(wù)

負責(zé)處理 Oracle 內(nèi)外部用戶機器學(xué)習(xí)事務(wù)的 OCI 數(shù)據(jù)科學(xué)服務(wù)產(chǎn)品管理總監(jiān) Tzvi Keisar 表示:“我們的 AI 平臺能夠識別 Triton,以造福于我們的客戶?!?/p>

Keisar 提到:“想要使用 Triton 的客戶不必擔(dān)心配置問題,因為平臺會自動完成配置,為他們啟動一個 Triton 驅(qū)動的推理終端節(jié)點?!?/p>

Triton 包含在 NVIDIA AI Enterprise 中,該平臺可提供企業(yè)所需的全方位的安全和支持,并且可以在 OCI Marketplace 上獲得

一個龐大的 SaaS 平臺

OCI 的數(shù)據(jù)科學(xué)服務(wù)是一個適用于 Oracle NetSuite 和 Oracle Fusion 應(yīng)用程序的機器學(xué)習(xí)平臺。

“這些商業(yè)應(yīng)用套件規(guī)模龐大,有數(shù)以萬計的客戶也在我們的服務(wù)上構(gòu)建他們的框架。”Keisar 說。

這些客戶主要是來自于制造業(yè)、零售業(yè)、交通運輸業(yè)等行業(yè)的企業(yè)用戶。他們正在構(gòu)建和使用幾乎所有形態(tài)與規(guī)模的 AI 模型。

推理是該團隊推出的首批服務(wù)之一,而 Triton 在推出后不久就進入了該團隊的視線。

最佳的推理框架

“我們看到 Triton 作為一流的服務(wù)框架越來越受歡迎,于是開始試用。”Keisar 說,“我們發(fā)現(xiàn)它的性能非常出色,彌補了現(xiàn)有產(chǎn)品的不足,尤其是在多模型推理方面。它是目前功能最全面、最先進的推理框架?!?/p>

Triton 于 3 月在 OCI 上發(fā)布,已經(jīng)吸引了 Oracle 許多內(nèi)部團隊的關(guān)注。他們希望將其用于需要同時運行多個 AI 模型以作出預(yù)測的推理工作。

他表示:“當(dāng)用于部署在單個端點上的多個模型時,Triton 的表現(xiàn)和性能都非常好。”

加快未來發(fā)展

展望未來,復(fù)雜的大語言模型(LLM)激發(fā)了眾多用戶的想象力。為了能夠在未來為這些模型上的推理提供更強大的助力,Keisar 的團隊正在對 NVIDIA TensorRT-LLM 軟件進行評估。

身為一名活躍的博主,Keisar 在其最新文章中詳細介紹了在 NVIDIA A10 Tensor Core GPU 上運行具有高達 700 億參數(shù)的 Llama 2 LLM 的量化技術(shù)。

他表示:“即使減低到四位參數(shù),模型輸出的質(zhì)量仍然相當(dāng)不錯。在 NVIDIA GPU 上的部署使我們能夠靈活地在延遲、吞吐量和成本之間找到良好的平衡點。”




審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5597

    瀏覽量

    109790
  • 計算機視覺
    +關(guān)注

    關(guān)注

    9

    文章

    1715

    瀏覽量

    47637
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    1

    文章

    346

    瀏覽量

    1336

原文標題:名不虛傳:NVIDIA Triton 加速 Oracle Cloud 上的推理

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    普通服務(wù)器電源與AI服務(wù)器電源的區(qū)別(上)

    引言服務(wù)器是數(shù)據(jù)中心的核心設(shè)備,其穩(wěn)定運行依賴可靠的電源供應(yīng)。隨著AI技術(shù)的飛速發(fā)展,AI服務(wù)器大量涌現(xiàn),與普通服務(wù)器在應(yīng)用場景等方面存在顯
    的頭像 發(fā)表于 01-12 09:31 ?1050次閱讀
    普通<b class='flag-5'>服務(wù)器</b>電源與<b class='flag-5'>AI</b><b class='flag-5'>服務(wù)器</b>電源的區(qū)別(上)

    液冷散熱時代:AI服務(wù)器如何重構(gòu)磁元件設(shè)計

    隨著AI服務(wù)器功率密度的快速提升,傳統(tǒng)的風(fēng)冷散熱方案在熱管理方面逐漸面臨挑戰(zhàn)。在此背景下,液冷散熱技術(shù)正加速應(yīng)用于數(shù)據(jù)中心,特別是高算力的AI集群中。 這一散熱方式的變革,并不僅僅是冷
    的頭像 發(fā)表于 11-21 11:42 ?701次閱讀
    液冷散熱時代:<b class='flag-5'>AI</b><b class='flag-5'>服務(wù)器</b>如何重構(gòu)磁元件設(shè)計

    NVIDIA三臺計算機解決方案如何協(xié)同助力機器人技術(shù)

    NVIDIA DGX、基于 NVIDIA RTX PRO 服務(wù)器的 Omniverse 和 Cosmos,以及 Jetson AGX Thor,正全面加速從人形機器人到機器人工廠等基于
    的頭像 發(fā)表于 08-27 11:48 ?2419次閱讀

    ai服務(wù)器是什么?與普通服務(wù)器有什么區(qū)別

    AI服務(wù)器并非簡單的硬件堆砌,而是專門為人工智能任務(wù)設(shè)計的高性能計算系統(tǒng)。其核心目標是高效處理海量數(shù)據(jù)并行計算(如矩陣乘法、模型推理),并針對AI工作負載(如深度學(xué)習(xí)訓(xùn)練、大模型
    的頭像 發(fā)表于 06-24 16:39 ?4267次閱讀

    使用NVIDIA Triton和TensorRT-LLM部署TTS應(yīng)用的最佳實踐

    針對基于 Diffusion 和 LLM 類別的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能顯著提升推理速度。在單張 NVIDIA Ada Love
    的頭像 發(fā)表于 06-12 15:37 ?1899次閱讀
    使用<b class='flag-5'>NVIDIA</b> <b class='flag-5'>Triton</b>和TensorRT-LLM部署TTS應(yīng)用的最佳實踐

    基于RAKsmart云服務(wù)器AI大模型實時推理方案設(shè)計

    面對高并發(fā)請求、嚴格的響應(yīng)延遲要求及波動的業(yè)務(wù)負載,傳統(tǒng)本地化部署的算力瓶頸愈發(fā)顯著。RAKsmart云服務(wù)器憑借其彈性計算資源池、分布式網(wǎng)絡(luò)架構(gòu)與全棧AI加速能力,為AI大模型實時
    的頭像 發(fā)表于 05-13 10:33 ?614次閱讀

    RAKsmart服務(wù)器如何賦能AI開發(fā)與部署

    AI開發(fā)與部署的復(fù)雜性不僅體現(xiàn)在算法設(shè)計層面,更依賴于底層基礎(chǔ)設(shè)施的支撐能力。RAKsmart服務(wù)器憑借其高性能硬件架構(gòu)、靈活的資源調(diào)度能力以及面向AI場景的深度優(yōu)化,正在成為企業(yè)突破算力瓶頸、
    的頭像 發(fā)表于 04-30 09:22 ?796次閱讀

    NVIDIA Cosmos加速機器人和自動駕駛汽車物理AI發(fā)展

    NVIDIA Cosmos 通過可預(yù)測未來世界狀態(tài)的世界基礎(chǔ)模型加速物理 AI 的發(fā)展。
    的頭像 發(fā)表于 04-24 11:01 ?1275次閱讀
    <b class='flag-5'>NVIDIA</b> Cosmos<b class='flag-5'>加速</b>機器人和自動駕駛汽車物理<b class='flag-5'>AI</b>發(fā)展

    AI 推理服務(wù)器都有什么?2025年服務(wù)器品牌排行TOP10與選購技巧

    根據(jù)行業(yè)數(shù)據(jù),AI推理服務(wù)器的性能差異可以達到10倍以上。比如,用普通服務(wù)器跑一個700億參數(shù)的大模型,可能需要30秒才能出結(jié)果,而用頂級服務(wù)器
    的頭像 發(fā)表于 04-09 11:06 ?8650次閱讀
    <b class='flag-5'>AI</b> <b class='flag-5'>推理</b><b class='flag-5'>服務(wù)器</b>都有什么?2025年<b class='flag-5'>服務(wù)器</b>品牌排行TOP10與選購技巧

    RAKsmart服務(wù)器如何重塑AI高并發(fā)算力格局

    AI大模型參數(shù)量突破萬億級、實時推理需求激增的當(dāng)下,傳統(tǒng)服務(wù)器架構(gòu)的并發(fā)處理能力已逼近物理極限。RAKsmart通過“硬件重構(gòu)+軟件定義”的雙引擎創(chuàng)新,推出新一代AI
    的頭像 發(fā)表于 04-03 10:37 ?919次閱讀

    推理服務(wù)器的7大可靠性指標,寬溫/抗震/EMC防護實測數(shù)據(jù)分享

    在 AIoT 設(shè)備突破百億級的今天,邊緣計算推理服務(wù)器已成為智能時代的 "神經(jīng)末梢"。根據(jù) Gartner 預(yù)測,到 2025 年將有 75% 的企業(yè)關(guān)鍵任務(wù)部署在邊緣端。然而,工業(yè)級應(yīng)用場景(如智能工廠、無人礦山、車路協(xié)同)對
    的頭像 發(fā)表于 04-02 10:43 ?1158次閱讀
    <b class='flag-5'>推理</b><b class='flag-5'>服務(wù)器</b>的7大可靠性指標,寬溫/抗震/EMC防護實測數(shù)據(jù)分享

    國產(chǎn)推理服務(wù)器如何選擇?深度解析選型指南與華頡科技實戰(zhàn)案例

    人工智能技術(shù)的爆發(fā)催生了對推理算力的迫切需求,而進口服務(wù)器的高成本與技術(shù)依賴性,推動了國產(chǎn)推理服務(wù)器的快速發(fā)展。據(jù)IDC預(yù)測,到2025年,
    的頭像 發(fā)表于 03-24 17:11 ?1246次閱讀
    國產(chǎn)<b class='flag-5'>推理</b><b class='flag-5'>服務(wù)器</b>如何選擇?深度解析選型指南與華頡科技實戰(zhàn)案例

    英偉達GTC2025亮點:Oracle與NVIDIA合作助力企業(yè)加速代理式AI推理

    Oracle 數(shù)據(jù)庫與 NVIDIA AI 相集成,使企業(yè)能夠更輕松、快捷地采用代理式 AI Oracle 和 NVIDIA 宣布,NVIDIA
    的頭像 發(fā)表于 03-21 12:01 ?1445次閱讀
    英偉達GTC2025亮點:Oracle與<b class='flag-5'>NVIDIA</b>合作助力企業(yè)<b class='flag-5'>加速</b>代理式<b class='flag-5'>AI</b><b class='flag-5'>推理</b>

    英偉達GTC25亮點:NVIDIA Dynamo開源庫加速并擴展AI推理模型

    Triton 推理服務(wù)器的后續(xù)產(chǎn)品,NVIDIA Dynamo 是一款全新的 AI 推理
    的頭像 發(fā)表于 03-20 15:03 ?1247次閱讀

    Oracle 與 NVIDIA 合作助力企業(yè)加速代理式 AI 推理

    ——Oracle 和 NVIDIA 今日宣布,NVIDIA 加速計算和推理軟件與 Oracle 的 AI 基礎(chǔ)設(shè)施以及生成式
    發(fā)表于 03-19 15:24 ?580次閱讀
    Oracle 與 <b class='flag-5'>NVIDIA</b> 合作助力企業(yè)<b class='flag-5'>加速</b>代理式 <b class='flag-5'>AI</b> <b class='flag-5'>推理</b>