91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Google正式發(fā)布LLM評(píng)測(cè)基準(zhǔn)Android Bench

谷歌開發(fā)者 ? 來源:谷歌開發(fā)者 ? 2026-03-14 16:00 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作者 / 產(chǎn)品副總裁、Android 開發(fā)者 Matthew McCullough

我們希望幫助您更快速、更輕松地構(gòu)建高質(zhì)量的 Android 應(yīng)用,而提升生產(chǎn)力的方式之一,就是讓 AI 觸手可及。我們知道您希望 AI 真正理解 Android 平臺(tái)的細(xì)微差異,因此我們一直在評(píng)估 LLM 在 Android 開發(fā)任務(wù)中的表現(xiàn)?,F(xiàn)在,我們發(fā)布了Android Bench的首個(gè)版本,這是 Google 官方專門針對(duì) Android 開發(fā)打造的 LLM 排行榜。

我們的目標(biāo)是為模型開發(fā)者提供一個(gè)基準(zhǔn),用于評(píng)估 LLM 在 Android 開發(fā)方面的能力。通過為高質(zhì)量的 Android 開發(fā)建立清晰、可靠的基準(zhǔn),我們致力于幫助模型開發(fā)者識(shí)別能力差距并加速改進(jìn)。這將使開發(fā)者能夠更高效地工作,并在更多優(yōu)質(zhì)模型中選擇適合的 AI 輔助工具,最終推動(dòng) Android 生態(tài)系統(tǒng)的應(yīng)用質(zhì)量全面提升。

以現(xiàn)實(shí)世界的Android 開發(fā)任務(wù)為設(shè)計(jì)基礎(chǔ)

我們通過整理一系列涵蓋常見 Android 開發(fā)領(lǐng)域的任務(wù)來創(chuàng)建基準(zhǔn)測(cè)試。該基準(zhǔn)由不同難度的實(shí)際挑戰(zhàn)組成,任務(wù)來源于公開的 GitHub Android 庫。測(cè)試場(chǎng)景包括: 解決 Android 版本升級(jí)帶來的破壞性更改、處理可穿戴設(shè)備上的網(wǎng)絡(luò)連接等特定領(lǐng)域任務(wù),以及遷移到最新版本的 Jetpack Compose 等。

在每次評(píng)估中,我們都會(huì)引導(dǎo) LLM 嘗試修復(fù)任務(wù)中報(bào)告的問題,并通過單元測(cè)試或插樁測(cè)試進(jìn)行驗(yàn)證。這種與模型無關(guān)的方法,使我們能夠衡量模型在復(fù)雜代碼庫中導(dǎo)航、理解依賴關(guān)系,以及解決開發(fā)者日常遇到的各類實(shí)際問題的能力。

我們已與多家 LLM 研發(fā)廠商 (包括 JetBrains) 共同驗(yàn)證了這一方法論。

JetBrains AI 集成負(fù)責(zé)人 Kirill Smelov:“衡量 AI 對(duì) Android 的影響是一項(xiàng)巨大的挑戰(zhàn),因此很高興看到這樣一個(gè)完善且實(shí)用的框架。雖然我們自身也在積極進(jìn)行基準(zhǔn)測(cè)試,但 Android Bench 這一獨(dú)特的且備受期待的補(bǔ)充方案確實(shí)很有意義。這種方法正是當(dāng)前 Android 開發(fā)者所需要的嚴(yán)謹(jǐn)評(píng)估體系?!?/p>

首批 Android Bench 測(cè)試結(jié)果

在本次初始發(fā)布中,我們旨在純粹評(píng)估模型性能,并未側(cè)重智能體能力或工具的使用。結(jié)果顯示,各模型任務(wù)完成率在 16% 至 72% 之間。這一較大的差距表明,部分 LLM 已經(jīng)具備較強(qiáng)的 Android 開發(fā)基礎(chǔ)能力,而另一些模型仍有較大的提升空間。無論當(dāng)前表現(xiàn)如何,我們都期待 LLM 開發(fā)者持續(xù)優(yōu)化其模型以更好地支持 Android 開發(fā),并在此過程中不斷地提升性能。

在本次首發(fā)評(píng)測(cè)中,平均得分最高的 LLM 是 Gemini 3.1 Pro,緊隨其后的是 Claude Opus 4.6。您可以在最新穩(wěn)定版本的Android Studio中配置 API 密鑰,體驗(yàn)我們?cè)u(píng)測(cè)的所有模型,為您的 Android 項(xiàng)目提供 AI 輔助支持。

f658182a-1df9-11f1-90a1-92fbcf53809c.png

為開發(fā)者與 LLM 研發(fā)廠商提供信息透明度

我們秉持開放與透明的原則,因此我們的評(píng)測(cè)方法、數(shù)據(jù)集以及自動(dòng)化測(cè)試框架已經(jīng)在 GitHub 上公開。

任何公開基準(zhǔn)都會(huì)面臨一個(gè)挑戰(zhàn)——數(shù)據(jù)污染的風(fēng)險(xiǎn),即模型可能在訓(xùn)練過程中已經(jīng)接觸過評(píng)測(cè)任務(wù)。為確保評(píng)測(cè)結(jié)果反映的是真實(shí)推理能力,而非記憶或猜測(cè),我們采取了多項(xiàng)措施,包括對(duì)智能體軌跡進(jìn)行嚴(yán)格的人工審查,以及引入 Canary 字符串以勸阻模型對(duì)測(cè)試數(shù)據(jù)的訓(xùn)練學(xué)習(xí)。

展望未來,我們將持續(xù)優(yōu)化評(píng)測(cè)方法,以維護(hù)數(shù)據(jù)集的完整性,同時(shí)不斷改進(jìn)基準(zhǔn)的后續(xù)版本,例如增加任務(wù)數(shù)量和復(fù)雜度。

我們期待Android Bench在長遠(yuǎn)角度提升 AI 輔助開發(fā)能力;我們的愿景是縮小創(chuàng)意與高質(zhì)量代碼之間的差距,為未來奠定基礎(chǔ)——助力您在 Android 上輕松構(gòu)建出您心中所想。也歡迎您關(guān)注 "谷歌開發(fā)者" 微信公眾號(hào),及時(shí)了解更多開發(fā)技術(shù)和產(chǎn)品更新等資訊動(dòng)態(tài)!

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • Android
    +關(guān)注

    關(guān)注

    12

    文章

    4030

    瀏覽量

    134106
  • Google
    +關(guān)注

    關(guān)注

    5

    文章

    1808

    瀏覽量

    60551
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    1

    文章

    348

    瀏覽量

    1340

原文標(biāo)題:Android Bench 正式發(fā)布 | 專為 Android 開發(fā)打造的 LLM 評(píng)測(cè)基準(zhǔn)

文章出處:【微信號(hào):Google_Developers,微信公眾號(hào):谷歌開發(fā)者】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    昆侖天工Skywork與Google Cloud深度合作發(fā)布桌面級(jí)Agent

    天工 Skywork 如何通過 Google 的 Gemini 3 模型家族,并結(jié)合 Google Distributed Cloud (GDC) 混合云架構(gòu),成功構(gòu)建面向 Windows 生態(tài)的桌面級(jí)
    的頭像 發(fā)表于 02-25 10:17 ?523次閱讀

    谷歌Android Studio Otter 3功能更新發(fā)布

    我們很高興地宣布,Android Studio Otter 3 功能更新穩(wěn)定版現(xiàn)已發(fā)布!本次更新干貨滿滿,不僅重磅升級(jí)了 Android Studio 中的智能體工作流,還為開發(fā)者提供了更高的靈活性和掌控力,助力大家輕松利用 A
    的頭像 發(fā)表于 01-28 14:15 ?655次閱讀
    谷歌<b class='flag-5'>Android</b> Studio Otter 3功能更新<b class='flag-5'>發(fā)布</b>

    探索MOTIX? Motor Bench:電機(jī)控制評(píng)估的得力助手

    探索MOTIX? Motor Bench:電機(jī)控制評(píng)估的得力助手 在電子工程師的日常工作中,電機(jī)控制評(píng)估是一個(gè)重要的環(huán)節(jié),而合適的工具能極大提升工作效率和準(zhǔn)確性。今天,我們就來深入了解一款出色的電機(jī)
    的頭像 發(fā)表于 12-20 15:40 ?925次閱讀

    nordic NRF54藍(lán)牙設(shè)備在Google Pixel 10上“聽診”藍(lán)牙信道示例

    今年早些時(shí)候發(fā)布Android 16系統(tǒng)首次引入了支持藍(lán)牙?信道探測(cè)的公共API,實(shí)現(xiàn)了智能手機(jī)的精準(zhǔn)測(cè)距功能。然而直到近期,市面上仍未出現(xiàn)支持藍(lán)牙6.0及信道探測(cè)技術(shù)的手機(jī)硬件。這一局面在
    發(fā)表于 11-26 17:44

    JoyCode:SWE-bench Verified打榜技術(shù)報(bào)告

    在權(quán)威SWE-Bench Verified基準(zhǔn)測(cè)試中,JoyCode Agent憑借 74.6% 的高通過率 強(qiáng)勢(shì)登榜全球 Top3,并正式開源! Github開源地址:https
    的頭像 發(fā)表于 11-03 17:16 ?1564次閱讀
    JoyCode:SWE-<b class='flag-5'>bench</b> Verified打榜技術(shù)報(bào)告

    NVIDIA TensorRT LLM 1.0推理框架正式上線

    TensorRT LLM 作為 NVIDIA 為大規(guī)模 LLM 推理打造的推理框架,核心目標(biāo)是突破 NVIDIA 平臺(tái)上的推理性能瓶頸。為實(shí)現(xiàn)這一目標(biāo),其構(gòu)建了多維度的核心實(shí)現(xiàn)路徑:一方面,針對(duì)需
    的頭像 發(fā)表于 10-21 11:04 ?1210次閱讀

    廣和通發(fā)布端側(cè)情感對(duì)話大模型FiboEmo-LLM

    9月,廣和通正式發(fā)布自主研發(fā)的端側(cè)情感對(duì)話大模型FiboEmo-LLM。該模型專注于情感計(jì)算與自然語言交互融合,致力于為AI玩具、智能陪伴設(shè)備等終端場(chǎng)景提供“情感理解-情感響應(yīng)”一體化能力,推動(dòng)終端人工智能向更具人性化、情感化的方向演進(jìn)。
    的頭像 發(fā)表于 09-26 13:37 ?1921次閱讀

    谷歌查找我的設(shè)備配件(Google Find My Device Accessory)詳解和應(yīng)用

    設(shè)備(Owner device)通常是指具有Android系統(tǒng)的設(shè)備如手機(jī)等,且和附件做過關(guān)聯(lián)(配置),是配件的所有者,Google服務(wù)器和其它支持Google FMDN功能的手機(jī)或平板等An
    發(fā)表于 08-31 21:10

    Android 16更新亮點(diǎn)介紹

    Android 近期在整個(gè)平臺(tái)上推出了一系列更新,包括:發(fā)布 Android 16 并為開發(fā)者和用戶提供詳細(xì)信息,推出改進(jìn)外接顯示設(shè)備上 Android 桌面體驗(yàn)的開發(fā)者預(yù)覽版,為
    的頭像 發(fā)表于 07-05 11:37 ?3784次閱讀

    如何在魔搭社區(qū)使用TensorRT-LLM加速優(yōu)化Qwen3系列模型推理部署

    TensorRT-LLM 作為 NVIDIA 專為 LLM 推理部署加速優(yōu)化的開源庫,可幫助開發(fā)者快速利用最新 LLM 完成應(yīng)用原型驗(yàn)證與產(chǎn)品部署。
    的頭像 發(fā)表于 07-04 14:38 ?2230次閱讀

    Google Fast Pair服務(wù)簡介

    Pair, and associated extensions, that are to be certified. 手機(jī)或其它Android 設(shè)備如何知道,附近藍(lán)牙設(shè)備是否支持Google Fast
    發(fā)表于 06-29 19:28

    使用 llm-agent-rag-llamaindex 筆記本時(shí)收到的 NPU 錯(cuò)誤怎么解決?

    使用 conda create -n ov-nb-demos python=3.11 創(chuàng)建運(yùn)行 llm-agent-rag-llamaindex notebook 的環(huán)境。 執(zhí)行“創(chuàng)建
    發(fā)表于 06-23 06:26

    使用NVIDIA Triton和TensorRT-LLM部署TTS應(yīng)用的最佳實(shí)踐

    針對(duì)基于 Diffusion 和 LLM 類別的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能顯著提升推理速度。在單張 NVIDIA Ada Lovelace
    的頭像 發(fā)表于 06-12 15:37 ?1922次閱讀
    使用NVIDIA Triton和TensorRT-<b class='flag-5'>LLM</b>部署TTS應(yīng)用的最佳實(shí)踐

    LM Studio使用NVIDIA技術(shù)加速LLM性能

    隨著 AI 使用場(chǎng)景不斷擴(kuò)展(從文檔摘要到定制化軟件代理),開發(fā)者和技術(shù)愛好者正在尋求以更 快、更靈活的方式來運(yùn)行大語言模型(LLM)。
    的頭像 發(fā)表于 06-06 15:14 ?1210次閱讀
    LM Studio使用NVIDIA技術(shù)加速<b class='flag-5'>LLM</b>性能

    詳解 LLM 推理模型的現(xiàn)狀

    領(lǐng)域的最新研究進(jìn)展,特別是自DeepSeekR1發(fā)布后興起的推理時(shí)間計(jì)算擴(kuò)展相關(guān)內(nèi)容。在LLM中實(shí)施和改進(jìn)推理簡單來說,基于LLM的推理模型是一種旨在通過生成中間
    的頭像 發(fā)表于 04-03 12:09 ?1647次閱讀
    詳解 <b class='flag-5'>LLM</b> 推理模型的現(xiàn)狀