91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

閉卷開考全國(guó)一卷,AI大模型高考數(shù)學(xué)全部不及格?!

E4Life ? 來(lái)源:電子發(fā)燒友 ? 作者:周凱揚(yáng) ? 2024-06-21 00:26 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

電子發(fā)燒友網(wǎng)報(bào)道(文/周凱揚(yáng))當(dāng)下的大模型除了卷商業(yè)化變現(xiàn)外,又開辟出了一個(gè)新的“賽博斗蛐蛐”賽道,以各種評(píng)測(cè)標(biāo)準(zhǔn)來(lái)測(cè)試大模型在語(yǔ)言、數(shù)學(xué)、推理和代碼方面的綜合成績(jī)。作為國(guó)內(nèi)最權(quán)威的考試之一,高考則是最能代表學(xué)生綜合能力的一次考驗(yàn),而大模型這個(gè)特殊身份的考生,如果參加高考究竟會(huì)獲得怎樣的成績(jī),也激起了網(wǎng)友的好奇之心。

上海人工智能實(shí)驗(yàn)室的大模型評(píng)測(cè)體系OpenCompass在近日舉辦了這么一次測(cè)試,讓6大開源模型和GPT-4o參加一次特殊的“高考”,然而這些大模型獲得的成績(jī)卻讓不少人大跌眼鏡。

閉卷開考全國(guó)一卷

在這次大模型參加高考中,OpenCompass的首輪測(cè)試采用了全國(guó)新課標(biāo)I卷的語(yǔ)數(shù)外試卷作為題源,該卷的覆蓋省份包括江蘇、浙江、河北、福建、山東、湖北、湖南、廣東等。為了方便測(cè)試,除了省去其他非統(tǒng)一學(xué)科外,其中英語(yǔ)省去了30分的聽力,所以其單科總分變?yōu)榱?20分。

為了做到“閉卷”,這些受測(cè)的模型中,包括Mistral的開源對(duì)話模型Mixtral 8x22B、零一萬(wàn)物的Yi-1.5-34B大模型、智譜AI的GLM-4-9B、上海人工智能實(shí)驗(yàn)室推出的InternLM2-20B-WQX大語(yǔ)言模型以及阿里巴巴的Qwen2-57B和Qwen2-72B。

以上開源模型的開源時(shí)間均早于本屆高考,發(fā)布時(shí)間最新的是InternLM專門在高考前夕推出的文曲星系列大模型,InternLM2-WQX。即便如此,其發(fā)布于6月4日的時(shí)間也滿足了閉卷考試的前提。唯一的例外是商用閉源模型GPT-4o,但其成績(jī)也僅僅是作為評(píng)測(cè)參考。

在閱卷評(píng)分上,OpenCompass請(qǐng)到了多位有閱卷經(jīng)驗(yàn)的高中教師對(duì)主觀題答案進(jìn)行評(píng)分,每份考卷都由至少3位教師評(píng)閱取平均分,甚至對(duì)分差較大的題目進(jìn)行了二次審核。另外值得關(guān)注的是,為了保證閱卷老師在主客觀題上產(chǎn)生對(duì)大模型“先入為主”的觀念,OpenCompass在閱卷之后才告知閱卷老師答案由大模型生成,并對(duì)成績(jī)做一個(gè)整體分析。

wKgZomZ0BCWAPKHmAAOALGiaXp4470.png
AI大模型高考語(yǔ)數(shù)外得分 / 上海人工智能實(shí)驗(yàn)室


從總分來(lái)看,阿里巴巴的通義千問大模型Qwen2-72B排名第一,其次是成績(jī)相近的GPT-4o和InternLM2-20B-WQX。然而單從數(shù)學(xué)這一門科目來(lái)看,所有的大模型都沒有及格,Mixtral 8x22B甚至只獲得了21分的成績(jī)。

語(yǔ)言能力依然是LLM的強(qiáng)項(xiàng),但“應(yīng)試”能力仍有提升空間

在這次“高考測(cè)試”中,不少大模型都在語(yǔ)文和英語(yǔ)上獲得了不錯(cuò)的成績(jī),尤其是在英語(yǔ)試卷上,GPT-4o更是在英語(yǔ)上獲得了111.5的高分。在語(yǔ)文上,還是國(guó)內(nèi)的模型更具優(yōu)勢(shì),尤其是在文言文閱讀、古詩(shī)文閱讀和名句默寫上。

有趣的一點(diǎn)是,在語(yǔ)文作文上,各大模型都沒有拉開較大差距。但據(jù)上海人工智能實(shí)驗(yàn)室的觀察,大模型的作文都傾向于將“首先”“其次”和“然后”這樣表達(dá)先后順序的詞放在段首。此外,目前多數(shù)大模型都沒有對(duì)一些“應(yīng)試”類題型做出優(yōu)化,比如在語(yǔ)文考試中,閱讀理解中的一些本體、喻體、暗喻等概念,大模型尚不能完全理解,所以在語(yǔ)言文字運(yùn)用題型上,比如補(bǔ)寫句子等題目就普遍得分不高。

而在英語(yǔ)考試中,盡管各大模型整體表現(xiàn)良好,但部分模型并不適應(yīng)完形填空、七選五這樣非傳統(tǒng)問答式的題型,會(huì)出現(xiàn)答案錯(cuò)位的情況,因此得分率依然處于一個(gè)較低的水平。

在英語(yǔ)續(xù)寫和作文的撰寫上,大模型都存在忽略題目要求的現(xiàn)象,普遍出現(xiàn)了超出字?jǐn)?shù)限制而扣分的情況,且單段文字過長(zhǎng)。在故事續(xù)寫這樣的題型中,部分大模型也會(huì)展開不合實(shí)際的聯(lián)想,比如InternLM2-20B-WQX的作答中,就出現(xiàn)了出租車內(nèi)司機(jī)撥通銀行內(nèi)線電話的離譜情節(jié)。

數(shù)學(xué)不及格,主觀問答題成為最大短板

wKgaomZ0BDKAKfhmAALzT7cr6Gc900.png
AI大模型數(shù)學(xué)各題型得分 / 上海人工智能實(shí)驗(yàn)室


相較語(yǔ)言能力測(cè)試成績(jī),AI大模型在數(shù)學(xué)能力測(cè)試上獲得的成績(jī)就顯得不盡如人意了。最高分為InternLM2-20B-WQX取得的75分,可以說在數(shù)學(xué)這門學(xué)科上,幾乎所有的大模型都敗下陣來(lái)。全國(guó)新課標(biāo)I卷的數(shù)學(xué)試卷中存在兩道帶圖題,對(duì)于不支持多模態(tài)輸入的大模型而言,只能選擇輸入題干文字從而將圖片舍棄,這也是失分嚴(yán)重的原因之一。

wKgaomZ0BD6AA07RAAHqWlB3xsA388.png
Qwen2-72B的帶圖題答案 / 上海人工智能實(shí)驗(yàn)室


以上圖中的帶圖題答案為例,大模型僅僅給出了一個(gè)解題框架,并沒有給出具體數(shù)值的答案。GPT-4o和InternLM2-20B-WQX等大模型雖然給出了具體答案和解題過程,但最終得到的是一個(gè)錯(cuò)誤的答案。

之所以InternLM2-20B-WQX能在數(shù)學(xué)考試上獲得相對(duì)較高的成績(jī),也歸功于其團(tuán)隊(duì)在數(shù)學(xué)大模型上的積累。今年年初InternLM發(fā)布了數(shù)學(xué)模型書生·浦語(yǔ)數(shù)學(xué)(InternLM2-Math)。書生·浦語(yǔ)數(shù)學(xué)也是首個(gè)同時(shí)支持形式化數(shù)學(xué)語(yǔ)言以及解題過程評(píng)價(jià)的開源模型,如此一來(lái)不僅可以用于數(shù)學(xué)計(jì)算解答,也可以用于數(shù)學(xué)基礎(chǔ)研究和教學(xué)。

盡管如此,在數(shù)學(xué)考試的問答主觀題上,大模型依然成績(jī)慘淡。這是因?yàn)榇竽P偷幕卮鸲鄶?shù)比較凌亂,也出現(xiàn)了不少常見的錯(cuò)誤解答但答案正確的現(xiàn)象。所以在77分滿分的問答題上,最高的InternLM2-20B-WQX也只僅僅得了26分。

AI大模型是不合格的考生嗎?

根據(jù)閱卷老師的點(diǎn)評(píng)來(lái)看,AI大模型依然還是一個(gè)比較“死板”的考生,尤其是在主觀題上。以語(yǔ)文的主觀題為例,很多大模型在第一步審題就失敗了,所以答非所問。在英語(yǔ)題目上,大模型的實(shí)力還是毋庸置疑的,但還是會(huì)在題型和作文中出現(xiàn)紕漏。

至于數(shù)學(xué)依然是所有大模型的弱項(xiàng),大模型更像是記住了公式但不會(huì)運(yùn)用的學(xué)生,在大部分題目上更傾向于窮舉而非推理。至于帶圖的立體幾何解答題,大模型更是缺乏空間概念,導(dǎo)致出現(xiàn)離譜的解答過程和答案。由此看來(lái),大模型的“應(yīng)試”能力依然有所欠缺,但在飛速迭代下,相信未來(lái)這種障礙會(huì)越來(lái)越少。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39911

    瀏覽量

    301555
  • AI大模型
    +關(guān)注

    關(guān)注

    0

    文章

    398

    瀏覽量

    1005
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    太強(qiáng)了!AI PC搭載70B大模型,算力狂飆,內(nèi)存

    電子發(fā)燒友網(wǎng)報(bào)道(文/黃晶晶)AI推理助推了DeepSeek體機(jī)的市場(chǎng)熱度,而AI PC對(duì)DeepSeek大模型的支持也將是廣大用戶采購(gòu)AI
    的頭像 發(fā)表于 03-24 08:52 ?3676次閱讀
    太強(qiáng)了!<b class='flag-5'>AI</b> PC搭載70B大<b class='flag-5'>模型</b>,算力狂飆,內(nèi)存<b class='flag-5'>開</b>掛

    模型 ai coding 比較

    框架:llm-coding-bench v1.0 統(tǒng)代碼執(zhí)行超時(shí):10秒 統(tǒng)隨機(jī)種子:42 統(tǒng)裁判模型:DeepSeek-Chat(第三方交叉驗(yàn)證) ? 綜合評(píng)分公式: scss
    發(fā)表于 02-19 13:43

    Transformer 入門:從零理解 AI模型的核心原理

    的范圍內(nèi),幫助模型更穩(wěn)定地學(xué)習(xí)。 想象下: arduino 體驗(yàn)AI代碼助手 代碼解讀 復(fù)制代碼 不歸化的數(shù)據(jù): 特征1(年齡):25, 30, 35范圍:25-35 特征2(
    發(fā)表于 02-10 16:33

    使用NORDIC AI的好處

    × 在 CPU 上運(yùn)行時(shí)可快 10×、更省電,平均模型體積 <5 KB。[Edge AI 軟件頁(yè)] Axon NPU 對(duì)同 TensorFlow Lite 模型:* 推理速度
    發(fā)表于 01-31 23:16

    全國(guó)首個(gè)“鴻蒙AI數(shù)智機(jī)關(guān)”落地福田,深鴻筑牢政務(wù)安全底座

    2026年1月12日,“全棧式鴻蒙AI數(shù)智機(jī)關(guān)標(biāo)桿場(chǎng)景發(fā)布暨機(jī)關(guān)鴻蒙生態(tài)建設(shè)推進(jìn)大會(huì)”在福田會(huì)堂舉行,全國(guó)首個(gè)基于“國(guó)產(chǎn)開源鴻蒙系統(tǒng)+AI智能體”的全棧式數(shù)智機(jī)關(guān)正式啟動(dòng)亮相。作為意向加入機(jī)關(guān)鴻蒙
    的頭像 發(fā)表于 01-13 17:38 ?480次閱讀
    <b class='flag-5'>全國(guó)</b>首個(gè)“鴻蒙<b class='flag-5'>AI</b>數(shù)智機(jī)關(guān)”落地福田,深<b class='flag-5'>開</b>鴻筑牢政務(wù)安全底座

    避繁就簡(jiǎn)!商湯日日新大模型靈性巧解數(shù)學(xué)難題,獲贊“機(jī)器的審美”

    、字節(jié)跳動(dòng),讓數(shù)學(xué)AI同臺(tái)碰撞,開展了場(chǎng)真刀真槍的“圖靈測(cè)試”。 現(xiàn)場(chǎng),面對(duì)數(shù)學(xué)家拋出的難題,商湯科技“日日新”大模型在解答復(fù)分析計(jì)算積
    的頭像 發(fā)表于 01-12 11:41 ?292次閱讀
    避繁就簡(jiǎn)!商湯日日新大<b class='flag-5'>模型</b>靈性巧解<b class='flag-5'>數(shù)學(xué)</b>難題,獲贊“機(jī)器的審美”

    AI模型的配置AI模型該怎么做?

    STM32可以跑AI,這個(gè)AI模型怎么搞,知識(shí)盲區(qū)
    發(fā)表于 10-14 07:14

    金屬之軀,AI之心:螢石智能鎖如何出新高度

    智能鎖到盡頭,螢石用AI開啟下半場(chǎng)
    的頭像 發(fā)表于 10-11 16:18 ?5541次閱讀
    金屬之軀,<b class='flag-5'>AI</b>之心:螢石智能鎖如何<b class='flag-5'>卷</b>出新高度

    文看懂AI訓(xùn)練、推理與訓(xùn)推體的底層關(guān)系

    (Inference)。它們就像“學(xué)霸的高考備考”和“考試當(dāng)天的答題表現(xiàn)”,缺不可。1、什么是AI訓(xùn)練(Training)?通過大量數(shù)據(jù)訓(xùn)練模型參數(shù),使其具備特定
    的頭像 發(fā)表于 09-19 11:58 ?2465次閱讀
    <b class='flag-5'>一</b>文看懂<b class='flag-5'>AI</b>訓(xùn)練、推理與訓(xùn)推<b class='flag-5'>一</b>體的底層關(guān)系

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI的科學(xué)應(yīng)用

    流體芯片 ⑤AI計(jì)算平臺(tái) ⑥基于AI的自主決策系統(tǒng) ⑦基于AI的自主學(xué)習(xí)系統(tǒng) 2、面臨的挑戰(zhàn) ①需要造就個(gè)跨學(xué)科、全面性覆蓋的知識(shí)庫(kù)和科學(xué)基礎(chǔ)模型
    發(fā)表于 09-17 11:45

    湖北移動(dòng)攜手華為打造AI WAN SPN智慧教育專網(wǎng)

    2025年全國(guó)高考正式落下帷幕,湖北移動(dòng)聯(lián)合華為等合作伙伴依托AI WAN SPN(Slicing Packet Network,切片分組網(wǎng))打造智慧教育專網(wǎng),以“云網(wǎng)智能體化”為特
    的頭像 發(fā)表于 06-14 11:02 ?1131次閱讀

    學(xué)校時(shí)鐘系統(tǒng),標(biāo)準(zhǔn)考場(chǎng)時(shí)鐘系統(tǒng),AI亮相2025高考,賽思時(shí)鐘系統(tǒng)為教育公平筑起“精準(zhǔn)防線”

    2025年高考即將拉開帷幕,江西、湖北、廣東等全國(guó)多地啟用AI智能巡系統(tǒng)。該系統(tǒng)通過教室頂部的廣角攝像頭實(shí)時(shí)捕捉考生動(dòng)態(tài),依托深度學(xué)習(xí)算法構(gòu)建骨骼關(guān)節(jié)點(diǎn)
    的頭像 發(fā)表于 06-09 13:34 ?1312次閱讀
    學(xué)校時(shí)鐘系統(tǒng),標(biāo)準(zhǔn)考場(chǎng)時(shí)鐘系統(tǒng),<b class='flag-5'>AI</b>亮相2025<b class='flag-5'>高考</b>,賽思時(shí)鐘系統(tǒng)為教育公平筑起“精準(zhǔn)防線”

    廣凌標(biāo)準(zhǔn)化考場(chǎng)建設(shè)整體解決方案——全力維護(hù)高考安全公平考試環(huán)境

    近日,教育部發(fā)布消息,全國(guó)公安機(jī)關(guān)會(huì)同教育部門持續(xù)高壓打擊涉違法犯罪活動(dòng),已偵破批組織考試作弊和涉詐騙案件,全力保障高考安全公平環(huán)境。
    的頭像 發(fā)表于 06-06 09:58 ?1001次閱讀
    廣凌標(biāo)準(zhǔn)化考場(chǎng)建設(shè)整體解決方案——全力維護(hù)<b class='flag-5'>高考</b>安全公平考試環(huán)境

    高考考場(chǎng)上,除了身份證人臉識(shí)別體機(jī),還有哪些高科技設(shè)備?

    2024年全國(guó)高考已進(jìn)入倒計(jì)時(shí)。據(jù)數(shù)據(jù)統(tǒng)計(jì),今年高考報(bào)名人數(shù)達(dá)到1353萬(wàn),創(chuàng)下歷史新高!而本科生總招生人數(shù)預(yù)計(jì)約為450萬(wàn),可以說,2024年的高考是最具競(jìng)爭(zhēng)力的
    的頭像 發(fā)表于 05-22 10:08 ?802次閱讀
    <b class='flag-5'>高考</b>考場(chǎng)上,除了身份證人臉識(shí)別<b class='flag-5'>一</b>體機(jī),還有哪些高科技設(shè)備?

    首創(chuàng)開源架構(gòu),天璣AI開發(fā)套件讓端側(cè)AI模型接入得心應(yīng)手

    基石。 Neuron Studio打造全流程站式開發(fā)體驗(yàn),為AI應(yīng)用開發(fā)按下加速鍵 AI 應(yīng)用的開發(fā)瓶頸,從來(lái)都不是“點(diǎn)的問題”,而是“鏈的問題”:開發(fā)工具碎片化,調(diào)優(yōu)過程靠手動(dòng),單模型
    發(fā)表于 04-13 19:52