日韩aa超级黄片,中日韩免费成人电影,欧美人人干视频

機(jī)器學(xué)習(xí) (ML) 模型的性能既取決于學(xué)習(xí)算法，也取決于用于訓(xùn)練和評估的數(shù)據(jù)。算法的作用已經(jīng)得到充分研究，也是眾多挑戰(zhàn)（如 SQuAD、GLUE、ImageNet 等）的焦點(diǎn)。此外，數(shù)據(jù)也已經(jīng)過改進(jìn)，包括一系列應(yīng)對 ML 評估問題的研討會。相比之下，專注于 - 用于評估 ML 模型的數(shù)據(jù)的研究和挑戰(zhàn)并不常見。

此外，許多評估數(shù)據(jù)集包含容易評估的項(xiàng)目，例如帶有易于識別的主題的照片，因此錯過了真實(shí)世界環(huán)境的自然歧義。評估中缺少模糊的真實(shí)世界樣本，削弱了可靠地測試機(jī)器學(xué)習(xí)性能的能力，這使 ML 模型容易形成“弱點(diǎn)”，即模型難以或無法準(zhǔn)確評估的樣本的類別，因?yàn)樵u估集中缺少這一類樣本。

SQuAD

https://rajpurkar.github.io/SQuAD-explorer/

GLUE

https://gluebenchmark.com/leaderboard

ImageNet

https://kobiso.github.io/Computer-Vision-Leaderboard/imagenet

為了解決識別 ML 模型中這些弱點(diǎn)的問題，我們最近在 HCOMP 2020 上發(fā)起了眾包機(jī)器學(xué)習(xí)不良測試集 (CATS4ML) 數(shù)據(jù)挑戰(zhàn)賽（面向全球研究人員和開發(fā)者開放至 2021 年 4 月 30 日）。挑戰(zhàn)的目標(biāo)是提高 ML 評估集的標(biāo)準(zhǔn)，并盡可能多地找到使算法處理起來會有困惑或其他問題的樣本。CATS4ML 依靠人們的能力和直覺來發(fā)現(xiàn)機(jī)器學(xué)習(xí)具有信心但實(shí)際上卻分類錯誤的新數(shù)據(jù)樣本。

眾包機(jī)器學(xué)習(xí)不良測試集

https://cats4ml.humancomputation.com/

什么是 ML 的“弱點(diǎn)”？

弱點(diǎn)有兩類：已知的未知(Known Unknowns)和未知的未知(Unknown Unknowns)。已知的未知是指模型對正確分類沒有把握的樣本。研究界在被稱為主動學(xué)習(xí)的領(lǐng)域研究這一問題，并發(fā)現(xiàn)了解決方法，用很籠統(tǒng)的話來說就是，在不確定的樣本上向人們交互式地征集新的標(biāo)簽。例如，如果模型不確定一張照片的主題是否是貓，會要求人員進(jìn)行驗(yàn)證；但如果系統(tǒng)確定，則不會要求人員驗(yàn)證。雖然這方面還有改進(jìn)的空間，但令人欣慰的是，模型的置信度與其性能相關(guān)，也就是說，人們可以看到模型不知道的東西。

主動學(xué)習(xí)

http://digital.library.wisc.edu/1793/60660

另一方面，未知的未知是指模型對其答案充滿信心，但實(shí)際上是錯誤的樣本。主動發(fā)現(xiàn)未知的未知的研究（例如，Attenberg 2015 和 Crawford 2019）已經(jīng)幫助發(fā)現(xiàn)了大量的非預(yù)期機(jī)器行為。與這類發(fā)現(xiàn)未知的未知方法相比，生成對抗網(wǎng)絡(luò) (GAN) 以計(jì)算機(jī)光學(xué)錯覺的形式為圖像識別模型生成未知的未知，導(dǎo)致深度學(xué)習(xí)模型犯下人類無法感知的錯誤。雖然 GAN 在有意操縱的情況下會發(fā)現(xiàn)模型漏洞，但真實(shí)世界樣本可以更好地突出模型在日常性能中的失敗。這些真實(shí)世界樣本是 CATS4ML 感興趣的未知的未知 - 挑戰(zhàn)的目的是收集人類可以可靠地解釋但許多 ML 模型會自信地不同意的未經(jīng)操作的樣本。

Attenberg 2015

https://dl.acm.org/doi/10.1145/2700832

Crawford 2019

https://excavating.ai

示例說明由對抗噪聲引起的計(jì)算機(jī)視覺錯覺如何幫助發(fā)現(xiàn) ML 模型的機(jī)器操作未知的未知（基于 Brown 2018）

Brown 2018

https://ai.googleblog.com/2018/09/introducing-unrestricted-adversarial.html

CATS4ML 數(shù)據(jù)挑戰(zhàn)賽第一版：

Open Images 數(shù)據(jù)集

CATS4ML 數(shù)據(jù)挑戰(zhàn)賽側(cè)重于視覺識別，使用Open Images 數(shù)據(jù)集的圖像和標(biāo)簽。挑戰(zhàn)賽的目標(biāo)圖像選自 Open Images 數(shù)據(jù)集，以及來自同一數(shù)據(jù)集的一組 24 個目標(biāo)標(biāo)簽。挑戰(zhàn)賽的參與者被邀請發(fā)明新的創(chuàng)造性方法探索這個現(xiàn)有的公開可用數(shù)據(jù)集，并以預(yù)先選擇的目標(biāo)標(biāo)簽列表為中心，為 ML 模型發(fā)現(xiàn)未知的未知樣本。

CATS4ML 數(shù)據(jù)挑戰(zhàn)賽

https://cats4ml.humancomputation.com/

CATS4ML 是對 FAIR 最近推出的 DynaBench 動態(tài)數(shù)據(jù)收集研究平臺的補(bǔ)充。DynaBench 使用 ML 模型在人類參與下解決靜態(tài)基準(zhǔn)問題，而 CATS4ML 則專注于通過鼓勵探索現(xiàn)有 ML 基準(zhǔn)有無可能屬于未知的未知不利樣本改善 ML 評估數(shù)據(jù)集。結(jié)果將有助于檢測和避免未來的錯誤，也將對模型的可解釋性提供見解。

FAIR

https://ai.facebook.com/tools/dynabench/

DynaBench

https://dynabench.org/

CATS4ML 旨在由此通過提供數(shù)據(jù)集資源來提高人們對這個問題的認(rèn)識，開發(fā)者可以利用這些資源發(fā)現(xiàn)算法弱點(diǎn)。這也將讓研究人員了解如何為機(jī)器學(xué)習(xí)創(chuàng)建更平衡、更多樣化、更具有社會意識的基準(zhǔn)數(shù)據(jù)集。

編輯：jq

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

數(shù)據(jù)

數(shù)據(jù)

+關(guān)注

關(guān)注
8

文章
7335

瀏覽量
94801
GLUE

GLUE

+關(guān)注

關(guān)注
0

文章
5

瀏覽量
7569
機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8554

瀏覽量
136981