,亚洲一级A片,日本电影网一区二区三区强奸,a级视频黄色日本涩涩网

谷歌AI又成了話題。Reddit網友找到了谷歌AI一個名叫Conceptual Captions的數(shù)據集，發(fā)現(xiàn)該數(shù)據集并不完善，于是乎聯(lián)系谷歌AI相關人員，卻慘遭三連拒。

向來提倡open的谷歌，現(xiàn)在也玩兒“自閉”？

昨天谷歌AI大佬Jeff Dean剛剛發(fā)表長文總結了2018年的主要研究成果，其中包括“開源軟件和數(shù)據集”：

發(fā)布開源軟件和創(chuàng)建新的公共數(shù)據集是我們?yōu)檠芯亢蛙浖こ躺鐓^(qū)做出貢獻的兩種主要方式。

然而細心的Reddit網友卻發(fā)現(xiàn)，谷歌AI并沒有那么“開源”，反而還拒絕共享數(shù)據：

事情是這樣的。

這位網友發(fā)現(xiàn)了谷歌AI一個叫Conceptual Captions數(shù)據集相關的比賽，以及描述這個數(shù)據集的論文(ACL 2018)：

論文地址：

http://aclweb.org/anthology/P18-1238

在GitHub中對此數(shù)據集的描述為：一種包含330萬張圖像的大規(guī)模圖像數(shù)據集，專門用于機器學習圖像字幕系統(tǒng)的訓練和評估。

GitHub地址：

https://github.com/google-research-datasets/conceptual-captions

然而，當這位網友躍躍欲試想要拿這個數(shù)據集操練一番時卻發(fā)現(xiàn)了一些問題：這個數(shù)據集全部圖像都是托管的，一些鏈接現(xiàn)在已經失效。

于是，這位網友開始試圖聯(lián)系谷歌AI相關人員。

結果，真可謂是大跌眼鏡。

慘遭三連拒，熱心研究者被潑冷水

第一拒：拒絕分享預訓練模型

這就使得基準測試和論文里的結果數(shù)字變得非常難以復現(xiàn)。畢竟，不是每個人都有1k的TPU。

地址：https://github.com/google-research-datasets/conceptual-captions/issues/3

問：哪里可以找到基于Conceptual Captions數(shù)據集的預訓練模型(RNN-，Transformer-based)?

答：預訓練模型沒有發(fā)布。

第二拒：拒絕分享與每個圖像關聯(lián)的Alt-text

諷刺的是，這篇論文標題是“Conceptual Captions: A Cleaned, Hypernymed, Image Alt-text Dataset For Automatic Image Captioning”。

地址：https://github.com/google-research-datasets/conceptual-captions/issues/6

問：是否會發(fā)布與每個圖像關聯(lián)的Alt-text？用于生成字幕的代碼也會公開嗎？

答：沒有發(fā)布Alt-text或代碼的計劃。

第三拒：拒絕分享圖像/鏡像鏈接

這位網友表示：雖然我同意存在法律問題，但數(shù)據集中缺少數(shù)百張圖像，其他研究人員要想比較模型變得超級困難。

地址：https://github.com/google-research-datasets/conceptual-captions/issues/1

問：您能提供從tsv文件通過url下載圖像的示例代碼嗎？Python的urllib無法下載某些url (IOError: [Errno socket error] [Errno 110] Connection timed out)。但是我可以在瀏覽器中看到這些圖像。

答：謝謝你的關注！不幸的是，由于版權/法律問題，我們無法提供通過url從tsv文件下載圖像的代碼。

谷歌AI“自閉”拒共享，引網友熱議

這位熱心網友在慘遭三連拒后表示對這樣的事情非常痛心：

一篇數(shù)據集論文對于復現(xiàn)結果非常重要，如果存在阻礙數(shù)據集共享的法律問題，那么發(fā)表私人數(shù)據集論文就好了(有些領域不公開Alt-text），但基于一個不公開預訓練模型、不完全共享的數(shù)據集舉辦挑戰(zhàn)賽，我認為這就不太酷了。

而后，其它網友們也炸鍋了。

熱心網友1：_michaelx99

Deepmind的一些論文也是這樣，僅僅根據他們發(fā)表的論文，完全不可能把結果復現(xiàn)出來。我花了一段時間才意識到Arxiv或他們網站上的一篇“論文”并不是真正的出版物，因此它的主要目標是展示公司已經開發(fā)了某種能力。這與其他人能夠證實或否認他們在科學過程中所做的事情關系不大。我并不是說大公司在網上發(fā)布的所有論文都是這樣，但正如你剛剛發(fā)現(xiàn)的，其中一些論文確實如此。

熱心網友2：duckbill_principate

據我所知，四分之一的ML論文本質上是美化的廣告。

熱心網友3：GoAwayStupidAI

可重復性是科學的標志。沒有這些數(shù)據，這個結果是不可復制的，所以科學會很糟糕。

熱心網友4：Silver5005

這是ML論文最大的問題。我一直在嘗試實現(xiàn)一個股票預測的LSTM，你可以找到數(shù)百篇論文都在做同樣的概念。但它們都沒有數(shù)據集，也不會談論它們如何清理或標準化它們的數(shù)據。

熱心網友5：duckbill_principate

人們不分享他們的模型、代碼或數(shù)據集，這本身并不困擾我。令我困擾的是，這種情況發(fā)生了，而這些論文仍然被接受。這是同行評審過程的絕對失敗，它的責任完全落在審查員(和我們)的肩上。這些論文是在信任的基礎上被接受的，在某些情況下甚至是權威(我們都知道，盡管存在著雙盲的本質，但不難推斷出某些論文可能來自哪個群體)，這是絕對不可接受的。

這更接近于廣告而不是科學。

熱心網友6：epic

我不知道為什么有這么多谷歌的辯護者。這對科學和機器學習都不利。是的，我們都明白為什么，但這仍然很糟糕。特別是像這樣的論文，如果不能從數(shù)據中分離出來的話，再現(xiàn)性是非常困難的。有機會的組織和個人應該以一個好榜樣來領導這個領域，而不是反過來。

對此，你怎么看？

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴