www.久久久久.com_黄色91视频_丁香久久综合_国产未成女年一区二区

部分人工智能沉迷刷榜 實際應用中卻犯基礎錯誤?

目前部分人工智能沉迷刷榜,在基準測試時高分通過,表現優異,但實際應用中卻還會犯一些非常基礎的錯誤。

日,有媒體報道,目前部分人工智能沉迷刷榜,在基準測試時高分通過,表現優異,但實際應用中卻還會犯一些非常基礎的錯誤。這種沉迷刷榜,忽略實用質的行為造成了部分AI模型“高分低能”的現象。那么,對于AI發展而言,基準測試是否必要?在實際應用中,基準測試哪些問題有待改進完善呢?

AI模型哪家好,基準測試來說話

AI模型應該如何衡量其能?

“目前AI模型能力的高低取決于數據,因為AI的本質是學數據,輸出算法模型。為了公衡量AI能力,很多機構、企業甚至科學家會收集、設計不同的數據集,其中一部分喂給AI訓練,得到AI模型,另外一部分數據用于考核AI模型的能力,這就是基準測試。”日,西安電子科技大學電子工程學院教授吳家驥接受科技日報記者采訪時表示。

吳家驥介紹說,機器學越來越多地用于各種實際應用場景,例如圖像和語音識別、自動駕駛汽車、醫學診斷等。因此,了解其在實踐中的行為和能變得非常重要。其魯棒和不確定的高質量估計對于許多功能至關重要,尤其是在深度學領域。為掌握模型的行為,研究人員要根據目標任務的基線來衡量其能。

2010年,基于ImageNet數據集的計算機視覺競賽的推出,激發了深度學領域一場算法與數據的革命。從此,基準測試成為衡量AI模型能的一個重要手段。微軟公司的計算機科學家馬塞洛·里貝羅表示,基準測試應該是從業者工具箱中的一個工具,人們用基準來代替對于模型的理解,通過基準數據集來測試“模型的行為”。

例如,在自然語言處理領域,GLUE科研人員讓AI模型在包含上千個句子的數據集上訓練,并在9個任務上進行測試,來判斷一個句子是否符合語法,并分析情感,或者判斷兩個句子之間是否是邏輯蘊涵等,一度難倒了AI模型。隨后,科研人員提高了基準測試難度,一些任務要求AI模型不僅能夠處理句子,還要處理來自維基百科或新聞網站的段落后回答閱讀理解問題。僅經過1年的發展,AI模型的能從不到70分輕松達到90分,超越了人類。

吳家驥表示:“科學研究要有科學問題、方法、計算、試驗對比等要素。因此在進行科學研究,包括人工智能的科研中,也必須有計算與試驗對比,也就是說AI算法的能力應該是可測量的,目的是驗證研究方法的可行、有效。因此,基準測試很有必要,這樣才可以公驗證AI算法能力的高低好壞,避免各說各話,‘王婆賣瓜自賣自夸’。”

算法最終服務實踐,而非刷榜

有人說,高分是AI模型的興奮劑。于是,有的人工智能為了取得好成績而頻頻刷榜。

微軟公司2020年發布報告指出,包括微軟、谷歌和亞馬遜在內的各種sota模型包含諸多隱含錯誤,比如把句子里的“what's”改成“whatis”,模型的輸出結果就會截然不同,而在此前,從沒有人意識到這些曾被評價還不錯的商業模型竟會在應用中如此糟糕。顯然,這樣訓練出的AI模型就像一個只會考試、成績優異的學生,可以成功通過科學家設置的各種基準測試,卻不懂為什么。

“為了獲得好成績,研究人員可能會使用特殊的軟硬件設置對模型進行調整和處理,讓AI在測試中表現出色,但這些能在現實世界中卻無法施展。”西安電子科技大學研究員尚坤指出。

在智能手機領域,我們談及手機的使用體驗時一般都不免會涉及手機的能表現,這些能通常會用跑分成績來表現。然而,我們常常會遇到一款手機的跑分成績處于排行榜領先水,但是在實際使用過程中卻出現動畫掉幀、頁面滑動卡頓、應用假死等的現象。全球頂級評測網站AnandTech的一篇報道曾對這種現象提出質疑,指出某品牌手機跑分時啟動了“能模式”,而在時的使用中“能模式”很少被調用開啟。這種處理方式雖然能夠獲得高跑分,但是不能模擬用戶真實的使用情景,這讓基準測試不具有參考意義。

尚坤認為,針對上述問題,改進基準的方法主要有:一種是增加更多的數據集,讓基準變得更難。用沒有見過的數據測試,這樣才能判斷AI模型是否能夠避免過擬合。研究人員可創建一個動態數據收集和基準測試臺,針對每個任務,通過眾包的方式,提交他們認為人工智能模型會錯誤分類的數據,成功欺騙到模型的樣例被加入基準測試中。如果動態地收集數據增加標注,同時迭代式的訓練模型,而不是使用傳統的靜態方式,AI模型應該可以實現更實質的進化。

尚坤說,另一種是縮小實驗室內數據和現實場景之間的差距。基線測試無論分數多高,還是要用實際場景下的數據來檢驗,所以通過對數據集進行更貼真實場景的增強和擴容使得基準測試更加接真實場景。如ImageNet-C數據集,可根據16種不同的實際破壞程度對原有的數據集進行擴充,可以更好模擬實際數據處理場景。

應用廣泛,需盡快建立國家標準

美國麻省理工學院Cleanlab實驗室的研究指出,常用的10個作為基準的數據集中,有超過3%的標注是錯誤的,基于這些基準跑分的結果則無參考意義。

“如果說,基準測試堪稱人工智能領域的‘科舉制’,那么,‘唯分數論’輸贏,是不可能訓練出真正的好模型。要打破此種現象,一方面需要采用更全面的評估方法,另一方面可以考慮把問題分而治之,比如用多個AI模型解決復雜問題,把復雜問題轉化為簡單確定的問題。簡單且經過優化的基線模型往往優于更復雜的方法。谷歌的研究人員為常見的AI任務引入了不確定基線庫,來更好評估AI應用的穩健和處理復雜不確定的能力。”遠望智庫人工智能事業部部長、圖靈機器人首席戰略官譚茗洲指出。

雖然行業正在改變對于基準的態度,但目前基準測試研究仍然是一個小眾研究。谷歌在一份研究中采訪了工業界和學術界的53位AI從業者,其中許多人指出,改進數據集不如設計模型更有成就感。

譚茗洲表示,AI應用基準研究是構建國內統一大市場的內在需要,當前AI已經在國計民生的各類領域中得到廣泛應用,更需要設立標準對AI模型進行全面有效的評估,片面追求和采用高分AI模型,可能會讓模型在復雜極端場景下出現“智障”行為,并且可能由于訓練和推理能的低效,造成不良社會影響、經濟損失和環境破壞。

譚茗洲強調,AI應用基準研究關乎國家戰略。針對重要領域,建立我國自己的AI基準測試標準、AI數據集、AI模型評估標準等迫在眉睫。

據了解,西安電子科技大學的DvcLab也在AI基準測試這個領域進行了前瞻研究,特別是針對AI應用基準測試中數據集的整體質量與動態擴展兩個關鍵問題,正在開發可在線協作的數據標注與AI模型研發托管項目,并計劃今年陸續開源,正在為構建國家AI基準評估標準體系進行積極探索。

標簽: 人工智能 電子科技 AI模型評估標 AI基準測試標準

www.久久久久.com_黄色91视频_丁香久久综合_国产未成女年一区二区
  • <fieldset id="82iqi"></fieldset>
    <tfoot id="82iqi"><input id="82iqi"></input></tfoot>
  • 
    <abbr id="82iqi"></abbr><strike id="82iqi"></strike>
  • 黑人糟蹋人妻hd中文字幕| 国产乱淫av片杨贵妃| 少妇一晚三次一区二区三区| 欧美一级特黄a| 中文字幕欧美人妻精品一区| 阿v天堂2017| 国产黄色片免费在线观看| 免费cad大片在线观看| 日韩中文在线字幕| 中文字幕在线乱| 欧美a级黄色大片| 免费看黄色a级片| 成人小视频在线观看免费| 日韩欧美视频免费在线观看| 欧美一级爱爱视频| 精品国偷自产一区二区三区| 分分操这里只有精品| 国产精品国产亚洲精品看不卡| 国产真人做爰毛片视频直播| 男人添女荫道口图片| www.中文字幕在线| 色七七在线观看| 午夜视频在线观| 中国女人做爰视频| 人妻av中文系列| 国产福利视频在线播放| 91蝌蚪视频在线观看| 波多野结衣xxxx| 手机福利在线视频| www.国产在线播放| 久久久精品在线视频| 岛国av在线免费| 久久久久亚洲av无码专区喷水| www.69av| 国语对白做受xxxxx在线中国| 毛片毛片毛片毛片毛片毛片毛片毛片毛片| the porn av| 熟女视频一区二区三区| 国产手机免费视频| 黄色免费网址大全| 天天在线免费视频| 丝袜老师办公室里做好紧好爽 | 手机成人av在线| 丰满的少妇愉情hd高清果冻传媒| 日韩精品视频一区二区在线观看| 91淫黄看大片| 欧美日韩中文字幕在线播放 | 男女啪啪网站视频| 热久久最新网址| 国产激情在线观看视频| 亚洲欧美日韩网站| 中文字幕日本最新乱码视频| 免费成年人高清视频| 欧美高清中文字幕| 特级丰满少妇一级| 日韩视频在线视频| 亚洲免费av一区| 欧美日韩精品在线一区二区 | 欧美丰满熟妇bbbbbb百度| 一级片视频免费观看| 成人小视频在线观看免费| 一本久道中文无码字幕av| 99中文字幕在线观看| 黄色片在线免费| 亚洲 欧美 综合 另类 中字| 午夜免费高清视频| 免费av手机在线观看| 亚洲欧美日本一区二区| 青青视频在线播放| 久久久久福利视频| 天天综合网久久| 国产极品尤物在线| 中文字幕色呦呦| 一个色综合久久| 欧美日韩国产精品激情在线播放| 亚洲男人天堂2021| 爆乳熟妇一区二区三区霸乳| 日本福利视频一区| 大桥未久一区二区三区| 亚洲天堂网一区| 18岁网站在线观看| 久青草视频在线播放| 一二三级黄色片| 青青草精品视频在线观看| 97在线国产视频| 在线观看成人免费| 黄色小视频免费网站| 成人三级视频在线播放| 成人在线观看你懂的| 亚洲色图都市激情| 国产在线视频三区| 在线播放av中文字幕| 天天操天天爱天天爽| 无码人妻h动漫| 国产免费观看高清视频| 久久综合久久网| 黄色片免费在线观看视频| 国产农村妇女精品久久| 在线观看免费av网址| 爱情岛论坛亚洲首页入口章节| 亚洲 高清 成人 动漫| 久久人人爽人人爽人人av| 三级在线免费观看| 在线观看18视频网站| 国产成人三级视频| 操bbb操bbb| 成人高清dvd| 久久久久久av无码免费网站下载| 国产又大又长又粗又黄| 国产又大又长又粗又黄| 日韩视频在线免费播放| xxx中文字幕| 国产精品久久久久久久99| 午夜视频在线观| 免费不卡av网站| 99视频精品全部免费看| 久久福利一区二区| 成人免费a级片| 人体内射精一区二区三区| 欧美精品自拍视频| 成人av一级片| 成人中文字幕av| 日本肉体xxxx裸体xxx免费| 国产成人黄色网址| 婷婷中文字幕在线观看| 日本黄色播放器| 日本a在线天堂| 天天夜碰日日摸日日澡性色av| 9久久9毛片又大又硬又粗| 波多野结衣家庭教师在线| 中文字幕乱码人妻综合二区三区| 日韩av在线综合| 一区二区三区免费播放| 欧美性猛交xxxx乱大交91| 日本高清视频免费在线观看| 欧美久久在线观看| 777久久久精品一区二区三区| 日韩毛片在线免费看| 欧美日韩中文不卡| 麻豆一区二区三区在线观看| 大伊香蕉精品视频在线| 黄色一级大片在线观看| 亚洲午夜精品一区| 妞干网在线播放| 国产男女在线观看| 午夜视频在线网站| 成年人深夜视频| 日本wwww视频| 亚洲xxxx2d动漫1| 九九久久久久久| 久久av综合网| 性生交免费视频| 国产精品啪啪啪视频| 日本三级免费观看| 亚洲最新免费视频| 无码专区aaaaaa免费视频| the porn av| 日本a级片在线播放| 可以免费在线看黄的网站| 欧美日韩视频免费在线观看| 国产精品无码av在线播放| 色啦啦av综合| 欧美不卡在线播放| 色噜噜狠狠一区二区三区狼国成人| 男人添女荫道口喷水视频| 国产嫩草在线观看| 又大又硬又爽免费视频| 污污的网站免费| 无码播放一区二区三区| 亚洲最新免费视频| 成人三级视频在线播放| 特大黑人娇小亚洲女mp4| 日本888xxxx| 免费毛片网站在线观看| 小明看看成人免费视频| 久久久一本二本三本| 精品一区二区成人免费视频| 国产男女激情视频| 免费一级淫片aaa片毛片a级| 视频在线观看免费高清| 青草青青在线视频| 欧美专区第二页| 亚洲一区在线不卡| 国产二级片在线观看| 潘金莲一级淫片aaaaa免费看| 999在线免费视频| 男女猛烈激情xx00免费视频| theporn国产精品| 性生交免费视频| 欧美日韩黄色一级片| 男女激烈动态图| 在线观看国产福利| 老头吃奶性行交视频| 日韩国产一级片| 影音先锋男人的网站| 亚洲 欧美 日韩系列| 欧美在线观看www| 中国丰满熟妇xxxx性| 四虎免费在线观看视频| 向日葵污视频在线观看|