在生物醫(yī)學領域的論文中,AI已經搜索出9%的高度重復圖像,0.59%的論文被認為存在欺詐嫌疑。因圖像造假撤回的醫(yī)學論文,一年時間可能浪費接近10億美元的研發(fā)成本。
“打擊論文造假,維護科研正義”。這不是一句喊口號的話。
今年6月,斯坦福大學微生物學家分析了2009-2016年發(fā)表在分子與細胞生物學(MCB)上的960篇論文,發(fā)現(xiàn)其中59篇(6.1%)含有“不適當?shù)摹敝貜蛨D像,約有2%值得再去進行圖像證偽。
不過,斯坦福大學微生物學家的工作完全依靠手動,五位研究人員靠十只手從近1000篇論文里總結出了這一成果。
現(xiàn)在,AI的介入讓論文中的可疑圖像被發(fā)現(xiàn)的概率大大提升,一個顯著的成果是,在生物醫(yī)學領域的論文中,AI已經搜索出9%的圖像是高度重復的,0.59%的論文被認為存在欺詐嫌疑。
用AI打擊論文圖像造假,仍有4000多篇醫(yī)學“問題論文”
使用AI來打擊論文圖像造假的工作是由紐約雪城大學(Syracuse University)機器學習研究員開發(fā)算法,他們分析了PubMed Open Access子集(PMOS)中截止到2015年發(fā)布的所有數(shù)據(jù),包含了760036篇文章、超過200萬的數(shù)據(jù)。
研究人員構建了一個pipeline,以自動檢測不適合圖像重用候選對象,在初步檢測之后,刪除了可能只是文本的圖像或表示為圖像的方程式,留下了大約200萬張圖片。
接著,研究人員發(fā)現(xiàn)每張圖像平均有大約1K高熵關鍵點,這產生了大的相似度檢測問題,研究人員使用近似最近鄰算法來解決這個問題。之后,機器學習算法來估計是否顯示生物圖像。
檢測復制-移動重用。A.癌變細胞和縮小部分的原始例子。B.關鍵點(高熵區(qū)域)的計算C.最近鄰匹配。D.集群關鍵點、跨集群匹配和仿射變換。
最后,使用人工來評估不當重用。
算法檢測圖像區(qū)域重用,同時對旋轉、裁剪、調整大小和對比度變化具有魯棒性。總的來說,這項研究得出一個結論:在PubMed Open Access上,大約有0.59%的文章會被一致認為是具有欺騙性的。也就是說,在760036篇文章里面,大約有4484篇文章涉嫌造假。
論文圖像篡改可能導致一年損失10億美元
學術研究論文中的圖像造假的禍害十分普遍。
兩個星期前,Science聯(lián)合撤稿觀察發(fā)布了一個“撤稿”報告,許多數(shù)字令人震驚:過去10年里學術期刊撤回的論文數(shù)量增加了10倍,撤稿率最高的國家中國排第7,撤稿最多的10位作者中,中國占了兩人。
Top 10撤稿作者(數(shù)據(jù)來自Science)
在撤稿觀察的數(shù)據(jù)庫中,有18000份研究論文被撤回(最早可追溯到20世紀70年代),其中,317篇被撤回論文進行了圖像篡改,約占整體論文的1.7%。
賓夕法尼亞大學生物工程副教授Arjun Raj早在2012年就指出,平均一篇生物醫(yī)學研究論文背后的科學成本約為30萬美元至50萬美元。而柳葉刀報道稱,美國研究人員在當年發(fā)表了近152000篇論文。
這樣推算,即使每篇論文成本30萬美元,美國研究人員在2012年發(fā)表的所有生物醫(yī)學科學論文的成本也將接近500億美元。
如果2%的論文因為圖像偽造需要撤回,美國可能會在2012年浪費接近10億美元。隨著全球科學產量每九年翻一番,照此計算,自2012年以來,因撤稿產生的負利潤率可能會更大。
圖像篡改向來如此糟糕嗎?
有些研究人員認為,這么多年來,論文圖像篡改問題一直在惡化。
來自美國研究誠信辦公室(the United States Office of Research Integrity,ORI)的數(shù)據(jù)表明,在Photoshop發(fā)布后,他們所處理的涉及圖像處理的案件比例有所增加。
技術在打擊論文造假的過程中,一直是一場“貓鼠游戲”。AI除了檢測圖像區(qū)域重用,也成為對抗Photoshop的利器。
今年9月,Scientific Reports發(fā)表了一篇論文,文章指出,基于植物Rhus toxicondendron(毒性常春藤)的稀釋度非常高的順勢療法,至少與減輕疼痛的藥物(加巴噴丁)一樣有效。
不過,很快這篇介紹順勢療法的論文,被生物學家Enrico Bucci使用的一款軟件標記出來錯誤:在兩種不同的實驗中,所建議的藥物濃度差別很大,而其圖表卻驚人地一致。
后來,論文作者回應稱,他的的團隊在準備手稿時犯了一些無意的錯誤,導致重復的圖像和重復的數(shù)據(jù)。
作者表示,文本和數(shù)字之間的差異是錯別字的結果。該小組將要求Scientific Reports更新該文章并進行更正。但也表示,“這不會以任何方式改變科學結論”。
AI距離自動打擊論文造假還有多遠?
然而,即使基于軟件的方法已經被廣泛討論了近十年,使用此類應用程序的公司還是很少用軟件發(fā)布他們的結果。
基于軟件的方法仍然需要人為的監(jiān)督支持。檢測圖像處理軟件的開發(fā)有可能增加掃描圖像期刊的數(shù)量。然而,需要注意的是,軟件的使用并不能消除對人為干預的需求。軟件的輸出必須由人來評估。
一個領域是軟件開發(fā)有可能對大型文章數(shù)據(jù)庫的圖像復制檢測產生巨大影響,使用視覺檢查技術不可能進行這種大規(guī)模的比較。
AI來檢測論文圖像造假在未來可能有兩種形式。一是,公司可以為期刊編輯提供定制的應用程序,然后編輯可以使用這些應用程序對即將發(fā)表的論文進行分析,這可能類似于反抄襲軟件的工作方式。
而另一種方法是,圖像完整性分析公司將自己的人力和計算機資源分配給期刊進行圖像完整性檢查。
隨著自動化的圖像分析軟件演變?yōu)橐粋€企業(yè),那些造假的研究人員可能會發(fā)現(xiàn)他們的計量很難再“瞞天過?!薄H缓?,也許會出現(xiàn)另一個更為復雜的工具,使得造假的圖像更難以被發(fā)現(xiàn),這場“貓鼠游戲”更能還將繼續(xù)。
-
算法
+關注
關注
23文章
4607瀏覽量
92828 -
AI
+關注
關注
87文章
30728瀏覽量
268886 -
機器學習
+關注
關注
66文章
8406瀏覽量
132558
原文標題:論文造假被AI抓:機器學習檢測出4000多論文造假,一年損失高達10億美元
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論