從ACM會議分析我國計算機科學近十年發展情況


從ACM會議分析我國計算機科學近十年發展情況

來源:《中國計算機學會通訊》2015年第10期《專欄》

作者:陳 鋼

2006年,承蒙李國傑院士推薦,《中國計算機學會通訊》發表了我的一篇文章“從ACM會議論文數量看差距”。該文就中國大陸學者在ACM會議上論文發表情況,將中國計算機科學同國際水平進行了比較和分析。得出的結論是,從論文發表角度看,當時中國的計算機科學同國外的差距非常大,尤其是在頂級會議上,中國的論文鳳毛麟角,在不少重要會議上甚至是0。近十年來,中國計算機學術界發生了很大變化,在論文發表方面有了長足的進步。本文就近年來中國在ACM會議上發表論文的情況同2006年前的做一比較,用客觀數據分析這方面的變化。此外,本文也對存在的問題發表一點個人看法及建議。

需要說明的是,目前這一研究工作所收集的數據是不夠完整的。主要原因是ACM的數據格式不規范,一些會議記錄無法提取數據,還有一些數據提取之后需要大量的后處理。目前總計收集了近26萬條數據,數據分析工作量很大,因此數據集合依然有相當程度的不精確性。比如,在抽取到的會議信息中,有325條年份信息為空(這部分信息不包含在下文的統計分析中)。盡管如此,后續的分析工作也只能在這些數據上進行。不過,這些數據還是能夠讓我們對中國在ACM會議上發表的論文情況有一個大致的了解。

總體情況分析

歷年累計情況分析

本次收集的歷年會議論文記錄總數為25.7813萬條,其中中國論文數有7048條,占總數的2.73%。ACM會議累計總次數是5544次,中國大陸單位參加過的會議次數是1471,占總數的26%。在上述計算中,同一種類型的會議,開一次算一次。ACM共有1392種不同的會議,中國參加過的會議種類有539個,占38.4%。因此還有超過60%的會議,中國從未參加過。不過這些會議中包括許多僅開過一兩次的會議。

ACM會議中,論文數量累計達到100篇以上的共348個。這組會議屬於ACM會議中影響力比較大的會議。我們將它們命名為ACM100。歷年來,這組會議總計召開了3615次,其中中國參加過1132次,占31%。在ACM100中,中國單位參加過的會議種類有264個,占這組會議類別數的75.6%。ACM100的會議中發表過的論文總計23.2354萬篇,其中中國發表的論文數6314篇,占總數的2.71%。見表1。

 

其中值得注意的是,中國歷年參加過的會議僅占ACM會議總數1/4多,還有近3/4的會議,中國沒有參加。僅在2014年,這樣的會議就有157個,總計2510篇論文,占當年ACM會議論文總數(15302篇)的16%。這也說明中國在計算機科學的多樣化上還做得不夠。

以2006年為標志點分段比較

2006年,我們統計到ACM有173個不同類型的會議,8萬多篇論文。由於此后ACM對數據進行了增補,我們也改進了數據采集程序。所以本次統計到那一時期的ACM會議數達到420個,論文總數超過10萬篇。本節采用這次統計的數據來對2006年之前和之后的ACM論文發表情況進行對比。

 

從表2中可見,2006~2014年這9年期間中國在ACM會議上發表的論文總數(6117篇)是1951年(ACM最早記錄)到2005年這54年中(1471篇)的4倍;中國論文數占ACM論文總數的比例,2006年之后是之前的2.85倍。2006年之前,中國僅參加了16%的ACM會議;2006年之后,中國參加了33%的ACM會議,參加會議的種類比例則從29%上升到41%。

我國每年在ACM會議上發表的論文數

 

圖1顯示,中國在ACM會議上發表論文的情況可分成三個階段。第一階段(棕線)是在2000年之前,中國每年發表的論文數在15篇以下。第二階段(紅線)從2000~2008年,發表的論文數快速上升,從2000年的29篇上升到2008年的733篇,增長了25倍。第三階段(黃線)是2008年以后,年論文發表數基本上在600~800篇之間徘徊。在2009年,論文發表數達到高峰,總計925篇,主要原因是2009年有一個GEC會議,該會議來自中國的論文數達到140篇。該會在歷史上僅此一次。如果去掉這個會議,那么2009年中國的論文數為785篇。

這一變化趨勢,同ACM會議論文總數增長有一定的關系。恰好ACM會議論文總數也是在2000年到2008年之間有一個比較大的跳躍,2008年以后論文總數基本保持平穩。見圖2。

因此,要考察中國在ACM的論文發表情況,最好的方式是看中國論文數占論文總數之比(下面稱為“占比數”)。

在圖3中,三階段結構依然比較清楚。在2000~2008年期間,論文數出現了4~5倍的上升,2008年之后論文占比數保持平穩。

中國的“長處”與“短板”

數據顯示,在有些ACM會議中,中國的論文數非常多。而在另一批會議中,中國的論文數又非常少。

 

雖然中國在ACM的會議上發表的論文數大幅度增長,但是出現了一批基本上由中國人主辦的ACM會議,發表的論文大都來自中國,也有個別會議基本上是由國內某個學校舉辦,而且只開一次。這些會議可以看成是發表英文論文的國內會議,或者是地區性會議,其中有些會議可能代表了國內的高水平的研究工作,比如Internetware(網構軟件會議)。它們以后可能會發展成為有國際影響力的會議,但是目前還很難代表一個領域內的全球水平。據統計,中國論文數占到30%以上的ACM會議共有33種,其中中國論文數總計964篇。如果排除這一組論文,剩余的ACM中國論文數為:7048–964 = 6084篇。

另一方面,還有一批中國很少參加的ACM會議。在這些會議中,有一部分是地區性會議,比如印度的軟件會議。但是,還有相當一批是在某些領域有重要影響力的國際會議。在這些領域中缺少來自中國的論文,反映了中國計算機科學的一些薄弱環節。在2010~2014年中,中國有三次以上沒有參加的會議共有207種,包括一批一流國際會議。通常,核心領域的會議開會次數較多。因此,我們找出歷史達15年以上的會議共有67個。在這批會議中,中國在2000~2014年的15年中有10次以上沒有參加過的會議總計23個,見表3。

表3反映了中國在計算機科學核心領域中比較薄弱的環節。這些會議基本上都是各領域中有重大影響的會議。

中國在計算機核心領域中的進步

在2005年對ACM會議進行分析時,我們只找到了173個會議,而這次分析收集到的會議數量達到1392個,增加了8倍。這是因為ACM補充了數據,也有些是近年來新開的會議。在會議數量大幅增加的同時,也出現了一批並不能代表國際水平的會議。因此,有必要研究中國在高水平會議中論文發表情況究竟如何。我們通過兩種方式來選擇“高水平”會議:一種是選取會議次數多的會議,另一種是根據影響因子。

上節指出,召開15次以上會議的共有67個,大部分是在計算機核心領域中有影響力的國際會議。

 

由圖4可見,從2000年開始,中國在計算機核心領域發表的論文數出現了一次飛躍,每年論文發表數大體保持了線性增長。論文總數從2000年的18篇發展到2014年的353篇,相當於2000年的近20倍。從2005年的106篇到2014年也有3.4倍的增長。這一數據應該可以代表中國計算機科學的實質性發展。

這一輪的發展非常引人注目,1982~2000年的18年間,在這批ACM核心會議上,我國每年的論文數大部分年份是在10篇以下徘徊,1994年和1995年,每年僅有1篇ACM論文。自2000之后的15年中,論文數量突飛猛進,年平均增長率為22%。

 

不過,也應該注意到,在論文發表方面,各個領域存在嚴重的不平衡性。中國在這67個會議中總計發表了2439篇論文,其中有1317篇論文是在其中的6個會議中發表的,超過總數的一半。見表4。

下面再根據計算機會議的影響因子選取ACM會議。根據網上流傳的據稱來自CiteSeer的計算機科學會議影響因子表(近500個會議和雜志),從中選出了ACM會議。通過考察這批會議中中國每年發表的論文情況,得出圖5。

在圖5中,論文數量的變化可分成三個階段。第一階段(1982~2000年),每年論文數在6篇以下,其中有3年是0篇。第二階段(2001~2006年),2001年論文數出現了一次跳躍性發展,達到20篇,是2000年的4倍。第三階段(2007~2014年),在2006~2008年間又發生一次跳躍,論文數從2006年的78篇增長到2008年的233篇,從此論文數上了一個新台階;2013年達到最高點的321篇,2014年回落到279篇。

 

從中國的論文數與ACM論文總數的比例來看,也具有三級跳模式。第一階段,在2000年之前,中國論文所占比例在0.5%以下,1980年代平均值是0.38%,1990年代平均值比1980年代下降一半,僅為0.13%。第二階段,2001~2006年,從0.77%上升到1.4%;在2008年之后,每年中國論文占論文總數的比例平均值接近5%。見圖6。

 

我國論文分行業發展情況

在文獻中,我們把ACM會議分成集成電路設計、體系結構、軟件工程(包括數據庫和人機界面)、圖形學與多媒體、程序語言、新興領域和其他骨干學科(包括操作系統,計算理論等)幾大類。雖然這不是一個很合理的分類,但為了對照方便,本節依舊延續使用這一分類。

集成電路

 

表5第一列是會議簡稱,第二列是中國在2005年之前(含2005)在ACM會議上發表的論文累計數,第三列是2006~2014年之間中國在ACM會議上發表的論文累計數,第四列是2006年之后各個會議的論文總數,第五列是2006年之后每一個會議的中國論文總數與ACM論文總數之比。

表5顯示,中國在2006年集成電路行業的ACM會議上發表的論文總數是2005年之前發表的論文總數的746%。2006年之后,集成電路行業的每個會議上中國論文數占ACM論文數的平均值為3.81%。情況最好的是FPGA會議,占了8.24%,說明中國在FPGA方面發展較好。最差的是SBCCI會議,僅為0.29%,不過這是巴西的一個會議,影響不大。在國際上有重大影響力的會議中,中國最弱的是CODES會議,論文數僅占總數的1.55%,但是2005年前,這個會議沒有一篇中國的論文,現在累計有6篇,已經是不小的進步。CODES會議已經同ISSS會議合並,內容主要是軟硬件協同設計和系統級綜合。DAC, ICCAD和DATE是集成電路行業的旗艦會議,包羅萬象,涵蓋了行業內許多子領域,同時也是頂級論文的發表場所。中國在這幾個會議中的論文數分別有7~20倍的增長,發展勢頭良好。發展相對比較平穩的是物理設計ISPD會議,只有1.5倍的增長,但是接近3%的論文占比數並不明顯落后於其他會議。

體系結構

 

表6顯示,在體系結構方面,2006年之后同2005年之前相比,增長率恰好是6倍。在這8個會議中,2005年之前有5個是空白,現在所有會議上都有了中國的論文。由於體系結構方面的工作難度很大,因此這是一個很大的進步。值得注意的是,MICRO會議2005年前的文章其實都是在1993年之前發表的,因此,如果把2005年后10年和前10年相比,那么論文數增長率高達15倍。

平均而言,中國在體系結構方面的論文數僅占論文總數的2.55%,這個比率依然較低。但體系結構方面的頂級會議ISCA不但有了零的突破,而且占比達到2.29%,相對而言這是一個不錯的成績。

軟件工程、數據庫和人機界面

 

如表7所示,軟件工程大類的發展速度是所有大類中比較快的,達到814%,超過8倍。在這個領域,中國論文占總論文數的比重超過7%,是所有領域中最高的。表7中ICIS的占比特別突出,達到22%以上,但是采集到的數據中2006年以后的會議僅包含2009年一次會議,而這次會議中大部分文章來自東亞國家。SIGSOFT會議在2010年之后改名為FSE(Foundations of Software Engineering),因此FSE的會議記錄也加在SIGSOFT的會議記錄中。

這個領域的發展相當不平衡,有3個會議占比在8%~22%之間,分別是計算機與信息科學會議(ICIS)、信息檢索會議(SIGIR)、知識發現與信息挖掘會議(KDD);有6個會議的占比數(表7最后一列)不到1.6%,其中包括兩個從來沒有中國論文的會議AOSD和DIS;歷史悠久的數據庫原理會議(PODS),中國論文占比剛超過1%。另外有4個會議的占比數超過5%,其中包括另一個歷史很長的會議——超大規模數據庫會議(VLDB)。

方差分析顯示,這個領域會議的方差值為0.07,而體系結構、程序語言和VLSI(Very Large Scale Integration,超大規模集成電路)占比數的方差僅為0.017~0.02,兩者之間有5倍左右的差異。這也說明該領域發展的不平衡。

圖形學和多媒體

 

在2006年發表的文章中統計了這個領域中的7個會議(PVG, SCCG, SI3D, SCG, SIGGRAPH, VRST, MM)的情況。其中MM后來改名為MULTIMEDIA(多媒體會議),SCG會議在10年后改名為SOCG。

多媒體會議是中國在ACM會議中幾個少見的強項之一,2005年前就有100多篇論文,近10年增長了3.65倍,占比超過21%。但這個領域的發展也極不平衡,5個會議中有兩個會議的占比低於0.5%。圖形學會議(SIGGRAPH)的中國論文數有8倍的增長,但占比僅為1.67%。總體而言,這個領域的發展速度是384%,平均占比5.97%。

程序語言

 

如表9所示,在2005年前,程序語言是所有領域中最薄弱的一個領域,9個會議中累計有7篇論文(體系結構是第二個薄弱領域,8個會議中有14篇論文)。不過,程序語言發展比較快,增長率達到900%,發展速度超過軟件工程領域,居於第二名。但是其論文數占ACM總數之比依然是所有領域中最差的一個,僅為2%。

在各個會議中,發展速度最快的是面向對象程序設計會議(OOPSLA)、並行編程原理和實踐會議(PPOPP)、以及代碼生成與優化會議(CGO),分別有10~13倍的增長。POPL、PPDP和PERM有了零的突破,但3個會議論文總數僅為6篇,論文占比基本上在1%以下。函數式程序會議(ICFP)近10年沒有論文。行業內兩個頂級會議PLDI和POPL,偏應用的PLDI發展速度增長了三倍,占比達到1.67%;偏理論的POPL稍差一點,占比為0.67%。

新興研究方向

 

2006年被列為新興研究方向的會議,現在已經不算新了。但為了進行比較,下面的分析中還繼續沿用了原來的分類名稱。在這批會議中,DL會議在2000年之后沒有記錄。AGENTS會議2002年之后變成了AAMAS42。C&C會議數據收集不齊。因此,這里僅分析余下的幾個會議。

互聯網會議(WWW)的發展情況很好,占比達到11%以上,這同中國互聯網的蓬勃發展有關。但是其他6個會議的占比均在1.5%以下,顯示出發展不平衡的情況。這個領域平均發展速度是所有領域中最快的,達到1116%,但是這一發展速度主要來自互聯網會議。如果去掉這一會議,則發展速度僅為393%,不到4倍,在所有領域中又是最慢的。

其他骨干會議

 

在其他骨干會議的分類中,包含了著名的操作系統會議(SOSP)、離散算法會議(SODA)、側重於算法和計算復雜性等方面內容的計算機理論會議(STOC)和分布式計算會議(PODC)等。總體而言,論文增長幅度是509%,超過5倍。目前論文數占ACM論文總數的3%。

除了SAC和ISSAC兩個會議之外,其他9個會議在2005年前的情況都很差,這9個會議歷年來累計只有3篇文章,中國有6個會議的論文數是0;2006年以后,中國只有2個會議論文數是0。這9個會議中,中國論文累計數達到92篇,有30倍的增長。進步幅度最大的是計算機與通訊安全會議(CCS),有50倍的增長;其次是離散算法會議,增長了18倍。分布式計算會議和計算機理論會議也有比較好的增長幅度,但是占比均不到1%,依然是中國的弱項。

計算機各領域發展情況比較

將2006年以后的論文累計數同2005年以前的論文累計數進行比較,各領域的增長情況如下(見圖7)。

 

每個領域的發展速度是指用這個領域2006年以后論文累計數除以2005年之前的論文累計數之后得到的百分比。其中,新興領域發展速度最快,超過了11倍。這當中貢獻最大的是互聯網會議,發展速度為13倍。如果去掉互聯網會議,這一領域其他會議的發展速度只有4倍。

除去新興領域,發展速度最快的是程序語言,其次是軟件工程。但是我國在這兩個領域的研究實力卻是相反的。程序語言的總體實力最弱,而軟件工程實力最強。不過軟件工程內部的各個會議情況並不均衡,論文大量集中在ICIS, SIGSOFT, SIGIR和KDD四個會議上。

總體而言,體系結構、程序語言、集成電路和其他骨干領域中各個會議的中國論文增長速度相對而言比較均勻。而軟件工程、新興領域、圖形圖像這幾個領域中會議之間的增長速度差異很大,發展不均衡。

我們把2006年以后的論文總數同2005年以前的論文總數進行比較,各領域中的中國論文占ACM論文總數的比例情況如圖8所示。

 

圖8從一個側面反映出計算機各個領域中,中國的研究水平在國際上的高低以及各個領域之間發展水平的相對強弱。從圖8可見,在軟件工程方面,中國發展最好,其次是新興領域和圖形圖像。然而,這三個領域又恰好是發展最不平衡的領域。在所有領域中,最弱的是程序語言和體系結構,這兩個領域的研究工作,不到軟件工程的1/3。操作系統方面的會議被歸在其他骨干領域的范圍內,如果單獨抽出來,那么操作系統方面會議的論文占比數不到1%。

由此可見,中國在應用領域中的研究工作較強,而在基礎領域(體系結構、程序語言、操作系統和計算理論等方面)的研究工作較弱。與此同時,基礎領域的發展速度比較快,比如程序語言的發展速度超過9倍。

分析和討論

根據這次得到的數據以及統計分析結果,可以初步得出下面幾個結論。

近十年來中國計算機科學發展突飛猛進

2000年是論文數量變化的第一個轉折點,當年中國在ACM會議上發表的論文總數僅18篇,2014年達到353篇,相當於2000年的近20倍。在CiteSeer影響因子前500名的會議中,2000年前中國每年論文數在6篇以下,其中有3年是0篇。而2014年達到了279篇,增長46倍。2005~2006年是第二個轉折點,此前,在影響因子前500名的會議中,中國每年的ACM論文數在100篇以下,此后迅速上升到250~300篇之間,增長2.5~3倍,並且連續5年在這個范圍內波動。從中國論文數占論文總數的比例來看,也具有三級跳模式。2000年之前,中國論文所占比例在0.5%以下,2006年上升到1.4%,之后很快上升到一個新的台階。在2008年之后,每年中國論文占論文總數的比例在5%左右波動,同2000年相比,增長了10倍。

與2006年寫文章時的情形進行比較,幾個主要的研究領域(體系結構、軟件工程、程序語言、圖形圖像、新興領域以及其他骨干領域)平均發展速度在4~11倍之間。

在這些領域中,2006年之后,中國論文累計數占ACM論文累計數之比已經達到2%~7%。這個數字看上去不大,但是同2006年統計的情況相比,發展是驚人的。2005年之前,只有圖形圖像和新興領域的占比數分別達到2.29%和1.22%,其他幾個領域的占比數都不到0.5%。尤其是程序語言領域,7篇論文僅占論文總數的0.19%,而且這7篇論文基本上都是國外單位、外國人或合作撰寫的。從占比數看,軟件工程增長最快,達到15倍的增長;其次是體系結構和程序語言,分別有10倍的增長。

中國計算機學會制定了《CCF推薦國際學術會議和期刊目錄》(下面簡稱《目錄》),各機構對論文數和質量也給予了充分重視,這些措施對中國論文的激增起到了重要的推動作用。

論文數量同國際水平之間依然有較大的差距

如果按2006年以來的累計數計算,中國ACM論文數僅占全球論文總數的4%。雖然總體而言中國論文數呈上升趨勢,但近5年每年占比數大體上在5%左右徘徊。2015年,中國人口占世界人口的比例超過18%,因此,每年ACM論文數量應該達到現在的4倍以上,才能達到國際平均水平。如果同發達國家的人均論文數相比,差距更大。

此外在ACM的1392種會議中,中國僅參加了其中的539種,占38%。在歷年舉行的ACM會議中,有近3/4的會議中國沒有參加。在2010~2014年這5年當中,中國有3次以上沒有參加的會議總計207個,其中包括一批在計算機核心領域的一流國際會議。在67個有15年以上歷史的會議中,2000~2014年,中國有10次以上沒有參加過的會議總計有23個,超過1/3。

各學科發展不平衡

筆者認為,計算機的各個領域可以粗略地划分成基礎領域和應用領域。體系結構、操作系統、數據庫基礎、理論計算機科學、程序語言以及集成電路電子設計自動化(Electronic Design Automation, EDA)工具均屬於基礎領域。軟件工程、知識工程、大數據、互聯網、圖形學、集成電路設計和管理系統大體上屬於應用領域。應用領域主要是指能夠為最終用戶直接提供服務的領域,基礎領域主要是為應用領域提供服務的領域。

就中國在ACM會議上發表論文的情況來看,有兩個特點值得注意。一個是基礎領域的論文發表弱於應用領域,在體系結構、程序語言以及其他骨干(包括了操作系統和計算理論等基礎性學科)會議中,中國論文占比平均在2%~3%。而軟件工程、圖像處理、新興領域(包括互聯網等方面的會議)這三個領域中,中國論文占比是6%~7%。集成電路行業介於兩者之間,占比接近4%。集成電路行業包含了基礎性的EDA行業以及開發最終產品的設計和驗證行業。這也可以解釋為什么這方面的論文發表情況處於一個中間狀態。見圖9。

 

第二個特點是,在軟件工程、圖形圖像和新興領域這幾個應用領域中,中國的論文分布非常不平衡。比如在軟件工程領域,有一個會議占比數高達21%,但是15個會議中有6個會議,占比數在1.1%以下。在新興領域中,如前面所述,不平衡情況更為突出。根據上述分析,我們對相關問題進行如下討論。

論文發表中的矛盾數據顯示學科發展不平衡

文獻根據國際論文數據庫的資料得到的數據顯示,中國計算機科學每年發表的論文數自2008年后就一直超越美國,位居世界第一。2014年中國計算機論文數占全球論文數的20%。在CCF A類期刊(《目錄》中的頂級期刊)上,中國近年發表的論文數占總數的26%。從這兩個數字上看,中國無論是在論文的總量上,還是在優秀論文的數量上都取得了很好的成績。然而,本文的統計顯示,2006年以后中國論文數僅占ACM會議論文總數的4%,主要會議上的占比是2%~7%。為什么兩種統計結果會有那么大的差異?

一個原因可能是我們在做數據抽取時要從論文單位來判定是否是中國論文,由於信息不全,會少算一部分,但這之中的誤差不會嚴重影響到占比數的計算。另一個可能的原因是國內學者更傾向於在雜志上發表論文,這樣做可以減少論文發表費用,有較多的反饋修改時間,同時避免了英語表達方面的不足。

筆者認為數據上的矛盾現象主要反映了發展的不平衡。一方面,大量論文集中在低端會議和雜志中,所以論文總量很大;而優秀論文又過度集中在一部分雜志和會議當中,很多同樣重要的會議和雜志缺少中國論文。因此,雖然CCF A類期刊上的中國論文所占比重很高,但ACM會議的中國論文所占比重卻很低。

筆者認為,我國依然需要提高在國際會議和雜志上的論文發表量,但是重點要放在過去相對忽視的方向上面。

關於CCF《目錄》以及論文導向的科研

最近《中國計算機學會通訊》連續兩期(2015年第7、8期)討論了關於《目錄》的問題。幾位學者從各個角度做了有深度的分析[3~6],在肯定了《目錄》積極作用的同時,指出了《目錄》的一些負面影響。對論文數量的過度重視,引起了學術界廣泛的擔憂。中國科學院院士梅宏教授的文章從六個不同角度分析了《目錄》所帶來的問題。當我在寫這篇文章的時候,也強烈感到論文驅動的科研模式恐怕已經走過頭了。

大量事實顯示,科研成績並不一定從論文數量上表現出來。比如,韓京洋等人的論文指出,圖靈獎獲得者中有三位從未發表過CCF A類論文。中國工程院院士李國傑教授引用了一個案例,英國帝國理工大學破格提拔郭毅教授時,他尚未在一流雜志上發表過文章。這說明,一流學者不能僅僅依靠量化考核。據我所知,法國有些著名學者在獲得博士學位時也沒有在一流會議、雜志上發表過文章,但是他們的博士學位論文被廣泛引用。

毫無疑問,應該鼓勵科研人員做有價值的研究工作,不管這些工作是否能夠在短期內發表到一流雜志或一流會議上。但是,要想破除論文導向體制的弊端,就需要用更好的機制來取代它。如果找不到更好的機制,我們就很難避免論文導向的管理方法。這就同高考一樣,我們明知它有弊端,但是不得不繼續使用。在計算機領域中,論文是評估工作成績的一個重要方式,難點在於如何尋找建設性的方案去補充這一方式的不足。

值得注意的是,在同一個領域中,《目錄》可以對科研評價起到很好的指導作用。但是,如果在不同領域之間比較,它的參考價值就會降低。

把填補國內薄弱環節作為科研評估的一個重要因素

除了基於論文的科研評價模式之外,還有多種其他方式可以進行科研評估。比如,依靠權威人士評估、項目鑒定會、國家需要和市場效果的檢驗等等。本文的分析結果主要有兩方面,一方面是論文數量大幅增長,另一方面是各學科發展不平衡。這兩個結果大體上都是在《目錄》的推動下產生的。

在進行了論文分類之后,國內大量科研力量涌入了CCF A類期刊和會議中,以及國內基礎較好或者論文發表相對容易的期刊和會議上。論文的成功發表又反過來使相關領域的學者得到更多的經費,從而能夠發表更多的論文。由此造成部分領域的期刊和會議里中國論文激增,而大部分其他領域的中國論文依然稀少的情況。

 

由此造成的結果是學科發展嚴重不平衡。在本次統計中,有1/10左右的ACM會議,中國論文占比超過10%;而接近1/3的會議中,中國論文占比在1%以下;接近一半的會議,中國論文的占比在1%~5%之間。見圖10。

學科發展不平衡是目前我國計算機科學面臨的一個嚴重問題。

在集成電路的設計中,電路的速度取決於時間最長的那條路徑,其他路徑無論怎樣優化都不能提高電路的整體速度。同樣,從計算機科學發展的全局來看,需要各個學科均衡發展,否則,某些薄弱學科就可能影響整體效果的發揮。

要彌補這一缺陷,並不需要放棄《目錄》。《目錄》本身相當於我們對計算機科學全局狀況的一種認知,我們應該完善和補充這種認知,而不是拋棄這種認知。

建議把彌補國內薄弱環節作為科研考核的一項重要因素,鼓勵科研人員將論文投到國內論文發表較少的會議和雜志上。在科研評估時,把論文發表量同彌補國內薄弱環節兩個因素結合考慮。

此外,基礎性學科的研究難度較高,研發周期較長,影響長遠,建議采用特殊的鼓勵措施。不同的學科可以采用不同的論文發表量作為評估標准。

重視有影響的基礎性研究項目

許多學者都明確指出,論文不是科研的最終目的。科研人員和科研管理機構都應該重視有長遠影響的科研課題和科研產品,論文只是研發工作的副產品。重要的科研成果可以通過論文表現出來,也可以不通過論文表現出來,比如發明一個鼠標。

在基礎性研究中,筆者認為對軟件工具的開發需要給予特別的重視。

整個工業可以划分成重工業和輕工業。重工業是機器制造業,是支持輕工業發展的基礎性工業。建國以后的幾十年,中國重點發展重工業,雖然那時人民的生活水平比較低,但是為近幾十年的經濟起飛奠定了基礎。

軟件工具是用於軟件開發和硬件設計的軟件,相當於計算機行業的“重工業”。長期以來,我國發展比較快的是應用性軟件、嵌入式系統和集成電路芯片。這些領域相當於計算機行業的“輕工業”。能夠擔當起計算機“重工業”的還有CPU、操作系統、編譯器和理論計算機科學等領域,這些領域相對而言得到了一定的重視。但是在軟件工具方面,除了管理系統軟件的開發工具之外,其他方面的受重視程度還相當不夠。

最難開發的軟件工具可以分成兩大類,一類是需要雄厚理論基礎的軟件工具,另一類是跨領域的軟件工具。前一類的例子有各種自動的和半自動的定理證明工具以及領域專用語言等等。后一類的例子有用於集成電路設計的幾十種EDA工具,用於機械設計、發動機設計、新醫葯研制的各種軟件工具等等。這些工具的開發者既要具備高水平的軟件開發能力,同時又必須成為相關行業的專家。為此,需要十幾年甚至幾十年的積累。這些工具也凝聚了各個專業領域的核心技術。

例如,Isabelle定理證明器在1989年之前就開始研發,至今已超過25年。2009年,澳大利亞ICTRC用這個定理證明器證明了一個嵌入式操作系統核心seL4的正確性,並且挖掘出C代碼中150個錯誤。同步語言Esterel自1983年開始研發,至今32年,目前該語言發展成為一個商業化的嵌入式系統建模工具Scade,全套軟件售價百萬美元以上。

在軟件工具以及其他一些基礎性研發工作方面,雖然中國已經有了一些具有影響力的開發工作,但同國外還存在巨大差距。這種差距很難使用類似論文數量這種簡單方式進行衡量,也難以使用類似《目錄》的方式去激勵。

計算機發展的機遇

通常認為,1946年完成的ENIAC是第一台計算機,但是第一台能夠用存儲器保存並運行程序的計算機是1950年完成的UNIVAC 1101或
ERA 1101[10]。1952年,華羅庚呼吁國內開展計算機研究;1960年,夏培肅先生帶領的團隊研制出中國第一台通用計算機。從當時的情況看,中國計算機同國外的差距似乎只有10年左右。自那時以來,中國一直在努力縮短同國外的差距。半個世紀過去了,中國計算機的總體水平同國外的差距至少還有10年以上。

為什么這個差距始終無法縮短呢?一個原因是,計算機的發展不是單一學科的問題,它同一個國家的科研和工業的整體水平密切相關。從理論基礎、軟硬件技術、計算機應用,一直到材料科學和機械工業,方方面面都影響着計算機的發展。中國計算機事業還有很多薄弱環節:絕大部分有影響力的計算機理論模型(除了區段演算等少數研究以外)都不是國內提出的,有影響力的程序語言和定理證明工具也不是國內發明的,大部分體系結構創新並非來自中國,價值較高的系統軟件和工具軟件基本上都是國外開發的,中國還遠未掌握芯片的制造技術等。要解決這些問題,既需要讓計算機的各個分支都能夠全面發展起來,也要讓計算機專業同其他學科有更緊密的交叉互動。

另一方面,我們還需要反思一下“追趕”導向的科研模式。“追趕”一詞同模仿緊密相關。在很多行業中(也包括計算機自身的一些領域),人們可以做到先模仿后超越,但是對於計算機核心技術,這一策略常常是失敗的。計算機的發展歷史表明,成功的策略往往是先創新后超越。微軟並沒有模仿IBM操作系統,英特爾也沒有模仿IBM計算機,但是前者都超越了后者。在計算機領域中,關鍵是要讓有重大前景的小技術獲得發展機會。這種機會可能像早期英特爾、微軟那樣,找到一個能夠讓他們發展壯大的市場;也可能像谷歌、也可能像阿里巴巴,找到一個有眼光的投資人。

“追趕”是一種向后看的思維模式,它所看到的是過去的成功;“創新”是一種向前看的思維模式,它看到的是未來有前景的技術。過去是很清晰的,未來是不清晰的。在計算機歷史上不斷地出現各種機遇,大部分人都無法抓住這些機遇,因為看不清未來。IBM如果能看清個人計算機的未來,絕不會把機會留給英特爾和微軟。

英特爾和微軟的時代已經過去,但是計算機的發展歷程中還會不斷地涌現新的機遇。怎樣識別和抓住機遇,是我們需要認真對待的問題。■

 

致謝:

感謝《中國計算機學會通訊》專欄編委包雲崗的熱情邀請和鼓勵,本文最終寫成。感謝呂延田先生為本文的數據采集提供了重要的幫助。感謝北京京航計算通訊研究所領導和同事對我工作的支持。感謝人社部組織的海南專家行活動,通過這些專家,了解到各行業對工具性軟件的迫切需求。尤其感謝同屈凌波教授和李雪琳老師的有益討論。感謝李國傑院士對我研究工作的重視。

腳注:

1 International Conference on Functional Programming, 函數編程會議。

2 New Security Paradigms Workshop。

3 International Conference on Pattern Recognition。

4 Principles of Programming Languages,程序語言理論會議。

5 International Conference on Architectural Support for Programming Languages and Operating Systems,對編程語言和操作系統得體系結構支持國際會議。

6 Conference on Principles of DB Systems,數據庫系統理論會議。

7 ACM SIGPLAN Symposium on Partial Evaluation and Semantics Based Programming Manipulation。

8 ACM SIGACCESS Conference on Computers and Accessibility。

9 Microarchitecture。

10 ACM Symposium on Parallelism in Algorithms and Architectures。

11 ACM Symposium on Principles of Distributed Computing。

12 ACM Symposium on Theory of Computing。

13 the International Conference on Hardware-Software Co-design and System Synthesis,國際軟硬件協同設計綜合會議

14 International Conference on Compilers, Architectures, and Synthesis for Embedded Systems。

15 Super Computing,高性能計算年會。

16 ACM International Conference on Information and Knowledge Management。

17 International Conference on Research on Development in Information Retrieval。

18 Knowledge Discovery and Data Mining。

19 Selected Areas in Cryptography。

20 Design, Automation & Test in Europe Conference。

21 Design Automation Conference。

22 International Conference on Computer-Aided Design。

23 International Symposium on Low Power Electronics and Design。

24 ACM/SIGDA International Symposium on Field-Programmable Gate Arrays。

25 International Symposium on Physical Design。

26 Great Lakes Symposium on VLSI Systems。

27 International Symposium on Computer Architecture。

28 Parallel Architectures and Compilation Techniques。

29 International Conference on Supercomputing。

30 Aspect Oriented Software Development。

31 Designing Interactive Systems。

32 International Symposium on Software Testing and Analysis。

33 International Conference on Very Large Data Bases。

34 ACM Conference on Human Factors in Computing Systems。

35 ACM SIGMOD Conference on Management of Data,數據管理國際會議。

36 ACM SIGGRAPH Annual Conference。

37 Virtual Reality Software & Technology,虛擬現實軟件與技術年會。

38 International Conference on Languages, Compilers, Tools and Theory for Embedded Systems, 嵌入式系統語言和編譯。

39 Conference on Object-Oriented Programming Systems, Languages, and Applications。

40 Conference on Programming Language Design and Implementation,程序語言設計與實現會議。

41 Code Generation and Optimization。

42 Autonomous Agents and Multi-Agent Systems。

43 ACM Symposium on Access Control Models and Technologies。

44  International World Wide Web Conferences。

45ACM Symposium on Access Control Models and Technologies。

46ACM Symposium on Operating Systems Principles。

47ACM-SIAM Symposium on Discrete Algorithms。

48ACM Conference on Computer and Communications Security。

 

 

作者:

陳 鋼

CCF會員。北京京航計算通訊研究所國家千人計划專家。主要研究方向為高階定理證明器、程序語言、類型理論、靜態分析、硬件形式化驗證、PLC程序測試以及函數式硬件語言等。

 

參考文獻:

陳鋼. 從ACM會議論文數量看差距.中國計算機學會通訊, 2006,2(5).

黃鐵軍.我國計算機學科國際期刊論文狀況. 中國計算機學會通訊, 2015, 11(8).

梅宏.中國計算機學會發布《國際學術會議和期刊目錄》得失談. 中國計算機學會通訊, 2015,11(5).

張曉東.發表論文只是研究的一種形式而不是目的. 中國計算機學會通訊, 2015,11(7).

包雲崗. CCF《國際學術會議和期刊目錄》得大於失.中國計算機學會通訊, 2015, 11(8).

陳盈. 為CCF《國際學術會議和期刊目錄》點贊, 中國計算機學會通訊, 2015, 11(8).

李國傑. 科技評價漫談, 中國計算機學會通訊. 2014, 10(11).

韓京洋, 陸嘉恆, 杜小勇. 圖靈獎得主CCF論文發表情況分析.中國計算機學會通訊, 2015,11(4): 48~52.

Klein, Gerwin et al. seL4: Formal verification of an OS kernel, 22nd ACM Symposium on Operating System Principles, Big Sky, Montana, US.

[10] http://www.computerhope.com/issues/ch000984.htm.


注意!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系我们删除。



 
粤ICP备14056181号  © 2014-2021 ITdaan.com