時(shí)間:2022-11-07 15:43:46
緒論:在尋找寫作靈感嗎?愛發(fā)表網(wǎng)為您精選了1篇數(shù)據(jù)管理 FAIR 原則實(shí)施注意問題分析,愿這些內(nèi)容能夠啟迪您的思維,激發(fā)您的創(chuàng)作熱情,歡迎您的閱讀與分享!
當(dāng)前,跨學(xué)科、跨領(lǐng)域、跨機(jī)構(gòu)的數(shù)據(jù)密集型科研模式及開放科學(xué)環(huán)境對(duì)科學(xué)數(shù)據(jù)的管理形成了新挑戰(zhàn)。科研需要合作、共享、交流,涉及不同科研人員、團(tuán)體、機(jī)構(gòu)乃至國家間的關(guān)系與利益[1-2]。為使開放環(huán)境下被保存的科學(xué)數(shù)據(jù)對(duì)研究活動(dòng)形成有效支持,實(shí)現(xiàn)數(shù)據(jù)本身價(jià)值,同時(shí)減少不必要的重復(fù)投入,對(duì)數(shù)據(jù)的管理就需確立某些普遍遵循的標(biāo)準(zhǔn)準(zhǔn)則,以實(shí)現(xiàn)跨庫、跨系統(tǒng)、跨平臺(tái)間的數(shù)據(jù)互訪、共享、利用。2014年1月“FAIR原則”被首次提出,2019年歐盟《開放數(shù)據(jù)與公共部門信息再利用指令》正式將FAIR原則明確為科學(xué)數(shù)據(jù)管理的一項(xiàng)重要原則,成為歐盟制定數(shù)據(jù)戰(zhàn)略、政策、法規(guī)的重要指導(dǎo)原則之一,并在全球許多國家開放科學(xué)數(shù)據(jù)領(lǐng)域被關(guān)注、運(yùn)用[3]。“fair”指為確保科學(xué)數(shù)據(jù)能被有效利用,數(shù)據(jù)對(duì)象應(yīng)具備可發(fā)現(xiàn)(Findable)、可獲取(Accessible)、可互操作(Interoperable)、可重復(fù)使用(Re-usable)四個(gè)基本原則屬性,每個(gè)基本原則下又有若干具體指導(dǎo)原則(表1)[4]。本文對(duì)科學(xué)數(shù)據(jù)管理實(shí)施FAIR原則的注意事項(xiàng)進(jìn)行解析,以期對(duì)我國相關(guān)研究與實(shí)踐有所助益。
1“可發(fā)現(xiàn)原則”實(shí)施注意問題
數(shù)據(jù)可發(fā)現(xiàn),是獲取、互操作、重用的前提[5]。科學(xué)數(shù)據(jù)不但包括常規(guī)出版物、文獻(xiàn)數(shù)據(jù)庫中的數(shù)據(jù),在各類機(jī)構(gòu)知識(shí)庫、存儲(chǔ)庫等數(shù)據(jù)集中也包含大量科學(xué)數(shù)據(jù)[6]。出版物和文獻(xiàn)數(shù)據(jù)庫可看作是科學(xué)數(shù)據(jù)的常規(guī)出版渠道,而這些數(shù)據(jù)集則可視為非常規(guī)出版渠道。對(duì)常規(guī)出版渠道中的數(shù)據(jù),通過元數(shù)據(jù)和目錄詞表的標(biāo)引,數(shù)據(jù)可發(fā)現(xiàn)容易實(shí)現(xiàn)。對(duì)非常規(guī)出版渠道,數(shù)據(jù)發(fā)現(xiàn)程序需要抓取、檢索數(shù)據(jù)對(duì)象的全文以及附屬鏈接,才能保證數(shù)據(jù)被發(fā)現(xiàn)。發(fā)現(xiàn)程序的檢索策略通常是以檢索輸入與數(shù)據(jù)集中實(shí)際值的命中匹配為基礎(chǔ)的,也就是說對(duì)元數(shù)據(jù)和規(guī)范詞表標(biāo)引的需求非常低。許多科學(xué)數(shù)據(jù)因?yàn)榧夹g(shù)或利益原因也可能根本不開放,或僅對(duì)某些搜索引擎的爬取程序可讀,這更對(duì)數(shù)據(jù)的可發(fā)現(xiàn)形成了嚴(yán)重障礙[7]。
1.1建立科學(xué)數(shù)據(jù)標(biāo)識(shí)符賦值機(jī)制
可發(fā)現(xiàn)原則指出了對(duì)數(shù)據(jù)可發(fā)現(xiàn)的一個(gè)關(guān)鍵共識(shí),即給數(shù)據(jù)對(duì)象賦予一個(gè)唯一且永久性的標(biāo)識(shí)符(PID)。標(biāo)識(shí)符能夠解決數(shù)據(jù)的身份問題,同時(shí)也意味著標(biāo)識(shí)符的建立規(guī)則應(yīng)是全局層面的統(tǒng)一規(guī)劃,避免號(hào)碼混亂。關(guān)于標(biāo)識(shí)符的研究與實(shí)踐很多,許多數(shù)據(jù)平臺(tái)也有自己的標(biāo)識(shí)符賦值規(guī)則,其中較有代表性的是DataCite。DataCite可為會(huì)員機(jī)構(gòu)的科學(xué)數(shù)據(jù)及科研成果(包括元數(shù)據(jù))提供永久唯一的數(shù)據(jù)對(duì)象標(biāo)識(shí)符(DOI),并登記提交的元數(shù)據(jù),是一個(gè)跨國多學(xué)科機(jī)構(gòu)知識(shí)庫發(fā)現(xiàn)平臺(tái)[8]。其DOI的唯一性保證了數(shù)據(jù)被有效發(fā)現(xiàn),被登記提交的元數(shù)據(jù)可以被任何人收割,而且DataCite的元數(shù)據(jù)模式是可擴(kuò)展的,能夠被其他標(biāo)識(shí)系統(tǒng)服務(wù)兼容,在提升數(shù)據(jù)可發(fā)現(xiàn)性的同時(shí)也保證了互操作性。其DataCitationIndex服務(wù)還提供了部分高質(zhì)量數(shù)據(jù)集與學(xué)術(shù)論文之間的鏈接(通常指向WebofScience),進(jìn)一步增強(qiáng)了對(duì)數(shù)據(jù)獲取、復(fù)制、重用性的保障[9]。除DOI外,目前較為主流的標(biāo)識(shí)符還有檔案資源鍵(ARK),持久統(tǒng)一資源定位符(PURL)等[10-11]。從這些標(biāo)識(shí)系統(tǒng)的經(jīng)驗(yàn)看,對(duì)科學(xué)數(shù)據(jù)管理首先要建立一套標(biāo)準(zhǔn)的報(bào)道數(shù)據(jù)的有效工作機(jī)制,為了避免各數(shù)據(jù)生產(chǎn)者或管理者單獨(dú)工作帶來的不利影響,數(shù)據(jù)對(duì)象標(biāo)識(shí)符最好應(yīng)由數(shù)據(jù)生產(chǎn)者和數(shù)據(jù)用戶之外的第三方機(jī)構(gòu)生成、分配、管理,保障標(biāo)識(shí)符賦值規(guī)則的統(tǒng)一和持久。鑒于DataCite的服務(wù)已具備相當(dāng)影響力,建立科學(xué)數(shù)據(jù)標(biāo)識(shí)符賦值機(jī)制可將其作為重要參考對(duì)象。
1.2建立科學(xué)數(shù)據(jù)元數(shù)據(jù)生產(chǎn)機(jī)制
元數(shù)據(jù)是可發(fā)現(xiàn)原則另一關(guān)注點(diǎn)。數(shù)據(jù)發(fā)現(xiàn)或數(shù)據(jù)檢索,主要取決于較高質(zhì)量、開放訪問的元數(shù)據(jù)和目錄。豐富元數(shù)據(jù)的生產(chǎn)工作伴隨科學(xué)數(shù)據(jù)整個(gè)生命周期過程,元數(shù)據(jù)生產(chǎn)工作量很大。由于元數(shù)據(jù)生產(chǎn)通常會(huì)牽涉科研利益、政策制度、標(biāo)準(zhǔn)規(guī)范等各種問題,往往導(dǎo)致元數(shù)據(jù)的生產(chǎn)責(zé)任主體不易明確,同時(shí)元數(shù)據(jù)的有效生成又直接影響數(shù)據(jù)的可發(fā)現(xiàn)屬性,因此在科學(xué)數(shù)據(jù)管理的政策制度、操作規(guī)程等指示性文件中就應(yīng)明確這些內(nèi)容,規(guī)定元數(shù)據(jù)生產(chǎn)責(zé)任,協(xié)調(diào)好各環(huán)節(jié)關(guān)系。人工生產(chǎn)豐富元數(shù)據(jù)需要巨大的人力投入,元數(shù)據(jù)自動(dòng)生成工具能夠降低人力消耗。W3C通過其“Web數(shù)據(jù)最好實(shí)踐”[12]、“RDF數(shù)據(jù)畫像”[13]等項(xiàng)目組的研究及schema.org詞表,定義了一套結(jié)構(gòu)化網(wǎng)上數(shù)據(jù)的標(biāo)準(zhǔn)模式及描述數(shù)據(jù)集必要的元數(shù)據(jù)元素的工具。生物醫(yī)學(xué)領(lǐng)域的項(xiàng)目DataMed,構(gòu)建了一個(gè)支持FAIR原則的生物醫(yī)學(xué)數(shù)據(jù)搜索引擎,能夠?qū)崿F(xiàn)跨機(jī)構(gòu)庫、跨數(shù)據(jù)源的數(shù)據(jù)發(fā)現(xiàn),并形成了一套帶有詳細(xì)注釋schema.org詞表的元數(shù)據(jù)規(guī)范(DataTagSuite)及一些元數(shù)據(jù)工具[14]。W3C的項(xiàng)目SimpleKnowledgeOrganizationSystem也生成了一個(gè)元數(shù)據(jù)工具OpenMetadataRegistry,能夠?yàn)槭芸卦~表開發(fā)者與使用者提供服務(wù)[15]。RDA項(xiàng)目MetadataStandardsDirectory,也是關(guān)于元數(shù)據(jù)創(chuàng)建與規(guī)范標(biāo)準(zhǔn)方面的項(xiàng)目[16]。目前,已出現(xiàn)的元數(shù)據(jù)模式、本體、受控詞表等大多是針對(duì)特定領(lǐng)域或?qū)W科,通用性的成果還較少。元數(shù)據(jù)工具是科學(xué)數(shù)據(jù)管理的重要助手,通過提高元數(shù)據(jù)的生產(chǎn)效率和質(zhì)量會(huì)對(duì)科學(xué)數(shù)據(jù)的發(fā)現(xiàn)、利用形成重大影響。此外,這方面也會(huì)牽涉元數(shù)據(jù)工具的采用標(biāo)準(zhǔn)、效果評(píng)價(jià)、質(zhì)量控制及職責(zé)分配等問題。
2“可獲取原則”實(shí)施注意問題
可獲取原則內(nèi)容關(guān)注到存取數(shù)據(jù)(或元數(shù)據(jù))的標(biāo)準(zhǔn)化通信服務(wù)協(xié)議及訪問授權(quán)問題。數(shù)據(jù)可用是通過將數(shù)據(jù)存儲(chǔ)到數(shù)字知識(shí)庫來實(shí)現(xiàn)的[17],數(shù)據(jù)在某個(gè)知識(shí)存儲(chǔ)庫保存時(shí),存儲(chǔ)庫的服務(wù)約定通常已包括了關(guān)于數(shù)據(jù)的存取通信、訪問授權(quán)等協(xié)議問題。開放為常態(tài)、不開放為例外[18],多數(shù)存儲(chǔ)庫的數(shù)據(jù)是完全開放或有條件開放,差別在于訪問授權(quán)形式和程度,大多保證被存入的數(shù)據(jù)是可獲取的(完全不開放的存儲(chǔ)庫討論其數(shù)據(jù)FAIR問題意義不大)。而數(shù)據(jù)的通信通常是依靠超文本傳輸協(xié)議HTTP、文件傳輸協(xié)議FTP、TCP/IP協(xié)議等這些定義明確、開放且使用普遍的協(xié)議[19]。因此,數(shù)據(jù)可獲取實(shí)際主要取決于數(shù)據(jù)存儲(chǔ)入庫前與后的那些核心管理活動(dòng),這些核心管理活動(dòng)以能實(shí)現(xiàn)用戶最終獲取和利用數(shù)據(jù)為目的,包括入庫前的數(shù)據(jù)選擇、表達(dá)描述、長期保存及入庫后的數(shù)據(jù)訪問安全監(jiān)管等。這些核心管理任務(wù)決定了可獲取原則在數(shù)據(jù)管理實(shí)踐中的落實(shí)。
2.1明確數(shù)據(jù)管理核心任務(wù)
當(dāng)前,單一的數(shù)據(jù)中心及服務(wù)已不足以有效支撐科研活動(dòng),各種資源庫與服務(wù)、豐富的高質(zhì)量元數(shù)據(jù)成為科研基礎(chǔ)設(shè)施的重要內(nèi)容。為了促進(jìn)科學(xué)數(shù)據(jù)的發(fā)現(xiàn)、獲取、利用,需要更加有效的管理這些規(guī)模化的聚合數(shù)據(jù)。有效管理首先需要解決兩個(gè)問題:明確管理責(zé)任主體;明確核心工作任務(wù)內(nèi)容。在科學(xué)數(shù)據(jù)生命周期的各個(gè)階段,由于涉及的數(shù)據(jù)生產(chǎn)管理主體不同,特別是跨國、跨領(lǐng)域項(xiàng)目還涉及不同法律和管理制度的影響,很難確定管理這些不同類型數(shù)據(jù)的責(zé)任主體,項(xiàng)目各參與方的責(zé)任與角色也不好分配。有學(xué)者認(rèn)為,為了確保數(shù)據(jù)及其溯源信息的成功抓取,應(yīng)由科研資助方負(fù)責(zé)建設(shè)整套的數(shù)據(jù)基礎(chǔ)設(shè)施,包括云中的計(jì)算設(shè)施、軟件、存儲(chǔ)庫,以及能夠根據(jù)科研進(jìn)度把工作性數(shù)據(jù)文件提煉為持久性數(shù)據(jù)文件的識(shí)別標(biāo)記數(shù)據(jù)文件的長效機(jī)制。在科研活動(dòng)的各個(gè)環(huán)節(jié),不同領(lǐng)域的科研人員持續(xù)生產(chǎn)大量不同類型數(shù)據(jù),選擇、提煉、保存這些數(shù)據(jù)的工作任務(wù)艱巨。保存什么數(shù)據(jù),在哪保存,怎樣保存,每環(huán)節(jié)要處理什么問題,何時(shí)處理,項(xiàng)目完成后應(yīng)該長期保存哪些內(nèi)容,哪些可開放存取等,這些都是數(shù)據(jù)管理要解決的問題。根據(jù)科研生命周期過程,可以把科學(xué)數(shù)據(jù)管理核心任務(wù)內(nèi)容歸納如下:明確生成什么數(shù)據(jù)(含元數(shù)據(jù)),保存什么時(shí)間什么格式的什么內(nèi)容對(duì)象,保存的方式、地址,何時(shí)考慮數(shù)據(jù)對(duì)象的剔除或長期保存問題,決定以上這些事項(xiàng)各應(yīng)采用什么標(biāo)準(zhǔn)。圍繞核心任務(wù),以數(shù)據(jù)可獲取為目標(biāo)優(yōu)化處理各個(gè)環(huán)節(jié),推動(dòng)數(shù)據(jù)管理實(shí)施FAIR原則的效果。此外,優(yōu)化各核心工作的同時(shí),應(yīng)注意平衡具體領(lǐng)域?qū)嵺`需求與通用服務(wù)規(guī)則之間的關(guān)系。
2.2應(yīng)對(duì)數(shù)據(jù)安全監(jiān)管挑戰(zhàn)
隨著黑客攻擊、網(wǎng)絡(luò)詐騙等網(wǎng)絡(luò)犯罪活動(dòng)以及各種涉網(wǎng)安全事件不斷出現(xiàn),互聯(lián)網(wǎng)安全工作的重要性被提上新高度。新數(shù)據(jù)源不斷出現(xiàn),數(shù)據(jù)量急劇增長,新技術(shù)、新理念催生的各類數(shù)據(jù)管理基礎(chǔ)設(shè)施的復(fù)雜性也不斷變化,這都是對(duì)數(shù)據(jù)安全管理工作的巨大挑戰(zhàn)。網(wǎng)絡(luò)與科研活動(dòng)的關(guān)系密不可分,科研活動(dòng)參與者迫切希望降低網(wǎng)絡(luò)安全問題帶給科研活動(dòng)的消極影響。已經(jīng)進(jìn)入和將要進(jìn)入網(wǎng)絡(luò)的科學(xué)數(shù)據(jù)的存儲(chǔ)安全、訪問安全成為科研人員必須面對(duì)的問題。數(shù)據(jù)存儲(chǔ)設(shè)施是否有足夠的冗余以供未來的發(fā)展,對(duì)未經(jīng)授權(quán)的數(shù)據(jù)存取操作、破壞甚至犯罪活動(dòng)是否有預(yù)防措施等問題都將直接影響數(shù)據(jù)的獲取、利用。采取相對(duì)嚴(yán)格的數(shù)據(jù)安全監(jiān)管、限制措施可以達(dá)到安全防范效果,但會(huì)對(duì)數(shù)據(jù)的獲取、利用造成不利影響。落實(shí)可獲取原則的數(shù)據(jù)管理作應(yīng)注意協(xié)調(diào)好與數(shù)據(jù)安全監(jiān)管工作的關(guān)系,避免出現(xiàn)可獲取原則陳述中的“通信協(xié)議”、“身份驗(yàn)證”、“授權(quán)”允許數(shù)據(jù)存取,但安全監(jiān)控機(jī)制不允許,最終妨礙數(shù)據(jù)可獲取的情況。
3“可互操作原則”實(shí)施注意問題
數(shù)據(jù)通常要保存在某個(gè)數(shù)據(jù)倉儲(chǔ)中。由于科學(xué)數(shù)據(jù)絕大多具有唯一性且數(shù)據(jù)結(jié)構(gòu)、格式差異較大,保存不同源數(shù)據(jù)的數(shù)據(jù)倉儲(chǔ)間很難進(jìn)行合并、融合。實(shí)現(xiàn)不同系統(tǒng)間的數(shù)據(jù)互操作,首先要解決異質(zhì)數(shù)據(jù)的表示統(tǒng)一性問題。要形成多學(xué)科領(lǐng)域數(shù)據(jù)結(jié)構(gòu)、格式統(tǒng)一的數(shù)據(jù)表示形式難度很大,這也牽涉到數(shù)據(jù)的互操作環(huán)境問題。
3.1制定數(shù)據(jù)表示標(biāo)準(zhǔn)
統(tǒng)一的數(shù)據(jù)表示標(biāo)準(zhǔn)是數(shù)據(jù)互操作的前提,包括表示語言、本體、詞表等。許多組織不同程度開展有數(shù)據(jù)標(biāo)準(zhǔn)的研制工作,并形成了一個(gè)普遍共識(shí),即該標(biāo)準(zhǔn)應(yīng)該開放可用并且是集體制定的。但是應(yīng)該采用哪些標(biāo)準(zhǔn),選擇標(biāo)準(zhǔn)的條件是什么,標(biāo)準(zhǔn)的構(gòu)成是什么等方面還沒有統(tǒng)一。數(shù)據(jù)表示標(biāo)準(zhǔn)的制定主體間缺少協(xié)調(diào)溝通會(huì)導(dǎo)致工作重復(fù)與沖突。在制定標(biāo)準(zhǔn)的適用范圍問題上,一般會(huì)有兩種選擇。一種是直接制定寬泛性的標(biāo)準(zhǔn)以適應(yīng)跨系統(tǒng)、跨領(lǐng)域數(shù)據(jù)集間的整合管理需求。另一種會(huì)考慮到不同學(xué)科、領(lǐng)域間數(shù)據(jù)特點(diǎn)差異較大的現(xiàn)實(shí),對(duì)不同領(lǐng)域數(shù)據(jù)建立特定模式的標(biāo)準(zhǔn),以求標(biāo)準(zhǔn)制定工作更加務(wù)實(shí),更具操作性,在實(shí)踐中前進(jìn)。顯然,如果能夠形成一個(gè)協(xié)調(diào)統(tǒng)一的標(biāo)準(zhǔn),既滿足各專業(yè)群體的需求,又支持不同領(lǐng)域數(shù)據(jù)的聚集管理將是最好的結(jié)果。為了達(dá)到一定的協(xié)調(diào)程度,理論上在技術(shù)層面應(yīng)是可行的。
3.2構(gòu)建數(shù)據(jù)互操作環(huán)境
互操作意味著合作,跨領(lǐng)域、跨學(xué)科的合作勢(shì)必涉及各科研利益相關(guān)者。各利益相關(guān)者的興趣、動(dòng)機(jī)不同,需要搭建有效的管理框架、資助框架進(jìn)行協(xié)調(diào)。制定互操作標(biāo)準(zhǔn)的工作,更多是文化、社會(huì)、組織機(jī)構(gòu)間的協(xié)調(diào)問題,然后才是技術(shù)問題。也就是說實(shí)現(xiàn)數(shù)據(jù)互操作,首先是有利于實(shí)施互操作的文化、社會(huì)、機(jī)構(gòu)等環(huán)境的構(gòu)建問題。在歐洲開放科學(xué)云(EOSC)一些高級(jí)專家組的研究規(guī)劃和報(bào)告中,對(duì)FAIR數(shù)據(jù)相關(guān)研究與工作的部署和討論[20][21]與互操作環(huán)境的構(gòu)建緊密相關(guān)。特別是FAIRActionPlan[22]詳細(xì)定義了FAIR數(shù)據(jù)對(duì)象和FAIR生態(tài)系統(tǒng)等概念,并為實(shí)現(xiàn)數(shù)據(jù)FAIR化規(guī)劃了27個(gè)推薦步驟。15個(gè)為優(yōu)先步驟,其余12個(gè)為優(yōu)先步驟的補(bǔ)充或細(xì)化延伸動(dòng)作。每個(gè)步驟包含一套明確的行動(dòng)內(nèi)容,并與其他步驟的行動(dòng)內(nèi)容相關(guān)聯(lián)。這些步驟可作為構(gòu)建互操作環(huán)境的行動(dòng)指南,并且是面向FAIR生態(tài)系統(tǒng)層面。技術(shù)差異、獨(dú)立的資助管理體系、不同的規(guī)章制度導(dǎo)致基礎(chǔ)設(shè)施的碎片化,非常不利于互操作全局環(huán)境的構(gòu)建。滿足個(gè)別群體需求的特定領(lǐng)域的基礎(chǔ)設(shè)施環(huán)境,一般較難吸引其他領(lǐng)域的互操作合作。另一方面,由于不同數(shù)據(jù)源會(huì)有相同主題的數(shù)據(jù),各數(shù)據(jù)源采用的不同數(shù)據(jù)標(biāo)準(zhǔn)及定義不充分的本體,也將阻礙不同源數(shù)據(jù)的互操作。總之,特定領(lǐng)域需求與普遍基礎(chǔ)服務(wù)環(huán)境之間的矛盾是搭建互操作環(huán)境要面對(duì)的問題。
4“可重用原則”實(shí)施注意問題
可重用原則的內(nèi)容關(guān)注數(shù)據(jù)對(duì)象的描述問題。強(qiáng)調(diào)通過豐富的數(shù)據(jù)描述,采用某種標(biāo)準(zhǔn)準(zhǔn)確描述(元)數(shù)據(jù)的多重關(guān)聯(lián)屬性以促進(jìn)數(shù)據(jù)可重用[16]。從四條具體指導(dǎo)原則的陳述來看,貫徹可重用原則將涉及數(shù)據(jù)對(duì)象描述或?qū)σ驯4鏀?shù)據(jù)的描述重構(gòu)的責(zé)任分配、數(shù)據(jù)描述的質(zhì)量控制及標(biāo)準(zhǔn)等問題。
4.1明確數(shù)據(jù)描述責(zé)任
科研產(chǎn)生的原始科學(xué)數(shù)據(jù)需要根據(jù)某種標(biāo)準(zhǔn)對(duì)數(shù)據(jù)對(duì)象進(jìn)行描述,形成標(biāo)準(zhǔn)格式的歸檔數(shù)據(jù),才能被其他科研項(xiàng)目、活動(dòng)重復(fù)使用。特別是跨學(xué)科、跨主題的數(shù)據(jù)重用,數(shù)據(jù)對(duì)象描述/重構(gòu)的重要性更為明顯。數(shù)據(jù)對(duì)象描述,或是對(duì)已保存數(shù)據(jù)進(jìn)行數(shù)據(jù)對(duì)象格式重構(gòu),首要工作是明確責(zé)任主體。目前,科學(xué)數(shù)據(jù)管理領(lǐng)域?qū)υ搯栴}有一個(gè)普遍性共識(shí)——由創(chuàng)建數(shù)據(jù)的科研人員承擔(dān)這項(xiàng)工作是不合理的。照此,參與數(shù)據(jù)再利用過程的處于數(shù)據(jù)創(chuàng)建者與數(shù)據(jù)用戶之間的第三方是最后選擇,因?yàn)樽寯?shù)據(jù)潛在用戶承擔(dān)該工作更不現(xiàn)實(shí)。該第三方可能是專門從事科學(xué)數(shù)據(jù)管理的專家、團(tuán)隊(duì),或者是數(shù)據(jù)的共享、發(fā)布者[17]。我國2018年發(fā)布的《科學(xué)數(shù)據(jù)管理辦法》第九條、第十一條、第十七條規(guī)定,“科研院所、高等院校和企業(yè)等法人單位及科學(xué)數(shù)據(jù)生產(chǎn)者”負(fù)責(zé)“科學(xué)數(shù)據(jù)采集生產(chǎn)和加工整理便于利用”和“科學(xué)數(shù)據(jù)人才隊(duì)伍建設(shè)”[18]。《辦法》對(duì)數(shù)據(jù)描述歸檔等責(zé)任歸屬進(jìn)行了明確,這里的“法人單位及科學(xué)數(shù)據(jù)生產(chǎn)者”不等同于“數(shù)據(jù)創(chuàng)建者”,我們可以把后者理解為前者的部分成員。落實(shí)到具體數(shù)據(jù)管理項(xiàng)目,對(duì)數(shù)據(jù)描述責(zé)任還需要進(jìn)一步約定——具體責(zé)任者是指“法人單位或科學(xué)數(shù)據(jù)生產(chǎn)者”中同時(shí)承擔(dān)數(shù)據(jù)共享發(fā)布責(zé)任的人員群體,或是專職的數(shù)據(jù)描述、數(shù)據(jù)重構(gòu)專家團(tuán)隊(duì)。無論如何規(guī)定,都應(yīng)是基于避免出現(xiàn)責(zé)任真空影響數(shù)據(jù)描述質(zhì)量和利用的前提。貫徹可重用原則應(yīng)注意該問題。另外,因?yàn)閿?shù)據(jù)描述,特別是已保存數(shù)據(jù)的重構(gòu)可能會(huì)牽涉到“數(shù)據(jù)資源開發(fā)”等多方面的經(jīng)濟(jì)、名譽(yù)利益,因此在數(shù)據(jù)管理政策或數(shù)據(jù)訪問服務(wù)規(guī)定中應(yīng)協(xié)調(diào)好關(guān)系。
4.2加強(qiáng)數(shù)據(jù)描述與質(zhì)量控制
數(shù)據(jù)的價(jià)值主要取決于數(shù)據(jù)本身的質(zhì)量。數(shù)據(jù)的質(zhì)量主要取決于數(shù)據(jù)及其關(guān)聯(lián)代碼是否符合被創(chuàng)建或收集時(shí)的預(yù)期目的,對(duì)數(shù)據(jù)的描述控制是達(dá)到預(yù)期目的的必然要求。數(shù)據(jù)采集、管理的目的是為了重用,數(shù)據(jù)價(jià)值是數(shù)據(jù)重用的充分條件,數(shù)據(jù)質(zhì)量是數(shù)據(jù)重用的必要條件。因此,對(duì)數(shù)據(jù)的描述控制是可重用原則落實(shí)的重要內(nèi)容。有效管理數(shù)據(jù)的溯源信息是數(shù)據(jù)描述控制的主要手段。溯源信息極大影響數(shù)據(jù)的可重用性。溯源信息,指那些記錄了數(shù)據(jù)在生成、保存、修改、編輯時(shí)的時(shí)間、地點(diǎn)、方法、原因等要素的綜合性信息[23]。詳細(xì)的溯源信息有助于數(shù)據(jù)用戶更加理解數(shù)據(jù)、驗(yàn)證科研過程。采集溯源信息,原則上應(yīng)貫穿科研過程始終,盡可能讓溯源信息成為科研成果的組成部分。從已有經(jīng)驗(yàn)看,在科研過程中采用“研究工作筆記本”的形式有助于收集溯源信息,同時(shí)也能促進(jìn)科研方法、過程及數(shù)據(jù)的共享。關(guān)于數(shù)據(jù)的質(zhì)量評(píng)價(jià)、質(zhì)量保證則涉及多層次的問題,如評(píng)估對(duì)象的選擇、評(píng)估指標(biāo)的質(zhì)量、數(shù)據(jù)的后續(xù)處理控制等。這是項(xiàng)復(fù)雜的工作,科研資助方、科研組織部門、期刊、出版商、資源庫及數(shù)據(jù)中心在其中可能都存在利益關(guān)系并扮演一定的角色。但是科學(xué)數(shù)據(jù)的創(chuàng)建者和使用者由于幾乎不參與在呈現(xiàn)給用戶前的最終樣式的科學(xué)數(shù)據(jù)的重構(gòu)工作,因此往往不清楚已經(jīng)進(jìn)行了哪些數(shù)據(jù)操作,還要做什么,以及由誰做。同時(shí),質(zhì)量評(píng)估專家對(duì)不明確的數(shù)據(jù)審查工作又常常不感興趣,不愿參與,更加劇了數(shù)據(jù)質(zhì)量評(píng)價(jià)工作的難度。因此,有必要形成一套評(píng)價(jià)專家能夠有效審查數(shù)據(jù),出版者能夠通過規(guī)范算法進(jìn)行數(shù)據(jù)自動(dòng)驗(yàn)證的機(jī)制。數(shù)據(jù)描述控制機(jī)制也是實(shí)施可重用原則支撐設(shè)施的重要內(nèi)容。近年來國際上出現(xiàn)了一些數(shù)據(jù)描述控制或數(shù)據(jù)認(rèn)證的標(biāo)準(zhǔn)、程序,并且也已經(jīng)被一些機(jī)構(gòu)知識(shí)庫采用,如可信賴的資源庫審核和認(rèn)證(TRAC)標(biāo)準(zhǔn)[24]、CoreTrustSeal認(rèn)證(原DSA與WDS,DSA重點(diǎn)在人文和社會(huì)科學(xué)領(lǐng)域的數(shù)字存儲(chǔ)庫,ICSU的WDS重點(diǎn)在地球和空間科學(xué))[25-26]、德國數(shù)字長期存儲(chǔ)與可訪問專家網(wǎng)(NESTOR)簽章[27]。此外,科研流程許多方面都需要大量人工干預(yù),特別是在元數(shù)據(jù)生成和其他關(guān)于數(shù)據(jù)的記錄信息方面。這些如果全部依靠人工,非常不利于科學(xué)數(shù)據(jù)的管理。使用自動(dòng)化工具可以有效降低人工干預(yù)的成本,也有助于科學(xué)數(shù)據(jù)管理好實(shí)踐、好經(jīng)驗(yàn)的推廣。自動(dòng)化工具在某些方面比人工更具穩(wěn)定性、精確性、工作持久性,一定程度也能保證數(shù)據(jù)對(duì)象的質(zhì)量。
4.3重視軟件編程類數(shù)據(jù)的重用
軟件和編程程序伴隨科學(xué)數(shù)據(jù)生命周期全過程,數(shù)據(jù)用戶想要有效的重復(fù)利用數(shù)據(jù)或驗(yàn)證基于這些數(shù)據(jù)獲得的研究成果,就必須要使用與產(chǎn)生這些數(shù)據(jù)相關(guān)的軟件和編程。作為數(shù)據(jù)重用的重要保障,雖然科研軟件與科學(xué)數(shù)據(jù)之間的關(guān)系可能比數(shù)據(jù)本身的質(zhì)量都重要,但FAIR原則好像并不適用于軟件或編程這類數(shù)據(jù)對(duì)象,特別在互操作、重用方面。軟件問題在FAIR原則中似乎完全沒有涉及。一些項(xiàng)目已經(jīng)注意到該問題,如DataCite提倡在分配DOIs時(shí)包含軟件技術(shù)信息[8],F(xiàn)ORCE11的“軟件引用原則”[28]也響應(yīng)了該問題。軟件管理計(jì)劃是科學(xué)數(shù)據(jù)管理重要內(nèi)容。制定軟件管理計(jì)劃,能夠促進(jìn)科研人員審視其軟件、編程的組織方式、出版方式,進(jìn)而提升科研軟件、編程程序的重用效果。數(shù)據(jù)管理政策或服務(wù)規(guī)定對(duì)科學(xué)數(shù)據(jù)的開放共享有重要的影響,如果將軟件管理計(jì)劃納入數(shù)據(jù)管理政策或數(shù)據(jù)服務(wù)規(guī)定使其制度化,有助于提升科研人員對(duì)軟件與編程問題的重視。此外,軟件、編程程序在其運(yùn)用項(xiàng)目結(jié)束后,面對(duì)數(shù)據(jù)用戶的重用時(shí)可能要被作為一類數(shù)據(jù)對(duì)象進(jìn)行重構(gòu)操作,以確保軟件程序和科學(xué)數(shù)據(jù)的可重用。重構(gòu)方法通常有模擬環(huán)境仿真與軟件格式遷移[29]。這兩種重構(gòu)方法都要求操作者具備相當(dāng)程度的軟件編程知識(shí),才有能力按照可重用原則要求,對(duì)作為數(shù)據(jù)對(duì)象的軟件數(shù)據(jù)“以多種準(zhǔn)確且相關(guān)的屬性進(jìn)行描述”(R1子原則)。顯然,這里又涉及責(zé)任歸屬問題。這些編程專家似乎應(yīng)是專業(yè)領(lǐng)域內(nèi)的科研人員,但是專業(yè)科研人員通常對(duì)編程工作的重要性認(rèn)識(shí)不夠,且讓他們從事不熟悉的編程工作將無法保障其專業(yè)發(fā)展。因此,對(duì)軟件編程類數(shù)據(jù)落實(shí)可重用原則,要解決軟件編程專家問題。
5結(jié)語
FAIR原則已成為科學(xué)數(shù)據(jù)管理的國際性準(zhǔn)則,分析該原則在科學(xué)數(shù)據(jù)管理活動(dòng)中貫徹實(shí)施的注意問題,有助于我國科學(xué)數(shù)據(jù)管理工作發(fā)展。當(dāng)前,科學(xué)數(shù)據(jù)的識(shí)別發(fā)現(xiàn)機(jī)制普遍不完善,在個(gè)別主題領(lǐng)域僅能通過特定專家才能有效運(yùn)作。元數(shù)據(jù)標(biāo)準(zhǔn)不一,質(zhì)量參差不齊,特別是處于開放網(wǎng)絡(luò)空間的科學(xué)數(shù)據(jù)還沒能形成普遍性的有效檢索機(jī)制。使用元數(shù)據(jù)工具可以降低人工成本,提升元數(shù)據(jù)生成效率,但目前通用性的元數(shù)據(jù)工具少且不成熟。在數(shù)據(jù)管理工作流程許多方面都涉及人工干預(yù),開發(fā)普遍性的工具,提升工作流程自動(dòng)化程度,能減少人工操作帶來的不利影響。除個(gè)別領(lǐng)域外,目前對(duì)科研過程不同階段的科學(xué)數(shù)據(jù)的篩選、存儲(chǔ)、長期保存、訪問等操作形式不一,對(duì)存儲(chǔ)對(duì)象選擇、存儲(chǔ)地點(diǎn)、存儲(chǔ)時(shí)間節(jié)點(diǎn)、存儲(chǔ)方式等沒有形成標(biāo)準(zhǔn)。科研人員對(duì)科研記錄管理的核心要求普遍認(rèn)識(shí)不夠。安全問題上,安全防范工作的緊迫形勢(shì)與科學(xué)數(shù)據(jù)的開放訪問、共享利用理念會(huì)形成沖突。技術(shù)、資助體系、政策制度等因素的差異,使系統(tǒng)間互操作的協(xié)調(diào)工作變得復(fù)雜。互操作要面對(duì)不同數(shù)據(jù)結(jié)構(gòu)和格式的處理問題,要解決不同標(biāo)準(zhǔn)間的重疊和矛盾問題,要處理系統(tǒng)與接口程序間的互操作性問題。特別是在綜合性數(shù)據(jù)系統(tǒng)與特定領(lǐng)域數(shù)據(jù)系統(tǒng)間,問題變得更復(fù)雜。數(shù)據(jù)可重用要求對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化描述或重構(gòu),并且要明確定義保證數(shù)據(jù)符合基本質(zhì)量標(biāo)準(zhǔn)的責(zé)任,以便追溯數(shù)據(jù)的重構(gòu)歷史。確定數(shù)據(jù)重構(gòu)工作的責(zé)任主體則需要考慮各方利益。
作者:張紅亮 單位:河南護(hù)理職業(yè)學(xué)院