伴隨著科技的發(fā)展,醫(yī)療行業(yè)也進(jìn)入了嶄新的智能化時(shí)代。春江水暖鴨先知,市場(chǎng)的規(guī)模動(dòng)向,直接反映行業(yè)的發(fā)展起伏。近兩年,由基因測(cè)序領(lǐng)導(dǎo)的精準(zhǔn)醫(yī)療產(chǎn)業(yè)發(fā)展迅猛,從事二代測(cè)序基因檢測(cè)的公司數(shù)目增速迅猛,其他傳統(tǒng)IVD檢測(cè)公司也開(kāi)始相繼涉足??梢钥吹?,產(chǎn)業(yè)鏈上下游的公司都從各個(gè)角度開(kāi)始切入精準(zhǔn)醫(yī)療領(lǐng)域。
人和未來(lái)生物科技有限公司(Genetalks,以下簡(jiǎn)稱“人和未來(lái)”)是業(yè)內(nèi)領(lǐng)先的生物科技公司,是一家依托基因和信息技術(shù),為健康和醫(yī)療行業(yè)提供解決方案的高科技生物公司,業(yè)務(wù)包括遺傳疾病和腫瘤篩查、精準(zhǔn)健康管理、基因和健康信息技術(shù)解決方案等。
在今年11月舉行的第11屆國(guó)際基因組學(xué)大會(huì)(ICG)——基因組云計(jì)算技術(shù)開(kāi)發(fā)者大會(huì)(GCTA)上,人和未來(lái)在“數(shù)據(jù)壓縮”和“計(jì)算加速”兩個(gè)項(xiàng)目上,獲得此次GCTA大會(huì)的冠軍。刷新世界紀(jì)錄的同時(shí),保持了最低的計(jì)算成本。之所以取得如此傲人的成績(jī),人和未來(lái)首席技術(shù)官宋卓認(rèn)為,一方面是基于人和未來(lái)多年來(lái)在基因測(cè)序領(lǐng)域所做的行業(yè)積累,另一方面就是科技進(jìn)步為人類(lèi)醫(yī)學(xué)發(fā)展帶來(lái)的福音,而此次科技助力的直接引擎,就是云計(jì)算。
“數(shù)據(jù)壓縮”與“計(jì)算加速”的項(xiàng)目意義
眾所周知,由于測(cè)序價(jià)格的降低,基因信息數(shù)據(jù)量近年來(lái)一直呈現(xiàn)遠(yuǎn)超摩爾定律的指數(shù)增長(zhǎng)?;驕y(cè)序往往產(chǎn)生大量數(shù)據(jù),對(duì)于用戶來(lái)說(shuō),如何讓大量數(shù)據(jù)快速、穩(wěn)定地上傳至云端,并在更快、成本更低地進(jìn)行并行化彈性計(jì)算,成為行業(yè)用戶普遍面臨的技術(shù)挑戰(zhàn)。
為了解決行業(yè)性的根本問(wèn)題,作為世界范圍內(nèi)權(quán)威的基因組學(xué)術(shù)大會(huì),ICG設(shè)置了云技術(shù)開(kāi)發(fā)者專(zhuān)場(chǎng),將數(shù)據(jù)的存儲(chǔ)壓縮與加速計(jì)算設(shè)置為比賽項(xiàng)目,讓行業(yè)內(nèi)的科技團(tuán)隊(duì)一起參與,提出最優(yōu)的解決方案,共同解決行業(yè)內(nèi)的根本問(wèn)題。
宋卓介紹,此次比賽共有全球300多家IT機(jī)構(gòu)和團(tuán)隊(duì)參加,在高手云集的激烈角逐中,人和未來(lái)脫穎而出,靠的不是運(yùn)氣,而是跨學(xué)科跨領(lǐng)域的創(chuàng)新。“全基因組分析挑戰(zhàn)是生物信息信與IT團(tuán)隊(duì)協(xié)同創(chuàng)新的結(jié)果。”
BT(生物技術(shù))與IT結(jié)合達(dá)成創(chuàng)新
據(jù)了解,在計(jì)算加速項(xiàng)目上,去年已知最好的分布式計(jì)算成績(jī)是1小時(shí)50分鐘。而人和未來(lái)今年取得的成績(jī)是18分鐘,并且成本極低。用宋卓的話來(lái)說(shuō),這是一個(gè)數(shù)量級(jí)上的提升,一個(gè)質(zhì)的變化。
具體來(lái)說(shuō),人和未來(lái)采用了亞馬遜AWS上的300臺(tái)虛擬機(jī),將分析時(shí)間從單臺(tái)服務(wù)器的30個(gè)小時(shí),縮短為18分鐘,以機(jī)時(shí)費(fèi)$16的超低價(jià)格,將全基因組計(jì)算費(fèi)用帶入百元時(shí)代。通過(guò)人和未來(lái)的方案,對(duì)比單臺(tái)標(biāo)準(zhǔn)服務(wù)器,基因測(cè)序數(shù)據(jù)分析的速度提高了90倍,并可節(jié)約75%的云計(jì)算機(jī)時(shí)費(fèi)用。
當(dāng)被問(wèn)及如此低的機(jī)時(shí)費(fèi)是如何做到的?宋卓表示,通常,“快速”與“低成本”是相互矛盾的。幸運(yùn)的是,亞馬遜AWS提供了非常靈活的競(jìng)價(jià)定價(jià)方式以及相應(yīng)的特殊計(jì)算資源使用模式即AWSSPOTInstance競(jìng)價(jià)服務(wù),使人和未來(lái)有機(jī)會(huì)同時(shí)追求“快速”與“低成本”成為可能。
當(dāng)然,雖然這種被稱為SPOTInstance的競(jìng)價(jià)服務(wù),是AWS面向公眾提供的大眾服務(wù),
但并非所有團(tuán)隊(duì)都能享有該服務(wù)所帶來(lái)的紅利。原因在于,AmazonEC2競(jìng)價(jià)型實(shí)例是讓用戶能夠?qū)臻eAmazonEC2計(jì)算容量進(jìn)行競(jìng)價(jià),其定價(jià)完全由使用者出示的競(jìng)價(jià)價(jià)格來(lái)實(shí)時(shí)確定。在競(jìng)拍人少的情況下,這些機(jī)器的價(jià)格都非常低,大致是按需付費(fèi)機(jī)器價(jià)格的10%左右。但天下沒(méi)有免費(fèi)的午餐,購(gòu)買(mǎi)此類(lèi)機(jī)器的使用者必須承擔(dān)一定風(fēng)險(xiǎn)——即當(dāng)實(shí)時(shí)價(jià)格高過(guò)你所出示的最高競(jìng)拍價(jià)格后,你的機(jī)器將被收回。因此,如果要使用如此低廉價(jià)格的機(jī)器,就必須有足夠好的技術(shù)和系統(tǒng)設(shè)計(jì)來(lái)對(duì)抗機(jī)器隨時(shí)可能被收回的風(fēng)險(xiǎn)。由于這樣的風(fēng)險(xiǎn)和高技術(shù)門(mén)檻的因素存在,造成大量使用這類(lèi)機(jī)器的用戶通常并不多。
做過(guò)高性能計(jì)算的人都知道,對(duì)單個(gè)計(jì)算規(guī)模很大的計(jì)算任務(wù)進(jìn)行加速,絕不是簡(jiǎn)單的擴(kuò)充機(jī)器就能完成的,分布式系統(tǒng)的IO通信會(huì)顯著消耗系統(tǒng)性能,當(dāng)系統(tǒng)規(guī)模達(dá)到一定程度后,IO處理不好,甚至?xí)o全系統(tǒng)帶來(lái)負(fù)加速。“為了克服IO墻,我們利用自主研發(fā)的高性能數(shù)據(jù)存儲(chǔ)引擎作為基礎(chǔ)塊數(shù)據(jù)存儲(chǔ)設(shè)施,通過(guò)精細(xì)地控制數(shù)據(jù)的分發(fā)與收集,以及平衡的帶寬設(shè)計(jì),成功繞過(guò)了IO墻問(wèn)題,使得全系統(tǒng)性能在1000節(jié)點(diǎn)以內(nèi),近乎線性提升。”
另外,在數(shù)據(jù)壓縮領(lǐng)域,人和未來(lái)也做到了自己的技術(shù)創(chuàng)新。了解行業(yè)的人都知道,F(xiàn)ASTQ文件無(wú)損壓縮率的最好成績(jī)是2015年LFQZ的14%,但速度過(guò)慢不適合大數(shù)據(jù)壓縮;全基因組分析方向,利用分布式計(jì)算達(dá)到的最快紀(jì)錄是2015年Churchill系統(tǒng)的1小時(shí)50分鐘。
為了克服壓縮率難題,人和未來(lái)團(tuán)隊(duì)對(duì)壓縮編碼領(lǐng)域的幾乎所有算法和理論都進(jìn)行了系統(tǒng)地梳理和探索。“從最簡(jiǎn)單的Haffman編碼、游程編碼、LZ77到普通算數(shù)編碼、范圍編碼、高階算數(shù)編碼,還深入探索了ContextModel+算數(shù)編碼技術(shù)以及PPM模型,以及其他壓縮輔助技術(shù),如BWT、MTF等。”宋卓表示。
在研發(fā)攻堅(jiān)戰(zhàn)中,人和未來(lái)技術(shù)團(tuán)隊(duì)從大規(guī)模和高強(qiáng)度的研究中獲益良多,最終在ContextModel的預(yù)測(cè)模型上狠下功夫,通過(guò)對(duì)fastq不同數(shù)據(jù)行進(jìn)行調(diào)優(yōu),達(dá)到了極高的壓縮能力。團(tuán)隊(duì)在實(shí)現(xiàn)系統(tǒng)原型后,進(jìn)行了大量CPU體系結(jié)構(gòu)級(jí)別的性能優(yōu)化。最后,成功地實(shí)現(xiàn)了比gzip高4倍的壓縮率,壓縮時(shí)間僅僅是gzip的1/6的壓縮作品。
AWS帶來(lái)的價(jià)值
對(duì)于參與此次大賽,人和未來(lái)前期在公有云選型的時(shí)候下了一番功夫,通過(guò)對(duì)比發(fā)現(xiàn),AWS的優(yōu)勢(shì)在于資源彈性擴(kuò)展,可以提供豐富的周邊服務(wù),并且網(wǎng)絡(luò)的穩(wěn)定性強(qiáng)。所以最終決定采用AWS公有云服務(wù)來(lái)支撐本次參賽過(guò)程,這次使用的開(kāi)發(fā)平臺(tái)和最終的使用平臺(tái)都是在AWS上完成。
人和未來(lái)采用了AWSEC2計(jì)算節(jié)點(diǎn)與S3存儲(chǔ)等基礎(chǔ)設(shè)施,并在其上對(duì)其功能進(jìn)行優(yōu)化,由優(yōu)秀的IO平衡設(shè)計(jì)來(lái)彌補(bǔ)云計(jì)算節(jié)點(diǎn)間的通信延遲與寬帶劣勢(shì)。“我們?cè)贏WS上又構(gòu)建了自己的數(shù)據(jù)存儲(chǔ)體系,以及所有這些任務(wù)的調(diào)度、數(shù)據(jù)分發(fā)和收集,這是我們自主開(kāi)發(fā)的專(zhuān)利技術(shù)。別的團(tuán)隊(duì)可能也會(huì)采用AWS服務(wù),但是由于我們的強(qiáng)項(xiàng)是在于將對(duì)生物信息的理解融入云計(jì)算中,在架構(gòu)設(shè)計(jì)上做到了創(chuàng)新,從而贏得比賽。”宋卓表示。
實(shí)際上,人和未來(lái)早在兩年前就開(kāi)始在此領(lǐng)域做投入。在做這件事情的過(guò)程中,也獲得了很多AWS的支持。宋卓認(rèn)為,首先AWS有很好的技術(shù)支持,一些簡(jiǎn)單的問(wèn)題,通過(guò)技術(shù)文檔都能夠找到相應(yīng)的解決方案和答案。但隨著系統(tǒng)規(guī)模在以不同數(shù)量級(jí)提升時(shí),每上一個(gè)層次,都會(huì)遇到一些特定系統(tǒng)規(guī)模才會(huì)觸發(fā)的各種問(wèn)題。在此過(guò)程中,AWS都給人和未來(lái)提供了有效的支持。“所以,取得這樣的成績(jī),跟平臺(tái)本身也是密切相關(guān)的。盡管我們的技術(shù)解決方案不依賴于云平臺(tái),但用戶如果想達(dá)到跟我們完全同等的效果,仍然需要使用AWS云平臺(tái)?,F(xiàn)階段,人和未來(lái)正在積極尋求數(shù)據(jù)壓縮和高性能計(jì)算方向的合作伙伴,希望通過(guò)技術(shù)創(chuàng)新,為用戶帶來(lái)更多實(shí)際價(jià)值。”宋卓介紹。
標(biāo)簽:
相關(guān)資訊