能夠識(shí)別基因突變，谷歌AI工具這么厲害？-AET-電子技術(shù)應(yīng)用

能夠識(shí)別基因突變，谷歌AI工具這么厲害？

日期： 2017-12-11

關(guān)鍵詞： 軟件谷歌 DNA

　　如果你曾經(jīng)看過(guò)《犯罪現(xiàn)場(chǎng)》這樣的罪案劇，你可能會(huì)想起一個(gè)場(chǎng)景：法醫(yī)通過(guò)電腦對(duì)數(shù)千個(gè)DNA片段進(jìn)行搜索，從而匹配出犯罪現(xiàn)場(chǎng)和犯罪嫌疑人。雖然這個(gè)過(guò)程在現(xiàn)實(shí)生活并不像電視劇那樣，但是主要思路是一樣的。遺傳學(xué)本質(zhì)上是一門(mén)比較科學(xué)。無(wú)論你是想確認(rèn)一名嫌疑犯、一種基因疾病還是一名失散已久的親屬，都需要將一個(gè)基因組與另一個(gè)基因組進(jìn)行比較，從而在數(shù)十億個(gè)DNA中發(fā)現(xiàn)相似和不同。

　　雖然確認(rèn)失蹤人員或者犯罪嫌疑人的過(guò)程通常只會(huì)涉及到一個(gè)人的幾個(gè)遺傳片段，但是像識(shí)別某種疾病的基因變異這樣的問(wèn)題，往往需要大量的數(shù)據(jù)處理。盡管目前很多前沿的研究都是為了幫助科學(xué)家們做到這一點(diǎn)，但對(duì)所有這些數(shù)據(jù)都做到充分的定義還面臨著巨大的挑戰(zhàn)。這也正是人工智能所要解決的問(wèn)題。

　　本周，谷歌推出了一款名為DeepVariant的程序，可以通過(guò)深度學(xué)習(xí)來(lái)拼湊一個(gè)人的基因組并且更準(zhǔn)確地識(shí)別出DNA序列中的突變。

　　這個(gè)技術(shù)在谷歌中曾經(jīng)用來(lái)識(shí)別一張照片是貓還是狗，在這里DeepVarient利用了相同的技術(shù)解決了DNA分析領(lǐng)域的一個(gè)重要問(wèn)題。現(xiàn)代DNA測(cè)序儀可以執(zhí)行高通量測(cè)序，讀取出的不是完整的DNA序列，而是重疊的短片段。然后將這些片段與另一個(gè)基因組進(jìn)行比較，從而將它們拼湊在一起，進(jìn)行變異識(shí)別。但是這項(xiàng)技術(shù)很容易出錯(cuò)，科學(xué)家也很難排查出這些錯(cuò)誤以及小突變。這些小突變非常重要。它們可以提供重要的見(jiàn)解，比如說(shuō)，疾病的根本原因。區(qū)分哪些堿基對(duì)是錯(cuò)誤的，哪些是正確的，這被稱為“變量調(diào)用”。

　　其實(shí)已經(jīng)有一些工具可以幫助科學(xué)家做到這一點(diǎn)。最廣泛使用的是GATK，這是一種人工設(shè)計(jì)的算法，可以將統(tǒng)計(jì)數(shù)據(jù)應(yīng)用到測(cè)序機(jī)器最常出錯(cuò)的地方。然而，DeepVariant利用神經(jīng)網(wǎng)絡(luò)技術(shù)來(lái)構(gòu)建比以往任何技術(shù)都更精確的程序。去年，這項(xiàng)技術(shù)在FDA大賽中獲得了第一名。

　　神經(jīng)網(wǎng)絡(luò)之所以如此命名，是因?yàn)樗鼈兊墓ぷ鞣绞接悬c(diǎn)類似于神經(jīng)元在大腦中的方式。每一層網(wǎng)絡(luò)都逐級(jí)處理著更為復(fù)雜的工作。為了利用圖像識(shí)別技術(shù)來(lái)建立一個(gè)精確的DNA序列，谷歌團(tuán)隊(duì)將DNA測(cè)序數(shù)據(jù)轉(zhuǎn)化為了一個(gè)圖像。例如，構(gòu)成遺傳密碼的As、Ts、c和Gs，就會(huì)以紅色的形式出現(xiàn)。研究人員隨后對(duì)數(shù)百萬(wàn)份基因組測(cè)序和高通量讀取技術(shù)進(jìn)行了研究，并教會(huì)了這個(gè)程序哪些東西更重要，哪些可以忽略。

　　由此產(chǎn)生的算法可以比以往任何系統(tǒng)都更準(zhǔn)確地對(duì)錯(cuò)誤進(jìn)行排查。最初，這些圖像僅由三種顏色組成，或三層數(shù)據(jù)。不過(guò)，本周發(fā)布的最新版本包含了7種，使其可以更加精確地表達(dá)。這個(gè)程序目前是作為開(kāi)源軟件發(fā)布的，外部研究人員可以使用以及繼續(xù)進(jìn)行程序強(qiáng)化。

　　DeepVariant絕不是100%準(zhǔn)確的。但它的成功代表了機(jī)器學(xué)習(xí)對(duì)基因?qū)W的影響。基因組數(shù)據(jù)的規(guī)模和復(fù)雜性是巨大的。機(jī)器可能正是我們需要弄明白的東西。

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題，請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：[email protected]。

能夠識(shí)別基因突變，谷歌AI工具這么厲害？

日期： 2017-12-11

相關(guān)內(nèi)容