しずくぶろぐ

競技ぷろぐらみんぐしたり、なんかしたりします

R. K. の研究を読み解く プレスリリース編

あの R.K. の新作が公開されました。 この記事は門外漢も甚だしい私が読んでみた記録です。

ネタバレなしでR. K. の新作を楽しみたい方は,下に DOI を貼っておきますのでそこからお楽しみください。

A landscape of complex tandem repeats within individual human genomes | Nature Communications

プレスリリース編,英語論文編と進めていきたいと思います。 以下ネタバレ多量です。

本編 プレスリリースを読む

さすがにいきなり英語の論文を読むのはハードルが高いのでプレスリリースを読みます。プレスリリースには発表のポイント,発表の概要,発表の内容や用語解説等が載っていて,違う分野の人が読んでもわかった気になることができます。あってよかったプレスリリース。

www.k.u-tokyo.ac.jp

なおプレスリリースを読んでも分かった気になるだけで,本当は難しいことを平易な言葉で書いて無理が生じていたり,なんか言えなかったけどやってるテクいこととかいろいろあるらしいですね。今回はどうか知らないけど。

発表のポイント

発表のポイントとして以下の3点があげられています。

ヒトゲノムの中で暗黒領域と呼ばれてきたうちのひとつである縦列反復配列の組成を、日本人健常者270人のゲノムデータを分析し明らかにしました。

繰り返し単位が1種類の単一型よりは、複数の単位が混在する複合型が多く存在し、複合型は単一型に比べ塩基の変化が大きく、長さは短い傾向にあることがわかりました。

約8900個の領域では、伸長が顕著な個人ゲノムが観察され、疾患に関連する候補領域として今後重要であるといえます。


引用元: ヒトゲノムの暗黒領域を読み解く|記者発表|お知らせ|東京大学大学院新領域創成科学研究科

ヒトゲノムのなんかよくわからないところについていろいろ調べてみて,特徴がちょっとわかったので,うれしいねえってことでしょうか。用語解説に暗黒領域や縦列反復配列の説明がついていますね。Dark matterというのが暗黒領域というものらしいです。暗黒領域《ダークマター》ってちょっといいですね。メルヘン。

見てみるとゲノムという生物の情報を扱ういかにも生物情報科学*1だなあという研究ですね。競技プログラミングも嗜むR. K. の魅力も生かされていそうです。

発表概要

ポイントと概要って何が違うんだろうと思いましたが,ちょっと詳しくなっています。いわゆるアブストラクトを和訳した感じでしょうか。あとは研究室のこのメンバーで頑張ったんよって情報が足されましたね。R. K. 以外の人は知らないですが,助教・教授・先輩(?)*2とやった研究らしいです。

分析結果についても発表のポイントよりもう少し詳しく書いてあります。大きく分けるとまず以下の3つのことが分かったようです。

  1. 分析した200万か所の縦列反復配列のうち32.2万か所の領域の個人差が大きく、周辺の領域に比べると、多様性が大きいこと。

  2. リピート単位が1種類の単一型よりは、複数のリピート単位からなる複合型の縦列反復配列の方が多いこと。

  3. 複合型は単一型に比べて塩基の変化が大きいが、リピート単位は短く、全長は短い傾向にあること。

疾患は縦列反復配列の長いところに関係しているっぽいので,こうして得られた縦列反復配列の知見を活かして疾患研究に役立てていきたいねと締めくくっています。

発表内容

いよいよ,発表内容についてみてみます。背景やら,詳しい解析方法やらが増えています。

背景

2022年に一個体の半数体のヒトゲノムの解読に成功したので,これからは(一個体ではなく)集団の中での配列の個人差だったりその疾患への影響というのを調べていこうという風潮にあるらしいです。それで集団の配列を調べていったんですね。

ここで半端に科学をかじっていただけの私は引っかかっりました。ヒトゲノムの完全解読2022年。慥か2003年あたりにヒトゲノム解読できたというニュースが流れていたような気がします。あの2003年ヒトゲノム解読は嘘だったのか。

そこでヒトゲノム解読について調べました。ちょうどいいレビュー*3があったのでそれを読むと以下のような記述がありました。

完成したヒトゲノム配列は2.85 Gbp(28億5千万塩基)に及び、決定した各塩基の精度は99.99%以上、ユークロマチンの99%をカバーしたが、テロメアセントロメアとその周辺領域であるヘテロクロマチン、およびセグメント重複などの当時の技術では解読できないと判断された341ヶ所の隙間(ギャップ)があった。

ようするに2003年当時は技術的に読めないところがあったんですね。それが,なんか技術的ブレイクスルーがあって(サイエンスに載って*4 )読めるように最近なったということらしいです。賢くなりました。

そして,もとの研究に戻ると,その2003年段階ではよくわからなかった暗黒領域というのの一つが,今回の研究の対象である縦列反復配列ということですね。できるようになりたてほやほやの研究であり,新規性が分かりやすい。

研究の内容

続いて研究の内容を見ていきます。研究の内容には実験方法と結果と考察がのっています。

日本人の集団から収集された長さが1万塩基以上のDNA断片を解読した配列のデータから,今回の対象となる縦列反復配列を200万カ所分析したらしいです。プログラミングが必要そうな量ですね。

実際縦列反復配列の中でも複数の単位が混在する複合型の縦列反復配列の解析は困難だったようで,まずその手法を確立することから始めたみたいですね。

Decomposing mosaic tandem repeats accurately from long reads | Bioinformatics | Oxford Academic

この手法の確立にもR. K.が関わっていることが分かります。このようにハイインパクトな雑誌に出すのと同時に手法の方を少し専門的な雑誌に出しておくのは,よく見る光景です。

結果についてはまぁ,発表概要と同じですかね。

今後の展望

疾患の罹患者の中は縦列反復配列は顕著に長くなることがあるということと絡めて,今後の展望を語っています。 欧州の罹患者の長い縦列反復配列よりも日本の健常者の方が長くなる傾向があり民族毎に違う可能性があるのは,今後の調査が面倒くさそうな感じがしますね。

研究助成

国立研究開発法人日本医療研究開発機構「ゲノム医療実現バイオバンク利活用プログラム、ゲノム医療実現推進プラットフォーム・先端ゲノム研究開発、研究課題名ヒトゲノム De Novo 情報解析テクノロジーの創出(課題番号:23tm0424219h0003)」の支援により実施されたそうです。

ここで調べると成果がどういう位置づけなのかわかるってことですね。 検索トップ | AMEDfind

あとがき

知らない分野すぎたのでプレスリリースを読むのでいっぱいいっぱいでした。一区切りとさせてください。 この記事は,出てすぐに書き始めたのですが,途中ちょっと仕事が忙しくて放置していたら,この記事を書いている間にR. K.のMaster Thesisが完成したようです。だいぶ放置してしまった。

*1:新領域創成科学研究科ですが,研究室自体は生物情報科学科から地続きみたいです

*2:分野的に近いラボで修士卒に同姓同名の方がいらっしゃったので先輩だと思いました

*3:清水 厚志, ヒトゲノム計画とヒトゲノム完全解読, JSBi Bioinformatics Review, 2022, 3 巻, 1 号, p. 11-19, 公開日 2022/06/02, Online ISSN 2435-7022, https://doi.org/10.11234/jsbibr.2022.primer2, https://www.jstage.jst.go.jp/article/jsbibr/3/1/3_jsbibr.2022.primer2/_article/-char/ja

*4:Sergey Nurk et al. ,The complete sequence of a human genome.Science376,44-53(2022).DOI:10.1126/science.abj6987