説明

マイクロアレイデータの解析法

【課題】 GeneOntologyはBiological Process, Molecular Function, Cellular componentという3つの異なる概念により機能注釈が付けられているが、互いの関連性を見出すような機能解釈は行われていなかった。
【解決手段】 複数のマイクロアレイ実験による複数の遺伝子リストの発現パターンとGeneOntologyデータを入力させるステップと,ある特定の実験に用いられたマイクロアレイに搭載される遺伝子が持つGeneOntologyの機能注釈による階層構造を作成するステップと,実験条件に依存した任意の遺伝子の指定をさせるステップと,指定された前記任意の遺伝子を抽出するステップと,前記任意の遺伝子が持つGeneOntologyの機能注釈を入力された前記GeneOntologyデータから抽出するステップと,前記任意の遺伝子が持つGeneOntologyの機能注釈と,複数の実験条件に依存して関連し合う,他の機能注釈を抽出するステップを備える機能解析手法。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は,マイクロアレイデータの解析法に関する
【背景技術】
【0002】
マイクロアレイは数万種に上る遺伝子の発現量を一度に測定できる手法として生物学,医学薬学等の様々な分野で活用されている。しかし,網羅的な解析ができる反面,1解析あたり数万の数値データが得られるため,そのデータを整理し,解釈することが困難である。マイクロアレイから得られた実験データは主にコンピュータを用いたデータ解析法により,様々な解釈がなされる。解釈方法の1つに遺伝子の機能解析による解釈法が挙げられる。機能解析手段の1つとして特許文献1を示す。この発明では,遺伝子に付与する機能を1遺伝子につき1機能定義している。機能解析では遺伝子に付与すべき機能を1対1の関係で定義する方法と1遺伝子に複数の機能を定義する場合とがある。前者は比較的単純明快なデータが得られる事が多い反面,情報量では後者に劣る。後者は詳細な情報が得られる反面,遺伝子に対する機能の解釈が難しい。しかし,遺伝子は反応する部位や時期,環境によって様々な機能を持っている場合が多いと考えられ,1つの遺伝子には複数の機能が存在すると考える。従って,遺伝子の機能解析を行う際には1遺伝子につき複数の機能を付与した解析法が好ましい。その解析法の1つにGeneOntologyを用いた解析法が挙げられる。GeneOntologyは生物種を超えた様々な遺伝子について階層的に機能注釈を付けたデータベースである。一方,マイクロアレイから得られた実験データでは特定の実験条件において発現量が変動するような遺伝子は変動遺伝子と呼ばれ,興味の対象になる。そのような遺伝子が細胞内でどのような役割を担っているかを理解するためにGeneOntologyで機能注釈を付加することは有効な手段である。しかし,GeneOntologyの階層構造は非常に複雑であり,複雑な階層構造の中から本質的に有意な機能注釈を取得することは非常に困難である。
【0003】
【特許文献1】WO2002/025489
【発明の開示】
【発明が解決しようとする課題】
【0004】
マイクロアレイは数万種に上る遺伝子の発現量を一度に測定できる手法として生物学,医学薬学等の様々な分野で活用されている。しかし,網羅的な解析ができる反面,1解析あたり数万の数値データが得られるため,そのデータを整理し,解釈することが困難である。
【0005】
マイクロアレイデータの解析法の1つとしてGeneOntologyを用いた機能解析が使われている。GeneOntologyによるマイクロアレイデータの機能解析において複数の実験条件を同時に扱い,機能的解釈を得ようとする場合,実験条件によって興味の対象となる変動遺伝子の種類が異なってくることがある。例えば,ある化合物を投与した際の遺伝子の発現パターンの時系列的なマイクロアレイデータを扱おうとする場合,投与後1分に変動する遺伝子と1時間後に発現している遺伝子とでは種類が異なってくる。このような場合,GeneOntologyのツリー構造はそれぞれ実験条件ごとに異なるため,実験条件による機能の変化を視覚的に観察することは難しい。
【0006】
また,GeneOntologyはBiological Process, Molecular Function, Cellular componentという3つの異なった概念によって機能注釈が付けられている。現行の解析手法ではこれらの概念の内,どれかの概念について機能注釈を行っていた。3つの概念は全く異なったレイヤー上に存在するため,それらの関連性を見出すような機能解釈は行われていなかった。しかし,この3つの概念は「どこで」「何のために」「何を」行っているかを示すものであり,より詳細な機能解析のためには3つの概念の関係を解釈する必要がある。
【課題を解決するための手段】
【0007】
図1はシステムの全体図である。入力部にはGeneOntology Consortiumで提供されているGeneOntologyの定義ファイルとマイクロアレイ実験による実験データを入力する。マイクロアレイ実験データは実験対象となった各遺伝子の発現レベルを示す値とする。最も好ましいのは信号強度の対数比をとった値(一般的にlog ratioと呼ばれる値)であるが,信号強度そのものを入力してもよい。計算部での計算処理を介して,表示部では遺伝子及び機能を視覚的に訴えるグラフィックとして表示する。
【0008】
図2は計算部での計算手順を示したフローチャートである。計算部は3つに分かれる。1次計算部では膨大なマイクロアレイ実験データとGeneOntologyの機能注釈データから有意な機能情報を抽出する。2次計算部では実験条件に特異的な遺伝子を抽出する。3次計算部では実験条件に特異的な機能情報とその機能情報に関連する他の機能情報を抽出する。この3つの計算部の結果はそれぞれ表示部によって視覚的に解釈しやすい形で表示される。また,それぞれの計算部で計算された値やデータは次の計算部へ渡される。
【0009】
図3は1次計算部の詳細を示したフローチャートである。1次計算部ではGeneOntologyの階層構造を作成する。1次計算部ではまず,実験の対象となった各遺伝子に入力データであるGeneOntologyの機能情報を付加する。この際,遺伝子に付加される機能情報は必ずしも1つではない。また,入力部にはもう一方の入力データであるマイクロアレイ実験データによる各遺伝子の発現レベルの値が入力されている。従って,GeneOntologyの機能情報と任意の発現レベルの遺伝子との対応付けを行うことが可能である。例えば発現レベルがコントロール実験よりも2倍以上増える遺伝子に付与されている機能注釈を抽出することができる。1次計算部ではまず,各機能注釈のP値を計算する。機能注釈は多くの場合,複数の遺伝子に付与されている。各機能注釈が付与された遺伝子の数を用いて機能注釈のP値を計算する。P値の計算の際,母集団は実験に用いたマイクロアレイに搭載されている全遺伝子としてもよいし,実験対象生物種の全遺伝子としてもよい。一方で,いずれかの実験条件において変動した遺伝子の持つ機能注釈を用いてGeneOntologyの階層構造を作成する。そして,計算されたP値を元に,作成された階層構造上に機能注釈を実験条件ごとにマッピングしていく。有意な機能注釈が視覚的に分かりやすいように有意な機能注釈ほど色を濃くし,その機能注釈の付与された遺伝子数が多いほどツリー上のノードの大きさを大きくする。色の濃淡,ノードの大きさの閾値はサンプルの値の分散によって任意に指定する。機能注釈がマッピングされたGeneOntologyの階層構造は表示部へ,各機能注釈のP値は2次計算部へ送られる。表示部に送られたGeneOntologyの階層構造を実験条件を変更しながら連続的に観察することで,各機能注釈の実験条件ごとの変化を視覚的に捉えることができる。(図4)
図5は2次計算部の詳細を示したフローチャートである。2次計算部では主に注目したい実験条件において共通して有意な遺伝子を抽出する。2次計算部ではまず,1次計算部から送られてきたP値を用いて,機能注釈をクラスタリングする。クラスタリングには例えば階層型クラスタリングを用いる。さらに,P値を用いてヒートマップを作成する。ヒートマップの色の濃淡を決める閾値はP値の分散により任意に指定する。作成されたヒートマップは表示部へ送られる。(図8)このヒートマップを観察することで任意の注目したい機能注釈を抽出する。注目したい任意の定義はユーザーがヒートマップを観察することによって得ることができる。例えば,実験条件によってP値をクラスタリングすることで特定の実験条件に共通してP値が小さい機能注釈が抽出できる場合がある。任意の機能注釈が抽出できた場合,その機能注釈を持つ遺伝子を抽出する。さらに,抽出された遺伝子の発現レベルデータを用いて階層型クラスタリングを行い,注目した機能注釈において共通して特異的に発現レベルが変動している遺伝子を抽出する。(図10)任意の実験条件に共通して有意な機能注釈と,その機能注釈を持つ遺伝子のデータは3次計算部へ送られる。
【0010】
図6は3次計算部の詳細を示したフローチャートである。2次計算部では任意の機能注釈と遺伝子を抽出したが,より詳細な機能的解釈を得たい場合,機能注釈を単体で解釈するのではなく,機能注釈同士の関連性を捉えることが重要である。3次計算部では2次計算部で抽出された実験条件に共通して有意な機能注釈と関連性の強い,他の機能注釈を抽出する。2次計計算部から送られてきた任意の機能注釈を持つ遺伝子について再度GeneOntologyによって機能注釈を付け直す。そうすることで,それぞれの遺伝子には任意の機能注釈の他にもいくつかの機能注釈が付与される。こうして,新たに付与された機能注釈について1次計算部と同様の方法で機能注釈が付与された遺伝子の数でP値を計算する。一方で,実験対象生物種の全遺伝子,もしくは,実験に用いたマイクロアレイに搭載されている全遺伝子において同様の機能注釈を持つ遺伝子を抽出する。それらの遺伝子についても再度GeneOntologyで機能注釈を付け直し,P値を計算する。それぞれ計算されたP値を元に,1次計算部と同様に遺伝子数をノードの大きさにしP値を色の濃淡で表現し,GeneOntologyの階層構造上にマッピングする。マッピングされたこれらのデータは表示部へ送られる。(図11,図12)この2つのデータを視覚的に比較することで注目した機能注釈がどのような他の機能注釈と関連して変動するのかを示唆することができる。例えば,3次計算部から表示部に送られ表示されるGeneOntology階層構造の出力の例として図7を挙げる。図7ではA,B,C,D各4つの機能注釈のノードの色が濃く実験条件特異的に変動する機能として抽出されている。しかし,機能注釈A,B,Cと機能注釈Dは直接的には全く関係の無い機能注釈である。このように,本発明ではこのように注目した機能注釈が実験条件に依存して他のどのような機能注釈と関連しているのかを見出すことが可能になる。例えば,細胞内のどこに存在する遺伝子であるのか,という情報と細胞内でどのような反応を引き起こす遺伝子であるのか,という異なった概念の機能注釈情報を同時に考えることができる。
【発明の効果】
【0011】
本発明はマイクロアレイ実験によって得られる大量のデータを整理し,解釈する手法の1つとしてGeneOntologyを用いた機能解析を行う。本発明の表示部によって出力されるGeneOntologyのツリー構造やヒートマップは視覚的に実験条件に特異的な特徴を表示することが可能であり,注目すべき機能注釈や遺伝子の発見を促すために有効である。
【0012】
また,GeneOntologyを用いた従来の機能解析においてはGeneOntologyの複雑な階層構造を同時に扱い,実験条件ごとに同一の観点から評価することは困難であった。しかし,本発明では実験に用いた全遺伝子のGeneOntologyの階層構造を基本として,実験条件ごとに同一の構造上にマッピングすることでこれを解決した。これによって実験条件による機能注釈の変化を視覚的に観察することが可能になった。
また,従来同時に扱われることが少なかったGeneOntologyの3つの概念を合わせて,実験条件に依存して「どこで」「何のために」「何をしているのか」ということを視覚的に観察することが可能になった。例えば,細胞内のどこに存在する遺伝子であるのか,という情報と細胞内でどのような反応を引き起こす遺伝子であるのか,という異なった概念の機能注釈情報を同時に解釈できる。
【実施例1】
【0013】
糖尿病の治療に効果があるとされている化合物Cの作用機序を考察するため,マウスの肝臓由来の培養細胞を化合物Cの存在下で培養した。化合物Cの用量はそれぞれ,0μg(非投与),1μg,10μg,100μg,1000μg/mlとした。
【0014】
培養細胞からそれぞれtotalRNAを抽出し,オリゴ(dT)プライマーを用いてアニールさせ,cDNAを合成した。非投与のサンプルをcy3で標識し,化合物Cを投与したサンプルをそれぞれcy5で標識した。そして,Agilent社製のOlogoMouseMicroarray上で,cy3で標識したサンプルとcy5で標識したサンプルを競合ハイブリダイゼーションさせ,スキャナーでcy3,cy5それぞれの信号強度を測定した。測定された信号強度についてそれぞれ用量ごとにcy5/cy3の値を計算し,入力部における遺伝子発現量データとした。
【0015】
また,GeneOntology consortium(http://www.geneontology.org)では,オントロジー(概念)に基づいた遺伝子の機能分類がなされており,そのデータは公共データとして無償で配布されている。配布されているGeneOntologyの定義ファイルgene_ontology.oboを,GeneOntologyの構造を定義するためのファイルとして,入力部におけるGeneOntologyデータとした。さらに,European Bioinformatics Institute (EBI)で配布されている,マウスの遺伝子に対してGeneOntologyを用いて機能注釈を行ったデータ(GOA for Mouse)をマウスに対するGeneOntologyの機能注釈ファイルとして入力部におけるGene Ontologyデータとした。
【0016】
(1次計算部)
入力部に入力されたデータを用いて,1次計算部においてマウスの各遺伝子について機能注釈を付加した。今回は機能注釈を付与するために,一般に公開されているツールBiNGO(http://www.psb.ugent.be/cbd/papers/BiNGO)を用いた。また,各機能注釈のP値の計算もBiNGOを用いて行った。マウスの全遺伝子にそれぞれ付加されるGeneOntologyの機能注釈に対して,変動遺伝子に付加されるGeneOntologyの機能注釈が有意であるのかを判断するために,変動遺伝子に付加される機能注釈のP値を計算した。P値の計算における母集団はマウスの全ての遺伝子にした。各機能注釈について計算されたP値は2次計算部に送られる。
【0017】
一方で,入力部にて入力されたGeneOntologyの構造定義ファイルを用いて,今回の実験で用いたマウスの遺伝子についてのGeneOntologyの構造を作成し,Cytoscape (http://www.cytoscape.org/)を利用して描画した。
【0018】
Cytoscapeによって描画されたGeneOntologyの構造の上に,各GeneOntologyの機能注釈をノードとして,各機能注釈のP値が小さいもの程色が濃くなるように,また,機能注釈を持つ遺伝子の数が多い程ノードの大きさが大きくなるようにし,実験条件ごとに描画した。描画した図は表示部にて表示される。(図9)
(2次計算部)
1次計算部より送られてきた各機能注釈のP値を階層型クラスタリングした。階層型クラスタリングの結果はヒートマップとして表示部に出力される。(図8)
表示部で表示されたヒートマップを観察し,任意の傾向を持つ機能注釈を選択する。本実験では化合物Cの用量を変化させた4実験が行われたので,化合物Cの用量依存的に変化する機能注釈に注目した。用量が増えるにつれ発現量が増える遺伝子の持つ機能注釈として,Goid:0005739,0005737,0006091,0006629,0003824,0006118,0043226,0005622の機能注釈に注目した。
【0019】
次に,注目した機能注釈を持つ遺伝子を抽出した。ここではGoid:0006629 lipid metabolism を例に示す。そこで,Agilent OligoMouse Microarrayに搭載されている遺伝子から,Goid:0006629 lipid metabolismの機能注釈を持つ全ての遺伝子を抽出した。
【0020】
抽出されたGoid:0006629 lipid metabolismの機能注釈を持つ遺伝子を入力部に入力されている遺伝子発現量データを用いてクラスタリングした。クラスタリングの結果はヒートマップとして出力部に送られる。(図10)このヒートマップを観察し,任意の発現パターンを示す遺伝子群に注目する。ここでは,用量が増えるにつれ発現量が顕著に多くなる遺伝子群に注目し,そのような遺伝子を抽出した。
【0021】
ここまでで抽出された遺伝子は化合物Cの用量が増えるにつれ有意に発現量が増える遺伝子の内,化合物Cの用量が増えるにつれ影響のあるlipid metabolismの機能注釈を持つ遺伝子である。抽出された遺伝子リストは3次計算部へ送られる。
【0022】
(3次計算部)
3次計算部では注目した機能注釈と関連する他の機能注釈を抽出する。まず,2次計算部より送られてきたlipid metabolismの機能注釈を持つ遺伝子の内,化合物Cの用量が増えるにつれ発現量が増える遺伝子について再度GeneOntologyの機能注釈を付加する。そうすることでこれらの遺伝子にはlipid metabolism以外の機能注釈も付加される。付加された機能注釈については1次計算部と同様の方法でP値を計算する。この時の母集団は実験に用いたマイクロアレイに搭載されている全遺伝子とした。
【0023】
一方で,lipid metabolismの機能注釈を持つ全ての遺伝子についても同様に再度GeneOntologyの機能注釈を付加する。これらの機能注釈についても上記の方法でP値を計算した。また,付加された機能注釈を用いてGeneOntologyの階層構造を作成した。
【0024】
作成された階層構造はCytoscapeを用いて描画した。さらに,Cytoscapeによって描画されたGeneOntologyの構造の上に,上述の2つの条件で抽出された機能注釈をノードとして,各機能注釈のP値が小さいもの程色が濃くなるように描画した。(図11,図12)
図11はlipid metabolismの機能注釈を持つ全ての遺伝子について,図12はlipid metabolismの機能注釈を持つ遺伝子の内,化合物Cの用量が増えるにつれ発現量が増える遺伝子についてのGeneOntologyの構造図であるため,図11,12を同時に観察することでlipid metabolismの機能注釈を持つ遺伝子の内,化合物Cの用量が増えるにつれ発現量が増える遺伝子についての特徴的な傾向を捉えることができる。
【0025】
図11,図12を観察すると化合物Cの用量を増やすことでlipid metabolismと関連して,Acyltransferase,Mitochondrionの機能も影響される事が示唆される。このように,影響が示唆されるものについて,複数のノードをまとめて表示する等して示してもよい。Lipid metabolismはBiological Process,AcyltransferaseはMolecular Function,MitochondrionはCellular Componentという異なった概念上の機能である。本発明を利用することでこのように全く異なった概念上の機能を関連して捉えることが可能になる。
【0026】
既知の情報としてlecthin-cholesterol acyltransferase(LCAT)というacyltransferase活性を持つ遺伝子の活性が低下することが糖尿病の要因の1つとして考えられている。また,この活性を持つ遺伝子は肝臓への分布が他に比べ圧倒的に多いことも知られている。脂質の代謝能力が低下することもまた,糖尿病の要因の1つと考えられている。これらの情報を踏まえると,化合物Cを投与することで,Acyltransferase活性が上昇し,mitochondriaでの脂質代謝能が上昇する事が示唆される。
【図面の簡単な説明】
【0027】
【図1】本発明の解析システム全体図である。
【図2】本発明の解析システム計算部のシステム図である。
【図3】本発明の解析システム1次計算部のフローチャートである。
【図4】本発明の解析システム1次計算部から表示部に送られるGeneOntologyの階層構造図である。実験条件ご異なっていても同じ階層構造上に表示することが可能であり,実験条件を切り替えることで変化を観察できる。
【図5】本発明の解析システム2次計算部のフローチャートである。
【図6】本発明の解析システム3次計算部のフローチャートである。
【図7】表示部で3次計算部から送られるデータによって作成される出力の模式図である。
【図8】実施例の2次計算部から表示部に送られた,各機能注釈のP値を階層型クラスタリングしたヒートマップである。右に記載した機能を任意の機能とした
【図9】実施例の1次計算部から表示部に送られた,ある実験条件によるGeneOntologyの構造図である。各ノードはGeneOntologyの機能注釈を示し,P値が小さいものほど色が濃く,遺伝子数が多い程大きく表示される。
【図10】実施例の2次計算部から表示部に送られたGoid:0006629 lipid metabolismの機能注釈を持つ遺伝子をクラスタリングしたヒートマップである。括弧で括った遺伝子を任意の遺伝子とした。
【図11】実施例の3次計算部から表示部に送られた,lipid metabolismの機能注釈を持つ遺伝子の持つ機能注釈をGeneOntologyの階層構造上に描画した図である。
【図12】実施例の3次計算部から表示部に送られた,lipid metabolismの機能注釈を持つ遺伝子の内,化合物Cの用量が増えるにつれ発現量が増える遺伝子の持つ機能注釈をGeneOntologyの階層構造上に描画した図である。丸で囲んだ部分がlipid metabolismと関連して影響を受ける機能である。

【特許請求の範囲】
【請求項1】
複数のマイクロアレイ実験による複数の遺伝子リストの発現パターンとGeneOntologyデータを入力させるステップと,
ある特定の実験に用いられたマイクロアレイに搭載される遺伝子が持つGeneOntologyの機能注釈による階層構造を作成するステップと,
実験条件に依存した任意の遺伝子の指定をさせるステップと,
指定された前記任意の遺伝子を抽出するステップと,
前記任意の遺伝子が持つGeneOntologyの機能注釈を入力された前記GeneOntologyデータから抽出するステップと,
前記任意の遺伝子が持つGeneOntologyの機能注釈と,複数の実験条件に依存して関連し合う,他の機能注釈を抽出するステップを備える機能解析手法。
【請求項2】
請求項1の機能解析手法において,複数の実験条件に特徴的な機能注釈を,その機能注釈の有意性を示すP値によってクラスタリングするステップと,
前記クラスタリングされた前記機能注釈についてヒートマップを表示することを特徴とする機能解析手法。
【請求項3】
請求項2に記載の解析手法において,各機能注釈の有意性を示すP値の計算方法について母集団を実験対象生物種の全遺伝子,または実験に用いたマイクロアレイに搭載されている全遺伝子として計算することを特徴とする機能解析手法。
【請求項4】
請求項1の機能解析手法において,実験条件特異的な機能を選択させるステップと,前記機能を持つ遺伝子に再度GeneOntologyの機能を付加し直すことで,前記選択した機能が実験条件特異的に関連する他の機能を抽出することを特徴とする機能解析手法。
【請求項5】
請求項4に記載の解析手法の表示方法について,GeneOntologyで異なったオントロジーによって定義されている機能注釈を1つのGeneOntologyの階層構造上に同時にマッピングすることでGeneOntologyによって異なったオントロジーで定義された機能間の関係性を視覚的に観察する表示方法。
【請求項6】
請求項1の解析手法において,GeneOntologyの階層構造を作成する際に,異なった実験条件由来の遺伝子リストのGeneOntologyによる機能注釈を,同一のGeneOntology構造上にマッピングし,それを実験条件ごとに切り替えて実験条件による機能の変化を観察する表示方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図9】
image rotate

【図11】
image rotate

【図12】
image rotate

【図8】
image rotate

【図10】
image rotate


【公開番号】特開2008−152405(P2008−152405A)
【公開日】平成20年7月3日(2008.7.3)
【国際特許分類】
【出願番号】特願2006−337741(P2006−337741)
【出願日】平成18年12月15日(2006.12.15)
【出願人】(000005108)株式会社日立製作所 (27,607)