- 追加された行はこの色です。
- 削除された行はこの色です。
#CONTENTS
**目的 [#zc725443]
糖尿病に関する知識ベース (DKB) の作成
**手法 [#r42868d6]
-収集:医療に関する vertical portals から抽出
--半構造化データ部分を構造化(ナビゲーションページ、インフォボックス、テーブル、リスト)
-クラス定義:手動(vertical portals から重要なものを採用)
-トリプルを垂直分割しいくつかの2カラムテーブルに
--&size(12){'''Scalable Semantic Web Data Management Using Vertical Partitioning'''};
--トリプル(s,p,o)の集合に対し、pごとに(s,o)のテーブルを作成
--テーブルを『クラス―インスタンス関係』と『インスタンス―インスタンス関係』の2つにグループ分け
-D2R (Database to RDF) でKB中のデータグラフ&mathjax{G_d};に変換
--portalごとに独立したKBが得られる
-instance matching を利用してKBを統合
--インスタンスにクラス『病気』やクラス『症状』を付与する際に不一致が出る
---インスタンスに付与すべきクラスを確率スコアで処理
---ICD10をゴールドスタンダードとして利用
---同じラベルを持つインスタンスで多数決をとる
--インスタンス同士のマッチングは標準最新を利用
+++engineering of similarity features
+++候補選択
+++類似度計算
+++類似度集約
+++類似度から対応を導出
---参考:[[Ontology Matching:https://link.springer.com/book/10.1007%2F978-3-642-38721-0]]
-EM(Expectation-Maximization)アルゴリズムを用いて糖尿病に関するグラフを抽出
--初手:糖尿病に関連性の高い中心ノード集合を手動で選択し、&mathjax{v_c^{(1)}};とする。
--期待値計算ステップ:&mathjax{t};回目の繰り返し計算で、中心ノード集合&mathjax{v_c^{(t)}};に隣接するノード集合&mathjax{v_k^{(t)}};を選択。このとき全体のグラフ&mathjax{G_d};の部分グラフ&mathjax{G_k^{(t)}};のノード集合は&mathjax{v_k^{(t)} \cup v_c^{(t)}};となる。
--最大化ステップ:
+++グラフ&mathjax{G_k^{(t)}};のノード&mathjax{v_i};について、固有ベクトル中心性スコア (eigenvector centrality score) &mathjax{c(v_i)};を与える。&BR;(重要なノードに多くつながってるほど重視)
+++&mathjax{G_k^{(t)}};のノードから、閾値&mathjax{\phi_c}; 以上のノードを中心ノード集合&mathjax{v_c^{(t+1)}};とする。
**リンク [#ExternalLink]
-[[On building a diabetes centric knowledge base via mining the web&BR;BMC Medical Informatics and Decision Making&BR;Proceedings from the 4th China Health Information Processing Conference (CHIP 2018)&BR;Published: 09 April 2019:https://bmcmedinformdecismak.biomedcentral.com/articles/10.1186/s12911-019-0771-6]]