Papers/On building a diabetes centric knowledge base via mining the web のバックアップ(No.8)


目的

糖尿病に関する知識ベース (DKB) の作成

手法

  • 収集:医療に関する vertical portals から抽出
    • 半構造化データ部分を構造化(ナビゲーションページ、インフォボックス、テーブル、リスト)
  • クラス定義:手動(vertical portals から重要なものを採用)
  • トリプルを垂直分割しいくつかの2カラムテーブルに
    • Scalable Semantic Web Data Management Using Vertical Partitioning
    • トリプルSVOの集合に対し、VごとにSOのテーブルを作成
    • テーブルを『クラス―インスタンス関係』と『インスタンス―インスタンス関係』の2つにグループ分け
  • D2R (Database to RDF) でKB中のデータグラフ\( G_d \)に変換
    • portalごとに独立したKBが得られる
  • instance matching を利用してKBを統合
    • インスタンスにクラス『病気』やクラス『症状』を付与する際に不一致が出る
      • インスタンスに付与すべきクラスを確率スコアで処理
      • ICD10をゴールドスタンダードとして利用
      • 同じラベルを持つインスタンスで多数決をとる
    • インスタンス同士の結合は標準最新を利用
      1. engineering of similarity features
      2. 候補選択
      3. 類似度計算
      4. 類似度集約
      5. 類似度から対応を導出
  • EM(Expectation-Maximization)アルゴリズムを用いて糖尿病に関するグラフを抽出
    • 初手:糖尿病に関連性の高い中心ノード集合を手動で選択し、\( v_c^{(1)} \)とする。
    • 期待値計算ステップ:\( t \)回目の繰り返し計算で、中心ノード集合\( v_c^{(t)} \)に隣接するノード集合\( v_k^{(t)} \)を選択。このとき全体のグラフ\( G_d \)の部分グラフ\( G_k^{(t)} \)のノード集合は\( v_k^{(t)} \cup v_c^{(t)} \)となる。
    • 最大化ステップ:
      1. グラフ\( G_k^{(t)} \)のノード\( v_i \)について、固有ベクトル中心性スコア (eigenvector centrality score) \( c(v_i) \)を与える。
        (重要なノードに多くつながってるほど重視)
      2. \( G_k^{(t)} \)のノードから、閾値\( \phi_c \) 以上のノードを中心ノード集合\( v_c^{(t+1)} \)とする。