Papers/On building a diabetes centric knowledge base via mining the web のバックアップ(No.3)


目的

糖尿病に関する知識ベース (DKB) の作成

手法

  • 収集:医療に関する vertical portals から抽出
    • 半構造化データ部分を構造化(ナビゲーションページ、インフォボックス、テーブル、リスト)
  • クラス定義:手動(vertical portals から重要なものを採用)
  • トリプルを垂直分割しいくつかの2カラムテーブルに
    • Scalable Semantic Web Data Management Using Vertical Partitioning
    • トリプルSVOの集合に対し、VごとにSOのテーブルを作成
    • テーブルを『クラス―インスタンス関係』と『インスタンス―インスタンス関係』の2つにグループ分け
  • D2R (Database to RDF) でKB中のデータグラフ\( G_d \)に変換
    • portalごとに独立したKBが得られる
  • instance matching を利用してKBを統合
    • インスタンスにクラス『病気』やクラス『症状』を付与する際に不一致が出る
      • インスタンスに付与すべきクラスを確率スコアで処理
      • ICD10をゴールドスタンダードとして利用
      • 同じラベルを持つインスタンスで多数決をとる
    • インスタンス同士の結合は標準最新を利用
      1. engineering of similarity features
      2. 候補選択
      3. 類似度計算
      4. 類似度集約
      5. 類似度から対応を導出
  • EM(Expectation-Maximization)アルゴリズムを用いて糖尿病に関するグラフを抽出