Papers/On building a diabetes centric knowledge base via mining the web のバックアップ(No.2)

糖尿病に関する知識ベース (DKB) の作成

収集：医療に関する vertical portals から抽出
- 半構造化データ部分を構造化（ナビゲーションページ、インフォボックス、テーブル、リスト）
クラス定義：手動（vertical portals から重要なものを採用）
トリプルを垂直分割しいくつかの2カラムテーブルに
- Scalable Semantic Web Data Management Using Vertical Partitioning
- トリプルSVOの集合に対し、VごとにSOのテーブルを作成
- テーブルを『クラス―インスタンス関係』と『インスタンス―インスタンス関係』の2つにグループ分け
D2R (Database to RDF) でKB中のデータグラフ\( G_d \)に変換
- portalごとに独立したKBが得られる
instance matching を利用してKBを統合
- インスタンスにクラス『病気』やクラス『症状』を付与する際に不一致が出る
  - インスタンスに付与すべきクラスを確率スコアで処理
  - ICD10をゴールドスタンダードとして利用
  - 同じラベルを持つインスタンスで多数決をとる
- インスタンス同士の結合は標準最新を利用
  1. engineering of similarity features
  2. 候補選択
  3. 類似度計算
  4. 類似度集約
  5. 類似度から対応を導出
EM（Expectation-Maximization）アルゴリズムを用いて糖尿病に関するグラフを抽出

広告