Papers/On building a diabetes centric knowledge base via mining the web のバックアップ(No.8)
- バックアップ一覧
- 差分 を表示
- 現在との差分 を表示
- 現在との差分 - Visual を表示
- ソース を表示
- Papers/On building a diabetes centric knowledge base via mining the web へ行く。
CONTENTS
目的
糖尿病に関する知識ベース (DKB) の作成
手法
- 収集:医療に関する vertical portals から抽出
- 半構造化データ部分を構造化(ナビゲーションページ、インフォボックス、テーブル、リスト)
- クラス定義:手動(vertical portals から重要なものを採用)
- トリプルを垂直分割しいくつかの2カラムテーブルに
- Scalable Semantic Web Data Management Using Vertical Partitioning
- トリプルSVOの集合に対し、VごとにSOのテーブルを作成
- テーブルを『クラス―インスタンス関係』と『インスタンス―インスタンス関係』の2つにグループ分け
- D2R (Database to RDF) でKB中のデータグラフ\( G_d \)に変換
- portalごとに独立したKBが得られる
- instance matching を利用してKBを統合
- インスタンスにクラス『病気』やクラス『症状』を付与する際に不一致が出る
- インスタンスに付与すべきクラスを確率スコアで処理
- ICD10をゴールドスタンダードとして利用
- 同じラベルを持つインスタンスで多数決をとる
- インスタンス同士の結合は標準最新を利用
- engineering of similarity features
- 候補選択
- 類似度計算
- 類似度集約
- 類似度から対応を導出
- インスタンスにクラス『病気』やクラス『症状』を付与する際に不一致が出る
- EM(Expectation-Maximization)アルゴリズムを用いて糖尿病に関するグラフを抽出
- 初手:糖尿病に関連性の高い中心ノード集合を手動で選択し、\( v_c^{(1)} \)とする。
- 期待値計算ステップ:\( t \)回目の繰り返し計算で、中心ノード集合\( v_c^{(t)} \)に隣接するノード集合\( v_k^{(t)} \)を選択。このとき全体のグラフ\( G_d \)の部分グラフ\( G_k^{(t)} \)のノード集合は\( v_k^{(t)} \cup v_c^{(t)} \)となる。
- 最大化ステップ:
- グラフ\( G_k^{(t)} \)のノード\( v_i \)について、固有ベクトル中心性スコア (eigenvector centrality score) \( c(v_i) \)を与える。
(重要なノードに多くつながってるほど重視) - \( G_k^{(t)} \)のノードから、閾値\( \phi_c \) 以上のノードを中心ノード集合\( v_c^{(t+1)} \)とする。
- グラフ\( G_k^{(t)} \)のノード\( v_i \)について、固有ベクトル中心性スコア (eigenvector centrality score) \( c(v_i) \)を与える。