YAGO43kETはYAGOtaxonomyを使ってTypeを抽出
そもそもYAGOとは何かについて見ていく。
https://suchanek.name/work/publications/www2007.pdf
最初に発表された論文は上記の論文である。
YAGOは、軽量で拡張可能なオントロジーであり、高いカバレッジと品質を備えているは実体と関係に基づいて構築されている。コレにはIs-A階層と、エンティティ階層とエンティティ間の非分類的関係hasWonPriceが含まれている。実体はWikipediaから自動的に抽出され、Word Netに統一される。この論文で、説明されているルールベースとヒューリスティックな手法を慎重に組み合わせて設計されている。この結果得られた知識ベースはWordNetを大きく超える。
この論文での貢献としてWikipediaから直接情報抽出を行うのではなく、Wikipediaのカテゴリページを利用している。カテゴリページとは、特定のカテゴリに属する記事のリストのことを示す。例えば、Zidaneはフランスのサッカー選手4というカテゴリに属している。コレらのリストは、実体の候補(ここではZidane)、概念の候補(IsA(Zidane, FootballPlayer))、関係の候補(isCitizenOf(Zidane, France))を与える。
オントロジーでは、概念は有用であるため分類学的に整理されていなければならない。Wikipediaのカテゴリは確かに階層化されているが、この階層はオントロジーとしてはほとんど役に立たない。例えば、ジダンは「フランスのサッカー」というスーパーカテゴリに属しているが、ジダンはサッカー選手であってサッカーボールではない。コレに対してWordNetでは、何千もの概念を注意深く食い立てた階層を提供している。しかし、Wikipediaの概念はWordNetの中で明らかな対応するものがない。この論文では、WikipediaとWordNetを完璧な制度で結びつける新しい技術を提案している。このアプローチにより、Wikipediaの膨大な情報を利用しながら、WordNetの分類法を利用することができるようになった。
この論文で抽出したオントロジーデータに対応し、将来の拡張にも対応するためにYAGOでは徹底的かつ表現力のあるデータモデルに基づく必要があった。このモデルは、実体、実体間の関係、および関係の特性を表現できるものでなければならない。知識表現における最新の定式化はOntology Language OWLである。OWLの基本であるRDFSは実体間の関係を表現でき、同時に決定可能である。OWLやRDFSと同様にYAGOモデルでは全てのオブジェクトは実態として表現される。例えば、Albert Einsteinがノーベル賞を受賞した場合、Albert EinsteinはNobel Prizeという実態とhasWonPrizeという関係を結ぶという。
この場合次のように記述される