従来のデータ・サイロを横断してコンテンツを検索・分析し、新たな価値主導型インサイトを導き出すためのプラットフォームを構築する。

産業

技術情報

Akka Akka-http Apache Spark Cassandra GridGain (Apache Ignite)PostgreSql Quetzal Scala SOLR Spark-ML Zeppelin

はじめに

テクノロジー・スタックとアーキテクチャは、プラットフォームに求められるSLAを満たしていた。 ELSSIEは、研究論文から関連データを取得する際の手作業の労力と時間を大幅に削減します。

エルゼビアについて

エルゼビアは、科学、医療、テクノロジーの専門家のパフォーマンスを向上させる情報ソリューションを提供する世界有数のプロバイダーであり、彼らがより良い意思決定を行い、より良いケアを提供できるよう支援している。彼らは、誰もが分析を容易にし、より効率的に仕事を管理できるようにし、ブレークスルーを生み出すにより多くの時間を費やせるようにしたいと考えている。

エルゼビアは、研究者、政府、大学、医療専門家が発見をし、研究戦略を評価し、改善し、医師が正しい臨床的答えを見つけるための洞察を提供するのに役立つ製品とサービスを提供しています。彼らの目標は、人類のために知識の境界を広げることである。

エルゼビアは年間43万本の査読付き研究論文を出版している。

課題

エルゼビアの主要な顧客層は世界中の製薬会社であり、創薬は複雑なプロセスである。新薬1つの開発コストは26億ドルで、臨床開発段階にある医薬品の承認率は12％未満である。新薬候補の減少率、つまり、上市に成功するたびに新薬候補の数を増やすと、10,000分の1になることもある。

科学者は、薬理学、医学、化学、生物学に関連する知識ベースや、臨床試験、実験発表、類似候補で行われた試験などの実験データに依存している。購入するものもあれば、社内で一定期間かけて開発するものもある。科学者たちは、こうした知識ベースの検索に膨大な時間を費やしている。例えば、「ベンゼンと構造が似ていて、沸点が華氏40度以上で、リンパ腫の人に副作用のない化合物は何か」という単純な質問である。この問題では、化学、医学、薬学からの情報を組み合わせる必要がある。ジョイニング」とは、質問をあたかも人間のように理解し、異なる領域から情報を持ち寄り、それらを結合して明確な答えを提供することを意味する。

検索エンジンは、質問を理解し、それを機械可読なクエリーに解析し、データベースをクロールし、その答えが顧客の質問に答えそうな精度とともに結果をもたらすことで、あたかも人間のように反応する。そのプラットフォームがELSSIEであり、ナッシュテックがエルセイバーのために構築したものだ。

ELSSIEは、ナレッジグラフの形式で保存され、エルゼビアのサブジェクト・マター・エキスパート（SME）によって管理されている複数のソースからの情報を結びつけるプラットフォームです。 ELSSIEは、ユーザーが従来のデータサイロを越えてコンテンツを見つけ、分析し、新たな価値主導の洞察を導き出すことを可能にします。

解決策

ELSSIEの最終的な目標は、複雑な情報を科学者の手元に置き、迅速なペースで医薬品の発明を行えるようにすることである。

これを実現するためには、複数の構造化・非構造化コンテンツを取り込み、クエリ可能な構造化データとして保存し、エンティティや概念を認識することで関係を意味的に理解・生成し、保存されたデータを解釈してグラフクエリ機能を提供し、外部アプリケーションと統合するためのAPIを提供し、最終的に科学者が簡単に情報を検索できるようにする必要がある。

最終的なソリューションとしてのELSSIEには、以下のコンポーネントが含まれていた：

Ingestion Layerは、DBpediaのような構造化されたソースや、科学論文のような非構造化ソースを取り込む機能を提供する。この層で最も難しいのは、NLPを使って非構造化データから構造化された知識を構築する能力を達成することである。例えば、科学雑誌の記事には「酸素」と書かれていることがありますが、ELSSIEはこれを化学元素として認識し、適切なタグを付けます。これは、Apache SparkとStanford NLPライブラリの統合を使って構築されている。
データレイクレイヤーは、インジェストパイプラインから生成された構造化ナレッジを、apache cassandraを使用して構築された中央リポジトリに格納する。 ELSSIEの知識は、大きなグラフを構成する多数の「トリプル」で構成されている。これらのトリプルはデータレイクでステージングされ、インメモリデータベース（グリッドゲイン）にロードされる。エンタイトルメントはデータレイクのサブレイヤーであり、ナレッジのどの部分に誰がアクセスできるかをコントロールする。このアクセスメタデータ情報自体は、クエリエンジンが解釈して情報を提供できるように、トリプルとして格納される。
クエリー・レイヤーは、グラフに関する質問（SPARQLクエリー）を行い、結果を取得する方法を提供する。 SPARQLクエリを解析し、キー・バリュー・ストアから結果を引き出す方法には、多くの技術革新と研究が投入されている。 NashTechは、グラフクエリをインメモリデータベースからの等価なKVストア検索に変換するパーサーを構築した。このレイヤーは、IBMが発表した論文を活用し、コンセプトを拡張した。 NashTechはLUBM（Lehigh大学ベンチマーク）クエリを使用して性能を証明した。
Search Layerは、データレイク上で検索を実行するためのAPIを提供する。これは、グーグルのようなフリーフォーム検索と、クエリー・レイヤーが提供する決定的なクエリー機能を結びつけるもので、製品の利用を豊かにし、向上させる。検索は、MLパイプラインによって生成された知識の「クラスター」または「トピック」で供給され、検索のファセットをより意味のあるものにする。これによって科学者たちは「砂糖」を検索し、その結果を「糖尿病」や「細胞エネルギー」や「娯楽飲料」の文脈で表示することができるようになった。
機械学習（ML）レイヤーは、コンテンツをキュレートし、人間が生成した出力を検証し、アルゴリズムの精度を測定し、新しいモデルを実験し、テストし、問題を修正する方法を提供した。 MLは2つの目的のために主要なドライバーである。まず、さまざまなソースから生成されたコンテンツを取り込む。 ELSSIEのソースは、DBpediaのようなきれいに構造化されたコンテンツから、スキャンしたPDF文書まで多岐にわたる。 2つ目の機能は、検索をよりインテリジェントにすることだ。入ってくる、そして増え続けるコンテンツを理解するために、広範なNLPが導入されている。パイプラインには、いくつかのクラスタリング（Latent Direchlet）と分類（Multi class classification）アルゴリズムが実装されている。 MLレイヤーとIngestionレイヤーは密接に結びついている。

要約すると、ELSSIEプロジェクトでは、Apache Spark、Apache Hadoop、Apache Cassandra、Apache Kafka、Apache Solr、Apache grid gainを使用し、これらはすべてAWS上で構築された。動的にスケーリングされるApache SparkとHadoopクラスタ、Antlrパーサーを使ったQUERTZLの拡張、LDAとNLPを併用したテキスト中のエンティティの発見、難しい文学的意味ではなく文脈的意味の発見など、いくつかのイノベーションが達成された。