chevron_left

メインカテゴリーを選択しなおす

cancel
chem_ai
フォロー
住所
豊中市
出身
大山崎町
ブログ村参加

2016/12/25

arrow_drop_down
  • 教師あり学習と教師なし学習

    ケモインフォマティクスでは、機械学習やデータマイニングの手法がよく使われます。機械学習とは、既知のデータ(例えば、化合物と活性・物性の対応データ)をもとにコンピューターに学習器とよぶ推定アルゴリズムを構築し、未知のデータ(化合物)について予測する方法です

  • 記事紹介 化学メーカーの将来性ランキング

    化学メーカーはライバル会社が現れにくく安定した業界です。そんな化学メーカーではいったいどの会社が将来性がある会社なのでしょうか?この記事では、将来性のある会社の条件を説明し、最新のデータをもとにした将来性ランキングをつくりました。その結果、半導体、電子部

  • 新しいブログをはじめました|引越します

    新しいブログをはじめましたので、引越します。新しいブログ「けむさん」では化学全般をテーマに記事を書いていきます。こちらのブログ「化学とAI」の記事をリライトして、AI関係の記事も増やしていく予定です。

  • 機械学習の活用事例

    化学に限らず製造業で活用されている事例について情報収集した。製造業ではないものも一部含む。ひび割れ検知コンクリート等のひび割れ検知への活用事例は多数あった。画像認識技術は活用が進んでいる分野。・Canon コンクリートのひび割れ検知人と同等の精度。検知率99.5%

  • 解釈可能性

    【引用】Interpretable Machine Learning【概要】1.解釈可能性解釈可能性とは、人間がモデルを理解し、モデルの結果を予測できる程度を表す。解釈不可能なモデルは結果を得ることができるが、解釈可能なモデルは結果に加えて知識も得ることができる。2.解釈可能なモデル

  • アンサンブル学習(バギング、ブースティング、スタッキング)

    アンサンブル学習では「バイアス」と「バリアンス」という二つの概念が重要。アンサンブル学習は精度の低い情報を組み合わせて精度を上げる方法。しかし、たくさん集めるだけでは必ずしも精度を上げられるとは限らない。うまく精度が上がらない場合、この「バイアス」と「バ

  • Comparison and improvement of the predictability and interpretability with ensemble learning models in QSPR applications (Journal of Cheminformatics volume 12, Article number: 19 (2020) )

    【概要】4つのアンサンブルモデル(Random forests, extreme randomized trees, adaptive boosting and gradient boosting)の予測精度と解釈可能性を比較した。また、異なるアンサンブルモデルをブレンドすることにより、モデルの予測可能性と解釈可能性が向上した。内容NN

  • Synthesis of Lithium-ion Conducting Polymers Designed by Machine Learning-based Prediction and Screening (Chem. Lett., 2019, 48, 130)

    【概要】240種類のリチウムイオン電導性固体高分子電解質のデータベースを構築した。機械学習で解析した結果、高分子の極性を高くし、Tgを下げると導電率が高くなる傾向が見つかった。データ公開論文から人力でリチウム伝導性固体高分子電解質の最大のデータベース(240エン

  • AI-Assisted Exploration of Superionic Glass-Type Li+ Conductors with Aromatic Structures (J. Am. Chem. Soc. 2020, 142, 7, 3301–3305)

    【概要】軌道相互作用やドメイン効果など複雑な相互作用のため、分子動力学シミュレーションによりリチウムイオン伝導率を完全に計算することはできない。さらに、リチウム伝導性固体高分子電解質は可塑剤や無機材料などの添加剤を含んでおり、計算に膨大なコストが必要にな

  • 多目的設計探索によるフィラー充填ゴムの微細構造設計

    【概要】大規模動的粘弾性シミュレーションと進化計算とデータマイニングからなる多目的設計探索によって、フィラー充填ゴムのモルフォロジーと力学特性に関するゴム材料開発に役立つ情報を見出した。データ大規模動的粘弾性シミュレーションによる計算データ。フィラー半径

  • Identification of advanced spin-driven thermoelectric materials via interpretable machine learning (npj Computational Materials volume 5, Article number: 103 (2019))

    【概要】解釈可能な非線形モデル(FAB/HME)によって、特性に影響する新しい知見(特徴量)を発見した。この知見をもとに高特性のスピン駆動熱電材料を発見できた。FAB/HME はメカニズムが不明な現象の解明にも役立つ可能性がある。【モデル】一般的に機械学習のモデルは、予

  • 機械学習を活用した特許分析(野崎篤志氏の論考)

    【人工知能搭載特許ツール】(1) スクリーニング効率化・レイティング人力で評価分類した特許群をデータベースとして、未評価特許中の任意のテキストまたは文献番号から類似度判定により評価する教師あり学習手法。この分野は発展が目覚ましく、十分なレベルに到達している。

  • Predicting Materials Properties with Little Data Using Shotgun Transfer Learning (ACS Cent. Sci. 2019, 5, 1717)

    【概要】機械学習の技術は進歩しているが、材料データベースの量と多様性が不十分なために十分に活用されていない。そのため、代理モデルを構築して転移学習で材料特性のを迅速に予測することが求められている。著者らは転移学習の普及を促進するため、XenonPy と呼ばれる事

  • Exploring diamond-like lattice thermal conductivity crystals via feature-based transfer learning (arXiv:1909.11234)

    【概要】代理指標で事前学習したモデルを転移学習することで、データの少ない熱伝導率の予測をした。データ結晶の熱伝導率(λ) 45代理指標:散乱位相空間(Scattering Phase. Space, SPS)の計算値 320説明変数XenonPy の構成記述子 290目的変数λモデルSPS を NN で事

  • A machine-learning-assisted study of the permeability of small drug-like molecules across lipid membranes (Phys. Chem. Chem. Phys., 2020, 22, 19687.)

    【概要】脂質膜を透過する低分子化合物の特徴を明らかにすることは、創薬の分野で重要。膜透過の実験的な測定やMDシミュレーションはどちらも高コストでHTSに向かない。データ公開論文データ。計 770231 分子。説明変数部分構造ベースの分子記述子と、Morgan フィンガープリ

  • 機械学習によるブロック共重合体の物性推算 (Tosoh research & technology review 62(99), 43-49, 2018)

    【概要】ポリマーの体積弾性率とずり弾性率を予測した。本研究ではシミュレーション結果を機械学習で予測している。これは、条件がそろった良質な多量のデータが入手困難なため。一見無意味にも見えるが、負荷の高い計算による探索を高速化する目的を達成できる。データ280個

  • 遺伝的アルゴリズム, GA (genetic algorithm)

    【概要】遺伝的アルゴリズムとは、近似解を探索するメタヒューリスティックアルゴリズムのひとつである。データ(解の候補)を遺伝子で表現した「個体」を複数用意し、適応度の高い個体を優先的に選択して交叉・突然変異などの操作を繰り返しながら解を探索する。適応度は適

  • メタヒューリスティクス

    【概要】メタヒューリスティクスとは、特定の問題に依存しない、汎用性の高いヒューリスティクスのこと。ヒューリスティクスとは、必ず正しい答えを導けるわけではないが、ある程度のレベルで正解に近い解を得ることができる方法のこと。材料開発分野においては、目的変数の

  • ポリマー設計のための物性推算法と逆解析手法の開発 (Journal of Computer Aided Chemistry, 2009, 10, 30-37)

    【概要】構造物性相関モデルの構築とその逆解析により、目標物性を実現するポリマーを設計する方法を提案した。データある企業において測定された、133の共重合ポリエステルの実験データ。説明変数(1) 組成モノマー種をカテゴリーとして組成比を数値としたもの。モノマー種

  • GBDT(gradient boosting decision tree)

    【概要】決定木を弱学習器とした、バギングによるアンサンブル学習の手法がランダムフォレスト。バギングはそれぞれの弱学習器を平均して結果を出す。決定木を弱学習器とした、ブースティングによるアンサンブル学習が勾配ブースティング決定木。ブースティングは前の弱学習

  • PSO (particle swarm optimization)

    【概要】粒子群最適化とは、鳥や魚などの群れに見られる社会的行動のシミュレーションを基にモデル化されたヒューリスティックな最適解探索アルゴリズム。それぞれの粒子は、グローバルベストとプライベートベストに向かうベクトルの合成方向へ、速度を調整しながら移動する

  • Machine learning enables polymer cloud-point engineering via inverse design (npj Computational Materials volume 5, Article number: 73 (2019))

    【概要】poly(2-oxazoline) の曇点を GBDT(gradient boosting decision tree) で回帰して構造物性相関を予測するモデルをつくり、PSO(perticle-swarm opitimization) で逆構造物性相関を予測した。実際にポリマーを合成して検証した。データ文献情報と、実験データ(87ポリマ

  • "Found in Translation": predicting outcomes of complex organic chemistry reactions using neural sequence-to-sequence models (Chem. Sci., 2018, 9, 6091)

    【概要】特許データを seq2seq モデルで学習して順方向の反応予測をできるシステムを作製した。Nam and Kim の方法を改良した事例。データベース・Lowe の USPTO データベース(1,808,938反応)・Jin の USPTO データベース(479,035反応)アルゴリズムseq2seq (multilayered

  • Linking the Neural Machine Translation and the Prediction of Organic Chemistry Reactions (arXiv:1612.09529)

    【概要】特許データと教科書から抽出した反応データを seq2seq モデルで学習して順方向の反応予測をできるシステムを作製した。seq2seq モデルを反応予測に応用した最初の事例(?)。歴史順方向の反応予測にはみっつのカテゴリーがある。(1) ルールベースのエキスパートシ

  • Retrosynthetic Reaction Prediction Using Neural Sequence-to-Sequence Models (ACS Cent. Sci. 2017, 3, 10, 1103–1113)

    【概要】特許データを seq2seq モデルで学習して逆合成解析できるシステムを作製した。seq2seq モデルは end to end で学習するため、ルールベースのモデルより利点がある。機械翻訳と類似の手法。特徴「目標化合物」と「反応タイプ」のふたつを指定して逆合成解析する。デー

  • RNN (Recurrent Neural Networks)

    【概要】RNNは、隠れ層が隠れ層自身に接続して、ある時点での状態を次の状態の入力値として使うことができる。この自己回帰構造のおかげで、前の情報を取り入れた時系列解析や、可変長の入力データを取り扱うことができる。一方、一般的な順伝播型ニューラルネットワークは自

  • seq2seq (sequence to sequence)

    【概要】seq2seq は、2つの RNN から構成される。ここでは対話生成を例に説明する。(1) Tokenize文章をトークンに分割し、トークン毎の ID に変換する。(2) EmbeddingID から、そのトークンを表す分散表現ベクトルに変換する。(Word2Vec 等)(3) Encoder RNNvec1 を RNN

  • 化学物質毒性評価システム Chemical Analyzer

    【概要】Chemical Analyzerは、化学物質の健康毒性及び環境毒性を評価するSaaS型プラットフォーム。特徴・9千万超の化学物質と24億の特性値を持つ毒性データベース。・大量の実験データから構築されたAIによる環境毒性・健康毒性を予測する。・毒性の低い代替化合物を提案す

  • MoleculeNet: a benchmark for molecular machine learning (Chemical Science, 2018, 9 513)

    【概要】背景機械学習による化合物の物性予測の精度は高くなってきている。一方で、各アルゴリズムはそれぞれ別のデータセットでベンチマークされているため、その優劣を評価することが困難だった。MoleculeNetはアルゴリズムの性能評価基準となることを目的に作られた。複数

  • Predicting reaction performance in C–N cross-coupling using machine learning (Science 2018, 360, 186-190)

    【概要】背景Buchwald-Hartwig 反応は有用だが、イソオキサゾールが基質の場合は収率が低かった。ハイスループット実験のデータを機械学習し、反応の阻害要因を推定した。データ実験数:4140(ArX:15種、配位子:4種、塩基:3種、イソオキサゾール:23種)目的変数:ハイス

  • Parameterization of phosphine ligands demonstrates enhancement of nickel catalysis via remote steric effects (Nature Chemistry 2017, 9, 779–784)

    【概要】※機械学習手法を使った研究ではない。線形回帰だが、パラメータの設定がメカニズムに対して適切であった事例。背景Pd触媒クロスカップリングは過去50年で非常に発展した。一方でNi触媒クロスカップリングはPd触媒ほどは顧みられてこなかった。また、Pd触媒でよく使

  • Polymer Genome: A Data-Powered Polymer Informatics Platform for Property Predictions (J. Phys. Chem. C 2018, 122, 31, 17575–17585)

    【概要】高分子の繰り返し単位をSMILESで入力すると物性予測値を返すインフォマティクスプラットフォーム。Polymer Genome以下、Polymer Genomeについて説明した論文の概要。高分子データベースの課題高分子の物性は、側鎖、分子量、多分散度、共重合、添加剤、プロセス条件

  • 再帰的特徴量削減 (Recursive Feature Elimination, RFE)

    【概要】特徴に重みを割り当てるアルゴリズム(ランダムフォレストや線形モデルなど)において、特徴量を削減して最適化する方法。全ての特徴量からモデルを構築し、重要度が最も低い特徴量を1つ取り除く。これを指定した数になるまで繰り返す方法。重要度の低い特徴量を削減

  • QM9

    【概要】GDB-17中の1660億分子の中から、CONF分子を最大9個もつ133,885分子を選択し、構造、エネルギー特性、電子特性、熱力学的特性をB3LYP / 6-31G(2df,p)レベルで計算したデータベース。No.PropertyUnitDescription1tag—‘gdb9’ string to facilitate extraction2i—Con

  • Machine-learning-assisted discovery of polymers with high thermal conductivity using a molecular design algorithm (2019, 5, Article number: 66)

    【概要】独自の機械学習の解析技術を用いて高熱伝導性高分子を設計・合成し、従来の高分子に比べて約80%の熱伝導率の向上に成功した。少数(28!)の熱伝導率データから予測モデルをつくるために、まずは大量のデータが入手可能なガラス転移点と融点でモデルをつくり、次に転

  • Design of efficient molecular organic light-emitting diodes by a high-throughput virtual screening and experimental approach (Nat. Mater., 2016, 15, 1120–1127)

    【概要】OLEDのTADF材料の開発において、構造生成 → DFT計算と機械学習を利用した絞り込み → 研究者による投票 → 合成というフローを実施した。構造発生各種条件を満たす構造を160万構造発生させた。(1) ドナー構造110種、アクセプター構造105種、ブリッジ構造7種を

  • Computer-Aided Screening of Conjugated Polymers for Organic Solar Cell: Classification by Random Forest (J. Phys. Chem. Lett. 2018, 9, 2639–2646.)

    【概要】文献から、人間が化学構造と物性値を読み取り、約1000のデータセットを作成した。このデータセットをランダムフォレストで学習し、光電変換効率(PCE)を4つに分類する分類器を作成した。データ入手方法手作業で、約500文献から約1200ポリマーのデータを抽出した。デ

  • PoLyInfo を活用した高分子インフォマティクス (CICSJ Bulletin 2019, 37, 94)

    【概要】PoLyInfo に含まれる構造、プロセス条件を用いて、精度の高い材料物性の予測モデルを構築した。PoLyinfo のデータは欠損値が多いことや、重合条件等のプロセス条件が文章で記載されていることが、データベース活用の障害になっていた。高分子材料設計のための MI を

  • データの特許性

    材料データセットおよび解析結果としての関数は、特許法の保護対象である発明に該当しない可能性が高い。(特許法2条1項)「自然法則を利用した技術思想の創作のうち高度なもの」(特許法2条4項)「電子計算機による処理の用に供する情報であってプログラムに準ずる(データ

  • 囲碁AIから逆合成解析へ 情報科学からのアプローチ(化学, 2019, 74, 36)

    【概要】背景ルールベースのアプローチから始まり、データ駆動型アプローチが出現し始めた。AlphaGo の技術を逆合成解析に応用した AlphaChem が開発された。アルゴリズム一般的な囲碁AIや AlphaGo、AlphaChem は、探索と局面評価のふたつの要素から構成される。AlphaGo は、

  • アルゴリズム選択

    アルゴリズム選択に重要なのは予測精度と解釈性(ホワイトボックス性)。ランダムフォレストは比較的どちらも満たしているといわれる。スパース性を備えたLASSOも良さそう。複数のアルゴリズムででた予測の平均をとったり(回帰)、多数決をする(分類)方法もある。(アンサ

  • Is machine learning overhyped?(C&EN)

    【引用】Is machine learning overhyped?(C&EN)【ごく概要】機械学習は過剰に期待されている?化学者は意見が割れている。Yes・機械学習は、実際的には、非線形回帰だNo・人間が見過ごすデータの傾向を発見できる創薬では以下の条件のため、機械学習を活用する動機がある。

  • Juan J. de Pablo Polymer Informatics(Macro Lett. 2017, 6, 1078-1082)

    【引用】Polymer Informatics: Opportunities and ChallengesMacro Lett. 2017, 6, 1078-1082【ごく概要】マテリアルインフォマティクス(MI)は、無機材料や低分子材料に適用されている。しかし、ポリマーでは、MIを導入する前に対処しなければならない重要な課題がある。ポ

  • Abigail G. Doyle 反応収率予測(Science, 2018, 360, 186)

    【引用】Predicting reaction performance in C–N cross-coupling using machine learningDerek T. Ahneman, Jesús G. Estrada, Shishi Lin, Spencer D. Dreher, Abigail G. DoyleScience, 2018, 360, 186【ごく概要】機械学習は自動運転など様々な分野で利用されている。

  • 医療の研究を阻む壁? 生命システムの「複雑さ」(JBPRESS)

    【引用】医療の研究を阻む壁? 生命システムの「複雑さ」(JBPRESS)【所見) 論文から得たデータは信頼性が低い? データベースの質が低くなってしまう。【ごく概要】 創薬に関する論文の再現性が低いという問題がある。 2011年にドイツの製薬会社バイエルが創薬ターゲ

  • AIで材料開発(日経エレクトロニクス)

    【引用】AIで材料開発(日経エレクトロニクス)【ごく概要】<特許>日本では化合物特許は実際に合成して見せなければ取得できないが、アメリカでは計算しただけで取得できる。日本の素材メーカーにとっては脅威。<MI受託サービス>日立製作所やMI-6はMI受託サービスを開始した

  • リリー・ペン(週刊ダイヤモンド)

    【引用】リリー・ペン(グーグルAIプロダクトマネジャー)インタビュー(週刊ダイヤモンド)【所見】化学でも同様のことが言えるのだろう。【ごく概要】(網膜画像から心血管リスクを予測することに関して)人間は大きな傾向を捉えることができるが、小さな変化の積み重ね

  • 対談 松尾豊(東京大学)x音成洋介(ハウテレビジョン)

    【引用】・既得権者が甘い蜜を吸うだけの日本AIに未来はない~“資金の補給路なし” 負け戦と認識せよ・マッキンゼーいくくらいなら、AI学んで起業せよ ~「外コン・外銀志望者もAI勉強すれば半年でトップレベルに」【抜粋】音成:それにしてもこれほど日本の社会へのAI導入

  • Marwin H. S. Segler 反応予測(Nature, 2018, 555, 604)

    【引用】Planning chemical syntheses with deep neural networks and symbolic AIMarwin H. S. Segler, Mike Preuss & Mark P. WallerNature, 2018, 555, 604【ごく概要】Reaxys中の1240万の1段階反応のうち、2組のルールを抽出した。ひとつは50回以上報告された高速ルール

  • 分子ドッキング判定

    【引用】・Machine intelligence decrypts β-lapachone as an allosteric 5-lipoxygenase inhibitor・Artificial intelligence seeks out new anticancer drugs【ごく概要】AIを用いて、β-lapachoneを腫瘍においてしばしば過剰発現する酵素の阻害剤として同定した。molecul

  • 反応収率予測 佐藤一彦(Chem. Lett. 2018, 47, 284–287)

    【引用】Machine Learning Approach for Prediction of Reaction Yield with Simulated Catalyst ParametersAkira Yada, Kenji Nagata, Yasunobu Ando, Tarojiro Matsumura, Sakina Ichinoseki, and Kazuhiko SatoChem. Lett. 2018, 47, 284–287【ごく概要】過酸化水素を用

arrow_drop_down

ブログリーダー」を活用して、chem_aiさんをフォローしませんか?

ハンドル名
chem_aiさん
ブログタイトル
化学とAI
フォロー
化学とAI

にほんブログ村 カテゴリー一覧

商用