ChemAI

ChemAI Lab

机器学习与量子化学驱动的化学研究平台。

Python PyTorch RDKit v0.2.0 Apache 2.0
GitHub 仓库
项目路径

把 ChemAI Lab 放回个人材料体系

这页展示长期技术方向,适合从项目区进入,也应能快速返回主页项目区、证据墙和一页简历。

项目简介

ChemAI Lab 是一个面向计算化学与机器学习交叉方向的研究平台,目标是把数据抽象、特征工程、模型训练、可解释性分析和量子化学接口整理成统一工具链。

当前项目聚焦不对称有机催化中的手性磷酸催化体系,计划从数据基础设施逐步推进到选择性预测、机理解释和逆向分子设计。

技术栈

PyTorch 核心工具
Lightning 核心工具
RDKit 核心工具
scikit-learn 核心工具
NumPy 核心工具
Pandas 核心工具
SciPy 核心工具
loguru 核心工具
Chemprop 可选集成
DeepChem 可选集成
DScribe 可选集成
MLatom 可选集成

模块架构

12 个核心模块覆盖完整科研工作流。

data

分子数据抽象:Molecule、Dataset、FormatConverter

features

分子特征工程:描述符、特征存储、特征选择

models

模型注册、训练、调参、集成与评估

nn

神经网络模块与自定义层

pipeline

科研工作流编排与实验流程管理

qm

量子化学计算接口与几何结构处理

automl

自动超参数优化与模型搜索

evaluation

模型评估、指标计算与对比分析

xai

可解释性分析与特征重要性评估

viz

数据、模型结果和科研图表可视化

hub / pretrained

模型仓库与预训练权重管理

cli / config / utils

命令行、配置管理和通用工具

科学路线图

围绕 CPA 催化体系,从数据到模型再到设计。

1

数据基础设施

标准化数据格式、描述符库、反应条件编码和可视化工具。

阶段 1-20
2

不对称催化模型

CPA 特征描述符、选择性预测、SHAP 机制分析和多任务模型。

阶段 21-40
3

小样本学习

元学习、数据增强、主动学习和迁移学习。

阶段 41-60
4

机理驱动的可解释 AI

DFT 特征融合、反应势能面建模、因果推断和物理约束网络。

阶段 61-80
5

逆向设计

目标驱动分子生成、条件优化、自动化实验闭环和多目标优化。

阶段 81-100

开发规范

  • 代码风格Ruff + Black,目标 Python 3.11。
  • 类型检查Mypy 非严格模式。
  • 测试框架Pytest、覆盖率与基准测试插件。
  • 文档Sphinx 与 mkdocs。
  • CIGitHub Actions 自动检查。
  • 许可证Apache 2.0。