净水技术 | 刘书明团队ES&T新成果，推动环境科学工程发展

第一作者：吴以朋

通讯作者：刘书明

通讯单位：清华大学

文章链接：https://doi.org/10.1021/acs.est.4c07216

全文概述

人工智能（AI）技术已经逐渐融入我们的日常生活和工作中。传统的判别式人工智能侧重于学习不同类别数据之间的决策边界，并已广泛应用于环境科学和工程领域，如水质预测和污染检测。然而，近年来，生成式人工智能成为了新的前沿技术，它通过学习数据分布来生成新的数据实例。例如，我们可以使用像ChatGPT等大型语言模型（LLM）进行写作、翻译和编程，或者使用DALL-E等模型，在无需任何示例图片的情况下，通过文本直接生成图像。随着技术的快速发展，生成式人工智能正在为各个学科的科学研究带来新的可能性。面对气候变化、清洁水获取和生物多样性丧失等全球可持续性挑战，生成式人工智能有望为这些彼此交织的重大可持续发展问题提供创新性的解决方案。

本研究探讨了生成式人工智能在环境科学与工程领域的现有应用、潜在前景以及所面临的阻碍（图1），旨在激发环境生成式人工智能领域的研究并推动其进一步发展。

图文导读

图1. 生成式人工智能在环境科学与工程领域中的应用现状、潜在前景及现存阻碍

生成式AI的应用现状

Part1 利用生成式AI助力提升传统判别式AI性能

由于环境质量监测数据难以获取，这为判别式AI模型的构建（如事件检测）带来了挑战。生成式AI（如生成对抗网络GANs）可以通过生成额外的训练数据（如时间序列和图像），提升对数据需求量大的判别式AI模型的性能。

例如，Liu等人利用GANs扩充声学信号，构建了管道漏水检测模型，既能节约水资源，也能防止管道破裂导致的水质污染。在此过程中，生成式AI负责生成新样本，判别式AI则评估样本的真实性。生成式AI不断优化，直至生成样本与真实数据无异，最终实现数据扩充。结果表明，生成式AI扩充的数据显著提升了判别式AI在漏水检测中的表现。这是生成式AI的重要应用之一，但其在环境领域的全部潜力尚待进一步开发。

Part2 基于大语言模型的环境领域聊天机器人

受ChatGPT等大型语言模型LLM互动能力的启发，可以构建基于环境领域的专用LLM（即聊天机器人）。这一专用LLM可以作为知识问答平台，服务于科研、教学和培训，帮助环境领域研究人员和从业者快速获取专业知识。此外，利用LLM的上下文学习能力，聊天机器人可以快速开发新功能，例如，通过分析添加标注的拉曼光谱数据，使其助力识别有机污染。不仅如此，聊天机器人还可以通过API调用工具，使用户无需编写代码便能直接通过对话调用现有的判别式AI模型或专用工具（如水力模型）。

开物GPT是环境聊天机器人的典型实例，能够提供专业回答、数据分析和代码编写。该机器人基于清华大学徐明教授发起的天工AI开源项目，专注于可持续发展领域。它采用检索增强生成（RAG）框架，以GPT-4为基础，首先从外部数据源（如可持续发展领域的论文和书籍）中检索与提示最相关的信息，然后基于这些信息生成响应。与微调基础LLM相比，RAG框架具有显著优势。它通过引入相关的外部文档，在少样本甚至零样本场景中能够生成更准确的答案。此外，RAG还支持动态更新，通过更新外部数据源，而无需改变基础LLM。

Part3 大型语言模型驱动的环境智能代理

由LLM驱动的智能代理正在快速发展。这些智能代理能够基于LLM的知识自主决策并采取行动（如通过API调用其他应用程序）。LLM能够处理多模态数据（如文本、声音和图像），使智能代理能够感知外部环境或人类指令。经过信息处理、决策、推理和规划后，智能代理可以以文本形式提供结果和反馈，或直接调用嵌入的工具。与聊天机器人不同，智能代理能够在给定任务或受到环境刺激时自主规划和自主执行。此外，LLM驱动的智能代理还可以与其他智能体互动，展示一定的社交能力。这引发了对多智能代理技术的关注，旨在模拟多个智能体之间的互动以促进知识的创造和发现。

目前，智能代理在环境领域的自主决策应用尚处于空白阶段，但已有研究者利用多智能体协作构建了环境聊天机器人。例如，Bi等人选择从零开始构建的Ocean GPT模型，专注于海洋资源开发和生态保护问题，而未采用RAG框架，其所用数据均基于海洋领域。该模型分为预训练和指令微调两个阶段。预训练阶段采用自监督学习技术，使LLM（以Llama-2为例）生成与海洋领域相关的信息。指令微调阶段则通过配对问答指令进行监督训练，以弥合LLM文本生成能力与回答领域特定问题之间的差距。

针对指令不足的问题，Bi等人采用多智能代理技术，通过每个智能代理对海洋领域数据上微调以提高其性能（一些智能代理负责丰富和完善现有指令，另一些则从训练数据集中提取新指令，还有一些通过辩论机制确保新指令的质量。）专家评估结果表明，多智能体协作生成的指令专业且多样化。这种自动指令生成方法显著减少了人力劳动，提高了专业LLM的开发效率。

生成式AI在环境科学与工程领域中的应用展望

目前，生成式AI在环境科学与工程领域的应用主要局限于生成训练数据和开发专业聊天机器人。然而，LLM的智能代理具备自主决策能力，这使它们有潜力成为环境研究人员的宝贵助手或合作伙伴。在面对复杂环境问题时，每个LLM驱动的智能代理可视为具有特定角色的个体或组织。通过这些代理之间的互动，可以模拟各种利益相关者的感知、互动和决策过程，并探讨政策或新技术采用的影响，从而简化复杂问题。

Part1 设计新型处理工艺

在全球气候变化和严重污染的背景下，设计新型废水、废气或固体废物处理工艺以减少污染和温室气体排放显得尤为重要。基于LLM的多智能代理技术可以有效模拟工程师、环境科学家和实际使用技术的利益相关者之间的互动。通过人类与LLM智能体之间的迭代互动，能够共同开发出既理论合理又实践可行的解决方案。

Part2 开发环境模型

由于环境介质的异质性和扩散过程的复杂性，使模拟污染物扩散十分困难。机械模型的构建通常复杂，且常受到对环境系统不切实际的假设或简化以及高参数不确定性的影响，从而导致模拟结果不佳。虽然数据驱动模型相对容易构建，但在数据不足时其性能较差，且缺乏可解释性。因此，基于LLM的多智能代理技术可以作为“控制中心”，自主调用分析各种机械模型或数据驱动模型，充分利用各类模型的优势。

Part3 评估环境政策

为了做出明智且负责任的决策、确保政策有效性并避免意外后果，提前评估政策至关重要。基于LLM的多智能代理技术非常适合这一任务。例如，在制定家庭节能政策时，智能代理可以利用来自不同人群的行为信息进行数据训练，从而准确模拟不同家庭之间的互动及其对政策的反馈。这为政策制定者提供了关于政策设计及其潜在影响的宝贵参考。

生成式AI在环境科学与工程领域中面临的挑战

生成式AI模型的开发正在迅速发展，许多开源模型和工具（如Llama）已经广泛可用。构建模型本身已不再是主要障碍，特别是在与计算机领域科学专家合作时，工作效率显著提升。然而，对于环境领域的研究人员来说，主要挑战在于在模型构建前获取和创建专业数据集，以及在模型开发和使用过程中确保其输出的准确性。

Part1 版权与数据隐私

确保模型准确性通常需要大量多来源的数据，但版权和数据隐私问题会直接影响可用数据的数量。首先，数据可能受版权限制，未经授权使用可能存在法律风险。其次，大型模型可能记忆训练样本，导致敏感信息无意泄露，例如，智能代理使用个人电力和水使用数据可能带来隐私风险。为解决这些问题，优先使用开源数据（如Ocean GPT项目）并尽量获得版权许可以增加训练数据量，提高模型准确性。针对数据隐私问题，可以通过数据匿名化（如预处理阶段删除个人信息）或引入控制噪声来平衡数据可用性与隐私。此外，使用输出监控工具（如GPT-4的基于规则的奖励模型）可监控和过滤敏感信息，防止隐私泄露。

Part2 训练数据集构建

环境数据复杂多样，包括手动记录、电子印刷、工程图纸、时间序列和图像。面对大量原始数据，预处理和生成高质量训练数据的挑战在于对时间、人力和财力的要求。数据预处理需去除无关信息（如页码、脚注和网址）、去重，并确保信息一致性。为确保数据质量，可能需要设计专门流程或工具，并邀请环境专家评估随机样本的准确性。此外，对于多模态输入，需要将视觉表示与语言模型的特征对齐，比如确保图像中湖面绿色涂层与“藻华”的语义紧密对应。此过程需要环境专家手动创建高质量的跨模态训练样本，如对显示和描述藻华的图像进行文本配对。

Part3 准确性保障与误用预防

生成式AI技术难免会产生不准确的结果，如果不加以限制，可能导致错误研究成果的发布与传播。为确保结果的准确性和可靠性，人类在模型开发与使用中的参与至关重要。在模型开发阶段，应建立标准化的训练数据构建流程，确保数据质量。同时，可以开发基于强化学习的专家引导模型，由环境领域的专家对LLM的回应进行评分，以提升模型的准确性。可使用如RAG技术和指令微调用于优化模型输出。同时，在模型使用过程中，应设立反馈机制，使人类能够持续评估结果的准确性，从而支持专家引导模型的进一步发展。此外，对于高风险或敏感领域（如公共福利相关的环境问题），结果应强制接受专家审查。总而言之，生成式AI应当被视为提升效率的工具，而不是替代人类研究的手段。

主要结论

本文主要介绍了生成式AI在环境科学与工程领域的应用现状、潜在优势及面临的挑战。作者详细阐述了生成式AI在数据增强、知识问答和智能决策等方面的应用潜力，并通过具体案例讨论了基于LLMs的环境聊天机器人和智能代理如何助力环保科研和政策制定。同时，文章还针对版权、隐私保护以及高质量训练数据集构建等挑战，提出了相应的解决策略。总之，生成式AI为环境科学与工程领域开辟了新的研究方向和工具支持，但其发展也面临着法律和技术等方面的挑战。

来源：NewMIT，仅供分享交流不作商业用途，版权归原作者和原作者出处。若有侵权，请联系删除。

排版：《净水技术》编辑李滨妤

审核：《净水技术》社长/执行主编阮辰旼

推荐阅读（点击标题跳转）

《净水技术》2024年活动计划

《净水技术》刊务理事会欢迎广大水务企业加盟合作

详情可咨询市场部：孙编辑 15900878214

净水技术 | 刘书明团队ES&T新成果，推动环境科学工程发展

依靠群体的力量：这家公司走出了一条不同于OpenAI的AGI路线

抢疯了，腾讯给大模型人才，定了一个前所未有的标准

扩散模型版CS: GO！世界模型+强化学习：2小时训练登顶Atari 100K

用AI自动设计智能体，数学提分25.9%，远超手工设计

14天速成LLM高手！大佬开源学习笔记，GitHub狂揽700星

第一个100%开源的MoE大模型，7B的参数，1B的推理成本

大疆前高管带6人创业，做出了类目Top1的割草机器人

字节AI版小李子一开口：黄风岭，八百里

Grok 3证明黎曼猜想，训练遭灾难性事件？数学家称不夸张，两年内AI将解出千禧年难题

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我、已读不回

上海颁发首批无人驾驶汽车车牌？系误读，该轮式装备用于无人配送

8岁小孩哥上手用AI制作游戏，全程2小时，引来50多万人围观

45分钟造出聊天机器人？8岁女孩玩转AI代码，百万网友围观这个爆火AI编程工具Cursor真的杀疯

中国005航母模型首次曝光，或将使用核动力，性能超越福特号

几行乱码让大模型获得科学思维，这个神奇的提示词突然火了

工人们偶遇落地云，纷纷跑上前查看，网友：什么环境才能这样

大神Karpathy：我给大模型「SQL注入」攻击，简直不要太轻松

疑村民在田里烧秸杆被卫星定位农管：卫星上看到了

女子一出生腿就变这样，却成了她学舞蹈的工具，强者从不抱怨环境

哈密戈壁保护与修复专项工作组赴南京环境科学研究所共商戈壁生态环境项目转化工作

净水技术 | 刘书明团队ES&T新成果，推动环境科学工程发展

依靠群体的力量：这家公司走出了一条不同于OpenAI的AGI路线

抢疯了，腾讯给大模型人才，定了一个前所未有的标准

扩散模型版CS: GO！世界模型+强化学习：2小时训练登顶Atari 100K

用AI自动设计智能体，数学提分25.9%，远超手工设计

14天速成LLM高手！大佬开源学习笔记，GitHub狂揽700星

第一个100%开源的MoE大模型，7B的参数，1B的推理成本

大疆前高管带6人创业，做出了类目Top1的割草机器人

字节AI版小李子一开口：黄风岭，八百里

Grok 3证明黎曼猜想，训练遭灾难性事件？数学家称不夸张，两年内AI将解出千禧年难题

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我、已读不回

上海颁发首批无人驾驶汽车车牌？系误读，该轮式装备用于无人配送

8岁小孩哥上手用AI制作游戏，全程2小时，引来50多万人围观

45分钟造出聊天机器人？8岁女孩玩转AI代码，百万网友围观 这个爆火AI编程工具Cursor真的杀疯

中国005航母模型首次曝光，或将使用核动力，性能超越福特号

几行乱码让大模型获得科学思维，这个神奇的提示词突然火了

工人们偶遇落地云，纷纷跑上前查看，网友：什么环境才能这样

大神Karpathy：我给大模型「SQL注入」攻击，简直不要太轻松

疑村民在田里烧秸杆被卫星定位 农管：卫星上看到了

女子一出生腿就变这样，却成了她学舞蹈的工具，强者从不抱怨环境

哈密戈壁保护与修复专项工作组赴南京环境科学研究所共商戈壁生态环境项目转化工作

45分钟造出聊天机器人？8岁女孩玩转AI代码，百万网友围观这个爆火AI编程工具Cursor真的杀疯

疑村民在田里烧秸杆被卫星定位农管：卫星上看到了