总结一个人工智能（AI）产品设计框架

资讯热点

当前位置：首页 > 行业资讯 > 总结一个人工智能（AI）产品设计框架

总结一个人工智能（AI）产品设计框架

发布时间：2023-9-10 分类：行业资讯

作者正在学习AI的入门阶段，在人工智能产品经理的道路上仍然需要学习很多知识。

前言：我是PC /移动互联网的产品经理，现在正努力转型为人工智能领域。本文总结了刚刚学到的AI产品设计框架。该框架集成了许多当前的AI知识系统。也许这个设计框架可以为想要学习AI的朋友提供一个知识框架，也就是学习AI最终必须学习的知识的框架。我希望这篇文章能给你一个好主意并向大家学习。

本文分为两个主要章节。首先，从基本概念的角度向您介绍这个产品设计框架。第二章使用一个小例子来解释如何应用框架。

简单代理

一，AI产品设计框架的基础知识

如上所示，这是本文将要解释的AI产品设计框架。左边的代理人是今天的主角，可以称之为“基于效用的学习代理人”。这个名称有三个部分，我们先解释这三个部分：

代理人：可以采取行动的事情。（第2章中的示例中解释的代理对应于可以独立播放卡的代理）。

学习代理：可以简单地理解为可以独立学习自我升级的代理。

基于效用的代理：可以简单地理解，当这样的代理选择执行动作时，它总是选择期望最大化利益的行为。

上图右侧的环境，即代理所在的环境，可以理解为代理的外部环境。此环境可以是真实环境或网络虚拟环境。

代理可以通过传感器感知环境的当前情况并通过致动器影响环境。例如，如果机器人代理使用相机或麦克风作为传感器来获取图像和声音，则机器人臂和机器腿用作执行器以执行特定操作并移动物理位置。例如，微软的聊天机器人小冰也是代理商，但环境就是网络。他使用文本输入界面作为传感器，并将回复消息作为执行器发送。

我已经解释了最基本的Agent的结构。如果您希望代理在环境中运行，首先要做的是定义环境。

1.1环境定义

代理将具有完成所需的任务。设计Agent的第一步是尽可能完整地描述任务环境。任务环境的定义包括：性能指标，环境和代理执行器和传感器，称为PEAS描述（性能，环境，执行器，传感器）。我们通过以下描述理解这些定义：

1）在代理所在的环境中，传感器通过传感器收集感知信息，以在代理内形成感知序列。

2）在代理所在的环境中，为感知信息生成动作序列，并由执行者完成。

3）理性代理基于已知的感知序列和代理所拥有的当前知识信息，选择最大化其针对每个可能的感知序列的性能度量的动作。

下面给出一个例子：

为了定义环境，我们将返回主代理的设计。

1.2基于效用的代理设计

基于效用的代理

上图是基于实用程序的Agent的设计框架。其中，矩形表示代理决策处理过程，椭圆表示在相应处理中使用的背景知识信息。

在下文中，我们将根据代理的处理顺序按顺序说明每个处理步骤的具体处理方法，并将解释由每个步骤输入的信息以用于下一步骤。

上面已经完成了基于效用的代理的设计描述。但以这种方式完成智能代理是真的吗？如果它是一个无法自主学习和发展其系统逻辑的代理，它就不能被称为智能代理。然后我们只需要将上述代理设计添加到学习环境中。接下来，让我们看看如何设计可以学习的基于实用程序的代理。

1.3学习基于效用的代理设计

学习代理可以分为四个概念组件：学习组件，性能组件，评估组件和问题生成器。本节中的性能组件是“基于学习的代理”中的“基于实用程序的代理”。设计框架如下所示：

学习代理

以下是性能组件以外的组件的简要说明：

1.学习组件：使用评估组件的反馈来评估代理的工作方式，并确定如何修改性能组件以便将来做得更好。

2.判断组件：告知学习组件代理如何根据固定的性能标准进行操作。判断组件是必要的，因为感知信息本身不能指示代理的成功程度。性能标准是固定的。从概念上讲，应在代理之外考虑性能标准，理由是代理不应修改性能标准以适应其自身行为。

3.问题生成器：负责可以从新的和信息丰富的经验中获得的行动建议。如果性能组件是它自己的，他将始终根据已知知识采取最佳行动。然而，如果代理想要进行少量的探索并做一些在短期内可能不是最佳的事情，那么从长远来看，他可能会找到更好的行动。问题生成器的任务是建议探索性操作。它的目标是发现一个更好的物体运动理论并改善一个人的思想。

到目前为止，我们已经简要地了解了如何构建“基于效用的学习代理”。在这个时候，从概念层面练习是否非常有希望？既然作者正在学习AI的入门阶段，我还没有真正理解每个特定概念的应用方法，所以我只能从最肤浅的层面进行练习。对于未明确描述的内容，作者将逐步改进并分享未来的研究。同时，如果文章中有错误，我希望大奶牛会指出更多。

第二，一个简单的产品定义示例

下面分享的简单示例是《自动斗地主Agent》，这是YY的结果，你不应该认真对待。

我的想法是设计一个智能自动化游戏代理，可以学习和优化自己，并帮助我最大化获胜的移动房东应用程序。

第一步：首先定义游戏环境：

步骤2：对于基于实用程序的代理，我们定义以下内容：

1.模型信息：关于世界如何独立于代理以及代理本身的行为的规则信息将影响世界的规则信息。在这里，将输入游戏中房东的所有规则，例如：许可规则，调用房东规则，卡片规则，奖金规则，获胜规则等。并且将进入广义的卡片输出策略，例如：抑制策略，协助合作伙伴策略等。

2.效用判断的规则信息：这里，根据已经在环境中玩过的牌，每个玩家的游戏历史，角色和猜测的剩余牌的信息可以决定最佳销售行为。最符合最大利润。

3.传感器是在环境中获取当前游戏状态信息，例如：谁有卡等;

4.执行器能够模拟手机的咔嗒声，进行操作，如打电话给房东，打牌等;

第三步：为了让代理学习，我们做出以下定义：

1.表现标准：基于手中的牌，过程中的得分以及最终完成后其他牌手中的剩余牌，对一轮比赛结果的奖励或罚分。

2.学习内容：将继续更一般的开放和营销策略，更一般的农民合作策略，针对特定人或类型的人的定位和许可策略，如何测试其他玩家策略如出卡策略提出学习目标，并根据结果修改代理中的效用判断。