登录
首页 » c » 增强学习算法

增强学习算法

于 2022-08-10 发布 文件大小:1.45 kB
0 42
下载积分: 2 下载次数: 1

代码说明:

马尔卡夫决策过程理论定义了一个数学模型,可用于随机动态系统的最优决策过程。强化学习利用这个数学模型将一个现实中的问题变成一个数学问题。强化学习的故事1:找到最优价值强化学习就是:追求最大回报G追求最大回报G就是:找到最优的策略π∗。策略π∗告诉在状态s,应该执行什么行动a。最优策略可以由最优价值方法v∗(s)或者q∗(s,a)决定

下载说明:请别用迅雷下载,失败请重下,重下不扣分!

发表评论

0 个回复

  • lpc17xx-vcom-64bits
    USB驱动,适合用于LPC1766 LPC1768 win7 64bit(LPC1766 LPC1768 win7 64bit)
    2020-11-22 11:49:35下载
    积分:1
  • DllTest
    dll动态链接库的另一个简单的用法 希望对初学者有用(Another simple dll dynamic link library usage is useful for beginners)
    2012-09-17 20:01:51下载
    积分:1
  • MPU6000(硬件SPI)
    本程序基于stm32f103硬件平台,可通过spi接口读取mpu6000数据.(It can read the data of the mpu6000 by spi interface at the platform of stm32f103. If there is anything wrong ,please connect to me.)
    2020-11-20 15:29:37下载
    积分:1
  • Csharp
    这个是用C#写的udp打洞程序。实现了 打洞的基本原理。希望对大家用有。(This is written in C# udp hole program. The basic principle to achieve a hole. Hope to use a.)
    2010-09-08 16:20:17下载
    积分:1
  • 01 实例源程序
    主要是用C#写的与三菱PLC串口通信源代码(Mainly written in C# and MITSUBISHI PLC serial communication source code)
    2017-06-30 09:47:47下载
    积分:1
  • DlgTest(excel)
    mfc下操作excel,可以实现创建,打开,读写数据的功能(use excel under mfc platform)
    2012-04-26 16:36:41下载
    积分:1
  • Simalator
    用来模拟串口发送接收 主要接受卫星相关数据(Using the analog serial port to send and receive)
    2017-12-04 12:20:23下载
    积分:1
  • 一个圆形的C# 时钟实例
    一个圆形的C# 时钟实例,圆形的中心调用外部的一张唐老鸭图片,各个指针在程序打开后自动初始化,获取windows时间并初始化各指针的位置,并随时间开始走动,在拖动窗口时,指针圆盘会自动变大,实际上这是一个Bug,因为随窗体变化会让哥特和指针脱离原来的位置,造成失真,在时间初始化方面,参见以下代码。   private void timer1_Tick(object sender, System.EventArgs e)   {    MySecondHand.Transform(DateTime.Now);    MyHourHand.Transform(DateTime.Now);    MyMinuteHand.Transform(DateTime.Now);    FirstTick = true;    Invalidate();   }   更多源代码,请下载本实例,运行效果请参见运行截图。
    2022-03-03 15:59:32下载
    积分:1
  • DES_3DES
    说明:  DES算法是这样工作的:如Mode为加密,则用Key 去把数据Data进行加密, 生成Data的密码形式(64位)作为DES的输出结果;如Mode为解密,则用Key去把密码形式的数据Data解密,还原为Data的明码形式(64位)作为DES的输出结果。在通信网络的两端,双方约定一致的Key,在通信的源点用Key对核心数据进行DES加密,然后以密码形式在公共通信网(如电话网)中传输到通信网络的终点,数据到达目的地后,用同样的Key对密码数据进行解密,便再现了明码形式的核心数据。这样,便保证了核心数据(如PIN、MAC等)在公共通信网中传输的安全性和可靠性。   通过定期在通信网络的源端和目的端同时改用新的Key,便能更进一步提高数据的保密性,这正是现在金融交易 网络的流行做法。 下面是DES原理及实现步骤,以及VC++关于DES加密解密的详细源程序(Complete source code, calling process, detailed explanation of the principle)
    2020-06-19 20:20:01下载
    积分:1
  • lichang
    说明:  基于力场分布的图像处理源程序。包括基于力场的图像分割、边缘检测等。(Distribution of image processing based on force field source. Include force field-based image segmentation, edge detection.)
    2010-04-29 11:46:12下载
    积分:1
  • 696518资源总数
  • 104271会员总数
  • 70今日下载