Q-表格方法python实现

Q-表格是一种简单的策略迭代算法,用于解决MDP问题。它通过构建一个Q-表来估计在给定状态下采取某个动作的价值。Q-表中的每个元素 Q(s, a) 代表了在状态s下采取动作a之后预期的长期回报。

Q-学习算法步骤:

1、初始化:创建一个Q-表,其中包含所有可能的状态-动作对,并将它们的初始值设为0或随机小数值。
2、选择动作:基于当前状态s,选择一个动作a。这一步可以使用ε-greedy策略,即以一定概率ε随机选取动作,以(1-ε)的概率选取当前已知的最佳动作。
3、执行动作并观察:根据选定的动作a,让智能体与环境交互,得到新的状态s'和即时奖励r。
4、更新Q-表:根据观测到的结果更新Q-表。更新规则通常是:

image.png

5、重复:重复步骤2至4直到达到终止条件,如达到最大迭代次数或找到满意的解决方案。

举个例子:

构建一个简单的迷宫游戏环境,在这个环境中,智能体需要找到从起点到终点的路径。为了简化问题,我们假设迷宫是一个4x4的网格,其中有一些障碍物。

环境设定如下
状态:每个格子代表一个状态。
动作:上、下、左、右四个方向移动。
奖励:到达终点时获得+100分;碰到墙壁或障碍物时获得-10分;其他情况下为-1分。
终止条件:到达终点或达到最大步数。
获取Q-表格

import numpy as np
import random

# 迷宫布局
maze = [
    [0, 0, 0, 0],
    [0, -1, 0, -1],
    [0, 0, 0, 0],
    [-1, 0, 0, 1]
]

# 动作集
actions = ['up', 'down', 'left', 'right']

# 初始化Q表
q_table = np.zeros((len(maze), len(maze[0]), len(actions)))
q_table
# 参数设置
alpha = 0.1  # 学习率
gamma = 0.9  # 折扣因子
epsilon = 0.5  # 探索与利用的平衡
num_episodes = 1000  # 训练轮次
max_steps = 100  # 每轮的最大步数

# 获取下一个位置
def get_next_position(position, action):
    if action == 'up':
        return (position[0] - 1, position[1])
    elif action == 'down':
        return (position[0] + 1, position[1])
    elif action == 'left':
        return (position[0], position[1] - 1)
    elif action == 'right':
        return (position[0], position[1] + 1)
    
# 检查是否越界
def is_valid_position(position):
    x, y = position
    return 0 <= x < len(maze) and 0 <= y < len(maze[0]) and maze[x][y] != -1

# Q-学习算法
for episode in range(num_episodes):
    state = (0, 0)  # 起点
    for step in range(max_steps):
        # 选择动作
        if random.uniform(0, 1) < epsilon:
            action_index = random.randint(0, len(actions) - 1)
        else:
            action_index = np.argmax(q_table[state[0], state[1], :])
        

        action = actions[action_index]
        print('action:',action)
        next_state = get_next_position(state, action)
        print('next_state:',next_state)
        
        # 如果下一个位置无效,则保持原地不动
        if not is_valid_position(next_state):
            next_state = state
        print('下一个位置是否有效:',is_valid_position(next_state))
        
        # 计算奖励
        reward = maze[next_state[0]][next_state[1]]
        print('奖励:', reward)

        # 更新Q表
        old_value = q_table[state[0], state[1], action_index]
        next_max = np.max(q_table[next_state[0], next_state[1], :])
        
        new_value = (1 - alpha) * old_value + alpha * (reward + gamma * next_max)
        q_table[state[0], state[1], action_index] = new_value

        # 更新状态
        state = next_state

        # 如果到达终点则结束本轮
        if reward == 1:
            break

基于上述代码,迭代后的Q-表格如下:

image.png

Q-表格中的每个条目 Q(s, a) 表示在状态 s 下采取动作 a 后的预期长期回报。Q-表格中共16*4个元素,每个元素代表,在该位置上分别采取4个动作后的价值。比如,第一行[0.83490833 0.92766808 0.83490833 0.92767592]表示,在位置(或状态)上,分别采取上下左右四个动作后的价值。可以看出,向下和向右的价值差距不大,总得来说向右的价值是最大的,也有随机的因素。


image.png

如何使用Q-表格进行决策

我们已经训练了一个Q-表格,并希望使用它来指导智能体找到从起点到终点的最佳路径。
Q-表格使用

# 使用Q-表格选择动作并执行
state = (0, 0)  # 起点
path = [state]  # 记录路径

for step in range(max_steps):
    # 选择当前状态下Q值最高的动作
    action_index = np.argmax(q_table[state[0], state[1], :])
    action = actions[action_index]
    
    next_state = get_next_position(state, action)
    
    # 如果下一个位置无效,则保持原地不动
    if not is_valid_position(next_state):
        next_state = state
    
    # 更新状态
    state = next_state
    path.append(state)
    
    # 如果到达终点则结束
    if maze[state[0]][state[1]] == 1:
        print("Found the goal!")
        break

# 打印最终路径
print("Path taken:", path)

根据上述代码运行后的结果为:

image.png

这就是根据迷宫布局,智能体根据Q-表格得出的最佳路径。将其可视化后如下:

image.png

再将其与Q-表格对比,可以看出,智能体就是根据在当前位置上,采取动作后的Q价值最大进行路径选择的。


image.png
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,922评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,591评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,546评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,467评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,553评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,580评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,588评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,334评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,780评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,092评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,270评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,925评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,573评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,194评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,437评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,154评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,127评论 2 352

推荐阅读更多精彩内容