And hello to u too:) Click the icon above for more detail

Offline Reinforcement Learning Review

Here I review two literatures on Reinforcement learning on healthcare to gain understanding on related field.

Reinforcement Learning in Healthcare: A Survey

Original Paper

全文主要着重于介绍目前rl在诊疗方面的应用,具体的方法并没有过多的阐述。II主要介绍了rl的基础概念和一些对基础rl方法进行提升的techniques。III简要的罗列了rl在医疗领域的分类。IV,V,VI详细的阐述了各个分类的rl的应用,对于不同的方法,综述主要着重于其MDP各元素的构建。VII和VIII重点探讨了一些在医疗领域中使用rl的难点已经对应的解决尝试,最后就是conclusion。对于难点的解释是比较关键的。

II

先介绍了基础的rl方法,然后分类讨论了一些帮助基础rl方法提升的技术

Snipaste_2021-06-16_15-18-40

Key Techniques

III

大致介绍RL在health care领域的应用,早期的rl在医疗上的应用是药物注射的问题,近些年来提出的方法和应用如下图所示,接下来4-6都在分别介绍这些应用

Snipaste_2021-06-16_15-39-04

IV Dynamic treatment regimes

医疗方面的应用,不包含诊断。综述把rl的应用按照紧急程度->疾病->具体应用分类。

下面两张表分别总结癌症和icu的应用

Snipaste_2021-06-17_09-25-52

Snipaste_2021-06-17_09-26-53

虽然病症不一样,但绝大部分的医疗建议探讨的都是dosage和timing。对于这些应用,医学界一般都有严格的准则,但这些准则都是基于病人的平均反应来设计的,所以缺少对病人个性化的医疗手段。对于dosage类型的应用来说,action会是discretized的用量水平,比如20-30,40-50这两种用量水平就是两个不同的action;而timing的action则是在某个时刻做/不做某事。至于state的构成,综述没有明确说明,一般都是利用医疗相关的知识去设计state。reward函数方面,大概分为:1. 利用医疗知识设计的单目标reward函数(也就是说agent只需要在训练时满足一个目标,比如致死率要尽可能低)2. 利用医疗知识设计的多目标reward函数(训练师满足多个目标,比如推荐某种药物的agent就要同时满足减少病症和减少药物的副作用这两个目标)3. 利用逆强化学习得到的reward函数。算法都是比较基础的强化学习算法(如上图)有些应用会先给环境建模,逼近一个转移函数从而利用model based的方法去训练他们的agent。在慢性疾病上的研究没有统一的数据集,对不同病症的研究基于不同的数据集,而这些数据集往往来自于某个trial,这就导致了有些研究可能面临着数据太少的问题,为了解决这些问题,有些论文会先学习数据的表征然后生成数据,如[93]用GAN去生成数据。icu的研究则有统一的数据集:MIMIC和PK/PD model。PK/PD模型PK/PD 建模(药代动力学/药效动力学建模)是一种结合了药代动力学和药效学这两个经典药理学学科的技术,一般用于药物的研究。

Snipaste_2021-06-17_10-00-02

V Automated Medical Diagnosis

诊断方面的应用。这方面的问题,通常表述为监督分类问题,基于现有的临床诊断机器学习方法严重依赖大量带注释的样本,以推断和预测可能的诊断。这种问题受限于数据量,所以开始研究rl方面的应用。综述这里把方法通过输入类型来分类:结构化医疗数据和非结构化医疗数据。前者通常包含生理信号、图像、生命体征和实验室测试,后者通常指的是关于医疗的叙述性文本,例如实验室报告、临床记录和总结。

VI Other Healthcare Domains

包含了所有非诊疗的应用,比较杂。

VII Challenges and Open Issues

VIII Future Perspectives

展望明天

Conclusion

Reinforcement Learning for Clinical Decision Support in Critical Care: Comprehensive Review

Original Paper

Snipaste_2021-06-15_13-06-16

Results

Optimal individual target lab value

Optimal choice of medication

显而易见,choice of medication就是药物的组合

Optimal Timing of Intervention

Weaning of Mechanical Ventilation

这些作者探讨的问题是什么时候该中断这个mechanical ventilation(好像就是呼吸机???)

[43]

[45]

Timing to Order Laboratory Tests

这里探讨的是应该什么时候执行lab test,如果这个test执行的太晚,病人可能会有很多问题没能被监视到;如果执行的太频繁,那么会造成不必要的成本上的增加,以及病人的负担

[44]

Discussion on datasets, features, preprocessing, techniques, evaluation

Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problem

Original Paper

Introduction

Offline reinforcement learning algorithms: offline的强化学习中,在训练的时候,我们要学习的policy和环境不做任何的交互Snipaste_2021-06-13_14-25-58

这张图给了一个很好的例子,a和b描述的都是online强化学习。a描述的是on policy的强化学习,也就是当policy在训练的时候,我们先用policy去和环境做交互,得到trajectory,然后用这个trajectory去更新policy;而在b中,我们用policy去和环境交互,得到的trajectory存在buffer D中,然后在buffer D中进行采样,采样出来的trajectory被用来更新policy。但是在offline的c中,我们有的是数据集中的trajectory(这些trajectory来自一个假设的,未知的policy得到的),我们从这这些trajectory中进行采样,然后用采样出来的trajectory中进行更新policy。我们可以看到,在c中,要训练的policy和环境完全不做任何的交互,所有的更新都来自于之前的数据集

Offline Reinforcement Learning Problem Statement and Overview

Reinforcement Learning Preliminaries

强化学习都是和一个markov decision process(MDP)交互来训练的。

Offline Reinforcement Learning

What Makes Offline Reinforcement Learning Difficult?