在推崇自我推销的文化中，内向的你如何让自己的科研不被忽视？

January 24, 2017 zr9558 Leave a comment

原文链接：

http://mp.weixin.qq.com/s?__biz=MzAwNTAyMDY0MQ==&mid=2652544752&idx=1&sn=1367da43c2f56d0077229ee4accfbe7f&chksm=80cd307eb7bab9680e72681c03a007267e26df5ddd439c197adf0e120b10a6bc596783a560fb&mpshare=1&scene=2&srcid=1226O4f05AR2cuSfxKNktCQ1#rd

原文以Human behaviour: Find your voice为标题

发布在2016年12月1日的《自然》上

原文作者：Julia Rosen

沉默有风险，腼腆内向的研究者也可以通过技术和练习走向成功。

一般而言，科学家并不以社交能力见长。在许多人眼里，科学家一副书呆子气，内向寡言，甚至可能略显笨拙。但在当今的科研环境下，开朗外向的人或许更加如鱼得水，因为产学界的研究者往往需要站到聚光灯下，在学术会议上介绍自己的研究成果，与同事、资助机构和大众（这一点愈发重要）建立新的关系。

对于正在努力建立声誉、推动事业前进的青年科学家而言，掌握这些技能尤为重要。但就算还说不上恐惧，这些任务也不免让许多腼腆或内向的研究者发怵。悉尼Woolcock医学研究所的博士后Louise Harkness说，其中一些人甚至会因此质疑自己在科研界的位置。Harkness的研究对象是呼吸障碍疗法，并在博客中记录了作为一名内向科学家所面临的挑战。“对顶尖的科学家来说，学术之路也是艰辛的，” Harkness说，“更不用说腼腆而不善自我推销的内向科学家了。”

尽管如此，通过培养自己的公开演讲和人脉技能、采用适合自己性格特征的创新型自我推销方法，安静的科学家也可以与能说会道的同行一较高下。研究者需要承认科学行业存在政治性的一面，审视自己的性格特征和动力，以找到最适合自己的方法。

游戏规则

在所有科学家都是内向者的传说之外，还有一种普遍观点认为科学界是唯成就论的。许多年轻科学家认为，他们只需要做好研究，其它自然会水到渠成，但一般来说事情并非如此。Donna Dean表示，“我们不能默默坐在一边，然后期待别人自然而然地认可我们的成就。”她是美国国立卫生研究院(NIH)的一位退休行政人员，也是美国女性科技工作者协会的领导力与才能发展执行顾问。

美国卫斯理学院的性格心理学家Jonathan Cheek表示，腼腆或内向的人的确很容易在推崇自我推销的文化中被忽视。他说：“除了事业本身所需的技术条件外，社交技能，比如公开演讲，是助力事业成功的最大要素。”他承认，这看起来可能不太公平，但现实就是如此。

Cheek表示，承认“软技能”的重要性是一个良好的开端，尤其是对于某些类型的内向者来说（Cheek及同事将内向分为四种类型：社交型内向、思考型内向、焦虑型内向和克制型内向）。并非所有内向者都腼腆，其中一些人——根据Cheek的说法，除了焦虑型内向者之外的所有内向者——之所以回避发言和吸引别人的注意，纯粹是因为他们不想这么做，或者觉得这种做法没什么益处。他说，对于这类科学家而言，只要让他们意识到开展某种形式的自我推销具有实在的益处就够了，即使他们没法自然意识到这一点。

而其他人则面临更大的障碍。腼腆的人在与陌生人对话，或在一群人面前发言时会感到不安（Cheek也帮助划分了腼腆程度）。Dean说，一些研究者（包括女性、少数族裔和LGBTQ群体）有时可能会因为他/她们的身份而觉得自己在科研界不受欢迎，因此感到难以在专业环境中发言。她还补充，这种不安可能源于他/她们感觉自己背负着代表整个群体的重担，或者因为自身背景而习惯了保持沉默。

许多科学界人士都认同有必要帮助腼腆或内向的研究者扩大他们的声音，但与此同时，权衡保持沉默的优劣对这些研究者来说也有益处。“你必须思考，‘是什么在阻碍我实现目标？’”Cheek说。Cheek是个双重性格者，即同时具有内向特质和外向特质的人。他表示，如果人们已经在研究生阶段的学习中投入多年，那么对他们来说，继续科研事业很可能意义重大，因而愿意为此克服自己的腼腆。

Harkness认为，人们有时只是需要找到正确的动力。在悉尼大学读博、研究哮喘肌细胞的基因调控期间，她克服了自己的一些沉默倾向。“我意识到，如果我不迈出去向人展示自己的研究成果，那么全世界都会错过它们，也不会了解我的思维过程，”她说（参见“接受安静的自己”）。

几乎所有科学家都会在某个时刻不得不在人群面前分享自己的研究成果，这是一个让许多人都心生畏缩的任务，不仅仅是内向和腼腆的人。有调查表明（比如2014年查普曼大学关于美国人最害怕的事的调查），在美国，人们最害怕的事一般是公开演讲，在某些情况下甚至超过了对溺水的恐惧。“在我刚开始读博时，我意识到这是一件我极不擅长的事，”在英国拉夫堡大学研究燃料电池用氢气制备方式的博士生Paul Brack说，“我的期望就是达到平均水平。”

Cheek说，所幸公开演讲并不像许多人害怕的那样难学，也不需要安静的研究者变成外向者。他补充表示，大多数人讨厌公开演讲的主要原因是他们讲得不多，而且只要多加练习就能改善。

生物化学家、加州希望之城医院的行政与学生发展临时主任Kate Sleeth说，许多大学都提供了资源，帮助科学家们适应会议演讲，磨练演讲技能。如果没有这类资源，Sleeth（同样身为内向者，而且目前担任全美博士后协会理事会主席）建议研究者寻求其它组织的帮助，比如国际演讲会(Toastmasters International)，这是一个致力于帮助会员提高沟通交流能力的非营利组织。

研究者可以采取的另一种策略是形成让自己感觉舒服的演讲风格。对于Harkness而言，这意味着在演讲中阐明自己的思维过程，而不是简单地宣传自己的发现。“我希望带领人们感知整个过程，”她说。事实上，从头至尾梳理整个研究项目让她对展示自己的成果感到更踏实了，“我对展示自己的研究过程感到很骄傲。”

虽然建立人脉关系让许多科学家望而生畏，但这一过程也可以根据个人倾向做出调整。“许多人觉得‘建立人脉’意味着自己要想出一段精妙绝伦的对话，”Brack说。去年，Brack在Naturejobs博客中写了有关该主题的博文，作为一个曾经非常腼腆的内向者，他已经开发出了许多适合自己的建立人脉的方式。

接纳内向的自己以下是一些值得一试的建立人脉和推广成果的方式：

● 和同事或导师练习公开演讲，或者寻求大学项目和国际演讲会等组织的帮助。

● 形成自己感觉自然的演讲方式，比如说故事的方式。

● 在会议和其它专业聚会上设定与两至三名陌生人说话的目标。

● 使用推特和谷歌学术等在线工具，提升自己的网络形象。

● 参加各种委员会，寻找能帮助你建立人脉的赞助者。

● 考虑不同的科研道路有多适合自己的性格特征与偏好。

一种策略是在社交场合或会议上提前想好一两个问题，和单个人而不是一大群人交谈。与研究生攀谈时，Brack一般会先问有关研究、指导教师和学校的问题。仍然觉得建立人脉很棘手的Dean表示，甚至不一定要谈科学话题——也许你注意到了某人的名牌上透露的信息，比如和你是老乡，或者有相同的爱好或其它联系。“让人们谈论他们自己，”她说。

Dean建议年轻科学家设定每次参加会议时与两三个陌生人交谈的目标，并呼吁他们避免用自我贬低的方式描述自己的研究。Sleeth还建议带上一位能够帮助你放松、开朗外向，但又不至于抢风头的朋友。安静的科学家也许可以考虑与较为外向的同事合作开展研究。“这会让事情变得简单很多，”Sleeth说。

最后，即使这些方法都无法让许多安静的科学家感到自在，他们也不应绝望，Steve Blank说。他在斯坦福大学教授创业课程，还参与了美国国家科学基金会的创新团项目，该项目旨在帮助科学家将研究发现商业化。“顾名思义，科学家都非常聪明，”Blank说。“就算没有与生俱来（的交际能力），也有充分的思维能力去模仿。”

长远布局

在做重大的事业决定时，安静的科学家可能需要考虑哪种科学职业方向更适合自己的性格。举例来说，学术界可能意味着教学和许多公开演讲，而政府机构则可能需要更多的实验室工作，以及与机构管理者会面。身为技术行业内的一名企业家，Blank认为科学家必须向投资者和客户推销自己的理念。“如果希望担任领导角色，我认为科学家要学习的最重要的事情就是沟通，”他说。通常，这需要至少去模仿外向者的行为。

由于不同的科学职业方向有不同的需求，Cheek建议处于职业生涯初期的科学家阅读专业文献，如约翰·霍普金斯大学已故心理学家约翰·霍兰德提出的职业规划理论。“这个理论讲的是工作环境也有不同的‘性格’，”他说。在霍兰德的理论框架下，个人和职业被分为不同的类型，三种职业类型——现实型、调研型和艺术型——都非常适合内向者，分别对应偏重应用、理论和创造的职业方向。

自称内向的Paul Brack在2016年的皇家化学学会会议上演讲。

皇家化学学会/拉夫堡大学

Cheek表示，科学家不应让这种分类阻碍自己追求理想的步伐，但应该考虑自己的性格是否适合预想的职业选择。“当你的性格倾向与事业环境相互碰撞时，你最热爱的事情未必能带来最大的回报，”他说。在某种程度上，找到带来成就感的事业的关键是选择合适的事业。

而这正是Harkness开始意识到的事情，虽然她没有正式了解过霍兰德的理论。博士毕业后，她来到Woolcock医学研究所，她说这里的研究团队规模更小，而且关系更紧密，对于她这样年轻而又内向的科学家而言是个不错的去处。

书写新规则

公开演讲和人脉建设被视为在科学界和许多其它领域取得成功的关键，一部分原因是我们的文化更推崇外向性格。至少《安静》（出版社：Broadway；2013年）一书是这么认为的，本书作者是美国作家及演说家Susan Cain，她在书中谈论了内向者的力量，她的核心论点是，社会通常将内向视为一种性格缺陷，但内向者的价值应该得到重视。安静的科学家可以通过各种不同的方式展现自己的实力。

David Steen在社交网络上取得了巨大的成功。Steen是美国奥本大学的一名野生生物生态学家，他为自己的内向者身份感到自豪。“顺之不逆，”他说。Steen说，自己就是一个在开会时会默默坐在最后什么也不说的人；和许多内向者一样，他更喜欢在发言前整理好自己的思路。

然后，他开始使用推特等工具与人们沟通，现在他的推特已有12,800名关注者（还在2015年被Slate杂志评为“推特最佳生物学家”）。推特让他有机会按照自己的节奏和方式来取得关注度，并与科学界广泛互动。“写一条推文可能要花一整天，”Steen在推特上写道。“而会议上只有很短的时间来准备慷慨陈词。”

Cheek推荐研究者创建谷歌学术的个人资料页，并踊跃使用ResearchGate和Academia.edu。Brack说，研究者也可以用LinkedIn来宣传自己的科研资历、发表的作品和获奖情况：“分享的时候注意方式，不要让别人感觉你傲慢专横。”

腼腆内向的研究者还可以通过其他符合自己性格特征的方式来发展事业。Brack推荐内向研究者参加一些组织，他最近就在苏格兰协助组织了一场化学会议。“我发现自己需要和人接触很长时间后才能真正自在地和他们对话，建立起某种联系，”他说。“参加组织对此很有帮助。”研究者也可以通过电子邮件来对各种会议、研讨会进行后续追踪，继续参与科研讨论，并做出自己的贡献；不想在人群中发言的研究者尤其应该如此。

无论采取哪种策略，Sleeth都推荐研究者寻找一位导师，甚至是赞助者——她所谓的赞助者指的是可以提携年轻科学家、尤其是腼腆内向的科学家的人，Sleeth认为这个人可以是指导教师，也可以是共同作者或同事，重要的是他们能够帮助年轻科学家打开新的大门，宣传他们的强项和成就。“因为那样就不是自吹自擂，”她说，“而是别人帮你宣传自己了。”

ⓝ

Nature|doi:10.1038/540496a

点击“阅读原文”阅读英文原文

相关职业指南文章（点击蓝色标题阅读）4个小窍门让你的海报在学术会议上鹤立鸡群| Naturejobs

作为科研人员出国交流遇到文化差异？Naturejobs教你如何应对

本文由施普林格·自然上海办公室负责翻译。中文内容仅供参考，一切内容以英文原版为准。欢迎转发至朋友圈，如需转载，请邮件Chinapress@nature.com。未经授权的翻译是侵权行为，版权方将保留追究法律责任的权利。

PHD的生涯

我想成为一名科学家，但是抑郁症先找到了我

January 24, 2017 zr9558 Leave a comment

原文链接：http://mp.weixin.qq.com/s?__biz=MTg1MjI3MzY2MQ==&mid=2651684814&idx=2&sn=cbe9e55ee5d510ca4720ed3286272abb&chksm=5da15b5c6ad6d24a659af1aecb0b61f94507a7bba7c38bc435b73826bf458aa3832d640d6ffd&mpshare=1&scene=23&srcid=0124QnqFYK4H6lrjMH3L3lrw#rd

原文以Mental health: Caught in a trap为标题

发布在2016年11月9日的《自然》职业板块上

原文作者：Emily Sohn

2008年，当抑郁第一次威胁到她的事业时，Rachel正在攻读博士学位。为了启动一项新研究，这位心理学家每天要工作14-16个小时，同时还要监督12名研究助理。在空闲时间，她还要筹划自己的婚礼。
Andy Baker/Getty

有三个星期的时间，她几乎没有合眼，仅靠甜食和能量棒维持生命。后来，在观看一场悲伤的戏剧演出后，她崩溃大哭，之后三天也止不住啜泣。“我坐在沙发上盯着墙流泪，”Rachel说；她要求在本文中使用化名。

“欢迎来到学术界”

早在读博前，Rachel抑郁的种子就已种下。“在你开始申请博士前就会受到各种消息的狂轰滥炸，比如博士很难申上，申上的人也有一半毕不了业，毕业了也很难拿到博士后，也不可能拿到经费，”她说。“与此同时，你身边却围绕着一群有博士学位的人。如果你已经有点完美主义或自我怀疑的倾向，这种氛围会愈加助长这种倾向。”

她休息了两周，期间接受了治疗，医生给她开了抗抑郁药物。之后，她回到了工作岗位。完成博士论文后，她获得了纽约一所大学的助理教授职位。

“如果你当时问我，我会告诉你，‘不，我永远也完成不了，我要离开学术界，’”谈到休息治病的那段时间，她这样说道。当她把自己的感受告诉父亲时，同样拥有博士学位的父亲对她说，“欢迎来到学术界。”

我们的社会中，抑郁和焦虑普遍存在，科学家群体也不例外。科学家们一般面临巨大的压力：工作时间很长，需要在高影响力期刊上发论文，也要获取经费为自己和他人提供支持，而且还得屡败屡战。据世界卫生组织资料显示，抑郁症影响着全球约3.5亿人口，是全球致病致残的重要原因。

他们就在你身边

每年，美国都有将近7%，或者说1600万左右的成年人会经历至少一次严重的抑郁发作。要被确诊为抑郁症，在最少两周的时间内，几乎每天都会出现至少五种功能障碍，或导致严重悲伤情绪的特定症状，其中必须包括持续的情绪低落（可能表现为空虚感或绝望感）或者对几乎所有活动都丧失愉悦感或兴趣，但其它症状可能还包括反复想到死亡和体重明显下降。

一个人一生中患上抑郁症的可能性在各个国家有所不同，在美国为17%。抑郁经常与影响正常生活的过度焦虑或担忧相伴。据世卫组织资料显示，美国约有18%的成年人（4000万人）受到焦虑的影响，25%以上的欧洲人都经历着某种形式的焦虑或抑郁。

有关焦虑和抑郁在科学家群体中流行程度的研究少之又少。不过，美国莱特州立大学精神科医生Jerald Kay表示，其风险可能与其他群体相差无几。Jerald Kay的病人主要是医师、大学生和教职员工，包括研究人员，他同时也是Mental Health Care in the College Community （《高校环境中的心理健康护理》）一书的合编者。

一些处境更有可能导致焦虑和抑郁。研究生阶段的学习尤为艰苦，因为学生突然要面临期望高和薪水低的双重局面，而且发现自己的命运掌握在导师手里——而自己的导师甚至可能住在国外。

据2014年一项针对加州大学伯克利分校790名研究生的调查显示，将近一半的博士生符合抑郁标准，在生物和物理等学科中，这个比例至少有46%。精神疾病的污名化让研究者不愿向他人透露自己的挣扎，更不用说向上级开口了。尽管如此，专家表示寻求帮助，至少是专业人士的帮助仍然是很重要的。“如果你觉得自己是唯一一个受到某个问题困扰的人，你就会觉得‘这是我个人的问题，是我自己的错，不是整个系统的问题’”，荷兰阿姆斯特丹自由大学医学中心的精神病学家Joeri Tijdink说。

大部分欧美大学都提供保密的心理健康服务，但许多战胜抑郁的研究员都将上级和同事列为支持的主要来源。在重视名望但又充斥着批评的高压职业环境下，明白自己并不孤单能让你受益匪浅。

如何应对抑郁

许多科学家可能都有遇到饱受抑郁困扰的同事。专家建议，可以宽慰抑郁患者，告诉对方他/她并不孤单，寻求别人帮助是正常的。可以通过打电话或发短信了解他们的状态，倾听他们想说的话，这能帮助对方感受到外界的关心，不再那么孤独无依。

不要说“走出来！”或者“振作起来！”这样的话，也不要向他们提供听起来很简单的解决办法，比如练瑜伽或者改变饮食。暗示对方简单几招就能解决抑郁问题可能会让对方感到被侮辱。这类说词也会让患者感觉自己是个无法独立康复的失败者。也不要询问他们感觉好点了没有，因为痊愈是一个漫长而且不一定有终点的过程。

对那些仍然在独自挣扎的人，或者希望传播相关资源信息的人来说，以下是一些可能有所帮助的内容：

美国焦虑和抑郁协会：go.nature.com/2fibvlr
美国国家心理卫生研究院：go.nature.com/2f0vxcw
心灵网：go.nature.com/2eg6ffs
欧洲心理健康：go.nature.com/2fijxxv
世界卫生组织论抑郁：go.nature.com/2f0ntsq
世界卫生组织论心理健康：go.nature.com/2f7fmb2
英国学生心理健康友人指南：go.nature.com/2euxzzd

施以援手

Shweta Ramdas曾默默与抑郁抗争多年。她来自印度，在新加坡国立大学毕业后来到密歇根大学攻读生物信息学博士。渐渐地，她发现自己越来越无法忍受密歇根的冬天。

有些时候，她只能盯着电脑发呆，要花几个星期才能完成原本只需一天的工作。她没有食欲，也厌倦了这种不快乐的感觉。她考虑过中途退学。

最终，Ramdas将自己的情况告诉了部门主任，主任说其他人也曾面临过类似的问题。不久，同事们开始告诉她自己的故事。“他们都是了不起的人，我感到由衷的敬佩，”她说。“而且外人完全看不出他们在遭受抑郁的困扰。”

Ramdas在印度和家人一起待了八个月，期间接受了心理治疗。密歇根的教授让她慢慢来，想待多久待多久。她在今年秋天回到学校，并决定要有节制地工作。

现在，她正在和上级商量为其他受到抑郁症影响的人提供帮助。“我觉得在更加开诚布公地探讨抑郁问题方面，研究生院还有进步的空间，”Ramdas说。“如果我早点知道不是自己一个人，或许能处理得更好。”

2012年初，Elizabeth Droge-Young经历了第一次抑郁发作，当时她正在纽约雪城大学读博，研究的是各种乱交甲虫的交配系统。起初，她会穿着睡衣坐在沙发上打游戏、看电影，边听悲伤的音乐边怀疑生命的意义。

渐渐地，她没法去实验室或洗澡了。2014年，她在一家离实验室很近的医院待了十天。“当我的生活开始变得支离破碎时，科研是我最后的牵挂，”Droge-Young说。“它支撑着我走过了很长时间，直到抑郁症变得太过严重。”Droge-Young在今年获得了博士学位，现在是一位科学作家。

内布拉斯加大学林肯分校的演化生物学家Matthew Wilkins表示，从本科生向研究生阶段的过渡可能并不轻松。2008年，当他开始在科罗拉多大学博尔德分校读博时，必须要自我推进的现实和科研生活的残酷让Wilkins无所适从。在科研领域，成功总是伴随着各种被拒——申请经费被拒、发表论文被拒、找工作被拒。

无止境地追求外界的肯定可能增加焦虑，Wilkins补充道。他曾在一次事关重大的考试中铩羽而归，但在一周后又获得了一个声名显赫的奖学金。“在学术界，成功是没有保障的，”他说。“你知道成功不易，却不会注意到追求成功带来的心理负担。”

在一定程度上，Tijdink把自己的研究方向选择为“论文发表压力带来的心理影响”受到了他与治疗过科学家的心理医生的谈话的影响。“他们的压力很大，”心理医生告诉他。“这些人筋疲力尽，怀疑别人盗用自己的想法，或者觉得同事要抢自己的职位。”

他希望自己能让更多的人注意到这个问题。在2013年发表的一项针对400多位荷兰医学研究者的调查中，Tijdink指出，将近25%的人达到倦怠（一种情绪衰竭状态）的标准。
Andy Baker/Getty

一些科学家在迈入不同寻常的科研轨道时也会面临挣扎。加拿大麦克马斯特大学的演化心理学家Paul Andrews表示，在他还是博士后的时候，他以为自己前途一片光明，因为他在优秀期刊上发表了被广泛引用的论文。但是，他却找不到一份能让自己专注研究抑郁的生物学基础的职位。受挫的他失去了吃饭、睡觉和锻炼的动力。此外，他还一直纠结于应该在高影响力的期刊上发表一篇大作，还是出些小论文以量取胜。

Andrews采取了风险更高的第一种方法，最终于2009年在《心理学评论》上发表了一篇受到广泛关注的论文。2010年初，《纽约时报杂志》还发表了一篇关于其成果的专题文章。尽管如此，他也没收到多少面试邀请，虽然投出了大量简历。“我当时觉得，‘我要怎么做才能找到工作？’”Andrews说，那时的他感到绝望、沮丧而又焦虑。

现在在工作中碰到困难时，Andrews的抑郁症状仍会反复。他的研究挑战了将抑郁症视为心理障碍和血清素在抑郁症中作用的主流观点，并对抗抑郁药的价值提出质疑。他发现自己的成果很难获得发表。

麻烦的研究主题

Alejandro Frid表示，有时候研究主题本身也会带来消沉的念头。他从1990年开始研究智利濒危的马驼鹿，随后研究了海洋渔业对阿拉斯加和英属哥伦比亚地区捕食者与被捕食者间互动的影响。

他的研究越是显示出气候变化的破坏性影响，他就越感到愤怒和虚无。“这里的虚无主义指的是关心未来毫无意义，因为根本就没有未来，”Frid说。现在，他是加拿大中海岸原生资源联盟的科学协调员，并出版了A World For My Daughter: An Ecologist’s Search for Optimism（《给我女儿留下的世界：一位生态学家对乐观的追寻》）一书。“一切都完了。人类破坏性巨大却不自知。没有什么值得我们为之而活的未来。”

抑郁已成为了环境保护人士圈中常见的话题。Frid通过将注意力集中在生态可塑性和人类解决问题的能力上而获得了一线希望。他也在努力改变影响环境的政策和人类行为——这些做法帮助他重新找到了事业的方向，并改善了他对未来的看法。

科学家或许对承认自己存在抑郁症或焦虑症状慎之又慎，但向同事吐露过心声的研究者表示，他们获得的支持往往令自己感到惊讶。

和Ramdas一样，Droge-Young发现，当她克服恐惧向实验室同事倾诉自己的心理疾病时，其他人也说出了类似的故事。其中一个人曾和她在同一家医院住过。她举办了两场艺术展，介绍自己的抑郁和自残经历，别的教职员参加了为此筹资的Kickstarter项目。她的导师和导师的家人都出席了。“人们都很有爱心，”她说，“如果你向他们坦白自己的脆弱一面的话。”

Kay表示，并不是每个人都习惯与上级交谈，但都应该尽早寻求专业人员的帮助。“如果感觉自己在挣扎，那就应该寻求帮助，”他说。Droge-Young建议，如果一位心理医生不行，就再找另一位。

留出追求业余爱好的时间也有助于缓解工作相关的焦虑。对于Droge-Young而言，她的爱好是出门散步，或者举办看奥斯卡获奖电影的派对，Wilkins则喜欢攀岩、打橄榄球和跑步。他还建议研究者参加一些与工作无关的短期项目。今年，他开始和一位朋友一起参加电影制作竞赛——而且还获奖了。

Andrews表示，承认在遇到难题时感觉沮丧是正常、甚至有益的，这或许也有助于科学家应对抑郁。他不认为自己的抑郁症发作是大脑功能异常的表现，而将其视为对重要问题的一种反应。这种反应有助于他集中精力。Andrews认为，在受到社交问题或工作压力的刺激后，身体就会重新分配给予大脑的能量。下丘脑会发挥作用，抑制性欲和其它生理冲动，并诱导人专注于负面思想。

这种反复思考虽然通常被视为坏事，但事实上有助于解决问题，因为它帮助大脑将问题分解为较小的部分。Andrews认为，这就像是科学家所做的研究工作一样。ⓝ

Nature|doi:10.1038/nj7628-319a

PHD的生涯

“我看到许多同事离婚、累倒、离开科学界，我现在感到很累”

January 24, 2017 zr9558 Leave a comment

原文链接：http://mp.weixin.qq.com/s?__biz=MzAwNTAyMDY0MQ==&mid=2652544191&idx=1&sn=1da79e874052f6b9fee6bdaca61c142a&chksm=80cd3231b7babb2733274f81803cba25ef8e88bfbf3a37cfb440ee108b4ee45f5f2dda0af925&scene=25#wechat_redirect

原文以Young, talented and fed-up: scientists tell their stories为标题

发表在2016年10月26日的自然新闻上

原文作者：Kendall Powell

刚刚建立自己实验室的科学家说，他们的压力已达到无以复加的地步：发论文、拉经费、找永久性职位——难得挤出一点真正做科研的时间。

6:59Nature Podcast: Young来自Nature自然科研

年纪相差数十岁的两个科学家讲述自己入行之初的故事。

Martin Tingley快坚持不住了。时间倒回到2014年深秋，Tingley刚刚在位于宾夕法尼亚州立大学担任了一年多的助理教授。那天，他在看望完住在波士顿的妻子后开车启程，踏上了 8个小时的返程之路。Tingley感到紧张而疲惫，几乎快要哭出来了。在天色未明的清晨时分，窗外的车辆急驰而过，亮起的车灯让他感到恍惚，仿佛身处于一场游戏之中。

通常，Tingley认为自己是一个“相当坚忍的人”。乍看起来，他的事业顺风顺水。他先后在哈佛大学获得了统计学硕士学位和地球科学博士学位，另外还有四年的博士后经验，最终非常难得地获得了一份终身教职。他以为自己很快就能将统计学与气候科学成功结合起来，产出资助机构们声称自己想要的跨学科研究成果。

而事实上，科研之路非常艰难。他每星期要工作60-80个小时，既要研究又要教学。他的启动经费已经用完，但还没有获得新的重大资助。另外，根据美国学界的一贯做法，学校不会支付他在夏季3个月的工资。由于妻子无法搬来和他一起生活，他每个周末都要风尘仆仆地来回去看她。压力似乎已经达到了无以复加的地步，他很快就要支撑不住了。

Tingley是对科研生活深感沮丧的众多青年科学家之一。今年9月，《自然》在Facebook上发文，询问首次担任独立职位的科学家面临着哪些挑战。科学家们纷纷倾诉了自己的烦恼。在一个星期内，全球各地的近300名科学家做出了回答，坦白说出自己的担忧。“我看到许多同事离婚、累倒、离开科学界，我现在感到很累，”一名来自比利时的生物医学研究者写道（详见“科学之苦”）。《自然》选出了三位道出最常见困境的青年研究者；现在，我们将会讲述他们的故事。

科学之苦

我们请青年科学家说出他们的担忧。让我们来听听他们的声音。

● 竭力拉经费让科研时间所剩无几

“我几乎将所有的时间都用在了拉经费上，用于做科研的时间不到5%。”

● 激烈竞争驱使许多科学家走捷径

“有些研究明显做得很好，但也有些研究做得很糟糕、被夸大，甚至存在造假。目前的压力和激励方式意味着比起优秀但第二，有错但首发的收获更大。”

● 依赖资深科学家推动进步

“如果你运气不好，如果你的（资深）教授不擅长拉经费或者不够分量，或者对你不够支持，那么你完全没戏。”

● 行政负担过重，无法获得帮助

“如果我要求配一名行政助理，我的研究时间或许就能加倍；但我的同事们会因为这个念头而尽情嘲笑我的。”

● 长时间工作

“学术界的文化是，一个星期工作40个小时是无法成为一名成功的学者。晚上9点，当我在沙发上坐下时，我真的不想再打开笔记本电脑了。我的内心总是会为此挣扎，但我想在《自然》上发论文，我想要那一大笔经费。”

然而，青年科学家们只是在抱怨，还是真的已到生死一线？我们的受访者承认，能有机会主导属于他们自己、富有创新而又振奋人心的事业已经是非常幸运的了，而且科学家也不是唯一需要刻苦工作的专业人士。每一代人都很容易认为自己比老一辈过得更难。

但一些数据和传闻证据显示，要想建立自己的研究团队，今天的科学家面临的障碍确实会比他们的资深同事在二三十年前遇到的更多。其中最大的一项挑战就是研究经费“僧多粥少”。过去十年来，研究经费增长停滞，甚至出现了缩水。“人员数量达到了史上最高，但经费数量却没有改变，”美国国立综合医学研究所（NIGMS）主任Jon Lorsch说。“许多有能力对学术体系发挥影响的人都意识到了这个问题的严重性，并且正在尝试解决。”

青年科学家和资深科学家都一样面临着巨大的发表压力，受到日益沉重的官僚主义负担的重压，并且很少得到行政支持。评价他们的主要指标是发表的论文和获取的研究经费；然而，没有清晰的目标，他们发现自己只能一篇接一篇地赶写论文，无休无止。问题的关键是，这是否在伤害科学和科学家。美国国家科学院前主席，就职于加州大学的著名生物化学家Bruce Alberts认为答案是肯定的。他表示，目前过度激烈的竞争氛围遏制了创造性，迫使科学家“做平庸的研究”——保险而又无趣的工作。“我们必须奖励那些开展创造性研究的人。”

我们的非正式调查显示，这种情况已经让科研成为了一项对研究者不甚友好的事业。“坦白地说，做PI、管理实验室就是那么糟，”一位来自美国的神经科学家写道。Tingley对此并无异议。

经费之争

Tingley一直兴趣广泛。在加拿大读大学时，他从艺术史专业转到了物理学，之后，他被哈佛大学充满活力的研究环境所吸引，来到哈佛开展研究生阶段的学习。期间，Tingley发明了一种统计方法，能帮助解析来自树木年轮和冰芯等来源的历史气候数据。

在求职期间时，他每个星期就已经要工作60个小时了。Tingley说，每天早上八点，他就已经在办公室了，一直工作到晚上回家吃晚饭，饭后再打开电脑继续工作。但在2013年，他的研究事业达到了高点：他在《自然》上发表了一篇统计分析；在全球范围申请工作后，他最终在宾夕法尼亚州立大学获得了一份气象学兼统计学的联合教职。

在那时，他的妻子Gabrielle是哈佛大学研究计算中心传媒项目的负责人，宾州州立大学为她提供的职位让她觉得有点屈才，于是她决定留在原处工作。他们面临着异地问题——一直以来，这都是科学家们的一大压力来源。

像许多第一年工作的助理教授一样，Tingley很快就感受到了在顶级期刊发表论文、拉经费、上课和教学创新的压力。他也知道，学校为他提供的约20万美元的启动资金（包括夏季工资和计算机资源使用费等）无法维持长久，因此他申请了美国国家科学基金会的资助——那是一个“令人心碎”的过程，他说。

举例来说，他与合作者，亚利桑那大学的有机地球化学家Jessica Tierney一起提交了有关海洋表面历史温度代理变量的研究计划书。在第一轮评审中，他们的申请获得了获得两个“极好”和两个“很好”的评分，但仍然低于要求。二人被鼓励重新提交，他们也确实这么做了。但是第二次获得的评分更差。“一部分原因在我，我失败了，”Tingley说。但这件事也说明了青年科学家从零开始创立研究项目时所遭遇的挫折。“申请资助的过程非常残酷。”与此同时，二人发表了初步阶段的研究成果，论文目前已被引用40次。

参加《自然》调查的科学家的观点反映了代际分歧：许多人觉得今天的资深研究者年轻时走过的科研道路更顺畅，因此得到了竞争优势。“婴儿潮”时期（指二战后至上世纪六十年代）出生的科学家经验更丰富，实验室更完备，因此在获取经费方面更具优势。（今年9月，《自然》在推特上提问：“青年科学家面临的挑战是什么？”“老科学家，”一位用户直言不讳地回答。）

2014年12月，在经历过情绪低潮后不久，Tingley和妻子去澳大利亚和印度尼西亚度了一个月的假，共享了一段难得的独处时光。一个月后，Tingley重返寒冬中的宾州州立大学，走在校园中，他感到阴云仿佛已经压到了自己的头顶。他清楚地知道，两门高级课程将占用自己的大部分时间，留给研究的时间很少，而且自己将再次回到每周辛苦往返看望妻子的状态中。如果他不能在短时间内拿到资助，那就没有夏季工资。“我和妻子都知道这并非长久之计。”

Tingley开始在深夜搜索职位信息，2015年3月，他发现了一份完美的工作职位：位于悉尼的澳大利亚保险集团当时正在寻找拥有气象学、统计学和气候相关专业经验的人才。Tingley在两个月后入职，他的妻子也在新南威尔士大学轻松找到了一份传媒相关的工作。现在，Tingley已经成为了高级研究分析师，工作内容是对丛林火灾、旋风和其它类型的风暴的风险进行建模和量化。当然，这次越洲跨洋的搬迁并非一帆风顺——作为一名转入私营企业的年轻研究者，他不得不从头开始，重新证明自己。

现在，Tingley会提醒其他人，走向事业成功的道路有很多。“将自己的所学应用于私营部门是完全合理的。”他说，自己不会怀念青年研究者肩上所担负的压力和高度期望。在9月的一个阳光明媚的周六，Tingley和妻子走出家门来到附近的海滩上散步。“原来周末这么棒，”他说。

自我压力

“没钱时有压力，有钱时也有压力。”—Eddie López-Honorato

Alejandro Cartagena for Nature

有时，压力并非来自对经费或终身教职的追求，而是源于成为一名优秀科学家的理想。来自各个学科的青年研究者告诉《自然》，没有对成功的明确预期令自己无所适从——材料科学家Eddie López-Honorato就是其中之一。

他在墨西哥城长大，并在当地的墨西哥国立自治大学学习化学专业，但是他的博士学位是在英国曼彻斯特大学完成的。他说，为了完成实验，他不分昼夜地工作，连周末也不休息；在儿子出生后，情况变得更加困难了。虽然感到了压力，但在曼彻斯特学到的高工作标准是López-Honorato现在努力效仿的目标。之后，他来到了德国超铀元素研究所做博士后，工作内容是为反应堆所用的核燃料开发更安全的涂层。

完成博士后工作后，他有机会回到英国担任谢菲尔德大学的讲师，但是他和妻子Paola希望回墨西哥。他们做了一番权衡：López-Honorato意识到他在墨西哥的专业声誉还有待确立，而且墨西哥的科研基础设施不如欧洲发达；但是，他也认为在英国工作对于他的家人来说较为困难，因为他们面临着长期的语言和文化差异。最终，他们选择了回到墨西哥。

2012年3月，López-Honorato开始在墨西哥国立理工研究所高级研究中心（CINVESTAV）就职。站在自己全新而空旷的实验室前，他感到了一种令人惊叹的独立感和潜力。“你知道自己必须很快招到学生、找到资金，这会激励你开始工作，”他说。虽然政府会给他和他的学生支付工资，但是他仍需要得到资金来支持自己的研究。他发出了一系列申请政府资助的计划书，但无一成功。

在2012年一整年中，López-Honorato都在墨西哥和美国到处寻找建立合作关系的机会，给素不相识的科学家发邮件解释自己的工作。资助开始慢慢流入。到了2014年，他已经获得了足够多的资金，可以覆盖他大部分的研究费用，此外，他还确立了实验室的第二个工作方向：开发吸附材料以消除饮用水中的砷——在墨西哥的一些地区，这个问题影响了将近一半的水井。自从在CINVESTAV工作以来，他发表了20篇研究论文，建立起了一个拥有15名成员的实验室。

与许多受访者一样，他表示维持资助就和获得第一笔资助一样困难。尽管他的职位是有保障的，但他也感受到了维持研究项目运转，为帮助更年轻的科学家开创事业的压力。“没钱的时候有压力，有钱的时候也有压力，因为你要做出点东西出来。如果发生任何问题，都是我的责任。”López-Honorato介绍了最近发生在他身上的一件事：由于官僚主义的影响，采购一台对他的核燃料工作至关重要的喷涂机延迟了8个月时间；这导致整个项目落后计划一年，而López-Honorato觉得应该承担责任的是自己。

像其他专业人士一样，许多科学家也表示每天的时间不够用。López-Honorato表示，在过去两个月里，他每天晚上平均只睡四个小时。和其他事业刚起步的研究员一样，他正处于“孩子和另一半最需要自己的阶段”，他说。现在，他的二儿子已经8个月大了。

他与自己是否有理由抱怨的念头做着斗争，也知道压力主要是自找的。“说一句‘我受够了’就能解决问题，”他说。这是许多青年研究者需要面对的问题——如果设定目标的人是你自己，有多少资金、学生或发表才算是足够的呢？在2014年的一篇博客中，加州大学圣地亚哥分校的认知科学家Philip Guo写道，学者常常感到自己仿佛站在一台不断加速的跑步机上。

他说，之前在谷歌做软件工程师时，他“非常清楚自己应该做什么、要做到什么程度”。然而，学者却有教课、指导学生、做研究、写资助申请，以及支持部门、学校和学术界工作等等义务——“而安排这些工作的人相互却并不了解，也不在乎”。Alberts强调，青年研究者需要两种主要资助，一个用于维持工资，一个支持研究项目。“年轻人面临着巨大的压力，这样怎么能做出最好的成绩呢？所有的激励方式都用错了。”

今年，López-Honorato正在尝试降低自己的预期，他只申请一笔产业界资助，希望这样能让他及时回家陪儿子们玩——在2012年，他申请了七笔。但来自内心的压力是最难缓解的。“我们都希望做到最好，正是因为如此，我们才获得了现在的工作。这属于自我压力，但更难摆脱。”

无暇思考

“如果有人抱怨不公，很容易被说是无病呻吟。” — Felienne Hermans

Annelies van ’t Hul for Nature

Felienne Hermans一直对计算机着迷。她在10岁时自学编程，大学读的是计算机科学专业，之后在荷兰代尔夫特理工大学获得了博士学位。博士期间，她将软件工程方法应用到了电子数据表中，让终端用户（比如会计或生物学家）能更方便地维护数据和添加数据注释。这项创造性的工作帮助她发表了顶级会议论文，在计算机科学领域，这对晋升是至关重要的。当她的研究小组（由四位教授组成）出现了一个终身职位空缺时，她询问了校方自己是否可以申请。最终，她打败了学校内外的竞争对手，于2013年3月成为了一名独立的助理教授，当时年仅28岁。

在这个职位上工作两年后，Hermans感到不堪重负。她要带两名研究生和一名博士后，备课，还要准备应付各种似乎永无止境的“服务”请求：为期刊和同事们审稿。电子数据表工作在某种程度上已经完结了，她希望能转至更激动人心的新研究领域。但连续不断发表论文的压力如影随形。理论上，她的工作分为三块：教学、研究和学术服务，各占40%、40%和20%，但她获得的印象却是研究应该高于一切。“四篇论文比三篇好，五篇论文比四篇好，”她说。

像Alberts一样，她认为目前将研究产出与发表画上等号的观点会扼杀创造性。“论文只是交流观点和实验的一种形式，”她渴望“能有一个空闲的下午，看着窗外思考‘下一步我要做什么？’”。

另一个障碍也贯穿了她的职业生涯：作为身处男性主导领域中的女性。2014年，Hermans参加了在英国剑桥举办的代码生成（Code Generation）编程实作会议，她发现，在100余名参会者中，加上自己仅有两名女性。在为期三天的会议中，她都在向同事们介绍这一令人悲哀的数据，而不是根据初衷介绍自己的编程工作。“这样的事情会影响你的心情，耗尽你的精力，”她说。在调查中，《自然》收到了来自青年科学家的十几条评论，她们表示，性别歧视、性别偏见，以及缺少对女性的支持拖累了自己的事业。

每周六，Hermans都会去社区中心做义工，教市中心的小朋友编程，这个经历帮助她确立了新的研究方向。她和同事开始思考教孩子编程的最佳方式。举例来说，他们不想简单地解释怎样让机器人向前走，而是希望能告诉孩子如何通过适当命名程序功能和避免“代码异味”（即设计不佳的程序片段）来维持代码质量。这种转变并不完全顺利——她的第一篇关于代码异位通用理论的会议论文被拒稿了，原因是论据不足，但她现在已经进入了状态。

Hermans说，回顾过去，她或许应该忽略发表论文的压力，多做思考。“但当时我刚入职，非常担心两年后就还不上房贷了，”现在，她会更加仔细地规划自己的时间。如果一位同事敲门，请她帮忙审阅学生论文，她也能拒绝他们：“我已经完成我要做的20%服务了。”她调整了一周的安排，将教学、写资助申请和服务排在了周一至周四，这样，她周五就可以与她的六位实验室成员待在一起了。

要想在获取资助等方面帮助青年研究者，还可以采取更有组织的措施。Alberts表示，“资源必须向更年轻的研究者倾斜”。他提到了欧洲研究理事会的资助项目，这些项目会将申请人划归三个事业阶段——初级阶段（博士毕业后的2-7年内）、中级阶段（博士毕业后的7-12年）和高级阶段（博士毕业12年以上），让各阶段的申请者与同辈竞争。

同样地，NIH旗下的NIGMS在今年试行了一个名为Maximizing Investigators’ Research Award的资助项目，将起步阶段的研究者与资深研究者区别开来，并提供为期五年的保证资助。Lorsch表示，这是美国科研资助体系的一次创新，意味着不再进行“风马牛不相及的比较”。Lorsch还说，应该鼓励年纪较大的研究者转而从事不需要研究经费的工作，比如教学、指导学生和科学普及，这能帮助年轻的研究者获得一席之地。

其他科学家则强烈反对这种观点。像许多资深科学家一样，Alberts并不认为问题仅与年龄有关。“这和公平无关，而是如何把科研经费花在刀刃上。无论是资助年轻人还是老人做创新研究都能推进科学的发展。”

Hermans清醒地认识到，青年科学家的怨言很可能会被漠视。“如果有人抱怨不公，很容易被说成是无病呻吟，”她说。“但是，他们抱怨的并不是想象出来的问题。”她觉得自己有责任挑明青年研究者所面临的挑战。“资深研究者应该注意青年科学家是否在退步，并询问他们，‘你感到压力过大吗？为什么没有热情了？’”

Lorsch表示，他通过亲身经历了解到，美国“被遗忘一代”（指上世纪60年代中期至80年代初出生的一代）科学家并没有满腹牢骚。“我没有听到那些努力争取或延期第一笔资助，或是那些努力让实验室运转起来的人抱怨，”他说，“相反，给我打电话大喊大叫的是那些经费充足，但落选了一两笔基金的人。”ⓝ

DeepMind

［转载］强化学习系列之九:Deep Q Network (DQN)

January 22, 2017 zr9558 Leave a comment

http://www.algorithmdog.com/ml/rl-series

http://www.algorithmdog.com/reinforcement-learning-model-free-evalution

文章目录 [隐藏]

我们终于来到了深度强化学习。

1. 强化学习和深度学习结合

机器学习=目标+表示+优化。目标层面的工作关心应该学习到什么样的模型，强化学习应该学习到使得激励函数最大的模型。表示方面的工作关心数据表示成什么样有利于学习，深度学习是最近几年兴起的表示方法，在图像和语音的表示方面有很好的效果。深度强化学习则是两者结合在一起，深度学习负责表示马尔科夫决策过程的状态，强化学习负责把控学习方向。

深度强化学习有三条线：分别是基于价值的深度强化学习，基于策略的深度强化学习和基于模型的深度强化学习。这三种不同类型的深度强化学习用深度神经网络替代了强化学习的不同部件。基于价值的深度强化学习本质上是一个 Q Learning 算法，目标是估计最优策略的 Q 值。不同的地方在于 Q Learning 中价值函数近似用了深度神经网络。比如 DQN 在 Atari 游戏任务中，输入是 Atari 的游戏画面，因此使用适合图像处理的卷积神经网络（Convolutional Neural Network，CNN）。下图就是 DQN 的框架图。

2. Deep Q Network (DQN) 算法

当然了基于价值的深度强化学习不仅仅是把 Q Learning 中的价值函数用深度神经网络近似，还做了其他改进。

这个算法就是著名的 DQN 算法，由 DeepMind 在 2013 年在 NIPS 提出。DQN 算法的主要做法是 Experience Replay，其将系统探索环境得到的数据储存起来，然后随机采样样本更新深度神经网络的参数。

Experience Replay 的动机是：1）深度神经网络作为有监督学习模型，要求数据满足独立同分布，2）但 Q Learning 算法得到的样本前后是有关系的。为了打破数据之间的关联性，Experience Replay 方法通过存储-采样的方法将这个关联性打破了。

DeepMind 在 2015 年初在 Nature 上发布了文章，引入了 Target Q 的概念，进一步打破数据关联性。Target Q 的概念是用旧的深度神经网络 w− 去得到目标值，下面是带有 Target Q 的 Q Learning 的优化目标。

J = m i n (r + γ m a x a' Q (s', a', w -)) - Q (s, a, w)) 2

下图是 Nature 论文上的结果。可以看到，打破数据关联性确实很大程度地提高了效果。

3. 后续发展

DQN 是第一个成功地将深度学习和强化学习结合起来的模型，启发了后续一系列的工作。这些后续工作中比较有名的有 Double DQN, Prioritized Replay 和 Dueling Network。

3.1 Double DQN

Thrun 和 Schwartz 在古老的 1993 年观察到 Q-Learning 的过优化 (overoptimism) 现象 [1]，并且指出过优化现象是由于 Q-Learning 算法中的 max 操作造成的。令 Qtarget(s,a) 是目标 Q 值；我们用了价值函数近似，Qapprox 是近似 Q 值；令 Y 为近似值和目标之间的误差，即

Q a p p r o x (s, a) = Q t a r g e t (s, a) + Y s, a

Q-learning 算法更新步骤将所有的 Q 值更新一遍，这个时候近似值和目标值之间的差值

Z = = \geq r s, a + γ m a x a 1 Q a p p r o x (s', a 1) - r s, a + γ m a x a 2 Q t a r g e t (s', a 2) γ m a x a 1 Q a p p r o x (s', a 1) - γ m a x a 2 Q t a r g e t (s', a 2) γ Q a p p r o x (s', a') - Q t a r g e t (s', a') = γ Y s', a' (1)

其中 a′=argmaxaQtarget(s′,a)。这时候我们发现，即使 E[Y]=0 也就是一开始是无偏的近似， Q Learning 中的 max 操作也会导致 E[Z] > 0。这就是过优化现象。为了解决这个问题，Thrun 和 Schwartz 提出了 Double Q 的想法。 Hasselt 等进一步分析了过优化的现象，并将 Double Q 的想法应用在 DQN 上，从而提出了 Double DQN。Double DQN 训练两个 Q 网络，一个负责选择动作，另一个负责计算。两个 Q 网络交替进行更新，具体算法如下所示。

下图是 Hasselt 在论文中报告的实验结果。从实验结果来看，Double DQN 拥有比 DQN 好的效果。

3.2 Prioritized Replay

DQN 用了 Experience Replay 算法，将系统探索环境获得的样本保存起来，然后从中采样出样本以更新模型参数。对于采样，一个常见的改进是改变采样的概率。Prioritized Replay [3] 便是采取了这个策略，采用 TD-err 作为评判标准进行采样。

T D - e r r = | r s, a + γ m a x a' Q (s', a') - Q (s, a) | (2)

下图是论文中采用的例子。例子中有 n 个状态，在每个状态系统一半概率采取 “正确” 或者一半概率 “错误”，图中红色虚线是错误动作。一旦系统采取错误动作，游戏结束。只有第 n 个状态 “正确” 朝向第 1 个状态，系统获得奖励 1。在这个例子训练过程中，系统产生无效样本，导致训练效率底下。如果采用 TD-err 作为评判标准进行采样，能够缓解这个问题。

论文报告了 Prioritized Replay 算法效果。从下图来看，Prioritized Replay 效果很好。

3.3 Dueling Network

Baird 在 1993 年提出将 Q 值分解为价值 (Value) 和优势 (Advantage) [4]。

Q (s, a) = V (s) + A (s, a)

这个想法可以用下面的例子说明 [5]。上面两张图表示，前方无车时，选择什么动作并不会太影响行车状态。这个时候系统关注状态的价值，而对影响动作优势不是很关心。下面两张图表示，前方有车时，选择动作至关重要。这个时候系统需要关心优势了。这个例子说明，Q 值分解为价值和优势更能刻画强化学习的过程。

Wang Z 将这个 idea 应用在深度强化学习中，提出了下面的网络结构 [5]。

这种网络结构很简单，但获得了很好的效果。

Dueling Network 是一个深度学习的网络结构。它可以结合之前介绍的 Experience Replay、 Double DQN 和 Prioritized Replay 等方法。作者在论文中报告 Dueling Network 和 Prioritized Replay 结合的效果最好。

4. 总结

上次本来想把基于价值的深度强化学习的 Double DQN, Prioritized Replay 和 Dueling Network 也写了的，写到晚上 2 点。现在补上这部分内容。

从上面介绍来看，DQN、 Double DQN、Prioritized Replay 和 Dueling Network 都能在深度学习出现之前的工作找到一些渊源。深度学习的出现，将这些方法的效果提高了前所未有的高度。

文章结尾欢迎关注我的公众号 AlgorithmDog，每次更新就会有提醒哦~

[1] S. Thrun and A. Schwartz. Issues in using function approximation for reinforcement learning. In M. Mozer, P. Smolensky, D. Touretzky, J. Elman, and A. Weigend, editors, Proceedings of the 1993 Connectionist Models Summer School, Hillsdale, NJ, 1993. Lawrence Erlbaum.
[2] Van Hasselt, Hado, Arthur Guez, and David Silver. “Deep reinforcement learning with double Q-learning.” CoRR, abs/1509.06461 (2015).
[3] Schaul T, Quan J, Antonoglou I, et al. Prioritized experience replay[J]. arXiv preprint arXiv:1511.05952, 2015.
[4] Baird, L.C. Advantage updating. Technical Report WLTR-93-1146,
Wright-Patterson Air Force Base, 1993.
[5] Wang Z, de Freitas N, Lanctot M. Dueling network architectures for deep reinforcement learning[J]. arXiv preprint arXiv:1511.06581, 2015.

强化学习系列系列文章

此条目发表在强化学习分类目录，贴了DQN标签。将固定链接加入收藏夹。

数据挖掘与机器学习

三十分钟理解博弈论“纳什均衡” — Nash Equilibrium

January 19, 2017 zr9558 Leave a comment

欢迎转载，转载请注明：本文出自Bin的专栏blog.csdn.net/xbinworld。
技术交流QQ群：433250724，欢迎对算法、技术感兴趣的同学加入。

纳什均衡（或者纳什平衡），Nash equilibrium ,又称为非合作博弈均衡，是博弈论的一个重要策略组合，以约翰·纳什命名。

约翰·纳什，生于1928年6月13日。著名经济学家、博弈论创始人、《美丽心灵》男主角原型。前麻省理工学院助教，后任普林斯顿大学数学系教授，主要研究博弈论、微分几何学和偏微分方程。由于他与另外两位数学家（经济学家，约翰·C·海萨尼和莱因哈德·泽尔腾）在非合作博弈的均衡分析理论方面做出了开创性的贡献，对博弈论和经济学产生了重大影响，而获得1994年诺贝尔经济学奖。

纳什的人生非常曲折，一度学术成果不被认可，甚至换上严重的精神分裂症，在爱的力量下在很多年后奇迹般地恢复，并最终获得诺内尔经济学奖。影片《美丽心灵》（A Beautiful Mind）是一部改编自同名传记而获得奥斯卡金像奖的电影，影片以约翰·纳什与他的妻子艾莉西亚（曾离婚，但2001年复婚）以及普林斯顿的朋友、同事的真实感人故事为题材，艺术地重现了这个爱心呵护天才的传奇故事。

这里写图片描述
年轻时的Nash，很帅噢

纳什均衡定义

经济学定义[3]
所谓纳什均衡，指的是参与人的这样一种策略组合，在该策略组合上，任何参与人单独改变策略都不会得到好处。换句话说，如果在一个策略组合上，当所有其他人都不改变策略时，没有人会改变自己的策略，则该策略组合就是一个纳什均衡。

数学定义
纳什均衡的定义：在博弈G=﹛S1,…,Sn：u1,…，un﹜中，如果由各个博弈方的各一个策略组成的某个策略组合（s1*,…，sn*）中，任一博弈方i的策略si*，都是对其余博弈方策略的组合（s1*,…s*i-1,s*i+1,…，sn*）的最佳对策，也即ui（s1*,…s*i-1,si*,s*i+1,…，sn*）≥ui（s1*,…s*i-1,sij*,s*i+1,…，sn*）对任意sij∈Si都成立，则称（s1*,…，sn*）为G的一个纳什均衡。

注：经济学定义从字面上还是相对比较好理解的；这里稍微解释一下数学定义，博弈论也称Game Theory，一场博弈用G表示，Si表示博弈方i的策略，ui表示收益。因此，纳什均衡的意思是：任何一方采取的策略都是对其余所有方采取策略组合下的最佳对策；当所有其他人都不改变策略时，为了让自己的收益最大，任何一方都不会（或者无法）改变自己的策略，这个时候的策略组合就是一个纳什均衡。

纳什证明了在每个参与者都只有有限种策略选择、并允许混合策略的前提下，纳什均衡一定存在。以两家公司的价格大战为例，纳什均衡意味着两败俱伤的可能：在对方不改变价格的条件下，既不能提价，否则会进一步丧失市场；也不能降价，因为会出现赔本甩卖。于是两家公司可以改变原先的利益格局，通过谈判寻求新的利益评估分摊方案，也就是Nash均衡。类似的推理当然也可以用到选举，群体之间的利益冲突，潜在战争爆发前的僵局，议会中的法案争执等。

纳什均衡案例

以下介绍几个经典的纳什均衡案例[2][4]，因为本文主要是以科普为主，所以案例不会涉及到复杂深奥的经济学问题（事实上，我也不懂，哈~）。

（1）囚徒困境

假设有两个小偷A和B联合犯事、私入民宅被警察抓住。警方将两人分别置于不同的两个房间内进行审讯，对每一个犯罪嫌疑人，警方给出的政策是：如果一个犯罪嫌疑人坦白了罪行，交出了赃物，于是证据确凿，两人都被判有罪。如果另一个犯罪嫌疑人也作了坦白，则两人各被判刑8年；如果另一个犯罪嫌人没有坦白而是抵赖，则以妨碍公务罪（因已有证据表明其有罪）再加刑2年，而坦白者有功被减刑8年，立即释放。如果两人都抵赖，则警方因证据不足不能判两人的偷窃罪，但可以私入民宅的罪名将两人各判入狱1年。

此时产生了两个嫌疑人之间的一场博弈：

这里写图片描述

表中的数字表示A，B各自的判刑结果。博弈论分析中一般都用这样的表来表示。

该案例，显然最好的策略是双方都抵赖，结果是大家都只被判1年。但是由于两人处于隔离的情况，首先应该是从心理学的角度来看，当事双方都会怀疑对方会出卖自己以求自保、其次才是亚当·斯密的理论，假设每个人都是“理性的经济人”，都会从利己的目的出发进行选择。这两个人都会有这样一个盘算过程：假如他坦白，如果我抵赖，得坐10年监狱，如果我坦白最多才8年；假如他要是抵赖，如果我也抵赖，我就会被判一年，如果我坦白就可以被释放，而他会坐10年牢。综合以上几种情况考虑，不管他坦白与否，对我而言都是坦白了划算。两个人都会动这样的脑筋，最终，两个人都选择了坦白，结果都被判8年刑期。

注：亚当·斯密的理论（“看不见的手”原理），在市场经济中，每一个人都从利己的目的出发，而最终全社会达到利他的效果。但是我们可以从“纳什均衡”中引出“看不见的手”原理的一个悖论：从利己目的出发，结果损人不利己，既不利己也不利他。

（2）智猪博弈

猪圈里有两头猪，一头大猪，一头小猪。猪圈的一边有个踏板，每踩一下踏板，在远离踏板的猪圈的另一边的投食口就会落下少量的食物。如果有一只猪去踩踏板，另一只猪就有机会抢先吃到另一边落下的食物。当小猪踩动踏板时，大猪会在小猪跑到食槽之前刚好吃光所有的食物；若是大猪踩动了踏板，则还有机会在小猪吃完落下的食物之前跑到食槽，争吃到另一半残羹。

那么，两只猪各会采取什么策略？答案是：小猪将选择“搭便车”策略，也就是舒舒服服地等在食槽边；而大猪则为一点残羹不知疲倦地奔忙于踏板和食槽之间。

原因何在？因为，小猪踩踏板将一无所获，不踩踏板反而能吃上食物。对小猪而言，无论大猪是否踩动踏板，不踩踏板总是好的选择。反观大猪，已明知小猪是不会去踩动踏板的，自己亲自去踩踏板总比不踩强吧，所以只好亲力亲为了。

（3）普通范式博弈

GOO公司和SAM公司是某手机产品生态的两大重量级参与者，双方在产业链的不同位置上各司其职且关系暧昧，有时也往往因商业利益和产品影响力的争夺而各怀异心。二者的收益也随着博弈的变化而不断更替。

这里写图片描述

上图表格模拟了两家公司的博弈现状，双方各有两个可选策略“合作”与“背叛”，格中的四组数据表示四个博弈结局的分数（收益），每组数据的第一个数字表示GOO公司的收益，后一个数字表示SAM公司的收益。

博弈是同时进行的，一方参与者必须站在对方的角度上来思考我方的策略选择，以追求收益最大化。这在博弈论里称作Putting yourselves into other people’s shoes。

现在我们以GOO公司为第一人称视角来思考应对SAM公司的博弈策略。假如SAM公司选择合作，那么我方也选择合作带来的收益是3，而我方选择背叛带来的收益是5，基于理性的收益最大化考虑，我方应该选择背叛，这叫严格优势策略；假如SAM公司选择背叛，那么我方选择合作带来的收益是-3，而选择背叛带来的收益为-1，为使损失降到最低，我方应该选择背叛。最后，GOO公司的分析结果是，无论SAM公司选择合作还是背叛策略，我方都必须选择背叛策略才能获得最大化的收益。

同理，当SAM公司也以严格优势策略来应对GOO公司的策略选择时，我们重复上述分析过程，就能得出结论：无论GOO公司选择合作还是背叛策略，SAM公司都必须选择背叛策略才能获得最大化收益。

最后我们发现，本次博弈的双方都采取了背叛策略，各自的收益都为-1，这是一个比较糟糕的结局，尽管对任何一方来说都不是最糟糕的那种。这种局面就是著名的“囚徒困境”。

但是，博弈的次数往往不止一次，就像COO与SAM公司双方的商业往来也许会有很多机会。当二者经历了多次背叛策略的博弈之后，发现公式上还有一个（3，3）收益的双赢局面，这比（-1，-1）的收益结果显然要好很多，因此二者在之后的博弈过程中必然会尝试互建信任，从而驱使双方都选择合作策略。

这里有一个理想化假设，那就是假设双方都知道博弈次数是无限的话，也就是说双方的商业往来是无止尽的，那么二者的策略都将持续选择合作，最终的博弈收益将定格在（3，3），这就是一个纳什均衡。既然博弈次数是无限的，那么任何一方都没有理由选择背叛策略去冒险追求5点短暂收益，而招致对方在下一轮博弈中的报复（这种报复在博弈论里称作“以牙还牙”策略）。

还有另一种假设情况是，假使双方都知道博弈次数是有限的，也许下一次博弈就是最后一次，那么为了避免对方在最后一轮博弈中选择背叛策略而使我方遭受-3的收益损失，于是双方都重新采取了背叛的策略选择，最后的博弈结果又回到了（-1，-1），这就形成了第二个纳什均衡。

由此可见，随着次数（博弈性质）的变化，纳什均衡点也并非唯一。

（4）饿狮博弈

假设有A、B、C、D、E、F六只狮子（强弱从左到右依次排序）和一只绵羊。假设狮子A吃掉绵羊后就会打盹午睡，这时比A稍弱的狮子B就会趁机吃掉狮子A，接着B也会午睡，然后狮子C就会吃掉狮子B，以此类推。那么问题来了，狮子A敢不敢吃绵羊？

为简化说明，我们先给出此题的解法。该题须采用逆向分析法，也就是从最弱的狮子F开始分析，依次前推。假设狮子E睡着了，狮子F敢不敢吃掉狮子E？答案是肯定的，因为在狮子F的后面已没有其它狮子，所以狮子F可以放心地吃掉午睡中的狮子E。

继续前推，既然狮子E睡着会被狮子F吃掉，那么狮子E必然不敢吃在他前面睡着的狮子D。

再往前推，既然狮子E不敢吃掉狮子D，那么D则可以放心去吃午睡中的狮子C。依次前推，得出C不吃，B吃，A不吃。所以答案是狮子A不敢吃掉绵羊。

推理结果如下图：
这里写图片描述

但是，如果我们在狮子F的后面增加了一只狮子G，总数变成7只，用逆向分析法按照上题步骤再推一次，很容易得出结论：狮子G吃，狮子F不吃，E吃，D不吃，C吃，B不吃，A吃。这次的答案变成了狮子A敢吃掉绵羊。

这里写图片描述

对比两次博弈我们发现，狮子A敢不敢吃绵羊取决于狮子总数的奇偶性，总数为奇数时，A敢吃掉绵羊；总数为偶数时，A则不敢吃。因此，总数为奇数和总数为偶数的狮群博弈结果形成了两个稳定的纳什均衡点。

（5）硬币正反

你正在图书馆枯坐，一位陌生美女主动过来和你搭讪，并要求和你一起玩个数学游戏。美女提议：“让我们各自亮出硬币的一面，或正或反。如果我们都是正面，那么我给你3元，如果我们都是反面，我给你1元，剩下的情况你给我2元就可以了。”那么该不该和这位姑娘玩这个游戏呢？

每一种游戏依具其规则的不同会存在两种纳什均衡，一种是纯策略纳什均衡，也就是说玩家都能够采取固定的策略(比如一直出正面或者一直出反面)，使得每人都赚得最多或亏得最少；或者是混合策略纳什均衡，而在这个游戏中，便应该采用混合策略纳什均衡。

这里写图片描述

假设我们出正面的概率是x，反面的概率是1-x，美女出正面的概率是y，反面的概率是1-y。为了使利益最大化，应该在对手出正面或反面的时候我们的收益都相等，由此列出方程就是

3x + (-2)(1-x)=(-2) * x + 1*( 1-x )——解方程得x=3/8；同样，美女的收益，列方程-3y + 2( 1-y)= 2y+ (-1) * ( 1-y)——解得y也等于3/8。

于是，我们就可以算美女每次的期望收益是： （1-y）(2x-(1-x)) + y(-3x+2(1-x)) = 1/8元，也就是说，双方都采取最优策略的情况下，平均每次美女赢1/8元。

其实只要美女采取了(3/8,5/8)这个方案，不论你再采用什么方案，都是不能改变局面的。如果全部出正面，每次的期望收益是 (3+3+3-2-2-2-2-2)/8=-1/8元；如果全部出反面，每次的期望收益也是(-2-2-2+1+1+1+1+1)/8=-1/8元。而任何策略无非只是上面两种策略的线性组合，所以期望还是-1/8元。但是当你也采用最佳策略时，至少可以保证自己输得最少。否则，你肯定就会被美女采用的策略针对，从而赔掉更多。

纳什均衡分类

最后讲一讲纳什均衡的分类。纳什均衡可以分成两类：“纯战略纳什均衡”和“混合战略纳什均衡”。

要说明纯战略纳什均衡和混合战略纳什均衡，要先说明纯战略和混合战略。所谓纯战略是提供给玩家要如何进行赛局的一个完整的定义。特别地是，纯战略决定在任何一种情况下要做的移动。战略集合是由玩家能够施行的纯战略所组成的集合。而混合战略是对每个纯战略分配一个机率而形成的战略。混合战略允许玩家随机选择一个纯战略。混合战略博弈均衡中要用概率计算，因为每一种策略都是随机的，达到某一概率时，可以实现支付最优。因为机率是连续的，所以即使战略集合是有限的，也会有无限多个混合战略。

当然，严格来说，每个纯战略都是一个“退化”的混合战略，某一特定纯战略的机率为 1，其他的则为 0。
故“纯战略纳什均衡”，即参与之中的所有玩家都玩纯战略；而相应的“混合战略纳什均衡”，之中至少有一位玩家玩混合战略。并不是每个赛局都会有纯战略纳什均衡，例如“钱币问题”就只有混合战略纳什均衡，而没有纯战略纳什均衡。不过，还是有许多赛局有纯战略纳什均衡（如协调赛局，囚徒困境和猎鹿赛局）。甚至，有些赛局能同时有纯战略和混合战略均衡。

Uncategorized

LEARNING REINFORCEMENT LEARNING (WITH CODE, EXERCISES AND SOLUTIONS)

January 19, 2017 zr9558 Leave a comment

http://www.wildml.com/2016/10/learning-reinforcement-learning/

Skip all the talk and go directly to the Github Repo with code and exercises.

WHY STUDY REINFORCEMENT LEARNING

Reinforcement Learning is one of the fields I’m most excited about. Over the past few years amazing results like learning to play Atari Games from raw pixels and Mastering the Game of Go have gotten a lot of attention, but RL is also widely used in Robotics, Image Processing and Natural Language Processing.

Combining Reinforcement Learning and Deep Learning techniques works extremely well. Both fields heavily influence each other. On the Reinforcement Learning side Deep Neural Networks are used as function approximators to learn good representations, e.g. to process Atari game images or to understand the board state of Go. In the other direction, RL techniques are making their way into supervised problems usually tackled by Deep Learning. For example, RL techniques are used to implement attention mechanisms in image processing, or to optimize long-term rewards in conversational interfaces and neural translation systems. Finally, as Reinforcement Learning is concerned with making optimal decisions it has some extremely interesting parallels to human Psychology and Neuroscience (and many other fields).

With lots of open problems and opportunities for fundamental research I think we’ll be seeing multiple Reinforcement Learning breakthroughs in the coming years. And what could be more fun than teaching machines to play Starcraft and Doom?

HOW TO STUDY REINFORCEMENT LEARNING

There are many excellent Reinforcement Learning resources out there. Two I recommend the most are:

The latter is still work in progress but it’s ~80% complete. The course is based on the book so the two work quite well together. In fact, these two cover almost everything you need to know to understand most of the recent research papers. The prerequisites are basic Math and some knowledge of Machine Learning.

That covers the theory. But what about practical resources? What about actually implementing the algorithms that are covered in the book/course? That’s where this post and the Github repository comes in. I’ve tried to implement most of the standard Reinforcement Algorithms using Python, OpenAI Gym and Tensorflow. I separated them into chapters (with brief summaries) and exercises and solutions so that you can use them to supplement the theoretical material above.All of this is in the Github repository.

Some of the more time-intensive algorithms are still work in progress, so feel free to contribute. I’ll update this post as I implement them.

Introduction to RL problems, OpenAI gym
MDPs and Bellman Equations
Dynamic Programming: Model-Based RL, Policy Iteration and Value Iteration
Monte Carlo Model-Free Prediction & Control
Temporal Difference Model-Free Prediction & Control
Function Approximation
Deep Q Learning (WIP)
Policy Gradient Methods (WIP)
Learning and Planning (WIP)
Exploration and Exploitation (WIP)

LIST OF IMPLEMENTED ALGORITHMS

Dynamic Programming Policy Evaluation
Dynamic Programming Policy Iteration
Dynamic Programming Value Iteration
Monte Carlo Prediction
Monte Carlo Control with Epsilon-Greedy Policies
Monte Carlo Off-Policy Control with Importance Sampling
SARSA (On Policy TD Learning)
Q-Learning (Off Policy TD Learning)
Q-Learning with Linear Function Approximation
Deep Q-Learning for Atari Games
Double Deep-Q Learning for Atari Games
Deep Q-Learning with Prioritized Experience Replay (WIP)
Policy Gradient: REINFORCE with Baseline
Policy Gradient: Actor Critic with Baseline
Policy Gradient: Actor Critic with Baseline for Continuous Action Spaces
Deterministic Policy Gradients for Continuous Action Spaces (WIP)
Deep Deterministic Policy Gradients (DDPG) (WIP)
Asynchronous Advantage Actor Critic (A3C) (WIP)

DeepMind

2016年的AI，一场史无前例的技术营销

January 16, 2017 zr9558 Leave a comment

版权归作者所有，任何形式转载请联系作者。
作者：insightlight（来自豆瓣）
来源：https://www.douban.com/note/602333108/

2016年12月29日，大概又是一个会被载入史册的日子。名叫SkyNet，哦不，是”Master”的围棋AI，开始了第一次对人类的血洗。

在奕城的第一晚，Master十战全胜；第二日，横扫韩国第一人朴廷桓九九段、世界第一人柯洁，比分都是2比0；第三日，陈耀烨九段、金庭贤五段、范廷钰九段、芈昱廷九段和唐韦星九段依次落马；再之后是古力、时越、金志锡、井山裕太；到了1月4日，聂卫平老先生以7目半落败。最终战绩，Master 60胜0负1平（平的那局是因为掉线）

自此，Artificial Intelligence（AI），这个在2016年已经如日中天的buzzword，再一次传遍大街小巷。人们沉浸在对AI的崇拜、慌乱与恐惧之中，然而作为吃瓜群众的笔者却在想一个问题：如果DeepMind没有事先与各国棋院通气，整个事件如何能进行得如此顺利，在时间上如此紧凑？所有重要的世界高手，都在短短几天的时间窗口内腾出了时间，如果说没有提前策划和组织，实在有点难以置信。掐指一算自从3月份AlphaGo的横空出世，DeepMind已有9个月时间没有在圈外露脸，大概它也感受到了营销的压力吧。

其实纵观2016年，在阿尔法狗狗的带领之下，AI界隔三差五地在圈内外制造着骚动：3月，除了人尽皆知的AlphaGo事件，李开复关于人工智能博士200w+美金年薪的文章刷屏；4月，Google著名的深度学习框架TensorFlow发布分布式版本；6月，Prisma上线，红极一时；8月，Google发布基于深度学习的NLU框架SyntaxNet； 9月，Google上线基于深度学习的机器翻译，索尼用人工智能写了两首歌；11月，计算机视觉学术大牛李飞飞老师下海进入工业界；12月，百度宣布他们的深度学习系统在语音识别上超过人类，DeepMind在NIPS16会议上宣布DeepMind Lab开源。一切的一切，都在各大媒体冠以【重磅】开头的新闻标题之下，一次次地牵动着广大吃瓜群众的神经——然而这些成就实际上离我们的生活又是那么的遥远。

在科技的历史上，从未有任何一项科技，在它的大规模真实应用之前，有持续一年甚至几年的营销运动。在这个风口之上，在这个AI几年的造势运动把人们的期望与恐惧推上一个历史顶点，而其真正落地应用又遥遥无期的一个尴尬节点，是时候冷静下来回顾一下AI的营销史了。

一、一些概念和历史

有几个概念需要先明确一下，因为我发现在今日媒体的狂轰滥炸之下，有大批AI民科是分不清像“人工智能”、“机器学习”、“深度学习”这些概念的关系的（例如我认识的非科班出身的人有90%认为机器学习=深度学习）。当然这些概念的含义也一直在“与时俱进”，不过学界还是有一个相对统一且合理的认知，可以帮助我们阐述问题。下面这张图描述了其中最重要的几个概念之间的关系
“人工智能”这个buzzword，常常会因为营销或者新闻报道的需求而被赋予不同的含义，其外延有时等同于“机器学习”，有时不等同，所以最外圈的这个等号并不完全准确。不过在2016年被大家普遍讨论的这些“AI”，可以认为基本上就是机器学习。内部的四个小圈则是学术上有确定外延的四个概念，代表了当前最重要的四个问题领域，是需要明确的重点概念。

有监督学习（supervised learning）——让机器观测到一些输入，并告诉机器在这些输入下应该产生什么样的输出。机器通过这些数据学习出一个模型，之后给它新输入的时候，它能够根据模型预测应该产生什么样的输出。比如机器看到一个图片，可以判断图片中的物体属于哪一个分类。

无监督学习（unsupervised learning）——让机器观测到一些输入，而没有标准输出，让机器自行去总结这些输入数据有什么统计特征，并生成有意义的产出。例如自动把大批文章聚成相似的几类，又例如给计算机看一些小狗小猫的照片，让计算机自动生成一些新的（与看过的相似但又不同的）小狗小猫的照片。

增强学习（reinforcement learning）——让机器观测到一些输入，并让机器根据输入做特定动作（action）。这些动作导致机器获得收益或者惩罚（reward）。机器通过增强学习优化它的动作策略（strategy），使得它的长期收益最大化。下棋就是这一类典型的问题，strategy就是行棋策略，reward就是赢棋。

深度学习（deep learning）——事实上不是一类问题，而只是一种方法，一种通过多层神经网络来构建上述三种问题所需要的模型的方法。

回到历史。这一波的AI热，最早应归功于Hinton老头子的文章《A fast learning algorithm for deep belief nets》这篇文章是2005年写的，截至2017年1月14日已有5000+的引用，足见其影响力）这篇文章实际上是用一种无监督学习的方法实现了对原始数据逐层抽取深度特征，而这些深度特征可以被用为有监督学习的特征来提高有监督学习的准确率。这解决了长久以来神经网络“无法做深”的痛点（原因是训练信号会随着深度增加而被稀释，有兴趣的读者可查阅相关资料），算是一个比较大的贡献。不过当时这个文章传达的大方向是用无监督学习的方法抽取特征（这个过程叫做pre-training），并没有把重点放在有监督学习本身的模型上，所以当时的同学们对于有监督/无监督在方向选择上是有点迷茫的。

这种迷茫直到2012年还存在。这一年的一件大事是Andrew NG等人的Google Brain团队，搞了一个庞大的分布式深度学习，在ImageNet图片物体分类竞赛中把对手远远甩在了身后（《Building High-level Features Using Large Scale Unsupervised Learning》）前面已经说过，物体分类是一个有监督学习任务，但是由于Hinton老爷子定下的无监督学习基调，Andrew NG等人还是把重心放在了无监督学习生成特征上面，并且做出了那幅著名的“机器学习出来的猫”。有趣的是，在2012年的NIPS上，Hinton和NG的团队同时放弃了pre-training。失去了pre-training的帮助，就需要其他方法解决训练信号被稀释的问题，Hinton团队的方法是换了一种叫做ReLU的激活函数（《ImageNet Classification with Deep Convolutional Neural Networks 》），NG团队的方法则是怼机器，大量的机器（《Large Scale Distributed Deep Networks》）。Hinton团队同时还抛出了CNN应用到ImageNet上的表现，CNN和ReLU这两个东西非常重要，成为此后深度学习研究的标配。结果Hinton团队这篇文章的引用数有8000多，而NG团队的两篇分别是700多和1000多。NG的营销能力强，学术创新上却总是比Hinton老爷子慢半拍。Anyway，自从12年NIPS这两篇文章之后的一段时间，大家对无监督学习就不怎么感冒了。
2012年Andrew NG团队无监督学习生成的猫脸图片。图片来源：New York Times
也是从2012年的ImageNet竞赛开始，AI进入第一个营销高潮。当时的人们对于计算机识别小猫小狗这种事情还觉得很新鲜，于是接下来科研圈的开始对此类事情趋之若鹜。几乎每个做机器学习的实验室都会尝试一把在State-of-the-art的模型上做一点哪怕是很小的微创新，希望能产生ImageNet准确率上一点哪怕是很小的提升，一旦成功了，就可以说自己是新的State-of-the-art。从那以后，大家开始只关心实验的准确率，越来越少的人关心模型本身的理论价值。AI研究的方法论，从传统科学的重视推理论证，变成了快速尝试+总结相关性（也就是所谓的“大数据思维”）。毕竟准确率数字是很好拿出去说的，理论价值却很难讲清楚。 AI自此进入营销时代。

在AI学术界这一翻天覆地的变化背后，Andrew NG功不可没。深度学习理论上的重要突破大多都不是归属于他的，然而他做了几件重要的事情：2008年发起“Stanford Engineering Everywhere”（SEE）项目，把自己的机器学习课程曝光给全世界人民；2011年组建了Google Brain项目，这个项目初期的最主要产出之一就是后来被媒体大书特书的那张无监督学习出来的猫脸，并且这个结果在报道的时候给人一种“机器有了自主学习能力”的认知；2012年创立Coursera，在MOOC社区中进一步营造出一种AI大繁荣的景象。NG大概是这几年媒体出镜率最高的AI学术圈人士。与其说是一位科学家，Andrew NG的角色更像是一位优秀的AI产品经理及营销人员，他的营销能力在圈内早已得到公认。关于NG的营销能力，在NIPS 2016会议上还有一个有趣的小细节，将会在后面提到。

回到我们的时间线，鉴于2012年底深度学习在有监督学习上的巨大成功，一段时间内大家忙于把这项技术推广到各个应用领域跑马圈地（其实主要还是图像和语音），暂时忘掉了无监督学习和生成猫脸的事情。到了2014年，当各个领域都被圈的差不多了，学术界在苦苦寻找下一个噱头的时候，大神Ian Goodfellow通过一个叫做“干”的东西（GAN，Generative Adversarial Network）把无监督学习重新带回了人们的视线。“干”干的就是“给计算机看一些小狗小猫的照片，让计算机自动生成一些新的（与看过的相似但又不同的）小狗小猫的照片”这样一件事情，不同点在于，它干的非常不错。一时间，AI学术界迅速高潮了，纷纷竞争起生成图片（以及语音、音乐等各种其他东西）的生意来。大家也并不关心我们为什么需要生成这些图片（相比之下语音合成和自动生成音乐反而更容易理解一些），大概只是觉得“能干这件事情看起来就很牛逼”，于是就做了，而且做的越来越好。下图是Ian Goodfellow在NIPS 2016上讲GAN的Tutorial里展示的一个生成小动物的demo（《NIPS 2016 Tutorial: Generative Adversarial Networks》）。
GAN生成的小动物图片。图片来源：Ian Goodfellow, NIPS 2016 Tutorial: Generative Adversarial Networks
与此同时，DeepMind在增强学习上的努力，则一直在相对低调地进行。增强学习在很长一段时间内被认为是“仅停留在学术研究”的存在，因其难以降下来的巨大状态空间和动作空间，很难做出一个可展示又足够吸引吃瓜群众的demo。因而在AlphaGo诞生之前，增强学习的研究一直处于一个不温不火的状态。一个叫做“DQN”的东西的出现打破了这个局面。通过把深度学习应用在strategy的学习更新上，巧妙避开大状态空间和动作空间，DQN使得在一个相对小的多的参数空间内训练成为可能（《Playing Atari with Deep Reinforcement Learning》）。这是一个了不起的成就，为后来的AlphaGo奠定了基础。这个伟大想法产生的时间在2013年以前（前述文章在2013年发表），而直到2015年AlphaGo问世之后才被广为传颂。可见一个漂亮的demo是多么重要。

再然后，就是大家都知道的事情了。

二、一些奇怪的现象

AI围棋战胜人类，本身是一个伟大的成就。然而在这个伟大浪潮推动下的AI学术大跃进与创业热中，却出现了很多奇怪的现象。

理性地分析AI这个事情，至少应该提三个问题：1. 这玩意到底做不做的出来；2. 假如这玩意能做出来，那么它做出来以后到底有没有应用前景；3. 假如这玩意能做出来且有应用前景，它会不会毁灭人类。这三个问题是层层递进的关系，对1的答案是肯定的讨论2才有意义，对2的答案是肯定的讨论3才有意义。于是有了第一个奇怪的现象：大部分的吃瓜群众，直接跳过了1、2而去关注3。甚至他们中的乐观主义者，直接跳过123，开始充满自信地迎接这个“未来趋势”了。是Alpha狗狗给我们的信心过于足了吗？

要知道，真正的AI工作者甚至对问题1都没有足够的自信。不错，AlphaGo毫无疑问“已经做出来了”，但不要忘了，围棋再复杂，它仍然是一个游戏；从一个两页纸即可将规则全部讲明的游戏到一个充斥着复杂场景的现实世界，有着巨大的鸿沟需要跨越。在NIPS 2016上，可以明确地感受到，DeepMind已经处在一个深陷游戏之中无法自拔的尴尬状态——不仅几乎所有的paper都是以游戏为demo的，甚至有些研究的目标都是奔着游戏而去的（例如有的工作研究人类玩游戏时是否用到了先验知识，有的工作研究人类玩游戏时的学习曲线，分的很细）。游戏在这些的研究中并不只是一个用来展示的demo，而就是研究的核心。DeepMind在AlphaGo之后一直宣称的进军医疗这件事，却在NIPS 2016上几乎不被人提起。

有意思的是，擅长营销的Andrew NG在NIPS 2016的演讲还趁机轻踩了一下他不太涉足的无监督学习和增强学习。他在白板上画了这样三条曲线。
意思是说，有监督学习的应用在2011年起步，到现在已经比较成熟了；无监督学习刚刚起步；增强学习的真实应用则还是遥远的未来。虽然脱不开为自己营销之嫌，这个说法本身还是比较靠谱的。连李开复也在几天前发的一篇长文《AI创业的十个真想》中，白纸黑字地说到“AlphaGo本身没有商业价值”。像下围棋这样的增强学习技术应用到真实的生活生产，产生游戏之外的价值，不说是一个遥远的未来，至少还是一个技术上比较不确定的事情。

第二个奇怪是没有人问问题2。普通人并不奇怪，奇怪的是产品经理这样一群人，他们在平日工作中对一个产品的应用前景的拷问，可以苛责到极致；而到了AI这件事上，却看不到一篇在产品技术层面客观剖析应用前景的文章。一个最明显的例子是最近大热的聊天机器人。不知道“聊天机器人将是下一代的操作系统”这样一个牛皮是如何在业界传播开来的？再重复一遍，“聊天机器人将是下一代的操作系统”，这话听上去就需要很多解释和论证吧？反正每当我在一个网站正常服务点不进去，不得不求助在线客服或者是电话客服（指人工客服）的时候，就已经很不爽了。当然不是说别人想法都和我一样，但是对于一个与用户直接交互的界面，是不是至少应该做个用户调研，再说“聊天机器人将是下一代的操作系统”这样的话？

第三个奇怪有关成本。Facebook围棋项目负责人田渊栋前日在自乎专栏上写过这样一段文字：

“在八月份美国围棋大会上，我有幸见到了AlphaGo的主要贡献者黄士杰(AjaHuang)和樊麾。我问他们，我们用了大概80到90块GPU来训练模型，我是否可以在演讲时说我们用了AlphaGo百分之一的GPU？那时Aja神秘地笑了笑说：具体数字不能讲。不过，也许小于百分之一吧。”

一块GPU大约两万人民币，算算总共要花多少钱吧。这还远不是全部，还有以月记的计算时间、电力/带宽消耗，以及那么多份200w美金的工资。

当然这样估算成本未必科学。我想表达的是，唯独在AI这件事上，人们似乎表达出了对于成本问题前所未有的宽容。这宽容体现在除了真正在一线做AI的工程师，极少有人关注成本问题。另外需要澄清的是这里疑问的点是“人们不关注”，并不是想表达“AlphaGo劳民伤财了”这个意思。个人内心里其实是把AlphaGo当做一件伟大的艺术品来看待的，而艺术品是无价的——只有在讨论艺术品的时候可以用“无价”这个度量，对于商业产品不行。

三、该怎么看待这件事情

不要预期过高，不要预期过高，不要预期过高。泡沫时代的我们已经习惯了对未来事物预期过高。被透支的预期甚至成了维持经济的重要支柱。只是每一次泡沫破灭都会很疼。很怀念曾经那个时代，在那个时代里，科学技术的进步源于对真理的信仰与热爱，而不是为了填补预期与现实的反差。然而那个时代已经回不去了。

勤奋一些，学习真相。巴菲特从来不投资自己不熟悉的业务。如果不能判断一件事情，那么就应该真正学习它，知道它是什么东西，在积累了足够知识之后做出判断。如果少一些分不清“深度学习”和“机器学习”的关系的人，或许这个世界也会少一些错误的风向。接受无知而被营销者和媒体的观点摆布，是一件非常可怕的事情。就像我们有时不能从政府那里得到真相，在AI这个学界和工业界各种势力利益关系已经非常庞大复杂的领域内，仅凭我们听到的，恐怕很难得到真相。

如果AlphaGo仅仅是AlphaGo，那该多好啊。

DeepMind

【转载】【David Silver强化学习公开课之一】强化学习入门

January 3, 2017 zr9558 Leave a comment

【David Silver强化学习公开课之一】强化学习入门

发表于 2016-06-06 | 分类于 project experience | 8条评论 | 823

本文是David Silver强化学习公开课第一课的总结笔记。第一课主要解释了强化学习在多领域的体现，主要解决什么问题，与监督学习算法的区别，完整的算法流程由哪几部分组成，其中的agent又包含什么内容，以及解释了强化学习涉及到的一些概念。

【转载请注明出处】chenrudan.github.io

David Silver：http://www0.cs.ucl.ac.uk/staff/d.silver/web/Home.html

本文链接：https://chenrudan.github.io/blog/2016/06/06/reinforcementlearninglesssion1.html

本课视频地址:RL Course by David Silver – Lecture 1: Introduction to Reinforcement Learning。

本课ppt地址:http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching_files/intro_RL.pdf。

文章的内容是课程的一个总结和讨论，会按照自己的理解来组织。个人知识不足再加上英语听力不是那么好可能会有一些理解不准的地方，欢迎一起讨论。

建了一个强化学习讨论qq群，有兴趣的可以加一下群号595176373或者扫描下面的二维码。

1. 强化学习是什么

强化学习是多学科多领域交叉的一个产物，它的本质就是解决“decision making”问题，即学会自动进行决策。在computer science领域体现为机器学习算法。在Engineering领域体现在决定the sequence of actions来得到最好的结果。在Neuroscience领域体现在理解人类大脑如何做出决策，主要的研究是reward system。在Psychology领域，研究动物如何做出决策，动物的行为是由什么导致的。在Economics领域体现在博弈论的研究。这所有的问题最终都归结为一个问题，人为什么能够并且如何做出最优决策。

强化学习是一个Sequential Decision Making问题，它需要连续选择一些行为，从而这些行为完成后得到最大的收益最好的结果。它在没有任何label告诉算法应该怎么做的情况下，通过先尝试做出一些行为得到一个结果，通过判断这个结果是对还是错来对之前的行为进行反馈，然后由这个反馈来调整之前的行为，通过不断的调整，算法能够学习到在什么样的情况下选择什么样的行为可以得到最好的结果。

强化学习与监督学习有着不少区别，首先监督学习是有一个label的，这个label告诉算法什么样的输入对应着什么样的输出，而强化学习没有label告诉它在某种情况下应该做出什么样的行为，只有一个做出一系列行为后最终反馈回来的reward signal，这个signal能判断当前选择的行为是好是坏。其次强化学习的结果反馈有延时，有时候可能需要走了很多步以后才知道以前的某一步的选择是好还是坏，而监督学习做了比较坏的选择会立刻反馈给算法。强化学习面对的输入总是在变化，输入不像监督学习是独立同分布的。而每当算法做出一个行为，它影响了下一次决策的输入。

2. 强化学习组成

图1 强化学习组成部分(图片来源[1])

强化学习决策流程见上图。需要构造出一个agent(图中的大脑部分)，agent能够执行某个action，例如决定机器人超哪个方向走，围棋棋子下在哪个位置。agent能够接收当前环境的一个observation，例如当前机器人的摄像头拍摄到场景。agent还能接收当它执行某个action后的reward，即在第t步agent的工作流程是执行一个动作At，获得该动作之后的环境观测状况Ot，以及获得这个动作的反馈奖赏Rt。而环境environment则是agent交互的对象，它是一个行为不可控制的对象，agent一开始不知道环境会对不同action做出什么样的反应，而环境会通过observation告诉agent当前的环境状态，同时环境能够根据可能的最终结果反馈给agent一个reward，例如围棋棋面就是一个environment，它可以根据当前的棋面状况估计一下黑白双方输赢的比例。因而在第t步，environment的工作流程是接收一个At，对这个动作做出反应之后传递环境状况和评估的reward给agent。reward奖赏Rt，是一个反馈标量值，它表明了在第t步agent做出的决策有多好或者有多不好，整个强化学习优化的目标就是最大化累积reward。例如在射击游戏中，击中敌方的一架飞机，最后的得分会增加，那么这一步的reward就是正值。

3. 一些变量

history是所有动作、状态、奖赏的序列，Ht=A1,O1,R1,…,At,Ot,Rt

environment state，Set，环境当前的状态，它反应了环境发生什么改变。这里需要明白的一点是环境自身的状态和环境反馈给agent的状态并不一定是相同的，例如机器人在走路时，当前的environment状态是一个确定的位置，但是它的camera只能拍到周围的景象，无法告诉agent具体的位置，而拍摄到的照片可以认为是对环境的一个observation，也就是说agent并不是总能知道环境是如何发生改变的，只能看到改变后的一个结果展示。

agent state，Sat，是agent的现在所处状态的表示，它可以是history的任何函数。

information(Markov) state，它包含了history的所有有用信息。一个状态St有马尔可夫性质是指下一个时刻的状态仅由当前状态决定，与过去状态无关。这里定义可以看出environment state是有马尔可夫性质的(这个概念不明白可以暂时不管)。

如果说environment是Fully Observable的，那么就是说agent能够直接看到环境当前的状态，在这种情况下agent state与environment state是相等的。而如果说environment是Partially Observable Environments，那么就是上面机器人的那个例子，agent能获取到的不是直接的环境状态。

4. Agent的组成

一个agent由三部分组成Policy、Value function、Model，但这三部分不是必须同时存在的。

Policy，它根据当前看到的observation来决定action，是从state到action的映射。有两种表达形式，一种是Deterministic policy即a=π(s)，在某种状态s下，一定会执行某个动作a。一种是Stochastic policy即π(a|s)=p[At=a|St=s]，它是在某种状态下执行某个动作的概率。

Value function，它预测了当前状态下未来可能获得的reward的期望。Vπ(s)=Eπ[Rt+1+rRt+2+…|St=s]。用于衡量当前状态的好坏。

Model，预测environment下一步会做出什么样的改变，从而预测agent接收到的状态或者reward是什么。因而有两种类型的model，一种是预测下一个state的transition model即Pass′=p[St+1=s′|St=s,At=a]，一种是预测下一次reward的reward model即Ras=E[Rt+1|St=s,At=a]

因而根据是否选取这三个部分agent可分为下图中红色字体标出来的五种类型(这里有一个迷宫的例子很好，建议看原视频1:08:10起)。Model Free是指不需要去猜测environment的工作方式，而Model based则是需要学习environment的工作方式。

图2 Agent的分类(图片来源[1])

5. 探索和利用

强化学习是一种试错(trial-and-error)的学习方式，一开始不清楚environment的工作方式，不清楚执行什么样的行为是对的，什么样是错的。因而agent需要从不断尝试的经验中发现一个好的policy，从而在这个过程中获取更多的reward。

在这样的学习过程中，就会有一个在Exploration和Exploitation之间的权衡，前者是说会放弃一些已知的reward信息，而去尝试一些新的选择，即在某种状态下，算法也许已经学习到选择什么action让reward比较大，但是并不能每次都做出同样的选择，也许另外一个没有尝试过的选择会让reward更大，即Exploration希望能够探索更多关于environment的信息。而后者是指根据已知的信息最大化reward。例如，在选择一个餐馆时，Exploitation会选择你最喜欢的餐馆，而Exploration会尝试选择一个新的餐馆。

以上是第一课的一些相关内容，主要是介绍了一些基础概念，从而对强化学习有一个基础的认识。

6. 引用

http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching_files/intro_RL.pdf

数据挖掘与机器学习

［转载］【重磅】无监督学习生成式对抗网络突破，OpenAI 5大项目落地

January 3, 2017 zr9558 Leave a comment

http://www.cnblogs.com/wangxiaocvpr/p/5966574.html

【重磅】无监督学习生成式对抗网络突破，OpenAI 5大项目落地

【新智元导读】“生成对抗网络是切片面包发明以来最令人激动的事情！”LeCun前不久在Quroa答问时毫不加掩饰对生成对抗网络的喜爱，他认为这是深度学习近期最值得期待、也最有可能取得突破的领域。生成对抗学习是无监督学习的一种，该理论由 Ian Goodfellow 提出，此人现在 OpenAI 工作。作为业内公认进行前沿基础理论研究的机构，OpenAI 不久前在博客中总结了他们的5大项目成果，结合丰富实例介绍了生成对抗网络，并对OpenAI 五大落地项目进行梳理，包括完善对抗生成网络（GAN）、完善变分推断（VAE）、提出GAN的扩展 InfoGAN，以及提出生成对抗模仿学习及代码。

OpenAI 旨在开发能够让计算机理解世界的算法和技术。

我们常会忽略自己对周遭世界的理解：你知道世界由三维环境构成，物体可以移动、碰撞、相互作用；人能行走、说话、思考；动物会吃草、飞翔、奔跑或者鸣叫；屏幕会显示经过编码的信息，内容涉及天气、篮球赛的结果或者 1970 年的事情。

这些海量信息就在那里，大都触手可及——其存在形式要么是现实世界中的原子，要么是数字世界里的比特。唯一的问题是如何设计模型和算法，分析和理解这些宝贵的数据。

生成模型是实现这一目标最值得期待的方法。训练生成模型，首先要大量收集某种数据（比如成千上万的图像、句子或声音），然后训练一个模型，让这个模型可以生成这样的数据。

其原理是费曼的名言：“做不出来就没有真正明白。”（What I cannot create, I do not understand.）

用于生成模型的神经网络，很多参数都远远小于用于训练的数据的量，因此模型能够发现并有效内化数据的本质，从而可以生成这些数据。

生成式模型有很多短期应用。但从长远角度看，生成模型有望自动学会数据集的类型、维度等特征。

生成图像

举个例子，假设有某个海量图像数据集，比如含有 120 万幅图像的 ImageNet 数据集。如果将每幅图的宽高设为 256，这个数据集就是 1200000*256*256*3（约 200 GB）的像素块。其中的一些样例如下：

这些图像是人类肉眼所见的样子，我们将它们称为“真实数据分布中的样本”。现在我们搭建生成模型，训练该模型生成类似上图的图像，在这里，这个生成模型就是一个输出为图像的大型神经网络，这些输出的图像称为“模型样本”。

DCGAN

Radford 等人提出的 DCGAN 网络（见下图）就是这样一个例子。DCGAN 网络以 100 个从一个高斯分布中采样的随机数作为输入（即代码，或者叫“隐含变量”，靠左红色部分），输出图像（在这里就是 64*64*3 的图像，靠右绿色部分）。当代码增量式变化时，生成的图像也随之变化——说明模型已经学会了如何描述世界，而不是仅仅是记住了一些样本。

网络（黄色部分）由标准的卷积神经网络（CNN）构成：

DCGAN 使用随机权重初始化，所以随机代码输入会生成一个完全随机的图像。但是，这个网络有好几百万的参数可以调整，而我们的目的是设置参数，让根据随机代码输入产生的样本与训练数据看上去相似。换句话说，我们想要模型分布与图像空间中真实数据的分布相匹配。

训练生成模型

假设我们使用最新初始化的网络生成 200 幅图，每次都从不同的随机代码开始。问题是：我们该如何调整网络的参数，让每次输出的新图像都更接近理想？需要注意的是，这里并非监督学习场景，我们也没有对 200 幅输出图像设定明确的预期；我们只是希望这些图像看起来跟真实的一样。

一个巧妙的处理方式是依照生成对抗网络（Generative Adversarial Network，GAN）方法。这里，我们引入另一个判别器网络（discriminator network，通常是一个标准的卷积神经网络），判断输入的图像是真实的还是生成的。我们可以将 200 幅生成的图像和 200 幅真实图像用作训练数据，将这个判别器训练成一个标准的分类器，其功能就是区分这两种不同的图像。

此外，我们还可以经由判别器和生成器反向传播（backpropagate），找出应该如何改变生成器的参数，使其生成的 200 幅样本对判别器而言混淆度更大。这两个网络就形成了一种对抗：判别器试着从伪造图像中区分出真实图像，而生成器则努力产生可以骗过判别器的图像。最后，生成器网络输出的结果就是在判别器看来无法区分的图像。

下图展示了两种从生成模型采样的过程。两种情况下，输入都是有噪声和混乱的，经过一段时间收敛，可以得到较为可信的图像统计：

VAE 学会产生图像（log time）

GAN 学会产生图像（linear time）

这令人兴奋——这些神经网络正在逐渐学会世界看起来是什么样子的！这些模型通常只有 10 亿参数，所以一个在 ImageNet 上训练的网络（粗略地）将 200GB 的像素数据压缩到 100MB 的权重。这让模型得以发现数据最主要的特征：例如，模型很可能学会位置邻近的像素更有可能拥有同样的颜色，或者世界是由水平或竖直的边构成。

最终，模型可能会发现很多更复杂的规律：例如，图像中有特定类型的背景、物体、纹理，它们会以某种可能的排列方式出现，或者在视频中随时间按某种方式变化等等。

更泛化的表现形式

数学上看，我们考虑数据集 x1，…，xn 是从真实数据分布 p(x) 中的一段。下图中，蓝色区域展示了一部分图像空间，这部分空间以高概率（超过某阈值）包含真实图像，而黑色点表示数据点（每个都是数据集中一副图像）。现在，我们的模型同样刻画了一个分布 p^θ(x) (绿色)，将从一个单位 Gaussian 分布 (红色) 获得的点，通过一个（判别器）神经网络映射，得到了生成模型 (黄色)。

我们的网络是参数为 θ 的函数，调整这些参数就能改变生成出的图像分布。目标是找到参数 θ 可以产生一个较好匹配真实数据分布的分布。因此，你可以想象绿色分布从随机开始，然后训练过程迭代式改变参数 θ 拉长和压缩自己使得更匹配蓝色分布。

生成模型三种搭建方法

大多数生成模型有一个基础的设置，只是在细节上有所不同。下面是生成模型的三个常用方法：

Generative Adversarial Network（GAN）这个我们在上面讨论过了，将训练过程作为两个不同网络的对抗：一个生成器网络和一个判别器网络，判别器网络试图区分样来自于真实分布 p(x) 和模型分布 p^(x) 的样本。每当判别器发现两个分布之间有差异时，生成器网络便微整参数，使判别器不能从中找到差异。
Variational Autoencoders（VAE）让我们可以在概率图模型框架下形式化这个问题，我们会最大化数据的对数似然（log likelihood）的下界
PixelRNN 等自回归模型。训练一个建模了给定前面像素下每个独立像素条件分布的网络（从左到右，从上到下）. 这类似于将图像的像素输入到一个 char-rnn，但是 RNN 水平和垂直遍历图像，而不是 1D 的字符序列

所有这些方法有各自的优缺点。例如，变分自编码器可以执行学习和在复杂的包含隐含变量的概率图模型上进行高效贝叶斯推断（如 DRAW 或者 Attend Infer Repeat 近期相对复杂的模型）。但是，生成的样本会有些模糊不清。GAN 目前生成了清楚的图像，但是因为不稳定的训练动态性很难优化。PixelRNN 有一个非常简单和稳定的训练过程（softmax loss），并且当前给出了最优的对数似然（产生出数据的可信程度）。然而，PixelRNN 在采样时相对低效，而且没有给图像以简单的低维代码。

OpenAI 5 大落地

我们对 OpenAI 做出的生成式模型非常兴奋，刚刚发布了四个对近期工作项目改进工作. 对每个贡献，我们同样发布了技术报告和源代码.

1. 完善对抗生成网络（GAN）

GAN 是非常值得期待的生成模型，不像其他方法，GAN 产生的图像干净、清晰，并且能够学会与纹理有关的代码。然而，GAN 被构建成两个网络之间的对抗，保持平衡十分重要（而且相当考验技巧）：两个网络可能在解析度之间震荡，生成器容易崩溃。

Tim Salimans, Ian Goodfellow, Wojciech Zaremba 等人引入了一些新技巧，让 GAN 训练更加稳定。这些技巧让我们能够放大 GAN ，获得清晰的 128*128 ImageNet 样本：

［左］真实图像（ImageNet）；［右］生成的图像

我们 CIFAR-10 的样本看起来也是非常清晰的——Amazon 为图像打标签的工人（Amazon Mechanical Turk workers）在区分这些图像和真实图像时，错误率为 21.3% （50% 的错误率代表随机猜测）。

［左］真实图像（CIFAR-10）；［右］生成的图像

除了生成更好的图像，我们还引入了一种结合 GAN 和半监督学习的方法。这使我们在不需要大量带标签样本的前提下，在 MNIST、SVHN 和 CIFAR-10 获得当前最佳的结果。在 MNIST，我们对每个类仅有 10 个带标签的样本，使用了一个全连接的神经网络，达到了 99.14% 的准确率——这个结果接近已知最好的监督学习，而后者使用了 6 万个带标签的样本。由于为样本打标签非常麻烦，所以上述方法是很值得期待的。

生成对抗网络是两年多前才提出来的，我们期望在未来出现更多提升其训练稳定性的研究。

2. 完善变分推断（VAE）

在这项工作中，Durk Kingma 和 Tim Salimans 引入了一个灵活、可扩展的计算方法，提升变分推断的准确率。目前，大多数 VAE 训练采用暴力近似后验分布（approximate posterior），每个隐含变量都是独立的。最近的扩展工作虽然解决了这个问题，但由于引入的序列依赖，在计算上仍然称不上高效。

这项工作的主要贡献是“逆自递归流”（Inverse Autoregressive Flow，IAF），这种方法使 rich approximate posterior 能够并行计算，从而高度灵活，可以达到近乎随机的任意性。

我们在下面的图中展示了一些 32*32 的图像样本。前一幅是来自 DRAW 模型的早期样本（初级 VAE 样本看起来更差和模糊）。DRAW 模型一年前才发表的，由此也可以感受到训练生成模型的发展迅速。

［左］用 IAF 训练 VAE 生成的图像；［右］DRAW 模型生成的图像

3. InfoGAN

Peter Chen 等人提出了 InfoGAN ——GAN 的扩展。普通的 GAN 通过在模型里重新生成数据分布，让模型学会图像的disentangled 和 interpretable 表征。但是，其 layout 和 organization 是 underspecified。

InfoGAN 引入了额外的结构，得到了相当出色的结果。在三维人脸图像中，改变代码的一个连续维度，保持其他维度不变，很明显从每张图片给出的 5 行例子中，代码的 resulting dimension 是可解释的，模型在事先不知道摄像头角度、面部变化等特征存在的前提下，可能已经理解这些特征是存在的，并且十分重要：

（a）pose （b）Elevation

（c）Lighting （d）Wide or Narrow

同时，值得一提的是，上述方法是非监督学习的方法。因此，相比通过监督学习的方法实现了同样结果的思路，这种方法体现出了更高的水平。

3. 生成模型的深度强化学习（两项）

下面是两个强化学习场景下（另一个 OpenAI 聚焦的领域），生成式模型的完善：Curiosity-driven Exploration in Deep Reinforcement Learning via Bayesian Neural Networks。

在高维度连续空间中进行高效的探索是当前强化学习尚未解决的一个难题。没有有效的探索方法，智能体只能到处乱闯直到碰巧遇到奖励。若要对高维行动空间进行探索（比如机器人），这些算法是完全不够的。这篇论文中，Rein Houthooft 等人提出了 VIME，一个使用生成模型对不确定性进行探索的实用方法。

VIME 让智能体本身驱动；它主动地寻求意外的状态-行动。作者展示了 VIME 可以提高一系列策略搜索方法，并在更多稀疏奖励的实际任务（比如智能体需要在无指导的情形下学习原始行动的场景）取得了显著改进。

用 VIME 训练的策略

没有受训的策略

4. 生成对抗模仿学习

Jonathan Ho 等人提出了一个新的模仿学习（imitation learning）方法。Jonathan Ho 在斯坦福大学完成了这项工作的主要内容，他作为暑期实习生加入 OpenAI 后，结合 GAN 以及 RL 等相关工作的启发，最终完成了生成对抗模仿学习及代码。

标准的强化学习场景通常需要设计一个规定智能体预期行为的奖励函数。但实际情况是，有样做有时候会为了实现细节上的正确，而引入代价过高的试错过程。相较而言，模仿学习中，智能体从样本展示中学习，就免去了对奖励函数的依赖。

常用模仿方法包含两个阶段的流程：首先学习奖励函数，然后依照奖励函数执行深度强化学习。这样的过程非常缓慢，也由于这种间接性方法，很难保证结果策略的质量。这项工作展示了如何通过 GAN 直接从数据中抽取策略。这个方法在 OpenAI Gym 环境中可以根据专家表现进行策略学习。

展望未来

生成模型是快速发展的研究领域。在完善这些模型，扩展训练和数据集的同时，我们完全可以认为最终将会产生能够以假乱真的图像或视频样本。这可以用很多应用，图像降噪（image denoising）、inpainting、高清分辨率（super-resolution）、结构化预测（structured prediction）、强化学习探索（exploration in reinforcement learning），以及神经网络预处理这些为数据打标签的很复杂、造价很高的领域，有很多潜力。

这项工作更深的启示是，在训练生成模型的过程中，我们最终会增进计算机对世界及其构成的理解。

ZHANG RONG

Monthly Archives: January 2017

在推崇自我推销的文化中，内向的你如何让自己的科研不被忽视？

我想成为一名科学家，但是抑郁症先找到了我

“我看到许多同事离婚、累倒、离开科学界，我现在感到很累”

［转载］强化学习系列之九:Deep Q Network (DQN)

1. 强化学习和深度学习结合

2. Deep Q Network (DQN) 算法

3. 后续发展

3.1 Double DQN

3.2 Prioritized Replay

3.3 Dueling Network

4. 总结

强化学习系列系列文章

三十分钟理解博弈论“纳什均衡” — Nash Equilibrium

纳什均衡定义

纳什均衡案例

纳什均衡分类

LEARNING REINFORCEMENT LEARNING (WITH CODE, EXERCISES AND SOLUTIONS)

WHY STUDY REINFORCEMENT LEARNING

HOW TO STUDY REINFORCEMENT LEARNING

TABLE OF CONTENTS

LIST OF IMPLEMENTED ALGORITHMS

2016年的AI，一场史无前例的技术营销

【转载】【David Silver强化学习公开课之一】强化学习入门

【David Silver强化学习公开课之一】强化学习入门

1. 强化学习是什么

2. 强化学习组成

3. 一些变量

4. Agent的组成

5. 探索和利用

6. 引用

［转载］【重磅】无监督学习生成式对抗网络突破，OpenAI 5大项目落地

http://www.cnblogs.com/wangxiaocvpr/p/5966574.html

【重磅】无监督学习生成式对抗网络突破，OpenAI 5大项目落地

zr9558's Blog