我毕业后一直在量化投资的一线工作,每天大量的工作都是以R语言为主要工具来研究金融数据,期间也在GitHub上开发和维护着几个R扩展包,每年也参加几场R语言会议。在这个过程中,我接触了不少还在学校的初学者,或者已经步入数据相关工作的研究人员,也有一些发来邮件寻求帮助的世界各地的用户。我有这样一种感觉,我们的同学、数据研究者经常有丰富的想法,但原始数据的形式与这些想法常常有相当大的距离。许多用户是因为对工具和编程本身不够熟悉而难以自由地操作数据,因而在面对稍显复杂的问题时便止步不前。如果是这样的原因放慢了我们探索数据世界的脚步,岂不是太可惜了?于是,我萌生了一个想法,写一本关于R语言编程的书。2015年10月,Packt出版社的编辑邀请我写一本面向初学者和专业用户的R语言图书,这正合我的想法!经过一年的时间,便有了本书。

本书与其他R语言图书有一个重要的不同:该书更倾向于帮助读者系统化地认识R作为一门编程语言的设计和行为,通过许多例子和实验帮助读者弄清楚R语言中各种常用数据结构的行为,以及所有这些行为背后统一的设计原则和行为准则。对于许多初学者以及其他编程语言的用户来说,R语言是难以预料、充满怪癖的,至少不是十全十美的。但是,当了解到这些统一的行为准则后,你可能会惊叹R语言本身的一致性,以及表达数据和逻辑的灵活性。这些特性允许我们高效地进行数据探索、分析、可视化、报告等。本书将用一半的篇幅来介绍基本的R语言和对象,然后探索R语言的高级特性,让读者更加深入地理解其行为,形成一个整体的知识脉络。此时,当你写出一个R语言表达式,就能立刻猜想会发生什么,即使和想象的不一样,也能很快找到问题所在。打好了这个基础后,我们会介绍数据相关的主要技术,包括关系性与非关系性数据库,实现快速数据操作的扩展包等。掌握了语言和对象的特性以及流行的扩展工具后,我们就可以随时根据问题选择工具,因而生产力就能大幅提升,可以将主要经历投入在思考和解决业务问题,而非一知半解、绞尽脑汁地去找代码中的纰漏且摸不着头脑。最后,本书介绍了一系列工具,涵盖数据研究的多个方面,读者可以根据自己的需要继续学习。

本书原版为英文版,对于国内的读者可能阅读中文版更加方便。为了保证翻译的质量,我推荐厦门大学经济学院和王亚南经济研究院(WISE)的研究生学弟、学妹们翻译本书。他们来自于一个自发组织的数据科学小组WISER Club,经受过严格的学术训练,参与过多种数据研究项目,对R语言相关的应用已经有相当的经验,并且对推广数据科学充满热情。

希望本书能让你更加深入地了解R语言和相关工具,更加自信、自由地探索数据的海洋。

——任坤

目录

相关技术

推荐用户