如何学习Python数据科学(2018)

徐大白
2个月前 阅读 168 点赞 2

在本指南中,我们将介绍如何学习Python的数据科学,包括我们最喜欢的自学课程。

你知道,数据科学是关于问题的解决、探索和从数据中提取有价值的信息。要做到这一点,你需要解决数据集、训练机器学习模型、可视化结果等问题。输入Python。

这是学习Python的最佳时间。事实上,福布斯在工作需求增长方面称之为10大技术技能。让我们来讨论为什么…


为什么要学习Python的数据科学?

Python是世界上最广泛的语言之一,它有一个充满激情的用户群体:

 福布斯指数:Python流行度指数


它在数据科学领域有更忠实的追随者。

有些人用简单的“Hello,World!”来判断编程语言的质量。程序。Python在这个标准下做得很好:

为了比较,这里是Java中的相同输出:

太好了,举例结束了。在你掌握了Python之后再回到这里?

总之,简单是Python的最大优点之一。由于它的精确和高效的语法,Python可以完成比其他语言更少的代码相同的任务。这使得实现解决方案变得非常快。

此外,Python的充满活力的数据科学社区意味着你将能够找到大量的教程、代码片段和人们对常见错误的修复。StAdvOpLoT将是你最好的朋友之一。

最后,Python有一个全明星阵容的库(A.K.Apple)用于数据分析和机器学习,这大大减少了产生结果所需的时间。稍后再讨论这些问题。


如何有效地学习Python

在我们讨论你需要学习的内容之前,让我们来讨论一下你不需要的东西。


你不需要学士学位

大多数数据科学家永远不会处理诸如内存泄漏、密码学或“大O”符号等主题。只要用脚本语言(如Python或RR)编写干净、逻辑的代码就行了。


你不需要在Python上完成一门课程

Python和数据科学不是同义词。

 All Uses for Python

Python的所有用途

你不需要记住所有的语法

取而代之的是专注于直觉,比如当功能合适或条件语句如何工作时。在Google、阅读文档和良好的实践之后,你会逐渐记住语法。

 

我们推荐自上而下的方法

我们提倡自上而下的方法,目的是先取得成果,然后巩固概念。事实上,我们倾向于削减“课堂”学习,以利于现实世界的实践。

 

首先学习核心编程概念。

接下来,你将获得必要的数据科学库的工作知识。

最后,你将通过实际的项目练习和改进你的技能。


这种方法可以让你在掌握更多的乐趣的同时,建立时间掌握。

通过 Anaconda bundle 安装 Python

 

在计算机上安装Python有很多方法,但是我们推荐Anaconda安装包,它附带了您需要的数据科学库。

 

第1步:核心编程概念

有效的编程不是记忆语法,而是掌握一种新的思维方式。

因此,花些时间建立核心编程概念的坚实基础。这些将帮助你将解决方案转化为计算机的指令。

 

如果你是编程萌新

如果你完全是编程萌新,我们推荐 用Python使无聊的东西自动化 ,这是免费的在线发布下的创作共享许可证。

这本书承诺“面向全初学者的实用编程”,并使每一堂课都脚踏实地。阅读到第6章-操纵字符串并完成练习题。

 Automate the Boring Stuff by Al Sweigart


如果你有另一种语言的经历

如果您只需要刷一下Python语法,那么我们推荐下面的视频,命名为“在一个视频中学习Python”。

同样,这一步的目标不是学习关于Python和编程的一切。相反,专注于直觉。


你应该能够回答以下问题:

整数、浮点和字符串之间的区别是什么?

如何使用Python作为计算器?

什么是for循环?我什么时候写?

函数的基本结构是什么?

如何使用条件语句(if... else...)增加逻辑?

导入语句是如何工作的?


附加资源

如果您希望更多地使用核心编程概念,请查看下面的资源。

代码冲突是一个平台,有许多短编码挑战,可以在5分钟块完成(虽然如此有趣,你可能会发现自己玩了几个小时,在时间)。你会在途中获得积分并解锁新的等级,这也是跟踪你进步的好方法。

Python挑战是网络上最酷的谜题之一,所以不要被它1990的图形所吓倒。您可以在Python脚本的帮助下完成所有33个级别。一位用户称之为“学习Python的来龙去脉的一种上瘾的方法……”我们同意!

PrimePythth.Org是Python中的短实践问题的集合。它几乎每周更新一个新的问题。真正好的是,作者为每个问题包含多个用户提交的解决方案,这样您就可以看到解决它们的其他方法。

如何像一个计算机科学家一样思考是一个奇妙的交互式在线图书,它通过关键编程概念(用Python)进行旋风之旅。如果你对编程完全陌生,这可能是一个不错的选择。这就像是一个浓缩的“C.S. 101”课程。

 

第2步:必要的数据科学图书馆

接下来,我们将重点讨论数据科学的一部分:“如何学习Python数据科学”。

正如我们之前提到的,Python有一个全明星的数据科学库。库只是预先存在的函数和对象的捆绑包,可以导入到脚本中以节省时间。


这些是我们建议有效地获取新库的行动步骤:

1.打开一个新的Juyter笔记本(见下文)。

2.阅读库的文档30分钟,以便对其模块进行高级介绍。

3.把库导入你的Jooter笔记本 。

4.按照它的一步一步快速入门教程来查看正在运行的库。

5.再查看文档30分钟,了解它还能做什么。


我们不建议现在深入库,因为你很可能会忘记你进入项目时所学到的大部分知识。相反,目标是发现每一个库的能力。

Juyter笔记本 

这些是你需要的基本库:

Numpy

NUMPY允许简单高效的数值计算,许多其他的数据科学库都是建立在它上面的。

文档

快速入门教程


Pandas

Pandas是用于数据结构和探索性分析的高性能库。它建在麻木上面。 

文档

快速入门教程

 

Matplotli



Matplotlib是一个灵活的绘图和可视化库。它很强大,但有点麻烦。您现在可以选择跳过MatPultLB,然后使用海运来开始(见下面的海运推荐)。

文档

快速入门教程


Scikit-Learn



Scikit-Learn是Python中最先进的通用机器学习库。它有许多流行的算法和模块,用于预处理、交叉验证等。

文档

快速入门教程


Bonus: Seaborn



Seabn使得绘制通用数据可视化变得更加容易。它建立在Matplotlib之上,提供了一个更令人愉快的高级包装。

文档

快速入门教程

 

第3步:端到端项目

到现在为止,你将有一个基本的编程理解和基本库的工作知识。这实际上涵盖了开始使用数据科学所需的大部分Python。

在这一点上,一些学生会感到有点不知所措。没关系,这完全正常。

如果你采取缓慢而传统的自下而上的方法,你可能会感到不那么紧张,但你需要花10倍的时间才能到达这里。

现在关键是立即潜水,开始把所有东西联系在一起。再一次,我们的目标是学习足够的开始。

接下来,是时候通过大量的实践和项目来巩固你的知识了。

你有几种选择。


Kaggle 竞赛

第一个选择是参加Kaggle,这是一个主持数据科学竞赛的网站。

Kaggle的主要优点是每个项目都是独立的。你得到了数据集,一个目标和教程,让你开始。

竞争的主要缺点是它们通常不代表真实世界的数据科学。“入门”比赛太过基本,而标准比赛(即有奖池)通常对初学者来说太难了。如果你对这条路感兴趣,看看我们初学者的Kaggle指南。

 

DIY项目

下一个选项是构造你自己的项目,选择你感兴趣的数据集。

这种方法的主要优点是项目更能代表真实世界的数据科学。您可能需要定义自己的目标、收集数据、清理数据集、工程师特性等等。

DIY项目的缺点是您需要已经熟悉适当的数据科学工作流程。没有一个,你可能会错过重要的步骤或陷入困境而不知道如何进行。

如果采用这种方式,请查看我们的数据科学入门,它涵盖了数据科学工作流程中的关键步骤。我们还有另一篇文章介绍了几个DIY项目的想法。

 

引导项目

最后,有引导的端到端项目。

正确的指导项目应该把两个词结合在一起——它们应该代表真实世界的数据科学,并且允许您通过精心规划的学习曲线来巩固您的技能。

许多数据科学BooCtup提供了这一主要好处。BootCAMP通常以一个“顶点项目”来结束,它允许你从头到尾看到所有的移动片段。

我们还制作了我们自己的机器学习大师班来解决这个确切的需要。它将为你提供真实世界项目的指导,同时在上下文中教你所有的关键概念。

Madio类还包括一个全面的Python课程,让你尽快加速。事实上,许多成功的学生没有任何事先的编程经验。在这里了解更多


原标题:How to Learn Python for Data Science in 2018 (Updated)

翻译:徐大白

| 2
登录后可评论,马上登录吧~
评论 ( 1 )
像徐大神学习
回复
1个月前