XSpace

Yuan Home


  • Home

  • About

  • Archives

  • Search

Selenium和BeautifulSoup的简单应用:爬取Pythonbooks.org

Posted on 2017-11-06 | Edited on 2018-06-07 | In Web Application | 0 Comments

使用Python是个很有意思的体验,语法相对简单,各种包的支持也非常到位,因此无论用Python解决什么问题,都觉得弹指间可以让其灰飞烟灭。作为一个工具,一种编程语言,在帮助不同人群实现各种有趣的小目标这点上,Python真的是无出其右。

本文目的

Python中有一种很好玩的应用,就是爬虫,简单说就是通过它,用户可以抓取网页上的信息。比如,在本篇文章中,我就将介绍自己爬取Pythonbooks网站的过程,以此来让各位对爬虫有个大概的认识,并且描述过程中我也会顺带介绍一下Selenium和BeautifulSoup两个爬虫中常用包的用法。

Read more »

用Python在Hadoop上实现搜索自动补全

Posted on 2017-10-09 | Edited on 2018-06-07 | In Big Data | 0 Comments

search autocomplete
记得很早的时候,刚开始接触搜索引擎,那时候Google还没有被墙,百度也是刚刚诞生没多久,无论我在输入框内输入什么,只是显示我输入的内容,并没有任何联想功能提示我接下来可能匹配的内容。有时候想找个东西,可就是死活想不起来准确的名字或者描述方式,这个时候搜索引擎也帮不了你,你只能变着法的尝试各种输入,来寻求最终你想要的结果。后来搜索引擎加入了联想功能,这着实是一大进步,极大地提高了搜索效率。有的时候,我们对于想查询的某一问题的提问方式是很模糊的,这个时候当你输入了一些关键词,发现搜索引擎会根据你的输入给你一些后续内容的建议,会让你更容易的找到自己想要的答案。

本文目的

上一篇我在《用Python在Hadoop上跑MapReduce》中介绍了一些关于如何利用Hadoop Streaming运行Python版MapReduce的简单操作,如何实现词频统计就像是MapReduce中的Hello World,不过做完了入门教程,为了深入学习,还得需要更多的练习。

在这篇文章中,我将会带各位实现一个很简单的搜索联想功能,比较粗糙,但是看起来也挺像那么回事的~

Read more »

Data analysis in Python by Pandas

Posted on 2017-10-02 | Edited on 2018-06-08 | In Data analysis | 0 Comments

Python在数据科学领域的应用真的是越来越普及,得益于Python相对来讲通俗易懂的语言风格,语法简单且容易入门的特性,给很多数据科学领域的朋友,减轻了一部分学习编程语言的繁重。Pandas + NumPy + Matplotlib,这三者的结合基本可以胜任任意简单的数据分析和可视化的任务。复杂一点的可能还会需要SciPy的帮助。

本文目的

这次,我打算用一篇长文来记录一下自己是如何利用Pandas进行数据分析的。网上有很多的Pandas入门教程,因此我这里并不打算针对所有Pandas的基础操作描述的那么清楚,还是希望更多的表达一些对于数据分析的想法和实现。

广义上,数据分析其实包含了从导入数据->清洗数据->分析数据->展示数据,这一从头到尾的流程。狭义上,数据分析指的就是中间分析数据这一块内容。本文按照广义上的数据分析的过程来一步步探讨。

接下来我们就正式开始本次数据分析之旅。

Read more »

用Python在Hadoop上跑MapReduce

Posted on 2017-09-29 | Edited on 2018-06-07 | In Big Data | 0 Comments

本文目的

这篇文章主要会给大家介绍一下如何将Python和Hadoop结合起来工作。有接触过MapReduce的朋友都知道,Hadoop的运行环境主要是Java,一般介绍Hadoop和MapReduce的教程和书籍也都是基于Java的。因为我个人对Java并不太感冒,一直以来钟情于Python的简洁实用理念,同时又对MapReduce有兴趣,因此萌生了Python的MapReduce结合的想法。本文也是我经过Google学习他人教程,以及自己实际练习得出来的一些心得,在此分享给各位。

Read more »

Migrated from Heroku to Netlify

Posted on 2017-09-28 | Edited on 2018-06-07 | In general | 2 Comments

之前学习ruby on rails的时候,开始接触的Heroku。这次部署个人博客,想着Heroku应该是个不错的选择吧,但试用了几天的Heroku之后,我决定还是转到其他地方部署我的blog,为什么呢?原因有二:

  1. 免费的Heroku App,如果搁置时间长了一直无人访问的话,再次访问是需要一定时间等待激活的,就像是电脑睡眠了等着叫醒一样。付费的话太贵,对于只是搭载个人博客而言不太划算;
  2. Heroku服务器是在美国和欧洲,而且一个App只能存在在某一个区域,不可变。所以对于国内的朋友,登录我的博客有时会有不小的延迟,虽然对于一个静态网站,本来也无需很快的响应速度,但配合第一条,这个时间有时真的让人无语……
Read more »

Hello World

Posted on 2017-09-25 | Edited on 2018-06-09 | In general | 0 Comments

前言

终于将个人博客搭建起来了……虽然听说Hexo搭建博客十分容易,但对于前端完全不了解的我,颇费了一番功夫。

Hexo初始化这个博客目录时,自带了一个以“Hello World”为标题的文章,考虑到“Hello World”是作为学习编程代码第一课,作为一个标准码农的我就决定沿袭这个传统,
从此开始自己的博客之旅。

Hello Hexo

Hello World

Yuan Zhang

Yuan Zhang

Information -> Knowledge -> Wisdom

6 posts
4 categories
15 tags
© 2017 — 2018 Yuan Zhang
Powered by Hexo v3.7.1
|
Theme — NexT.Mist v6.3.0