终其一生,我们只不过在寻找自己

0%

Linux-工程必备

一直以来,没有系统的学习过linux,每次遇到工程问题,总是靠着百度和谷歌,效率很低。
最近需要部署C++服务,所以需要LINUX环境,在此立帖,持续更新,直到熟练使用linux。

用户管理

阅读全文 »

graphframes是处理图的一个API graphframes官方文档
可以和RDD结合,和pyspark结合使用。
在Python环境使用需要以下步骤:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
**GraphFrames:**
- For pre-installed Spark version ubuntu, to use GraphFrames:
1. get the jar file:
wget http://dl.bintray.com/spark-packages/maven/graphframes/graphframes/0.7.0-spark2.4-s_2.11/graphframes-0.7.0-spark2.4-s_2.11.jar
2. Load the jar file in the Jupyter notebook
sc.addPyFile('path_to_the_jar_file')
You can also refer to "~/Untitled.ipynb".
- Using the pyspark shell directly with GraphFrames:
- ./bin/pyspark --packages graphframes:graphframes:0.7.0-spark2.4-s_2.11
- Using Jupyter locally:
1. Set the environment variable:
export SPARK_OPTS="--packages graphframes:graphframes:0.7.0-spark2.4-s_2.11"
2. get the jar file:
wget http://dl.bintray.com/spark-packages/maven/graphframes/graphframes/0.7.0-spark2.4-s_2.11/graphframes-0.7.0-spark2.4-s_2.11.jar
3. Load the jar file in the Jupyter notebook
sc.addPyFile('path_to_the_jar_file')
- In Azure Databricks Service:
1. Start the cluster
2. Search for "graphframes' and install the library

阅读全文 »

5003总结1 RDD, Spark Internals

学习了5003之后,对于RDD和spark两章总结复习,梳理出有关函数的作用。

RDD

resilient Distributed Datasets: 弹性分布式数据库,rdd是spark的基本运行单位
使用者作用于RDD,RDD自动进行分区,在不同partitions进行操作
RDD的操作

阅读全文 »

11月30更新,面试通过。后续更新实习心得。


学姐有发消息招腾讯音乐的日常实习,我当天投递简历,当晚组长联系第二天面试。
推荐部门,我约的第二天下午三点面试,感觉下午会清醒一点。
现在记录一下准备过程。
本文没有逻辑,看到哪记到哪。

阅读全文 »

MSBD5012 Term Paper

Due Date: 7 December 2019

Via Canvas

As announced by the university administration, there won’t be any proctored examinations this semester and alternative assessment arrangements are to be made by the course instructors. For CSIT6000G/MSBD5012, you are asked to write a term paper in lieu of the final exam.

阅读全文 »

集成学习(Ensemble Learning),集成学习的目的是通过结合多个基学习器的预测结果来改善单个学习器的泛化能力和鲁棒性。

集成学习致分为两大类:

  • Boosting:即个体学习器之间存在强依赖关系、必须串行生成的序列化方法,Adaboost, GDBT, Xgboost.
  • Bagging以及个体学习器间不存在强依赖关系、可同时生成的并行化方法,“随机森林”(Random Forest)。
阅读全文 »

港校msc 互联网找工作时间轴

入学前的(大四) 暑期实习 建议参加
3-5月 实习岗位网申开启
5-7月 进行网申、面试,发放Offer
7-9月 进入公司实习

入学前的 秋季校招 建议参加
7-8月 互联网大厂的提前批、正式校招开放;
9月意向书,10月底谈薪

阅读全文 »

本次搭建blog,完全学习于:b站up主codesheep视频

下面进入流程:

  1. sudo su 进入管理员
  2. 安装Node.js,搜索,下载,安装
    安装之后会有两个工具: node和npm
    也可以用国内的cnpm
  3. 通过npm安装hexo 博客静态框架

    npm install -g hexo-cli

  4. 建立一个专有的文件夹,方便管理
  5. 文件夹下运行hexo

    sudo hexo init

阅读全文 »

Hello Blog.

之前经常会发现大佬有自己的技术博客,之前也尝试着去做一个,但是由于自己的技术水平有限,也没有决定好走技术路线,所以就一直没有开始写技术博客。

最近比较了算法和产品的待遇,真的差别好大。暂且不说之后的发展会怎样,程序员/技术岗本身是智力和努力的比拼,是硬功夫。有更清晰的发展方向。再加上种种原因,我决定做技术了。

阅读全文 »