开一个新坑,Scala这门语言在优化上有很大的操作余地,需要相当的熟练度。本文仅做基础笔记的整理。
Spark ML
SparkML也是个大坑,先在这里贴上pom文件
Batch4Win
每次换新电脑或者重装系统都有一个很麻烦的事情,放在很多年前的话那就是游戏要重新下载,现在的话那就是windows系统下的一堆环境配置,在Linux上遇到这种事情,我们第一时间总是能想到使用shell脚本来完成操作,在Windows下因为懒得去学windows的批处理(Batch),觉得可能很长时间才会配置一次,所以不怎么在意,就导致了每次都要进行繁琐的任务,这次遇上重新配置环境,整理一下windows下面的批处理。
大规模数据处理的演化历程
文章原作者是Google MapReduce小组的一员,翻译自《Streaming System》最后一章《The Evolution of Large-Scale Data Processing》,翻译者是 陈守元(花名:巴真),阿里巴巴高级产品专家。阿里巴巴实时计算团队产品负责人。
我最近看了一些深度学习的文章,有一些感触,机器学习的使用范围确实很有限,大众以为现在的AI和现在实际上的AI其实根本不是一个东西,如果机器学习能在短时间内迅速发展起来,我个人觉得只有两种可能:第一种可能:要么横向在某个传统行业取得巨大进展,被其他行业纷纷效仿,但是很难,机器学习需要都整体数据有一个完全的把控,只有已经自动化相当完备的行业才有使用机器学习的基础,更何况还有行业壁垒,从中盈利的公司可能根本不会宣传,别的人也就无从得知了。
第二种可能:深度学习出现重大进展,深度学习作为黑盒使用是一件很离谱的事情,理论上来说要解析深度学习的原理需要很多别的学科来进行理论支持,短时间内出现重大进展其实可能也不大。
那么如果AI这阵风最终没有刮起来,那么还是要看流处理的了。
下面是原文:
SQL积累
win10搜索栏失效 & 网易云配置
打开电脑突然发现,win10菜单的快速搜索APP功能失效了
hadoop病毒案例分析
京东云和公司集群分别遇到过一次挖矿脚本,经过分析,发现两次挖矿事件有所不同,在这篇文档记录下两次挖矿事件的异同、总结和反思。
Github Hexo Blog PicGo Conf
跨平台win/mac更新博文 / 设置Github图床
删库跑路之前该做的事情
最近两年老是听到有程序员跑路之前删库的笑话
小公司对数据库的权限管理缺失不太严谨
我在为CDH集群实现Kerberos的时候还是挺有感触的
权限控制应该是属于运维的相对高级的内容
权限控制姑且按下不表,这边记录一下rm -rf 失误之后的数据恢复