首页
关于
Search
1
SteamOS安装paru和yay
172 阅读
2
欢迎使用 Typecho
127 阅读
3
徕卡X | 冬日漫步
127 阅读
4
https自动跳转问题终极解决方案
116 阅读
5
Spark3中的Catalog组件设计
104 阅读
默认
摄影
后端开发
大数据
Spark
Flink
登录
Search
标签搜索
转载
ArlenDu
累计撰写
18
篇文章
累计收到
10
条评论
首页
栏目
默认
摄影
后端开发
大数据
Spark
Flink
页面
关于
搜索到
18
篇与
的结果
2024-08-12
网址收藏
https://draveness.me/redis-io-multiplexing/https://learn.lianglianglee.com/%e4%b8%93%e6%a0%8f/Spark%e6%80%a7%e8%83%bd%e8%b0%83%e4%bc%98%e5%ae%9e%e6%88%98/26%20Join%20Hints%e6%8c%87%e5%8d%97%ef%bc%9a%e4%b8%8d%e5%90%8c%e5%9c%ba%e6%99%af%e4%b8%8b%ef%bc%8c%e5%a6%82%e4%bd%95%e9%80%89%e6%8b%a9Join%e7%ad%96%e7%95%a5%ef%bc%9f.mdhttps://blog.jrwang.me/tags/flink/https://www.feiz.vip/?p=4188https://pan.baidu.com/s/1kLFZZGFKGwDaiy5apMD-3w密码:bmimhttps://flink.godaai.org/ch-big-data-intro/index.htmlkyubbi参考资料:官网地址 Github地址 网易Spark Kyuubi核心架构设计与源码实现剖析 多点DMALL × Apache Kyuubi:构建统一SQL Proxy探索实践 支持提交批处理作业SparkSQLEngineApache Kyuubi 在 eBay 的实践FlinkSQLEngineT3 出行 Apache Kyuubi FlinkSQLEngine 设计和相关实践SparkBatchSDKeBay基于Apache Kyuubi(Incubating) 构建Unified & ServerLess Spark网关实践
2024年08月12日
51 阅读
0 评论
1 点赞
2024-07-09
《转载》StarRocks 如何借助物化视图加速数据分析
https://mp.weixin.qq.com/s/6v8oxFdyeSCV06hUqxMEQw?version=4.1.26.6024&platform=win&nwr_flag=1#wechat_redirect
2024年07月09日
30 阅读
0 评论
0 点赞
2024-01-29
https自动跳转问题终极解决方案
场景:打开http页面自动变成https, 清理缓存后仍然无效步骤一:输入chrome://net-internals/#hsts ,中最下面输入 的 Delete domain security policies 中输入要访问的网址 避免使用hsts策略步骤二:输入 chrome://flags/#automatic-https,将HTTPS Upgrades 策略给关闭,这个策略的描述是Enable automatically upgrading all top-level navigations to HTTPS with fast fallback to HTTP. – Mac, Windows, Linux, ChromeOS, Android, Fuchsia, Lacros
2024年01月29日
116 阅读
2 评论
1 点赞
2024-01-17
LSM索引原理
LSM作为一种设计思想,它把数据拆分为两个部分,一部分放在内存,一部分放在磁盘。内存中的数据检索可以使用红黑树,调表等时间复杂度比较低的结构进行检索。当数据到达一定阈值的时候则会将数据写到磁盘文件中,此时的写入的方式是顺序写,所以LSM写入性能很高。并发读写问题内存在写入磁盘过程中,如果有新的数据插入,则会带来并发读写的问题,所以就需要对这部分内存区域进行加锁。加锁的话又会导致写入过程阻塞,所以业界一般是当内存到达某个阈值之后,将这片区域标记为可读,然后新的数据将插入到新的内存区域,而旧的内存区域是只读的,所以可以不加锁的进行同步到磁盘的过程。小文件问题众所周知由于内存的容量有限,并且进行了分区,导致每次生成文件必然不会很大,这样就会造成检索效率很慢的问题。LSM是这样解决问题的:查找数据时候从多个磁盘文件中读取数据,然后进行合并,取最新的数据(Merge On Read)。由于写入的数据在内存是有序的,所以磁盘的小文件也是有序的(sstable)。这样可以保证单个文件中的检索是非常快的,但是存在一个问题:如果查找一个值的时候,在多个文件的索引有重叠的话就需要在多个sstable中查找数据(最坏的可能需要检索所有的文件),所以需要将小文件进行合并,让索引不再有重叠,就可以解决很好的剪枝文件。这也是Hudi点查性能不好的原因,没有保证索引不重叠。文件合并虽然文件合并带来的好处很多,但是合并的时机非常重要,如果新增一个就去进行合并全部文件,就会造成磁盘IO一直处于一个很高的水平,这样性能反而不好。所以LSM采用的是多层合并的方法,每一层的容量是上一层的10倍。level0层是内存直接写入的文件,当写满这一层的个数上限之后,再进行合并然后存入下一层,然后当下一层写满之后再继续合并到下一层,直到合并到最大层数则不再合并。这样就只存在level0层的索引是有重合的,其他的层的索引数据都是不重合的,可以很好的进行File Skiping,并且由于这种设计,将文件合并的时机分摊到了多次,缓解了写放大的问题。总结LSM在数据写入方面,使用了内存分区标记解决了读写并发问题,并且使用多层合并的机制解决了写放大的问题,提供了非常好的写入性能和小文件合并的机制。在读方面,可以先从内存读取,找不到再从level0一直往高层找,并且由于level0后的数据都是有序且不重合的,通过二分查找,能够很好的进行File Skiping,再配合布隆过滤器来快速判断元素是否存在与文件中。在最差的情况下,可能要遍历所有的文件,所以LSM适合写多读少的场景。
2024年01月17日
46 阅读
0 评论
0 点赞
2024-01-17
<转载>关于做好技术团队管理的几点心得
技术Leader核心工作是让团队拿更好的成绩,日常工作主要是制定方案、推进业务、掌控下属、协助领导等四项内容,本次分享主要分享最基础也是最重要的管理职责:调动团队同学的工作积极性让团队同学更高更快的成长1、如何调动团队同学的工作积极性?精确的指示。需要更强调为什么做和这么做的意义,没有计划和目的的命令无法为下属提供工作的动力。举例:有个业务需要节省成本,需要要“查询性能提升2倍”。身为主管,自然不能直接告诉下属“查询性能提升2倍”。主管要做的是,考虑怎样才能使性能提升2倍,再用具体的语言指挥下属行动起来。工作边界要清晰了解下属的能力和意愿根据下属能力进行分工,整体分工需要张弛有度,有能提升硬实力的工作也有易产出有亮眼的工作针对个体而言,重点在于提升能力和个人意愿针对个体间而言,在于加强分工和协作,分工要有边界主管的行为一般有:授权型、参与型、说服型、命令型;根据下属不同性格要有不同的行为激情会传染。做主管的必须先激情四射,然后才能点燃下属们的激情要掌控业务全貌技术上能搞事情。能搞定别人解不了的事情,团队影响力越高,团队同学认同感和参与感越强;多思考技术和未来团队发展的事情提升下属对你的信任度有一技之长。技术leader某一块技术能力要做到团队最好,影响信服度能让对方感受到你是真实的帮助其成长,需要更多换位思考利用好团建和聚餐场合2、如何让团队同学更高更快的成长?推 - 给予压力,推动他们学。比如提出明确的学习机制、工作要求,核心点在于给其一些压力,让其知道这个会影响其未来发展拉 - 指明方向,引导他们学。核心点是让他们知道学习什么放 - 给予空间,让他们自主学。主要针对应届生或者实习生,前几个月不用关心产出,只看他们能否有成长,容忍犯错误给予改正空间利用”皮格马利翁效应”。适当的场合适合的夸奖,潜意识会认为自己优秀举例:如夸某个同学这个项目从调研到实施到落地都做的比较不错,慢慢的学会如何做事情了,视野也打开了,后面想要提升我建议可以读XX书,看XX教程,写XX文章,我也会帮助宣传等等提升技术品味。对团队管理者来说要提升自己的技术品味,这会影响团队的技术氛围和团队成长提高团队同学的影响力和存在感团队有正确的做事方式计划(PLAN) -> 执行(DO)-> 检查(CHECK)-> 纠正(ACTION)一句话概括:管理本身就是需要把自己的能力教给下面的同学,然后自己去提升新的能力、并不断的跟团队同学能力进行互补的一个过程。来源:https://mp.weixin.qq.com/s/AJxGDsGoZNFDNFVluKhtBA?version=4.1.20.6006&platform=win
2024年01月17日
100 阅读
2 评论
0 点赞
1
2
3
4