计算
云服务器
GPU云服务器
qGPU:qGPU是腾讯云自主研发的GPU虚拟化共享技术,能够实现单张 GPU 卡在多个容器间的灵活共享,同时提供容器间显存和算力的强隔离能力,有效提升GPU资源利用率。支持设置qgpu-scheduler的调度策略:spread、binpack
- 灵活性:用户可以精细配置 GPU 的显存大小和算力占比。
- 强隔离:支持显存和算力的严格隔离。
- 在离线:支持业界唯一在离线混部能力,优化 GPU 利用率。
- 覆盖度:支持主流架构 Volta(如 V100)、Turing(如 T4 等)、Ampere(如 A100、A10)。
- 云原生:支持标准的 Kubernetes 和 NVIDIA Docker。
- 兼容性:业务不重编、CUDA 库不替换、业务无感。
- 高性能:在底层对 GPU 设备进行操作,高效收敛,吞吐接近0损耗。
一个GPU上最多可创建16个qGPU设备, 从qGPU架构图可以看出qGPU不是采用CUDA API劫持方案,而是直接作用于Nvidia Driver
操作系统与工具
TencentOS Server
- TencentOS Server 2(TK4):与CentOS 7用户态完全兼容,配套基于社区5.4 LTS 内核深度优化的 tkernel4 版本
- TencentOS Server 3(TK4):与CentOS 8用户态完全兼容,配套基于社区5.4 LTS 内核深度优化的 tkernel4 版本
- TencentOS Server 4(TK5):内置Linux 6.6 LTS稳定版本内核,其内核及用户态软件均基于upstream社区独立演进,自主选型和维护,不再依赖任何第三方发行版
关系型数据库 TDSQL
TDSQL-C MySQL版
TDSQL-C MySQL版100%兼容MySQL 5.7、8.0。实现超百万级QPS的高吞吐,最高PB级智能存储。
容器
容器服务 - TKE标准集群
Worker节点
Worker节点是容器集群组成的基本元素。节点取决于业务,既可以是虚拟机,也可以是物理机。每个节点都包含运行Pod所需要的基本组件,包括Kubelet、Kube-proxy等。
TKE 标准集群支持以下4种不同的节点类型:
节点类型 | 特点 | 适用场景 |
---|---|---|
普通节点 | 适配腾讯云 CVM 数十种机型实例。基于腾讯云弹性伸缩服务提供自动缩容功能。 | 用户对资源和运维的管控能力强,操作系统偏定制化。 |
原生节点 | 搭载 TKE Insight 可视化资源大盘,助力提升资源利用率。专有调度器助力节点均衡负载、提升装箱、规整业务。提供基础设施声明式 API,像管理 workload 一样管理节点。 | 业务有降本诉求,提升业务资源利用率,简化运维。 |
超级节点 | 先进的 Serverless 理念与技术,运维工作轻量化。单 Pod 独占轻量虚拟机,强隔离无干扰,安全稳定。秒级扩缩容,轻松应对弹性需求,保障业务降低成本。 | 弹性业务、隔离性要求高、轻量运维。 |
注册节点 | IDC 资源接入云端管理,实现本地资源利用。云下云上资源混合调度部署,无需引入多集群管理。支持日志、监控、事件、安全等云原生能力,享受一致运维体验。 | 云上云下资源统一管理。 |
原生节点是由腾讯云TKE容器服务团队面向 Kubernetes 环境推出的全新节点类型,依托腾讯云千万核容器运维的技术沉淀,为用户提供原生化、高稳定、快响应的K8s节点管理能力。原生节点包含普通节点的全部能力,且做了全方位增强
Ingress管理
应用型CLB
应用型CLB是基于腾讯云负载均衡器CLB实现的TKE Ingress Controller,可以配置实现不同URL访问到集群内不同的Service。CLB直接将流量通过NodePort转发至Pod(CLB直连Pod时直接转发到Pod)
还有一种Nginx Ingress Controller,目前是废弃状态
存储管理
TKE支持多种类型的存储:腾讯云硬盘(CBS)、腾讯云文件存储(CFS)、腾讯云对象存储(COS)
CBS
CBS提供数据块级别的持久性存储,通常用作需要频繁更新、细粒度更新的数据(如文件系统、数据库等)的主存储设备,具有高可用、高可靠和高性能的特点。
云硬盘仅支持单机读写
CFS
CFS提供了标准的NFS及CIFS/SMB文件系统访问协议,为多个CVM实例或其他计算服务提供共享的数据源,支持弹性容量和性能的扩展,是一种高可用、高可靠的分布式文件系统,适合于大数据分析、媒体处理和内容管理等场景。
文件存储仅支持多机读写,强一致性(修改立即可见)
COS
COS是腾讯云提供的一种存储海量文件的分布式存储服务,通过COS可以进行多格式文件的上传、下载和管理。
对象存储支持多机读写,最终一致性(适合非实时场景)
网络管理
TKE容器产品提供VPC-CNI(默认推荐)、Global Router以及Cilium-Overlay三种CNI网络方案
VPC-CNI
VPC-CNI是基于腾讯云VPC专有网络实现的容器网络CNI插件,可以将VPC的弹性网卡直接分配给Pod,实现Pod之间的互联互通。这种方案充分复用VPC的云上网络资源,容器与节点分布在同一网络平面.VPC-CNI模式提供共享网卡和独占网卡两种模式
- 优点:数据面转发无需网桥,网络转发性能更高,大约提升10%;支持固定IP
- 缺点:节点上可调度的Pod 数量受限于节点所支持弹性网卡能绑定 IP 的最大数量和弹性网卡数量。
Global Router
Global Router网络方案是TKE基于腾讯云网络全局路由能力实现的容器网络CNI。集群会为每个节点分配一个Pod CIDR,用于给该节点上的Pod分配IP地址,Pod CIDR独立于VPC CIDR,每个节点上的Pod具有独立且不重叠的IP地址。不同节点的Pod CIDR信息会通过全局路由方式下发到VPC,实现跨节点Pod的互访。
Global Router模型有点类似flannel的主机路由(host-gw)模式,flannel的路由表作为静态路由存在于节点上;Global Router的路由表记录应该存在VPC的命名空间
- 优点:Pod 启动速度较快;对于 IP 分配和网络性能没有特殊需求的简单业务场景
- 缺点:集群VPC CIDR和集群 Pod CIDR网段不能重叠;同一VPC内,不同集群的Pod CIDR网段不能重叠;不支持固定IP;
Cilium-Overlay
Cilium-Overlay网络方案是容器服务TKE 基于Cilium VXLan实现的容器网络插件,实现分布式云场景中,用户云下节点添加到TKE集群时,云上云下Pod之间互通的需求。
- 优点:云上节点和云下节点共用指定的容器网段
- 缺点:Cilium VXLan 隧道封装协议,有10%以内的性能损耗;不支持固定Pod IP
VXLAN:采用UDP协议封装原始数据包,头部长度为24字节;通过VNI实现强隔离性,不同虚拟网络的流量完全隔离。 GRE:基于IP协议封装,头部固定为20字节,缺乏原生隔离机制。
Dataplane V2
TKE推出新一代Kubernetes网络数据平面——Dataplane V2(基于cilium),TKE Dataplane V2基于eBPF实现了东西向的Service(包括ClusterIP和NodePort)和NetworkPolicy。当数据包从Pod网卡发出或到达TKE节点时,内核中的eBPF程序会决定如何路由和处理数据包。
【部署方式】 Dataplane V2基于Cilium实现了ClusterIP和NodePort类型的Service,完全替代了kube-proxy。为简化Cilium的管理,我们将cilium-agent容器融入了TKE网络插件tke-eni-agent,将cilium-operator容器融入了TKE网络控制器tke-eni-ipamd
-
优点:
- 转发性能比IPVS可以提高15%-20%;
- Dataplane V2在Service规模超过1万时,性能基本不受影响;
- 原生支持NetworkPolicy,无需额外安装NetworkPolicy插件
- 支持部署Hubble,增强集群网络的可观测性
- 使用Dataplane V2转发模式后,集群中将不再安装kube-proxy组件
-
缺点:对技术栈有所要求,掌握eBPF
容器服务 - TKE Serverless集群
Serverless容器服务现已升级为TKE 标准集群 + 超级节点模式。为了进一步优化用户体验和提升服务质量,我们已关闭新建 Serverless 集群的入口。
TKE Serverless集群是腾讯云容器服务推出的无需用户购买节点即可部署工作负载的服务模式。TKE Serverless 集群完全兼容原生 Kubernetes,支持使用原生方式购买及管理资源,按照容器真实使用的资源量计费。TKE Serverless 集群还扩展支持腾讯云的存储及网络等产品,同时确保用户容器的安全隔离,开箱即用。
容器服务 - TKE注册集群
注册集群是腾讯云容器服务一种新的集群类型,可以将用户本地基础设施的Kubernetes集群或者其他云厂商的Kubernetes集群注册到腾讯云容器服务TKE统一管理。
注册集群属于云原生分布式云中心(Tencent Kubernetes Engine Distributed Cloud Center, TDCC) 资源管理能力的重要组成部分,基于腾讯开源的Clusternet多集群应用治理项目实现
容器服务 - TKE Insight(成本洞察)
传统的 Kubernetes 集群通常只关注资源层面的数据,例如节点的 Allocatable 标示可分配的资源,Metrics-Server 可以监控节点和 Pod 的利用率数据。TKE Insight 推出的成本可视化面板可以帮助用户更好地理解、监控和控制容器环境中的资源使用和成本情况。主要目标包括:
- 透明化:用户可以直观地了解应用和服务在容器环境中的资源使用情况,包括不同集群、命名空间以及工作负载在 CPU 和内存方面的成本消耗。这有助于用户了解整体成本结构,提高决策效率。
- 成本控制与优化:通过成本洞察,用户可以发现成本较高的应用或服务,并针对这些问题进行优化。例如,使用 Request 智能推荐,可抢占式 Job,原生节点专用调度器,QoSAgent,以减少不必要的开支。
- 预算管理:用户可以根据实际成本情况制定更加合理的预算,并监控预算执行情况。当资源使用接近或超过预算时,用户可以及时调整策略,避免产生额外支出。
注:该功能仅适用于TKE标准集群
容器服务 - TKE调度
作业调度
Default-scheduler调度策略配置
Default-scheduler 作为系统内置的默认调度器,负责将 Pod 调度至集群节点,开放七种调度策略:
- NodeResourcesFit:优先选择资源请求量高的节点来部署Pod,以提高集群资源利用率。或优先选择资源请求量低的节点来部署Pod,以平衡集群资源利用率。
- InterPodAffinity:基于Pod间的亲和性及反亲和性规则进行调度。
- NodeResourcesBalancedAllocation:确保节点的CPU和内存资源使用保持均衡,避免某一类资源成为瓶颈。
- PodTopologySpread:将一组相关联的Pod平均分散到不同的节点上,以提高应用程序的可靠性和容错能力。
- NodeAffinity:根据节点亲和性规则进行调度,确保Pod调度到符合亲和性规则的节点上。
- TaintToleration:根据节点的污点和Pod的容忍度进行调度,确保Pod只调度到它们可以容忍的节点上。
- ImageLocality:优先将Pod调度到已经拥有该Pod所需镜像的节点上,从而避免从远程存储库拉取镜像,节省网络带宽和时间。
原生节点专用调度器
Kubernetes的调度逻辑为按照Pod的Request进行调度。节点上的可调度资源会被Pod的Request量占用,且无法腾挪。原生节点专用调度器是容器服务 TKE基于Kubernetes原生Kube-scheduler Extender机制实现的调度器插件,可以虚拟放大节点的容量,用来解决节点资源都被占用,但本身利用率很低的问题。
应用场景:
- 场景1:解决节点装箱率高但利用率低的问题
- 场景2:节点水位线的设置
- 场景3:指定命名空间下的 Pod 在下次调度时只调度到原生节点上
节点规格放大原理: 用户设定节点规格放大系数以后,后台部署 Crane Resource Controller,该 Controller 会获取该系数,并不断的校验 Node 的系数是否和用户指定的系数一致。详细步骤如下:
- 用户提交 ClusterNodeResourcePolicy CRD,通过 Label Selector 来指定需要放大的节点,Label Selector 选中的节点,将统一采用节点放大的参数。
- Crane Resource Controller 会读取 CRD 中指定的静态超卖参数,为每个节点 Patch Node Annotation,Controller 会不停的将放大系数记录到 Node 的 Annotation 中, Reconcile Loop 保持最终一致性。
- Kubelet 在上报节点资源的时候,请求会被 Controller 的 Webhook 拦截,并将其 Capacity 和 Allocatable 进行虚拟放大,得到新的 Capacity 和 Allocatable。
- 用户调度器就会通过新 Capacity 和 Allocatable 调度,从而调度更多的 Pod。
域名管理
云解析DNS
云解析DNS基于业界领先的DNSPod域名解析,提供可靠稳定的权威域名解析服务。DNSPod是国内领先的DNS服务商,有10多年的DNS解析服务经验。
AI平台产品
TI-ONE
TI-ONE 是为 AI 工程师打造的一站式机器学习平台,为用户提供从数据准备、模型训练、模型评测到模型服务部署的全流程支持。TI-ONE 支持多种训练方式和算法框架,并已全面支持 LLM 大模型的增训(Post-Pretrain)和有监督精调(SFT),满足不同 AI 场景的需求。
金融解决方案
三种模式:公有云、金融专区、专有云
公有云
腾讯云认证的金融客户,在公有云中购买云服务资源,可享受金融客户定制的安全登录功能、更高安全防护及专属开发测试运营一体化环境。针对的行业客户:消费金融、汽车金融、支付、数字科技、金融科技服务等。
金融专区
提供符合金融监管要求的金融专区。独立的金融行业专用机房,提供金融数据库TDSQL、物理服务器托管等专属产品服务。适合的机构:保险、银行、证券、基金、消费金融、交易所、征信公司。
专有云
为金融机构单客户提供专有云。专有物理隔离、独立网络核心的合规IDC,支持统一管控,共享腾讯网络基础设施及安全防护能力。适合的机构:银行,保险,证券,基金等大中型金融机构。
腾讯专有云TCE是基于腾讯公有云成熟体系自研的私有化版本,帮助客户建设面向大模型时代的自主可控、弹性伸缩的全栈数字化底座,为企业数字化运营提供一站式解决方案
参考链接
「真诚赞赏,手留余香」
真诚赞赏,手留余香
使用微信扫描二维码完成支付
