Skip to content
Platform
Platform
Domino Enterprise MLOps Platform
Platform Components
System of Record
Integrated Model Factory
Self Service Infrastructure Portal
Code Assist
Explore
Pricing
Nexus
Platform Updates
Domino Cloud
Platform
Solutions
By Role
Chief Data & Analytics Executives
Data Science Leaders
Data Scientists
IT Leaders
By Industry
Financial Services
Health & Life Sciences
Insurance
See More
Use Cases
Self-Service Data Science
Open Data Science
Model Risk Management
Cloud Data Science
Upskill Talent
Solutions
Customers
Resources
Guides, Videos & More
Blog
Events
Podcast
Learning
Community
Documentation
Partners
Partners
Tools & Data
Infrastructure
Solutions
Implementation & Consulting
Become a Partner
Featured
NVIDIA
AWS
Azure
Accenture
Snowflake
Partners
Company
About
Careers
We're Hiring
News & Press
Contact
Join Weekly Demo
Platform
Domino Enterprise MLOps Platform
System of Record
Integrated Model Factory
Self Service Infrastructure Portal
Low Code Assistant
Pricing
Nexus
Platform Updates
Self-Service Data Science
Open Data Science
Model Risk Management
Cloud Data Science
Solutions
Data Science Leaders
IT Science
Data Scientists
Executive
Financial Services
Insurance
Media & Technology
Health & Life Sciences
Manufacturing
Retail, eCommerce & Consumer Products
AI Upskiling
Customers
Resources
Guides, Videos & More
Data Science Blog
Enterprise Field Guides
Events
Podcast
Learning
Community
Documentation
Partners
Tools & Data
Infrastructure
Solutions
Implementation & Consulting
Become a Partner
Company
About
Careers
We're Hiring
News & Press
Contact
Watch Demo
Dictionary
Dictionary Menu
Airflow
Anaconda
Apache Spark
Artificial Intelligence
Dask
Data Science
Density-Based Clustering
dplyr
Factor Analysis
Feature Engineering
Feature Selection
Folium
GenomicRanges
ggmap
ggplot
GPU
Ground Truth
Hash Table
Hyperparameter Tuning
Interpretability
Jupyter Notebook
Kubernetes
Machine Learning
MLOps
Model Drift
Model Evaluation
Model Monitoring
Model Selection
Model Tuning
Overfitting
Plotly
PySpark
PyTorch
Shiny (in R)
sklearn
spaCy
TensorFlow
Underfitting
XGBoost
Airflow
Anaconda
Apache Spark
Artificial Intelligence
Dask
Data Science
Density-Based Clustering
dplyr
Factor Analysis
Feature Engineering
Feature Selection
Folium
GenomicRanges
ggmap
ggplot
GPU
Ground Truth
Hash Table
Hyperparameter Tuning
Interpretability
Jupyter Notebook
Kubernetes
Machine Learning
MLOps
Model Drift
Model Evaluation
Model Monitoring
Model Selection
Model Tuning
Overfitting
Plotly
PySpark
PyTorch
Shiny (in R)
sklearn
spaCy
TensorFlow
Underfitting
XGBoost
Airflow
Apache Airflow是一个强大的开源工具,可以帮助您编写、调度和监控工作流. Airbnb在2014年创建了“气流”,以帮助管理其数据处理需求,并从此成为整个行业数据科学家的一个影响深远的工具.
Anaconda
Anaconda是用于数据科学的Python和R编程语言的开源发行版,旨在简化包的管理和部署. Anaconda中的包版本由包管理系统管理, conda, 哪个在执行安装之前分析当前环境,以避免干扰其他框架和包.
Apache Spark
Apache Spark is an open source, 分布式计算框架和实时库集, large-scale data processing. Spark于2009年在加州大学伯克利分校创建,旨在解决Apache Hadoop的许多缺点, 并且在分析工作负载方面比Hadoop快得多,因为它将数据存储在内存(RAM)而不是磁盘上.
Artificial Intelligence
人工智能(AI)是一类能够执行通常需要人类智能才能完成的任务的解决方案. If you speak with Siri on your phone, play a competitive game against a computer, or ride in a self-driving car, you are interacting with AI.
Dask
Dask于2018年发布,用于创建一个强大的并行计算框架,对Python用户非常有用, 并且可以在单个笔记本电脑或集群上运行良好. 与Apache Spark相比,Dask重量更轻,更容易集成到现有代码和硬件中.
Data Science
数据科学是一门学科,它在复杂的数据集中寻找模式,以建立预测未来可能发生的事情和/或解释系统的模型. Data science combines domain expertise, programming skills, 以及数学和统计学知识,从数据中提取有意义的见解.
Density-Based Clustering
基于密度的聚类是指识别数据中不同聚类的无监督机器学习方法, 基于数据空间中的簇/组是一个连续的高点密度区域的思想, 由稀疏区域与其他簇隔开的. 在分离的稀疏区域中的数据点通常被认为是噪声/离群值.
dplyr
Dplyr(发音为“deep -ply-er”)是R中用于数据争用的卓越工具. 学习和使用dplyr可以帮助数据科学家更快、更容易地理解数据准备和管理过程. 数据科学家通常使用dplyr将现有数据集转换为更适合某些特定类型的分析或数据可视化的格式.
Factor Analysis
因子分析是一种统计方法,用来描述观察到的变化, 关联变量是指潜在数量较少的未被观察到的变量,称为因素. For example, 六个观测变量的变化可能主要反映了两个未观测(潜在)变量的变化.
Feature Engineering
特征工程指的是操作加法, deletion, combination, 突变-你的数据集,以提高机器学习模型的训练, 导致更好的性能和更高的准确性. 有效的特征工程是基于对业务问题的充分了解和可用的数据源.
Feature Selection
特征选择是永利贵宾会从数据中为模型选择输入特征子集以降低噪声的过程.
Folium
Folium是一个强大的Python库,可以帮助您创建几种类型的传单地图. 默认情况下,Folium在一个单独的HTML文件中创建一个地图. 由于Folium结果是交互式的,所以这个库对于仪表板构建非常有用. 您还可以在Folium中创建内联Jupyter映射.
GenomicRanges
GenomicRanges包是Bioconductor项目中表示基因组位置的基础. 这个R包通过引入三个类(GRanges和GRanges)为基因组分析奠定了基础, GPos, and GRangesList), which are used to represent genomic ranges, genomic positions, and groups of genomic ranges.
ggmap
ggmap是一个R包,它可以很容易地从流行的在线地图服务(如Google Maps和Stamen Maps)中检索栅格地图, and plot them using the ggplot2 framework. The result is an easy, 一致和模块化框架的空间图形与几个工具的空间数据分析.
ggplot
ggplot2是统计编程语言R的数据可视化包. ggplot2是Leland Wilkinson的图形语法的实现,这是一种数据可视化方案,它将图形分解为诸如尺度和层之类的语义组件. ggplot2是R中基本图形的替代方案,包含许多绘图默认值.
GPU
图形处理单元(GPU)是一种专门的电路,用于快速操纵和改变内存,以加速计算机图形和图像处理. 现代gpu的高度并行结构使其在并行处理大数据块的算法方面比中央处理器(cpu)更高效.
Ground Truth
机器学习中的基础事实指的是你想用监督机器学习算法建模的现实. Ground truth也被称为训练或验证带有标记数据集的模型的目标.
Hash Table
哈希表是一种数据结构,其中数据元素的地址/索引值是由哈希函数生成的. 这可以实现非常快速的数据访问,因为索引值充当数据值的键.
Hyperparameter Tuning
超参数调优是为任何给定的机器学习算法找到最优超参数的过程.
Interpretability
可解释的机器学习意味着人类可以从模型中获取有关数据中包含的关系或模型学习的关系的相关知识. 机器学习算法历来都是“黑盒子”, 这就无法理解它们的内在过程, 而且很难向监管机构和利益相关者解释由此产生的见解.
Jupyter Notebook
Jupyter Notebook(以前称为IPython Notebook)是一个用于创建和共享计算文档的交互式web应用程序.
Kubernetes
Kubernetes是一个用于自动化应用程序部署的开源容器编排系统, scaling, and management. Kubernetes(又名K8s)的开发是为了管理多个容器的复杂架构.g.(Docker)和运行在生产环境中的主机. 随着IT部门转向容器化应用程序和微服务,k8正迅速成为IT部门的必需品.
Machine Learning
机器学习(ML)是通过经验自动改进的计算机算法的应用. 机器学习算法基于样本数据建立模型, known as "training data,为了在没有被明确编程的情况下做出预测或决定.
MLOps
机器学习操作(MLOps)是一套简化管理的技术和最佳实践, development, deployment, 以及在不同企业中大规模监控数据科学模型.
Model Drift
模型漂移是模型预测能力的衰减,是现实世界环境变化的结果.
Model Evaluation
模型评估是使用不同的评估指标来理解机器学习模型的性能的过程, as well as its strengths and weaknesses. 在初始研究阶段,模型评价对于评估模型的有效性非常重要, and it also plays a role in model monitoring.
Model Monitoring
模型监控是机器学习生命周期中模型部署之后的一个操作阶段. 它需要监视您的ML模型的变化,例如模型退化, data drift, and concept drift, 并确保您的模型保持可接受的性能水平.
Model Selection
模型选择是基于鲁棒性和模型复杂性等不同标准,从所有可用模型中为特定业务问题选择最佳模型的过程.
Model Tuning
模型调优是寻找超参数的最优值以使模型性能最大化的实验过程.
Overfitting
过度拟合是指模型对训练集中的噪声过于敏感的现象, leading it to not generalize, or to generalize poorly, to new and previously unseen data.
Plotly
plotly.py, colloquially referred to as Plotly, is an interactive, open-source, and browser-based graphing library.
PySpark
PySpark is the Python API for Apache Spark, an open source, 分布式计算框架 和实时库集, large-scale data processing. 如果您已经熟悉Python和Pandas等库, 那么PySpark是一种很好的语言,可以用来学习创建更可扩展的分析和管道.
PyTorch
PyTorch是一个开源的机器学习库,由Facebook的人工智能研究实验室于2016年发布. It can be used across a range of tasks, 而是特别专注于深度学习任务的训练和推理, 比如计算机视觉和自然语言处理.
Shiny (in R)
Shiny是一个R包,它支持构建可以在后端执行R代码的交互式web应用程序. With Shiny, 您可以在网页上托管独立的应用程序, 在R Markdown文档中嵌入交互式图表, or build dashboards. 您还可以使用CSS主题、HTML小部件和JavaScript操作扩展Shiny应用程序.
sklearn
Scikit-learn, also known as sklearn, is an open-source, 用于Python的机器学习和数据建模库. It features various classification, 回归和聚类算法包括支持向量机, random forests, gradient boosting, k-means and DBSCAN, 并且设计用于与Python库进行互操作, NumPy and SciPy.
spaCy
spaCy is a free, 开源Python库,提供对大量文本进行高速自然语言处理(NLP)的高级功能. 它可以帮助您构建可以支持文档分析的模型和生产应用程序, chatbot capabilities, and all other forms of text analysis.
TensorFlow
TensorFlow是一个机器学习的开源框架. It has a comprehensive ecosystem of tools, libraries, 以及让开发人员轻松构建和部署基于ml的应用程序的社区资源, and researchers innovate in ML. It can be used across a range of tasks, 但他特别关注深度神经网络的训练和推理.
Underfitting
欠拟合描述的是一个模型,它没有捕捉到它所训练的数据集中的潜在关系.
XGBoost
XGBoost is an open source, 集成机器学习算法,利用梯度增强决策树的高性能实现. 底层的c++代码库与Python接口相结合,使得XGBoost非常快, scalable, and highly usable library.
Back to Index