
Sail
lakehq
README
Sail
Sail 的使命是统一流处理、批处理和计算密集型(AI)工作负载。 目前,Sail 提供了一个 Spark SQL 和 Spark DataFrame API 的直接替代方案,适用于单主机和分布式环境。
✨最新消息✨:请查看我们的 MCP 服务器,它将 Spark 中的数据分析带给 LLM 代理和人类!
安装
Sail 可以作为 Python 包在 PyPI 上获取。您可以使用 pip
安装它。
pip install "pysail[spark]"
或者,您可以从源代码安装 Sail,以获得更好的硬件架构性能。 您可以参考 安装 指南了解更多信息。
快速入门
启动 Sail 服务器
选项 1:命令行界面 您可以使用 sail
命令启动本地 Sail 服务器。
sail spark server --port 50051
选项 2:Python API 您可以使用 Python API 启动本地 Sail 服务器。
from pysail.spark import SparkConnectServer
server = SparkConnectServer(port=50051)
server.start(background=False)
选项 3:Kubernetes 您可以在 Kubernetes 上部署 Sail,并在集群模式下运行 Sail 以进行分布式处理。 请参阅 Kubernetes 部署指南,了解有关构建 Docker 镜像和编写 Kubernetes 清单 YAML 文件的说明。
kubectl apply -f sail.yaml
kubectl -n sail port-forward service/sail-spark-server 50051:50051
连接到 Sail 服务器
一旦您运行了 Sail 服务器,您就可以在 PySpark 中连接到它。 您的 PySpark 代码无需任何更改!
from pyspark.sql import SparkSession
spark = SparkSession.builder.remote("sc://localhost:50051").getOrCreate()
spark.sql("SELECT 1 + 1").show()
请参阅 快速入门 指南了解更多详情。
文档
最新 Sail 版本的文档可以在 这里 找到。
延伸阅读
- 加速 Spark:速度提高四倍,成本降低 94% - 这篇文章详细介绍了 Sail 与 Spark 的基准测试结果。
- Sail 0.2 和分布式处理的未来 - 这篇文章讨论了 Sail 的分布式处理架构。
贡献
非常欢迎贡献!
请提交 GitHub issues 以报告错误和提出功能请求。 也欢迎您在 GitHub discussions 中提问。
如果您想进行代码更改,请随时创建 pull request。 您可以参考 开发指南 以开始。
支持
LakeSail 为 Sail 提供灵活的企业支持选项。 请 联系我们 了解更多信息。
推荐服务器
Crypto Price & Market Analysis MCP Server
一个模型上下文协议 (MCP) 服务器,它使用 CoinCap API 提供全面的加密货币分析。该服务器通过一个易于使用的界面提供实时价格数据、市场分析和历史趋势。 (Alternative, slightly more formal and technical translation): 一个模型上下文协议 (MCP) 服务器,利用 CoinCap API 提供全面的加密货币分析服务。该服务器通过用户友好的界面,提供实时价格数据、市场分析以及历史趋势数据。
MCP PubMed Search
用于搜索 PubMed 的服务器(PubMed 是一个免费的在线数据库,用户可以在其中搜索生物医学和生命科学文献)。 我是在 MCP 发布当天创建的,但当时正在度假。 我看到有人在您的数据库中发布了类似的服务器,但还是决定发布我的服务器。
mixpanel
连接到您的 Mixpanel 数据。 从 Mixpanel 分析查询事件、留存和漏斗数据。

Sequential Thinking MCP Server
这个服务器通过将复杂问题分解为顺序步骤来促进结构化的问题解决,支持修订,并通过完整的 MCP 集成来实现多条解决方案路径。

Nefino MCP Server
为大型语言模型提供访问德国可再生能源项目新闻和信息的能力,允许按地点、主题(太阳能、风能、氢能)和日期范围进行筛选。
Vectorize
将 MCP 服务器向量化以实现高级检索、私有深度研究、Anything-to-Markdown 文件提取和文本分块。
Mathematica Documentation MCP server
一个服务器,通过 FastMCP 提供对 Mathematica 文档的访问,使用户能够从 Wolfram Mathematica 检索函数文档和列出软件包符号。
kb-mcp-server
一个 MCP 服务器,旨在实现便携性、本地化、简易性和便利性,以支持对 txtai “all in one” 嵌入数据库进行基于语义/图的检索。任何 tar.gz 格式的 txtai 嵌入数据库都可以被加载。
Research MCP Server
这个服务器用作 MCP 服务器,与 Notion 交互以检索和创建调查数据,并与 Claude Desktop Client 集成以进行和审查调查。

Cryo MCP Server
一个API服务器,实现了模型补全协议(MCP),用于Cryo区块链数据提取,允许用户通过任何兼容MCP的客户端查询以太坊区块链数据。