python3.0编程软件(Apache Spark 的新编程语言以色列监狱“拉皮条”事件：多名女狱警供犯人玩乐，长官负责牵线)

English SDK for Spark : 将英语作为一种新的编程语言，将生成式 AI 当做编译器，将 Python 视作字节码！本文主要介绍了 Apache Spark 的英语软件开发套件（SDK）的重要性和目标，以及它采用生成式 AI 技术来丰富Spark 的使用体验。

它还提到了GitHub Copilot 对 AI 辅助代码开发的影响，以及其存在的限制和问题本文还绍了英语 SDK 的特性，包括数据获取、DataFrame 操作、自定义函数（UDFs）和缓存等最后，鼓励读者积极参与英语 SDK 的开发和探索，为扩大 Apache Spark 的影响力贡献一份力量。

原文链接：https://www.databricks.com/blog/introducing-english-new-programming-language-apache-spark未经允许，禁止转载！

作者 | Gengliang Wang,Xiangrui Meng,Reynold Xin,Allison Wang,Amanda Liu和Denny Lee译者 | 明明如月责编 | 夏萌出品 | CSDN（ID：CSDNnews）

导言我们非常激动地向大家介绍 Apache Spark 的英语软件开发套件（SDK）这是一个革命性的工具，旨在丰富你的 Spark 使用体验Apache Spark™ 在全球范围内，覆盖 208 个国家和地区，年下载量超过 10 亿次，已经在大规模数据分析领域取得了显著成绩。

我们的英语 SDK 采用先进的生成型 AI 技术，旨在扩大这个活跃的社区，使 Spark 在易用性和亲和度上达到前所未有的高度！缘起GitHub Copilot 对 AI 辅助的代码开发领域产生了深远的影响。

虽然它功能强大，但用户需要理解生成的代码后才能提交同时，审查者也需要理解代码才能进行审查这可能会限制其广泛应用的一大阻碍当处理 Spark 表和 DataFrames 时，它偶尔也会生成不正确或不符合预期的代码。

下面的 GIF 动图展示了这一点，Copilot 提出了一个窗口规范，并引用了不存在的dept_id列，这需要一些专业知识才能理解。

广告胆小者勿入！五四三二一...恐怖的躲猫猫游戏现在开始！×与其将 AI 视为副驾驶，为何不让 AI 当做司机，我们坐在豪华的后座享受呢？这就是我们英语 SDK 所要扮演的角色我们发现，尖端的大型语言模型对 Spark 非常了解，这得益于优秀的 Spark 社区，他们在过去十年。

中，贡献了大量的开放的、高质量的内容，比如 API 文档、开源项目、问题和答案、教程和书籍等现在，我们将这些生成型 AI 对 Spark 的专业知识融入到英文 SDK 中你不再需要理解复杂的生成代码，只需用简单的英文指令即可得到结果：。

transformed_df = df.ai.transform(get 4 week moving average sales by dept)英语 SDK 通过理解 Spark 表和 DataFrames 来处理复杂性，并直接返回一个正确的 DataFrame ！

我们的愿景是：将英文作为一种编程语言，并使用生成式 AI 将这些英文指令编译成 PySpark 和 SQL 代码这种创新的方式旨在降低编程的门槛和简化学习曲线这个愿景是推动英文 SDK 的主要驱动力，我们的目标是扩大 Spark 的影响力，让 Spark 从一个成功走向另一个成功。

英语 SDK 的特性英语 SDK 通过实现以下关键特性，使 Spark 的开发过程变得更简单：数据获取：根据你的描述，SDK 可以进行网络搜索，运用大型语言模型 (LLM) 确定最佳结果，然后顺利地将选定的网络数据集成到 Spark 中，这些操作都能在一个步骤中完成。

DataFrame 操作：SDK 对指定的 DataFrame 提供了功能，根据你的英文描述执行转换、绘图和解释操作这些功能大大提升了代码的可读性和效率，使得对 DataFrames 的操作更加直接和直观。

自定义函数 (UDFs)：SDK 提供了简洁的创建 UDFs 的流程你只需要提供一段描述，AI 就可以负责代码的补全这一特性简化了 UDF 的创建过程，让你可以专注于函数定义，而 AI 则会处理其余部分。

缓存：SDK 吸取了缓存的优点以提升执行速度，保证结果的可复用性，并节省成本示例为了进一步说明如何使用英语 SDK，我们将通过一些例子进行演示：数据获取如果你是一名数据科学家，需要导入2022年美国全国汽车销售数据，您只需要两行代码即可完成：。

spark_ai = SparkAI()auto_df = spark_ai.create_df("2022 USA national auto sales by brand")DataFrame 操作

对于给定的 DataFrame 对象，SDK 允许你运行以 df.ai 开头的方法这包括转换、绘图、DataFrame 解释等等要激活 PySpark DataFrame 的部分函数：spark_ai.activate()。

要预览 auto_df：auto_df.ai.plot()

广告从秘书起步，十年内无人超越，以一己之力力挽狂澜成就一段传奇×要查看各汽车公司的市场份额分布：auto_df.ai.plot("pie chart for US sales market shares, show the top 5 brands and the sum of others")

要获取增长最快的品牌：auto_top_growth_df=auto_df.ai.transform("top brand with the highest growth")auto_top_growth_df.show()

要获取 DataFrame 的解释：auto_top_growth_df.ai.explain()总的来说，这个 DataFrame 正在查找销售增长最快的品牌它将结果按销售增长率降序排列，并仅返回增长最快的结果。

自定义函数 (UDFs) SDK 支持通过简单而清晰的方式创建自定义函数使用 @spark_ai.udf装饰器，你只需定义一个带有文档字符串的函数，SDK 就会在后台自动完成代码生成：@spark_ai.udf。

def convert_grades(grade_percent: float) -> str: """Convert the grade percent to a letter grade using standard cutoffs"""

...现在，你可以在 SQL 查询或 DataFrames 中使用这个自定义函数（UDF）SELECT student_id, convert_grades(grade_percent) FROM grade

总结Apache Spark 的英语 SDK 是一个既简洁又强大的工具，能够显著提升你的开发效率它的目标是简化复杂的任务，减少必需的代码量，使你可以专注于从数据中挖掘洞察虽然英语 SDK 还处于早期的开发阶段，但未来可期。

我们鼓励你去尝试这个创新的工具，亲身感受其带来的便利，并考虑为此项目贡献自己的一份力量不要在这场革命中袖手旁观，而应该积极参与其中现在就去 pyspark.ai 上探索和体验英语 SDK 的强大功能吧你的参与和洞见，将为扩大 Apache Spark 的影响力做出重要贡献。

亲爱的读者们，感谢您花时间阅读本文。如果您对本文有任何疑问或建议，请随时联系我。我非常乐意与您交流。

最近发表

随机文章

标签列表

python3.0编程软件(Apache Spark 的新编程语言以色列监狱“拉皮条”事件：多名女狱警供犯人玩乐，长官负责牵线)

相关阅读

python大数据分析基础教程（大数据技术分享：用Python处理大数据的2个操作）python初学 / python在大数据处理中的角色...

python大数据技术（python在大数据分析中的应用）python初学 / python在大数据处理中的角色...

python大数据应用（为什么Python编程非常适合大数据？）python初学 / python在大数据处理中的角色...

python大数据处理与分析（Python如何完美地适合大数据？）python初学 / python在大数据处理中的角色...

python在大数据分析中有什么应用（大数据选择Python的原因，你知道吗？）python初学 / python在大数据处理中的角色...

python在大数据中主要作用（Python在数据分析中的作用，一文带你了解Python，学习Python）python初学 / python在大数据处理中的角色...

最近发表

随机文章

标签列表