# pyspark-ai-zh **Repository Path**: chenwenlong1233/pyspark-ai-zh ## Basic Information - **Project Name**: pyspark-ai-zh - **Description**: 对databricks的pyspark-ai进行重构,可以支持中文自然语言操作 - **Primary Language**: Python - **License**: 0BSD - **Default Branch**: develop - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 2 - **Forks**: 1 - **Created**: 2025-03-28 - **Last Updated**: 2025-12-14 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # pyspark-ai-zh #### 介绍 基于databricks的pyspark-ai修改,这个工具可以根据中文自然语言指令,生成Pyspark的 DataFrame,并且生成SparkSQL完成对dataframe的操作,可以帮助不会使用Spark的人使用 自然语言编写PySpark作业。 具体使用样例可以参考example文件夹下的example.ipynb **本工具支持以下功能:** **Create_dataframe:** 根据自然语言搜索相关内容创建DataFrame,也可以直接根据网页链接来创建 **Transform:** 根据自然语言描述生成Spark SQL并执行对DataFrame进行修改 **Explain:** 解释DataFrame的含义 **Verify:** 生成UDF函数验证DataFrame里面是否满足某个特性 **Plot:** 根据自然语言生成Python可视化代码并执行 **UDF:** 通过@spark_ai.udf装饰器,可以使用大模型根据自然语言需求生成UDF函数 ####相对于原版做出修改: 1.Token数计算使用qwen-turbo的tokenizer计算 2.Embedding模型换为bge-base-zh-v1.5来支持中文 3.向量数据库管理支持将LRU的状态进行持久化,再起启动时,可以重新回复LRU的状态记录 4.将原有的Google搜索工具换为国产的Bocha搜索工具 5.加入了中文注释,更容易理解代码 #### 软件架构 软件架构说明 #### 安装教程 Anaconda创建一个新环境 pip install requirements.txt就行 如果需要使用网页检索功能需要买Bocha搜索的key LLM模型这里建议选择72B参数以上的 #### 参与贡献 Agent模块目前继续重构 1. Fork 本仓库 2. 新建 Feat_xxx 分支 3. 提交代码 4. 新建 Pull Request