- 由杜军平领导的 Datastrato 总部位于美国,专注于为 AI 提供数据基础设施。
- 该公司致力于改进数据管理,以支持先进的 AI 技术。
- Datastrato 正在建设一个数据中心,旨在处理用于 AI 应用的结构化和非结构化数据。
杜军平,Datastrato的创始人兼 CEO、LF AI & DATA 基金会董事、ASF 成员,深耕 AI 与数据开源领域超过十年。他曾担任某世界 500 强公司的开源业务总经理、数据业务负责人和首席架构师,也是大数据技术和开源领域的专家。他曾担任开放原子开源基金会(OpenAtom Open Source Foundation)的 TOC(技术监督委员会)主席,Apache 开源基金会成员,以及 Apache Hadoop、Submarine 等项目的提交者和项目管理委员会成员。他还担任过 Apache YuniKorn 和TubeMQ等项目的导师。他曾担任腾讯开源联盟主席、Hortonworks 大数据平台研发总监,曾负责 Hadoop YARN 团队。
开源在 AI 与数据技术中的作用
“如何管理非结构化数据以便更好地用于大型模型,无疑是当今 AI 领域的一大挑战。”
Datastrato 创始人兼 CEO 杜军平
在最近一次对 Datastrato 创始人兼 CEO 杜军平的采访中,他强调了开源技术在推动 AI 和数据应用发展中的关键作用。杜军平强调:“我绝对信任开源社区在工程资源和技术价值方面的规模效应。”这种信任源于一个信念,即开源框架能够显著加速整个科技行业的创新与合作。
杜军平还探讨了开源技术对于管理非结构化数据的重要性。“如何管理非结构化数据以便更好地用于大型模型,无疑是当今 AI 领域的一大挑战。”这一观点凸显了开发强大开源工具以应对 AI 应用中日益增长的数据复杂性的必要性。
此外,杜军平指出了生成式 AI 的变革性影响,并指出:“我们看到数据与 AI 之间的神奇联系越来越紧密。”这种数据与 AI 之间的协同作用正在推动模型能力的进步,使开源贡献变得更加宝贵。
塑造 AI 与数据技术未来的趋势
“开源是开发者聚集并创新的唯一途径。”
Datastrato 创始人兼 CEO 杜军平
杜军平概述了塑造 AI 与数据技术未来的几个关键趋势。他观察到:“近年来,我们看到生成式 AI 创造了许多奇迹。”这一观察反映了 AI,特别是生成式模型的快速进步,这些模型正在拓展数据领域的可能性。
他进一步阐述了数据技术面临的挑战,说道:“我们期待看到为适应这些挑战而进行的重大变革。”随着 AI 技术的进步,有效管理和利用数据的能力变得愈发关键。生成式 AI 模型的出现加剧了对更复杂数据处理技术的需求。
此外,杜军平讨论了开源创新需要跟上 AI 发展的步伐。“开源是开发者聚集并创新的唯一途径,”他说。这种方法营造了一种协作环境,各种思想和专业知识在此汇聚,共同推动前沿技术的发展。

参与 LF AI & Data 基金会
“我们的目标是让人们更容易参与开源项目,无论他们的经验水平如何。”
Datastrato 创始人兼 CEO 杜军平
杜军平参与 LF AI & Data 基金会反映了他对推动开源计划的承诺。他说:“我已经在 LF AI & DATA 很长时间了,”强调了他与该基金会的长期合作。作为董事会主席,他的职责包括推广项目并促进开源社区内的合作。
他介绍了他为增强基金会影响力所做的努力,说道:“我参与了许多关于如何将项目从沙箱孵化到毕业的讨论。”这一过程确保了开源项目的成熟,并使其更容易被外部贡献者使用,从而推动 AI 和数据领域的创新。杜军平还提到了他推广开源项目的经验,并指出:“我们向 LF AI & DATA 捐赠了一些项目,并进行了推广。”这一经历凸显了他致力于扩大开源技术的影响力和覆盖范围。
另请阅读:GitHub CEO 倡导 AI 领域的竞争与开源
开源商业模式的挑战
“数据技术的未来在于我们如何有效管理非结构化数据。”
Datastrato 创始人兼 CEO 杜军平
回顾自己担任世界 500 强公司开源业务总经理的经历,杜军平分享了对开源项目估值挑战的见解。他说:“首个挑战将是如何对开源进行估值,”强调了在商业利益与开源项目独特价值主张之间取得平衡的必要性。
他阐述了建立可持续商业模式的重要性,说道:“如何构建开源商业商业模式至关重要。”这要求公司的业务战略与更广泛的开源生态系统保持一致,确保技术能够与全球社区有效协作。
杜军平还强调了开源在促进创新方面的作用,并说道:“开源在推动技术采用方面非常关键。”这一观点反映了越来越多的人认识到开源贡献对推动 AI 和数据技术发展至关重要。
对有抱负的企业家和开发者的建议
杜军平向有抱负的企业家和开发者提供了宝贵建议,强调了拥抱开源合作的重要性。他说:“我们正走向开放创新,”这表明 AI 和数据技术的未来将由集体努力和共享知识塑造。
他还指出了持续学习和适应的必要性,说道:“我们应该走开放创新这条路。”这一建议强调,企业家和开发者必须持续参与开源社区,并利用其集体智慧。
此外,杜军平强调了建立标准和减少壁垒的重要性,并说道:“我们期待更多的开源创新。”这种方法将促进标准化解决方案的制定,并提高 AI 技术的整体效率。

Datastrato 的长期目标与愿景
“我们试图使组织内部的数据能够安全地共享或交换。”
Datastrato 创始人兼 CEO 杜军平
杜军平分享了他对 Datastrato 未来的愿景,重点关注大数据概念的演变。他说:“我们试图使组织内部的数据能够安全地共享或交换。”这一愿景涉及创建一个更加集成和可访问的数据环境,这对于推动 AGI 技术至关重要。他还讨论了数据多样性和多模态数据的重要性,并指出:“大型语言模型需要大量多样化、多模态的数据。”这种对数据多样性的强调凸显了需要全面的数据解决方案来支持先进 AI 模型的发展。
杜军平最后对未来发展持乐观态度,说道:“我们想在未来 5 到 10 年内构建类似的东西。”他的长期目标反映了他致力于通过创新和协作的方式推进数据和 AI 技术。

