• Xiao Yumin, CTO de TorchV AI, est un expert en développement technique, spécialisé dans la RAG, la recherche vectorielle et l'analyse de données non structurées.
  • Xiao discute de l'orientation de l'entreprise vers les solutions B2B, de l'exploitation des données non structurées, ainsi que des défis et opportunités uniques dans le paysage évolutif des technologies basées sur l'IA.

Récemment, nous avons eu l'occasion de nous entretenir avec Xiao Yumin, le CTO de TorchV AI. TorchV AI est un innovateur de premier plan dans le domaine de l'assistance à la rédaction en mode Platform-as-a-Service (PaaS). L'entreprise fait sensation depuis sa création en 2023 grâce à sa plateforme de pointe qui prend en charge la création de contenu marketing et la rédaction de documents officiels.

Présentation de Xiao Yumin

Xiao Yumin est le CTO de TorchV AI. Il a participé à des développements techniques en Java et Python, avec une expertise approfondie en architectures techniques, microservices, frameworks open source, et un intérêt particulier pour la RAG (génération augmentée par récupération), la recherche vectorielle et l'analyse de données non structurées. Actuellement, il supervise les activités de produits et de recherche chez TorchV AI, en se concentrant sur les grands modèles, la RAG et la recherche vectorielle. De plus, Xiao est l'auteur du projet GVP Open Source China, Knife4j.

Lisez aussi: Entretien avec Feng Ruohang, auteur de Pigsty: simplifier la gestion de PostgreSQL et faire avancer la communauté open source chinoise

Q: Je comprends que le produit de votre entreprise cible principalement les clients B2B. Comparé à des produits B2C tels que « Wenyan Yixin » de Baidu et « Tongyi Qianwen » d'Alibaba, qui sont des IA génératives axées sur la recherche documentaire, qu'est-ce qui a motivé votre décision de vous concentrer sur la clientèle B2B ?

« Dans les environnements d'entreprise, les données non structurées ont une valeur significative. C'est comme alimenter un véhicule; les données peuvent dynamiser une entreprise, en libérant continuellement leur valeur. »

Xiao Yumin, CTO de TorchV AI

Au départ, notre objectif était de développer une solution Software-as-a-Service (SaaS), et nous proposons actuellement deux versions. L'une est un service SaaS en ligne, qui fonctionne depuis l'avènement de la RAG et des grands modèles. Dès 2019, nous étions engagés dans le développement de produits de service client intelligent, bien qu'avec une pile technologique quelque peu dépassée. Suite à l'émergence des grands modèles, nous avons fondamentalement transformé notre pile technologique. Auparavant, nous gérions une base de connaissances qui nécessitait des ressources humaines considérables pour maintenir les informations.

Par exemple, si un utilisateur s'interrogeait sur la météo à Shanghai, notre approche consistait à maintenir des réponses spécifiques, soit en utilisant des API météo, soit en exploitant d'autres connaissances textuelles, ce qui était très exigeant pour notre équipe de la base de connaissances.

Saisissant l'opportunité présentée par les grands modèles et en nous appuyant sur notre expérience antérieure, nous avons décidé de lancer notre activité en faisant de la base de connaissances une pierre angulaire. De plus, comme vous l'avez mentionné, de grandes entreprises telles que Baidu et Alibaba sont également actives dans ce domaine. Cependant, les petites entreprises ont leurs propres avantages distincts. Tout d'abord, de nombreuses petites et moyennes entreprises (PME) n'ont peut-être pas pleinement adopté la transformation numérique.

Avec l'avènement de l'intelligence artificielle, la base de connaissances que nous avons développée nous permet de nous appuyer sur les efforts de numérisation antérieurs, faisant de l'IA un produit fortement pertinent. De plus, dans nos scénarios de travail pratiques, environ 80 % du temps est consacré au traitement de données non structurées.

En outre, nous croyons fermement que, dans les environnements d'entreprise, les données non structurées ont une valeur significative. Comment libérer tout le potentiel de ces données ? C'est comme alimenter un véhicule; les données peuvent dynamiser une entreprise, en libérant continuellement leur valeur. Lors des interactions avec de nombreux clients, ils partagent souvent des préoccupations similaires. Une grande partie de ce type de données, y compris les documents, est généralement stockée sur les ordinateurs personnels des employés. Ils souhaitent une plate-forme centralisée pour les données, à l'instar d'un hub de données.

Cependant, lorsque nous discutions auparavant des hubs de données et du big data, l'accent était mis principalement sur les grandes entreprises établissant des centres de big data, ce qui n'exploitait pas pleinement la valeur des hubs de données, car l'accent était mis principalement sur les données structurées.

Les grandes entreprises ont des produits orientés consommateurs, tels que WeChat et DingTalk, qui sont profondément intégrés dans les environnements de bureau et disposent d'accumulations de données substantielles, permettant l'analyse et l'exploration des données. Cependant, dans les petites et moyennes entreprises, ces types de produits ne sont pas adaptés à leurs besoins. Elles possèdent une variété de documents, notamment des dossiers financiers, des informations sur les employés, des contrats et d'autres documents pertinents. Par conséquent, le défi consiste à utiliser efficacement ces données à l'ère de l'IA.

Notre objectif actuel est d'exploiter efficacement ces outils par des méthodes collaboratives au sein de l'entreprise pour rationaliser l'ensemble du flux de travail.

Image de l'article

Q: Lors de la conception des produits de votre entreprise, adaptez-vous différentes catégories de produits sur mesure pour répondre aux problèmes spécifiques de différents clients ?

En réponse à votre question sur la personnalisation des produits pour nos clients, nous ne pratiquons pas une personnalisation extensive. Au lieu de cela, nous construisons sur une base de connaissances fondamentale, qui sert de pierre angulaire à notre écosystème de données. Une fois cette pierre angulaire établie, nous développons une variété d'applications par-dessus, comme un centre d'applications conçu pour répondre aux besoins des entreprises. Par exemple, aujourd'hui nous pourrions avoir besoin de créer une application pour la revue de contrats afin d'améliorer l'efficacité du département juridique d'une entreprise.

Nous avons une application pour les contrats en place, et demain ce pourrait être pour la rédaction, en se concentrant spécifiquement sur des scénarios comme la rédaction de rapports annuels. Nous adaptons l'application aux circonstances spécifiques de nos clients pour garantir qu'elle les aide véritablement à créer des scénarios d'IA utiles au sein de leur entreprise. Nous nous efforçons de consolider chaque application une par une. Dans un contexte professionnel, le déploiement de l'IA est très différent de la génération d'une image, d'une vidéo ou d'un morceau de musique amusant.

Les exigences envers l'IA dans un cadre professionnel sont considérablement plus élevées.

Lisez aussi: Entretien avec Du Junping, fondateur et PDG de Datastrato: stimuler l'innovation dans les données et l'IA

Q: Pourriez-vous évoquer les défis techniques auxquels vous avez été confrontés lors du développement de vos produits et solutions ?

Il y a en effet plusieurs problèmes difficiles. Comme le disent souvent les technologues, ce problème particulier semble n'avoir pas de fond. Actuellement, dans l'industrie, la gestion des documents, en particulier les PDF, est peut-être l'aspect le plus difficile et le plus problématique. À l'heure actuelle, aucun fournisseur, même les systèmes les plus avancés comme ChatGPT4, ne peut garantir l'extraction complète et précise des informations à partir des documents PDF.

Comme nous l'observons, il s'agit d'un processus itératif continu, étant donné que tout le monde dans le domaine de l'IA se concentre de plus en plus sur la résolution de ce problème. Le développement de la technologie est certainement en progression, y compris de nombreux projets open source et divers modèles d'IA qui avancent tous dans ce domaine.

Q: Avez-vous d'autres idées à partager avec nous concernant votre point de vue sur les données non structurées ?

« La capacité d'analyser, d'examiner et de comprendre les données non structurées n'est pas seulement un défi technologique, mais aussi un impératif stratégique pour les entreprises cherchant à obtenir un avantage concurrentiel. »

Xiao Yumin, CTO de TorchV AI

Les données non structurées représentent une ressource vaste et inexploitée, qui recèle un immense potentiel pour les organisations. Compte tenu de la complexité et du volume des données non structurées, l'exploitation de leur valeur nécessite des approches et des technologies innovantes. L'avènement des grands modèles de langage et les progrès de l'IA nous ont permis d'en tirer des informations d'une manière auparavant inimaginable. De mon point de vue, l'avenir réside dans notre capacité à transformer ces données en renseignements exploitables, et nous travaillons activement à cet objectif.

Une perspective personnelle

Xiao Yumin se révèle être un leader visionnaire et pragmatique dans le domaine de l'intelligence artificielle et du développement logiciel. Son expertise technique approfondie dans des domaines tels que la RAG, la recherche vectorielle et l'analyse des données non structurées, couplée à son expérience pratique dans le développement de projets open source comme Knife4j, fait de lui une autorité crédible dans son domaine.

L'engagement de Xiao à tirer parti des technologies d'IA pour résoudre des problèmes concrets, en particulier dans le secteur B2B, reflète sa compréhension du marché et des défis rencontrés par les petites et moyennes entreprises.

L'approche de Xiao en matière de développement de produits est méthodique et centrée sur la création de solutions évolutives qui peuvent être adaptées pour répondre aux divers besoins des entreprises. Son accent sur la construction d'une base de connaissances fondamentale solide comme pierre angulaire pour diverses applications témoigne de sa réflexion stratégique et de sa vision à long terme.

En donnant la priorité au développement d'applications pouvant être adaptées aux exigences spécifiques des clients, Xiao démontre une conscience aiguë de l'importance de la flexibilité et de l'adaptabilité dans un paysage technologique en évolution rapide.

De plus, les idées de Xiao sur les défis liés à la gestion des données non structurées, en particulier les complexités associées à l'extraction d'informations significatives à partir de documents tels que les PDF, révèlent son engagement envers l'amélioration continue et l'innovation. Sa reconnaissance de la valeur stratégique des données non structurées et du potentiel qu'elles recèlent pour les entreprises souligne sa mentalité avant-gardiste et son dévouement à ouvrir de nouvelles voies de croissance et d'avantage concurrentiel.

Dans l'ensemble, Xiao Yumin est un individu réfléchi et motivé qui combine des compétences techniques avec une compréhension claire du paysage commercial. Son leadership chez TorchV AI se caractérise par une focalisation sur le développement de solutions d'IA pratiques qui peuvent véritablement transformer la façon dont les entreprises fonctionnent et prospèrent à l'ère numérique.