Scale Al lance PandatSet, une base de données issues des capteurs LiDAR qui va permettre aux chercheurs d'étudier diverses situations de conduites dans le cadre du développement des voitures autonomes.
Scale Al lance PandaSet, sa base de données disponible en Open Source
En collaboration avec le fabricant de LiDAR Hesai, Scale Al lance un ensemble de données Open Source appelé PandaSet. Ce dernier peut être utilisé pour former des modèles d'apprentissage automatique pour la conduite autonome. L'ensemble des données sous licence est disponible gratuitement pour un usage académique et commercial. Celui-ci comprend d'une part les données collectées à l'aide du LiDAR PandarGT orienté vers l'avant. D'autre part, il y a le LiDAR à rotation mécanique appelé Pandar64. Les données ont été collectées lors de la conduite dans les zones urbaines de San Francisco et de la Silicon Valley avant que les autorités n'ordonnent le confinement dans ces villes. La pandémie de COVID-19 a ralenti voire stoppé ce flux de données, les sociétés audiovisuelles ayant suspendu les tests sur les voies publiques, c'est-à-dire le moyen de collecter des milliards d'images. Scale espère retrouver bientôt une bonne cadence de collecte.
Scale Al : des données pour former des modèles d'apprentissage automatique
Les données étiquetées sont très importantes pour des entreprises comme Zoox, Cruise et Waymo. Ces sociétés les utilisent pour former des modèles d'apprentissage automatique pour développer et déployer des véhicules autonomes. C'est ce besoin qui a conduit à la création de Scale AI, une start-up qui utilise des logiciels et des personnes pour traiter et étiqueter les données d'images, LiDAR et cartographiques. Ces données sont destinées aux entreprises qui développent des algorithmes d'apprentissage automatique. Les entreprises travaillant sur la technologie des véhicules autonomes constituent une large part de la clientèle de Scale, bien que sa plateforme soit également utilisée par des entreprises évoluant dans d'autres secteurs comme Airbnb, Pinterest ou encore OpenAI.
Des données denses et riches en contenus accessibles au grand nombre
À travers le lancement de PandaSet, Scale AI se fixe comme objectif de donner un accès gratuit à un ensemble de données dense et riche en contenus. L'ensemble de données comprend plus de 48 000 images de caméra et 16 000 balayages LiDAR, selon la société. Il comprend également 28 classes d'annotation pour chaque scène et 37 étiquettes de segmentation sémantique pour la plupart des scènes. Scale utilise un outil de segmentation de nuage de points pour annoter précisément des objets complexes comme la pluie.
Une licence d'utilisation sans restriction pour l'ensemble de données PandaSet
L'Open Source data n'est pas entièrement nouveau. Aptiv et Scale ont déjà publié nuScenes, un ensemble de données à grande échelle provenant d'une suite de capteurs de véhicules autonomes. Argo AI pour sa part a publié des données organisées avec des cartes haute définition, tandis que Cruise a partagé un outil de visualisation de données baptisé Webviz qui prend les données brutes collectées de tous les capteurs sur un robot et transforme ce code binaire en visuels. Néanmoins, Scale Al se différencie par le fait que la licence d'utilisation de cet ensemble de données n'a aucune restriction. Pour l'entreprise, l'idée est de démocratiser l'accès à ces données face aux besoins croissants et continus en données de haute qualité, à un moment où de nombreuses entreprises autonomes ne peuvent les collecter.
- Partager l'article :