Unimodaly Ingest logo

Unimodaly Ingest

マルチモーダルデータをML対応データセットに自動変換

Artificial Intelligence GitHub Open Source Data Science

プロダクト概要

Unimodaly Ingestは、機械学習のための画期的なデータ取り込みCLIです。テキスト、画像、音声、表形式のデータを迅速に検出・処理し、トレーニングに最適なスキーマ検証済みデータセットを自動生成します。

主な機能

  • マルチモーダルデータ検出: テキスト、画像、音声、表形式を自動検出。
  • スキーマ検証: カスタムまたはデフォルトのJSONスキーマを利用してデータ品質を確保。
  • データ増強: テキスト内の同義語置換、画像の反転/回転、音声のノイズ、テーブルのサンプリングを実施。
  • 柔軟なサンプリング: 簡単な比率でデータセットサイズを管理。
  • 複数の出力形式: JSON、JSONL、CSVでメタデータや特長フィールドを含むリッチなデータのエクスポートが可能。
  • バッチ処理: 設定可能なバッチサイズで大規模なコーパスにスケール。
  • 構成管理: ワンクリックでパイプライン用の.config.jsonを生成。

Unimodaly Ingestによって、データセットの準備時間を大幅に短縮し、データエンジニアや研究者の作業を効率化することができます。

投票数: 5
← 投稿一覧に戻る