
Unimodaly Ingest
ストックにはログインが必要です
マルチモーダルデータをML対応データセットに自動変換
Artificial Intelligence
GitHub
Open Source
Data Science
プロダクト概要
Unimodaly Ingestは、機械学習のための画期的なデータ取り込みCLIです。テキスト、画像、音声、表形式のデータを迅速に検出・処理し、トレーニングに最適なスキーマ検証済みデータセットを自動生成します。
主な機能
- マルチモーダルデータ検出: テキスト、画像、音声、表形式を自動検出。
- スキーマ検証: カスタムまたはデフォルトのJSONスキーマを利用してデータ品質を確保。
- データ増強: テキスト内の同義語置換、画像の反転/回転、音声のノイズ、テーブルのサンプリングを実施。
- 柔軟なサンプリング: 簡単な比率でデータセットサイズを管理。
- 複数の出力形式: JSON、JSONL、CSVでメタデータや特長フィールドを含むリッチなデータのエクスポートが可能。
- バッチ処理: 設定可能なバッチサイズで大規模なコーパスにスケール。
- 構成管理: ワンクリックでパイプライン用の.config.jsonを生成。
Unimodaly Ingestによって、データセットの準備時間を大幅に短縮し、データエンジニアや研究者の作業を効率化することができます。
投票数: 5