GLM-TTS音声合成モデルは、新一代の智谱(Zhipu)音声大規模モデルをコアとしており、従来の音声合成フレームワークを突破しています。コンテキストに基づいてテキストの感情とイントネーションをインテリジェントに予測することで、音声の自然さと表現力を大幅に向上させ、合成音声に真の感情と生命力を与えています。GLM-TTSはアーキテクチャ上、二段階生成を採用しており、訓練にはGRPOに基づく強化学習手法を導入しています。公開された評価における「文字誤り率」と「感情表現」では、オープンソースのSOTA(State Of The Art)性能を達成しています。価格:0.03 PTC/1000文字