番外編:音声対話開発キット「codama」(こだま)で、NTTドコモ AIエージェントを使ってみた

ユカイ工学より発売された、音声対話開発キット「codama」(こだま)とラズパイ(Raspberry Pi)を使用して、NTTドコモのAIエージェント(ロボスタトーク)に接続してみた。
>自分のウェイクワード(キーワード)も登録できて、快適に動作。
 


以下のビデオでは、「ねーこだま」を、自分の声で「ウェイクワード(キーワード)」として登録した。

>後述のユカイ工学のドキュメントに沿って、ウェイクワード(キーワード)を作成して、codamaに書き込んだ。

>起動時のキーワードのリマインダの音声は、Open JTalk を使用して作成したWAV ファイルをaplayコマンドで Raspberry Pi 上で再生したものです。
 


 
音声対話開発キット「codama」は、Amazon.co.jp で購入できる(法人であれば、㈱マクニカ から購入可能)。
ドキュメントとサンプル・プログラムは、github.com から確認できる。
 
===============================
*Amazon.co.jp 購入サイト: https://www.amazon.co.jp/dp/B07L2LMY12
*ユカイ工学のページ: https://codama.ux-xu.com/
*ドキュメントとサンプル・プログラム:https://github.com/YUKAI/codama-doc/wiki
*ロボスタトーク: https://qiita.com/tonosamart/items/ac488e510d7efc166860
===============================

  
エコーキャンセルの性能を得るためには、マイク・ボードとスピーカーの配置は固定する必要がある。
 
 
※お奨めのボード固定ケースは下記。スピーカーも付属している。codamaとラズパイは、付属していないので、別途購入必要。
https://www.amazon.co.jp/dp/B07PNFWLF9/ref=sr_1_1?m=A1C208DBVIBS2E



前述のビデオでは、ユカイ工学提供のサンプル・プログラムを一部変更して動作させた。
変更内容は次の通り。
 
(1) Open JTalk を使用して、独自の音声ファイルを作成し、再生(起動時とウェイクワード(キーワード)検出時)
(2) ドコモのAIエージェントが音声再生中に、ウェイクワード(キーワード)を検出した際には、音声再生をキャンセル = バージイン


sebastien.py ファイル:

import subprocess

def on_started():
    print ("on_started")
    mute()
    subprocess.run(["aplay", "keyword_reminder.wav"])
    return


main.py ファイル:

import subprocess

def detected(value):
    print ("detected wake-up-word")

    sebastien.cancel_play()
    subprocess.run(["aplay", "simple_response.wav"])

    sebastien.unmute()
    return


ご参考まで。

0 件のコメント:

コメントを投稿