Aller au contenu

Tts Sur Son Nas


Messages recommandés

Un petit pas de plus, j'ai maintenant un déclenchement d'action sur des phrases de type : "Dobby donne moi la météo"

"Dobby" : phrase de déclenchement

"donne moi la météo" : phrase liée à des actions (en l'occurence une seule action, météo)

Le tout fonctionne, sauf que c'est en anglais et que j'utilise une grammaire bien light.

Y'a encore pas mal de boulot pour rendre ça utilisable facilement

Lien vers le commentaire
Partager sur d’autres sites

  • Réponses 145
  • Créé
  • Dernière réponse

Meilleurs contributeurs dans ce sujet

Meilleurs contributeurs dans ce sujet

Salut Diaoul,

Pour ce qui est de la comparaison de mots en fonction de l'interprétation du Speech to Text j'ai trouvé un lien assez interressant qui devrait t'aider si jamais tu ne connais pas : Levenshtein distance.

http://en.wikibooks.org/wiki/Algorithm_implementation/Strings/Levenshtein_distance

Pour faire simple il calcul la différence entre 2 mots Avion & Aviron ou Weather & Eather ....

Des fois que ca aide ...

Lien vers le commentaire
Partager sur d’autres sites

Merci mais je vois pas bien l'intérêt de la chose dans Dobby.

J'ai fini la structure du projet et j'ai fait des tests avec un modèle acoustique anglais. Après un peu de paramètrage :

- Dobby weather and time please

- It is 00 hours 29 minutes. The weather is cloudy with a temperature of 5.5 degrees

C'est plutôt cool :) Il reste la partie configuration qui est manuelle, surtout sur la partie grammaire qui est un peu lourde. Je vais faire un petit outil qui va regarder toutes les phrases en base de donnée et générer le .dfa et .dict qui vont bien.

Et puis plus tard, une interface graphique pour faire la configuration des actions et des phrases en base de donnée.

Lien vers le commentaire
Partager sur d’autres sites

En fait je me disais que lors de l'interpretation de la phrase, Dobby weather & time please, il faut comparer les mots retourné par le speech to text avec une base de mots qui eux memes sont les triggers d'actions specifiques.

Si jamais le mot compris est pas trop eloigné d'un mot d'action (levensthein faible) alors executer l action plutot que de dire Dobby do not undérstand please ask again

Mais a priori ti dois le faire autrement et tu avance bien a priori. En core bravo

Lien vers le commentaire
Partager sur d’autres sites

Le logiciel de reconnaissance vocale ne reconnait que les phrases que je lui donne dans une liste avec l'orthographe que je lui indique. Aucune chance d'avoir un mot mal orthographié ou quoi que ce soit.

Regarde la doc de julius sur la partie .voca + .grammar, c'est super bien fait

Lien vers le commentaire
Partager sur d’autres sites

Sp@ro: tu avances sur la création d'un modèle acoustique français ?

J'aimerai aussi des idées sur le type d'actions que l'on pourrait avoir. Actuellement il y a météo et heure.

J'envisage :

  • Données système

    • Température CPU
    • Infos disque dur (SMART)

    [*]Un lecteur RSS

    [*]Agenda Google

    [*]Magnétophone (prise de notes audio, etc.)

D'autres suggestions ?

Lien vers le commentaire
Partager sur d’autres sites

  • Lecture des notifications du NAS (progression des téléchargements, ...) : "Est-ce que mes téléchargements sont terminés ?" > "Machin est terminé, truc est à 60%, ..."
  • Démarrage d'une machine compatible WOL : "Allume mon PC."
  • Lecture de podcasts.
  • Interfaçage avec OpenRemote (Java sad.png) pour la domotique, avec leur API ça devrait être assez simple.

Lien vers le commentaire
Partager sur d’autres sites

Moi j'avais comme idée :

Dictionnaire :

  • Definition "voiture" => véhicule à moteur et à quatre roues servant à transporter des personne:Traduction

Traduction

  • Traduit "voiture" en anglais => La traductin est : "car"*

Domotique

  • Allume / Eteint + device => commande a spécifier dépendant de l'archi.

Mails :

  • NB mails non lus

Distance :

  • Distance Paris Bordeaux : la distance est de XX km

RATP mais bon ca peut peut etre marcher avec le lecteur RSS ?? :

  • Perturbation traffic RATP
  • Perturbation traffic SNCF (

Au fait as tu recu ton VoiceTracker ?

Moi j'ai pas trop eu de temps pour tester le Bluetooth encore

Lien vers le commentaire
Partager sur d’autres sites

  • Lecture des notifications du NAS (progression des téléchargements, ...) : "Est-ce que mes téléchargements sont terminés ?" > "Machin est terminé, truc est à 60%, ..."
  • Démarrage d'une machine compatible WOL : "Allume mon PC."
  • Lecture de podcasts.
  • Interfaçage avec OpenRemote (Java sad.png) pour la domotique, avec leur API ça devrait être assez simple.

OK pour le WOL, la lecture de podcasts aussi.

Tu as des indications sur comment récupérer les données Syno comme les températures ou les téléchargements dont tu parles là ?

Pour l'interfaçage pourquoi pas mais je n'ai pas de use case précis sur lequel bosser pour l'instant donc on verra plus tard :)

Moi j'avais comme idée :

Dictionnaire :

  • Definition "voiture" => véhicule à moteur et à quatre roues servant à transporter des personne:Traduction

Traduction

  • Traduit "voiture" en anglais => La traductin est : "car"*

Domotique

  • Allume / Eteint + device => commande a spécifier dépendant de l'archi.

Mails :

  • NB mails non lus

Distance :

  • Distance Paris Bordeaux : la distance est de XX km

RATP mais bon ca peut peut etre marcher avec le lecteur RSS ?? :

  • Perturbation traffic RATP
  • Perturbation traffic SNCF (

Au fait as tu recu ton VoiceTracker ?

Moi j'ai pas trop eu de temps pour tester le Bluetooth encore

Mails effectivement c'est pratique, nombre de mails non lus ainsi que la lecture de ces derniers éventuellement.

Traduction, Domotique et Distance pour moi c'est du gadget pas forcément très utile et qui ne respecte pas un des pilier de Dobby : le nombre fini de commandes vocales possibles.

Afin de booster la performance de la reconaissance vocale, Dobby voit son vocabulaire limité aux seules phrases qu'il a besoin de comprendre pour l'instant. Ca limite les erreurs de compréhension.

On est vraiment dans de la commande vocale, c'est pas une intelligence artificielle.

C'est vrai que ça pourrait être pratique d'avoir une certaine flexibilité dans certains cas :

  • Donne moi les "5" dernières nouvelles

Donc ok, on a un nombre au milieu, ce serait chiant de faire une phrase pour chacun des numéros. Je peux introduire un token spécial pour indiquer qu'un nombre doit se trouver dans cette phrase et que l'action déclenchée par la phrase doit dépendre de ce nombre.

  • Donne moi les %number% dernières nouvelles

Quoi d'autre ? De quel autre "token" peut-on avoir besoin dans une commande vocale ? Ce token doit avoir une liste finie de possibilités, on ne peut pas avoir de token "mot" par exemple.

Lien vers le commentaire
Partager sur d’autres sites

J'ai un rendu qui est vraiment bon avec mbrola pour la synthèse vocale :o

J'ai rajouté le lecteur de flux RSS commec action

Le problème de ce que je fais c'est une étape de configuration qui n'est pas difficile mais qu'il faut faire. Après par contre ça marche comme sur des roulettes !

Lien vers le commentaire
Partager sur d’autres sites

  • 2 semaines après...

Bon, j'avance sur l'interface graphique de l'application Dobby afin de la paramètrer facilement l'ensemble. C'est super propre avec Qt.

Là ou je ne sais pas trop comment faire c'est comment paramètrer le Dobby sur le syno depuis une interface graphique sur le PC sachant que l'on a pas accès à la base de donnée sur le Syno ni au fichier de configuration....

Peut être que le mieux c'est une interface web.

La question devient donc, est-ce que cette interface web doit faire parti de l'application Dobby (au même titre que Qt) ou bien plutôt intégré à DSM ?

Dans tous les cas ce sera probablement pas moi qui ferait cette interface :P

Sp@ro: tu avances sur la création d'un modèle acoustique français ? J'aimerai bien tester ça :) Si tu as des pistes sur comment entrainer un tel modèle je suis prenneur de toute explications :)

Lien vers le commentaire
Partager sur d’autres sites

Malheureusement je n'ai pas trop avancer sur le modèle français alléger .... Pas trop le temps en ce moment...

Ce que je pensais faire c'est épurer le dictionnaire français avec un script qui recherche tout les lignes contenant les noms que l'on souhaite ajouter => ok ça roule

Créer un modèle baser sur ce dico avec Une base libre de voix mais la j'ai pri le temps de regarder....

Lien vers le commentaire
Partager sur d’autres sites

  • 1 an après...

Salut Diaoul,

Je ne sais pas si c'est le projet S.A.R.A.H (http://encausse.wordpress.com/s-a-r-a-h/) ou encore AEON (http://aonsquared.co.uk/raspi_voice_control) qui t'ont remis la puce a l'oreille mais cela fait qq semaine que je me repenche aussi sur la question.

J'ai creusé un peu le côté micro et il semblerait que le Playstation Eye disposerait d'un micro array (en fait de 4 micro) je pense que c'est la bonne solution pour le noise reduction et je vais surement craquer la semaine prochaine

Il faut que je me reinstalle tout ca mais j'avoue avoir un peu perdu le fil sur l'installation et la configuration du "clapper".

comment puis-je t'aider avec mes maigres idées et ma petite contribution ?

Est-ce qu'il ne serait pas interressant de prendre aussi exemple sur S.A.R.A.H avec le server NodeJS pour les actions et créer des plugins ?

On demanderais ainsi de l'aide a la communauté pour developper des plugins actions la grammaire ayant l'air de se faire assez simplement ?

Dis moi si ce que je dis est completement a coté ....

Lien vers le commentaire
Partager sur d’autres sites

Salut,

Si diaoul nous autorise a acceder au git et que j'arrive finalement a compiler je veux bien aider.

Faut que je relise les 8 pages car il me semble que deja l'annee derniere j'avais essayer de compiler et j'avais pas reussi

Lien vers le commentaire
Partager sur d’autres sites

Rejoindre la conversation

Vous pouvez publier maintenant et vous inscrire plus tard. Si vous avez un compte, connectez-vous maintenant pour publier avec votre compte.

Invité
Répondre à ce sujet…

×   Collé en tant que texte enrichi.   Coller en tant que texte brut à la place

  Seulement 75 émoticônes maximum sont autorisées.

×   Votre lien a été automatiquement intégré.   Afficher plutôt comme un lien

×   Votre contenu précédent a été rétabli.   Vider l’éditeur

×   Vous ne pouvez pas directement coller des images. Envoyez-les depuis votre ordinateur ou insérez-les depuis une URL.


×
×
  • Créer...

Information importante

Nous avons placé des cookies sur votre appareil pour aider à améliorer ce site. Vous pouvez choisir d’ajuster vos paramètres de cookie, sinon nous supposerons que vous êtes d’accord pour continuer.