Phonem 0.1 - Version imprimable +- JeuWeb - Crée ton jeu par navigateur (https://jeuweb.org) +-- Forum : Discussions, Aide, Ressources... (https://jeuweb.org/forumdisplay.php?fid=38) +--- Forum : Art, graphisme, audio (https://jeuweb.org/forumdisplay.php?fid=50) +--- Sujet : Phonem 0.1 (/showthread.php?tid=5378) |
Phonem 0.1 - Holy - 13-04-2011 Bonjour à tous, Je vous présente la toute première version de Phonem :p. Comme son nom l'indique, l'objectif de Phonem est de rationnaliser une chaine de caractères pour parvenir à une expression phonétique simplifiée. C'est un héritier de Soundex & co, sauf que je voulais qu'il soit facilement lisible par un être humain. Je pensais au début faire uniquement de l'optimisation de la classe du Phonetic d'Edouard Bergé et puis je suis reparti de zéro, en prenant deux documents pour référence : prononciation française et les exceptions de la langue française. Je suis actuellement en pleine phase de nettoyage de la fonction et je termine d'implémenter les exceptions (y en a ... beaucoup; vive la langue française). Je refilerai le code dès qu'il sera tout beau tout propre. Mais voilà déjà les premiers résultats : Code : (920) acoquinâmes : akokiname Comme vous pouvez le voir, y a encore quelques erreurs par ci, par là. En attendant, ce procédé peut être utile pour ceux qui cherchent de la souplesse dans leur méthode de recherche : ça permet de proposer à l'utilisateur d'autres termes ayant le même phonème par exemple si la recherche s'avère infructueuse. Je compte implémenter un détecteur (et non un censeur) de grossièretés sur mon forum grâce à Phonem. Il gère aussi les l33t sp34k, les multiples caractères, ce qui permet une meilleure captation des mots recherchés. Je refile le code demain soir en rentrant, le temps de le nettoyer pour qu'il soit présentable Holy RE: Phonem 0.1 - php_addict - 13-04-2011 (13-04-2011, 02:25 AM)Holy a écrit : (935) acore : akor la langue française est bien étrange: le 'c' se prononce par moment 'ke' et par d'autres 'se'. comment comptes tu gérer ceci? exemple: caranaval --> karnaval ceci cela --> sheshi sela RE: Phonem 0.1 - niahoo - 13-04-2011 Code : acoquinassiez : akokinasié perdu ! sinon c'est sympa ouais pour faire un moteur de recherche ! RE: Phonem 0.1 - Holy - 13-04-2011 (13-04-2011, 08:27 AM)php_addict a écrit :Le c doit totalement disparaitre des phonèmes au profit de trois autres : ch (cheval), s (ceci cela) et k (karnaval).(13-04-2011, 02:25 AM)Holy a écrit : (935) acore : akor J'ai du utiliser toutes les règles de prononciation générale pour simplifier au maximum les mots. Y a encore des trucs à corriger ou à améliorer mais pour la majorité ça marche assez bien ^^ @ Niahoo : non pas perdu, le 's' représente le son 'ss' :p. Le son 'z' est représenté par un 'Z' ^^. Pour le moment, les perfs sont pas terribles (1000 mots en 3 secondes en local) vu que je carbure au niveau des regex. On s'en fout un peu à la limite vu que la majorité du temps, le résultat sera mis en cache pour utilisation postérieure mais bon. Y a moyen d'améliorer ça. RE: Phonem 0.1 - srm - 13-04-2011 Je t'invite à ne pas faire de différence entre é et ai qui est selon les régions prononcé différemment. Donc : (961) acquittai : akité (962) acquittais : akitè Devrait être : (961) acquittai : akitai (962) acquittais : akitai Ou encore : (961) acquittai : akité (962) acquittais : akité Mais je pense que n'utiliser aucun accent peut-être pratique RE: Phonem 0.1 - Holy - 13-04-2011 Ça faisait partie des choses que je devais encore trancher. Le problème des accents c'est aussi que ça "raidit" un peu le phonème, ce qui est dommage puisque ça empêche de faire des liens entre certains mots. Je vais donc les retirer. RE: Phonem 0.1 - Colmea - 13-04-2011 Super intéressant. Étrange que tu te sois lancé dans un truc pareil mais bon J'ai hâte de voir à quoi ça ressemble. RE: Phonem 0.1 - srm - 13-04-2011 Je m'étais amusé à en faire un aussi à une époque pour mon ancien travail RE: Phonem 0.1 - niahoo - 13-04-2011 avant que mon PC plante j'étais en train de te faire un réponse : le 's' pour le son 'sss' ok, mais tu disais que tu voulais que ce soit lisible pour un humain. or en français, quand on va lire de la phonétique qui peut être loin du mot d'orgine ( et donc ne pas reconnaitre le mot ), dans notre tête ça fera 'z'. ensuite dans le cas d'un petit moteur de recherches, d'une part on va être plus patient que pour un chargement de page classique, ensuite 1000 mots en 3secondes c'est cool, on ne taperait pas plus de 5 mots en moyenne. couplé avec une table d'index des mots des contenus du site et leur phonétique associée, ça serait déjà très rapide. |