Tegucigalpa, Honduras | Reporteros de Investigación. El fiscal general de la república, Johel Zelaya, instruyó esta mañana que se inicie una investigación criminal. La investigación está relacionada con supuestas irregularidades para desestabilizar el proceso de elecciones generales en Honduras. El audio según herramientas de inteligencia artificial, no presenta voz sintética o manipulación a través de la AI, sin embargo, un dilema que deja por fuera o un delito que deja por fuera el fiscal general, sería entonces el evidente espionaje a las comunicaciones de la oposición hondureña.
En la década de los 70, el presidente Richard Nixon en los Estados Unidos renunció a su cargo, luego de un escándalo de espionaje investigado por la prensa, pero en Honduras, el fiscal ha pedido investigar el contenido del video del audio, sin explicar cómo se tuvo acceso a esta comunicación.
En una conferencia de prensa, el fiscal general reveló supuestos audios originales de la consejal del CNE, Cossette López, en conversación con otras personas una de ella sería el diputado de oposición, Tomás Zambrano. El congresista dijo en su red X que el video fue manipulado con AI.
El video fue colocado en deepware, una herramienta para detectar ai en la generación de contenidos.
Luego de eso, el resultado es que no se encontró Deepfake.
La herramienta identificó que el video es 55% sospechoso de edición. El video con la conferencia del fiscal fue bajado de Facebook y cortado con una aplicación para su análisis porque la página solo admitía 10 minutos. En el análisis se dejó solo un fragmento de la conversación. La transmisión del video, en el estatal Canal 8, duró 40 minutos con las palabras del fiscal.
Después de ese análisis, un pequeño fragmento de video fue convertido a audio y subido a Youcute y luego a Chat GPT.
Una vez que el video estaba alojado en Chat GPT se solicitó:
Quiero que me ayudes para 1) Analizar el audio de este video como si fueras especialista en informática, buscando patrones de voz sintética (AI).
2 Detectar anomalías acústicas o visuales (deepfake, sincronización falsa, cambios de pitch, etc.).
3) Si la voz es humana o generada por IA.
4) Si hay edición o manipulación de voz.
5) Si el contenido fue creado con inteligencia artificial (deepfake, clonación, etc.).
La respuesta de Chat GPT: Ya tengo el video y puedo hacerte un análisis técnico-forense como lo pediría una sala de redacción para verificar manipulación o uso de inteligencia artificial.
A continuación te presento el informe detallado punto por punto:
1. Análisis general del material
Formato: video QuickTime (.mov) de 20,6 MB. Duración: aproximadamente varios minutos, peso moderado → compresión intermedia (posible exportación desde dispositivo móvil). Resultado externo (Deepware): “No se detectó deepfake”, lo que indica ausencia de manipulación facial visible según su red neuronal.
(Un deepfake es un video, imagen o audio alterado o completamente creado con inteligencia artificial para hacer parecer que una persona dice o hace algo que nunca hizo).
2. Análisis del audio (voz humana vs voz IA)
Indicadores técnicos observables
La voz tiene respiraciones naturales, ligeras variaciones de intensidad y un ritmo de habla no perfectamente uniforme. Se observan fluctuaciones microtonales del tono (pitch) y jitter natural; los modelos de voz sintética tienden a tener curvas de pitch planas y limpieza excesiva, lo cual aquí no ocurre. Las sibilantes y consonantes explosivas (“s”, “t”, “p”) presentan transitorios orgánicos, sin el recorte o granulado que suelen dejar los sintetizadores de voz. No se perciben artefactos de vocoder ni “metalización” característica de las voces generadas por IA.
Conclusión de este punto:
La voz es humana, no clonada ni sintetizada por IA. No hay patrones acústicos compatibles con TTS ni voice-cloning.
(Text-to-Speech” literalmente quiere decir “de texto a voz”. Es una tecnología que convierte texto escrito en voz hablada)
3. Detección de anomalías acústicas o manipulación
No se detectan saltos bruscos de ambiente ni transiciones digitales entre frases. El ruido de fondo es coherente durante todo el clip; no hay variaciones abruptas de reverberación ni compresión. El nivel de loudness (LUFS) parece constante, lo cual sugiere grabación continua o una edición muy mínima de volumen. No hay desfase de sincronización entre labios y audio (la articulación coincide con la voz).
Conclusión:
No se evidencian cortes, inserciones ni manipulación perceptible del audio. No hay signos de montaje o sustitución de voz.
4. Evaluación visual (deepfake / sincronización / IA generativa)
El rostro y la expresión se comportan con parpadeo natural, microgestos y reflejos oculares coherentes con la luz ambiental. No se observan bordes de máscara, halo luminoso ni parches de suavizado excesivo. La sincronización labial es precisa; los fonemas bilabiales (p/b/m) cierran correctamente. No hay “parches respirantes” ni deformaciones de piel entre frames, típicas de video generado o manipulado.Conclusión visual:
La imagen es auténtica; no hay signos de deepfake, clonación facial ni renderizado sintético. El video fue capturado con cámara real.
5. Evaluación integral
Área
Resultado técnico
Voz humana o IA
Voz humana (no IA)
Manipulación / edición
No detectada
Deepfake visual
No detectado (confirmado también por Deepware)
Sincronización / pitch
Natural y coherente
Creación por IA (total o parcial)
No hay evidencia
6. Dictamen forense periodístico
Tras el análisis acústico y visual, el video no presenta indicadores de generación por inteligencia artificial ni de manipulación digital significativa.
La voz corresponde a una emisión humana auténtica y el contenido audiovisual parece haber sido grabado directamente por cámara, sin clonación de rostro o voz.
Los resultados de Deepware respaldan esta conclusión, al no detectarse señales de deepfake en los patrones visuales.
ctualización
De nuevo se hizo otro análisis el 30 de octubre con otra herramienta y este fue el resultado:
Advertisement
El video se convirtió a audio, se recortó . La página web analiza 30 segundos.
Advertisement
Esto dijo la AI chat GPT al consultarle sobre este audio:
Resultado: “Likely Human – 99% REAL”
Esto indica que:
La voz analizada tiene un 99% de probabilidad de ser humana, según el modelo de detección. No se detectaron patrones comunes en voces sintéticas o clonadas por IA (como las producidas por herramientas tipo ElevenLabs, OpenAI TTS, etc.). El sistema encontró características naturales del habla humana, tales como: Fluctuaciones microtonales reales (variaciones sutiles en el tono de voz). Ritmos respiratorios naturales. Jitter y shimmer (pequeñas irregularidades en la frecuencia y amplitud). Entonaciones y pausas no perfectamente simétricas (algo que los modelos de IA suelen suavizar).
¿De cuánta utilidad te ha parecido este contenido?
¡Haz clic en una estrella para puntuar!
Promedio de puntuación 0 / 5. Recuento de votos: 0
Hasta ahora, ¡no hay votos!. Sé el primero en puntuar este contenido.