Apps que uso: AudioTap


AudioTap

Capture the call.
AudioTap

Hace años que tengo calls de trabajo diarias. En inglés. Para diferentes empresas, clientes, proyectos. Con diferentes participantes. Cada uno con acentos, tonos, micrófonos y pronunciaciones distintas. Es normal que al empezar a interactuar con alguien haya una etapa de integración pero hay veces que necesitas “hit the ground running” (aterrizar y salir corriendo? jajaja) y eso implica que no se puede dejar pasar ningún detalle, ninguna tarea que quede sin accionar (esto suena a google translate pero juro que soy yo quien escribe), pero ¿cómo lograr entender todo lo que se dice sin interrumpir constantemente para preguntar o confirmar lo que se dijo?

Si pudiera grabar las conversaciones, si pudiera confirmar lo que creo que entendí. De manera “global”, es decir, a veces en google meet, otras en zoom, otras en discord, etc. Pero para eso tendría que “meterme” en el sistema operativo y “escuchar” lo que se dice y lo que me dicen. Hasta hace unos meses, esto me escapaba o era algo que me iba a tomar más tiempo de lo que yo creía que la solución me iba a generar valor. Ambas equivocadas.

Claude code me ayudó a hacer la primera. Hay una manera de directamente “escuchar” todo el audio que viene del sistema (lo que dicen via web, discord, zoom y otros) y escuchar lo que se dice en el micrófono y capturar ambas fuentes - haciendo una diferencia entre ambas, así después se puede distinguir lo que dije de lo que me dijeron. Resulta que la primera parte es solo la grabación, después viene la transcripción, y hoy en día no es difícil (tampoco fácil, pero es posible en computadoras de casa, especialmente en macs con apple silicon), se puede descargar un modelo de AI localmente y que el modelo haga la transcripción (detalles capaz en otro blog post, o pregúntenle a cualquier LLM si están interesados). Ojo, la transcripción es solo el texto, sin referencia de quién dijo qué, para algo así se hace una “diarización” (aprendí el término hace poco) y esto marca referencias de tiempo y de diferentes participantes ([me], [speaker 1], [speaker 2], etc) y esto ya te da un texto con los detalles para confirmar y aclarar lo que se dijo.

En cuanto al valor que agrega, tendría que haber hecho esto antes, mucho antes, hoy no puedo imaginar trabajar sin esto. Por fin encontré un software que si dejara de existir me generaría malestar (la definición “más adecuada” de product market fit).

Importante: es tu responsabilidad avisar la intención de grabar conversaciones, el consentimiento depende de las personas, y legalmente de dónde están localizadas no de dónde estés tú.

Saludos,
Gorka