إم بي 3 (بالإنجليزية: MP3)‏ هي صيغة تستخدم للملفات الصوتية. وهي اختصار لـ(MPEG Layer 3).[9][10][11] وتعدّ من أشهر الصيغ المستخدمة لنقل الملفات الصوتية وذلك بسبب أنها تحفظ المعلومات الصوتية في ملفات أصغر حجما وكذلك لقابلية تشغيلها على العديد من الأجهزة مثل مشغلات mp3.

إم بي 3
الشعار
امتداد الملف
mp3[4]الاطلاع ومراجعة البيانات على ويكي داتا
صيغة وسائط الإنترنت
audio/mpeg[5][6] — audio/MPA[7] — audio/mpa-robust[8]الاطلاع ومراجعة البيانات على ويكي داتا
نوع الصيغة
توقيع الملف/عدد سحري
494433الاطلاع ومراجعة البيانات على ويكي داتا
المطور
أول إصدار
1993؛ منذ 31 سنوات (1993)[1]
يحتوي
المعايير
11172–3 — 13818–3الاطلاع ومراجعة البيانات على ويكي داتا
صيغة مفتوحة?
Yes[3]

تاريخ ونشأته

عدل

إم بي 3 أو (MPEG1 أو MPEG2, مع Layer 3) عبارة عن ملف ذو تركيبة رقمية تم تصغير حجمها (بالضغط) بشكل كبير حتى يمكن تنزيل ذلك الملف بوقت أقل، من الإنترنت. وهذا الضغط لا يؤثر على جودة الصوت مادامت الجودة تحددها أذن الإنسان. هذه التركيبة تجعل مستعمليها قادرين على تخزينها في أجهزتهم دون أن تستهلك مساحة كبيرة من القرص الصلب وكذلك تحميلها عبر شبكة الإنترنت أو تنزيلها من الشبكة أو حتى إرسالها بالبريد الإلكتروني لأصحابهم.

خلفية

عدل

تستفيد خوارزمية ضغط البيانات الصوتية المفقودة في ملفات إم بي 3 من القيود الإدراكية للسمع البشري والتي تسمى الإخفاء السمعي (Auditory masking). في عام 1894 ذكر الفيزيائي الأمريكي ألفرد إم. ماير (Alfred M. Mayer) أنه يمكن جعل نغمة غير مسموعة بواسطة نغمة أخرى ذات تردد أقل.[12] في عام 1959، وصف ريتشارد إهمرRichard) Ehmer) مجموعة كاملة من المنحنيات السمعية بخصوص هذه الظاهرة.[13] بين عامي 1967 و 1974، عمل إيبرهارد زويكر (Eberhard Zwicker) في مجالات ضبط وإخفاء نطاقات التردد الحرجة،[14][15] والتي بُنيَت بدورها على البحث الأساسي في المنطقة من هارفي فليتشر (Harvey Fletcher) ومعاونيه في مختبرات بِل (Bell Labs).[16]

استُخدِم الترميز الإدراكي لأول مرة لضغط ترميز الكلام باستخدام الترميز التنبؤي الخطي، والذي نشأ في أعمال فوميتادا إيتاكورا (Fumitada Itakura) (جامعة ناغويا) وشوزو سايتو (Shuzo Saito) (إن تي تي) في عام 1966.[17] في عام 1978، اقترح كل من بيشنو إس. أتال (Bishnu S. Atal) ومانفريد آر. شرودر (Manfred R. Schroeder) من مختبرات بل كوديك كلام الترميز التنبؤي الخطي، يُسمى الترميز التنبؤي التكيفي (Adaptive predictive coding)، والذي يستخدم خوارزمية تشفير صوتية نفسية تستغل خصائص إخفاء الأذن البشرية.[18][19] كان هناك مزيد من التحسين من قبل شرودر وأتال مع جيه إل هول (J.L. Hall) أُبلِغ عنه لاحقًا في ورقة عام 1979.[20] في نفس العام، اقتُرِح ترميز إخفاء صوتي نفسي بواسطة إم إيه كراسنر (M.A. Krasner)،[21] الذي نشر وأنتج أجهزة للكلام، ولكن نشر نتائجه في تقرير فني لمختبر لينكولن (Lincoln Laboratory) غامض نسبيًا [22] لم يؤثر على الفور على الاتجاه السائد لتطوير الترميز النفسي الصوتي.

طُوِّر تحويل جيب التمام المتقطع (DCT)، وهو نوع من ترميز التحويل للضغط الفقود، والذي اقترحه ناصر أحمد في عام 1972، بواسطة أحمد مع تي. ناتاراجان (T. Natarajan) وك. ر. راو (K.R Rao) في عام 1973، وقد نشروا نتائجهم في عام 1974.[23][24][25] أدى ذلك إلى تطوير تحويل جيب التمام المتقطع المُعدَّل (MDCT)، الذي اقترحه جي بي برينسنJ.P) Princen) وجونسون (A.W. Johnson) وأ. ب. برادلي (A.B. Bradley) في عام 1987، بعد عمل سابق قام به برينسن وبرادلي في عام 1986.[26] أصبح تحويل جيب التمام المتقطع المُعدَّل لاحقًا جزءًا أساسيًا من خوارزمية إم بي 3.[27]

قام إرنست تيرهاردت (Ernst Terhardt) وآخرون بإنشاء خوارزمية تصف إخفاء السمع بدقة عالية في عام 1982.[28] أضاف هذا العمل إلى مجموعة متنوعة من التقارير من المؤلفين الذين يعود تاريخهم إلى فليتشر، وإلى العمل الذي حدد في البداية النسب الحرجة وعرض النطاق الترددي الحرج.

في عام 1985، قدم أتال وشرودر تنبؤًا خطيًا متحمسًا بالشفرة (CELP)، وهو عبارة عن خوارزمية لترميز الكلام الإدراكي القائم على الترميز التنبؤي الخطي مع إخفاء سمعي حقق نسبة ضغط بيانات كبيرة في وقته.[18] ذكرت مجلة معهد مهندسي الكهرباء والإلكترونيات (وهي مجلة محكمة حول مجالات مختارة في الاتصالات) مجموعة واسعة من خوارزميات ضغط الصوت (الإدراكية في الغالب) في عام 1988. أفادت طبعة «الترميز الصوتي للاتصالات» التي نُشرت في فبراير 1988 عن مجموعة واسعة من تقنيات ضغط بتات الصوت الراسخة والعاملة،[29] يستخدم بعضها إخفاءً سمعيًا كجزء من تصميمها الأساسي، ويُظهِر العديد منها تطبيقات الأجهزة في الوقت الفعلي.

قبل ظهور إم بي 3

عدل

كانت طريقة تسجيل الصوت للكمبيوتر هي باستخدام ملفات بتركيبة واف. المشكلة في طريقة التسجيل بهذه التركيبة هي أن ملف الصوت الناتج يكون ضخم جدا. وعلى سبيل المثال إذا أردت باستعمال كمبيوترك أن تقوم بتسجيل مقطع صوتي ومدته أربعة دقائق فإن هذا المقطع سيستهلك ملفا حجمه أربعون ميجابايت. وبالتالي إذا أردت تسجيل أكثر من قرص سي دي فإن ذلك مستحيل تقريبا. الآن وبطريقة تصغير حجم الملف بعملية الضغط يمكنك تسجيل مئات الملفات الصوتية بجودة عالية، وبدون أن تستهلك الكثير من المساحة على القرص الصلب.

المبتكرون

عدل

قام بابتكار هذه الصيغة مجموعة من المهندسين الأوربيين وقد تم تسجيلها كامتداد قياسي عالمي عام 1991. وأغلبهم من ألمانيا.

خفايا MP3

عدل

يتم الحصول على هذا الضغط على أساس رياضي اعتمد فيه أسلوب الخوارزمية الرياضية في ملفات MPEG 1, Layer 3. كما يقوم هذا الأسلوب في جزء منه بالاستغناء عن بعض معلومات الملف، ولكن ذلك يتم اعتمادا على بعض نظريات علوم الصوتيات، حيث يتم إزالة جميع الأصوات المكررة فوق بعضها أو محمولة ولو جزئيا فوق أصوات أخرى (بالإنجليزية: overlapped) بدون أن يكون لها فعالية وكذلك إزالة الأصوات ذات الترددات التي لا تقدر الأذن البشرية على سماعها أو التعرف عليها. ومن ناحية عملية فإن كل دقيقة صوت بجودة صوت السي دي ذات وصوت ستيريو 16 بت تستهلك عادة 10 ميجابايت، بينما باستعمال رموز الجديدة فإن هذا الاستهلاك قد أصبح من الممكن تخفيضه بنسبة 1 إلى 12، مع الاحتفاظ بجودة الصوت التي يمكن للأذن البشرية استقبالها وتمييزها.

فكرة العمل

عدل

تعتمد فكرة تخفيض حجم الملف ذو الامتداد MP3 على تجاهل الأصوات غير المسموعة للأذن البشرية، وتحويل الإشارة التي تحمل المعلومات الصوتية من المجال الزمني Time Domain إلى مجال الترددات Frequency Domain.

في مجال الأنترنت

عدل

في النصف الثاني من التسعينات، بدأت ملفات إم بي 3 تنتشر على شبكة الإنترنت. عن طريق برنامج وين أمب الشهير الذي ظهر في سنة 1997م، في سنة 1997 ظهر موقع www.mp3.com الذي قام بتوفير أعداد كبيرة من ملفات إم بي 3 التي تتيح للمستخدم تحميلها والاستفادة منها.

جودة الصوت

عدل

عند تنفيذ ترميز الصوت، مثل إنشاء ملف [30]، وهناك علاقة بين مقدار المساحة المستخدمة وجودة الصوت الناتج. عادة يسمح للمستخدم بتعيين معدل بت، والتي تحدد عدد كيلوبت المستخدم في الملف في الثانية الواحدة من الصوت.

مراجع

عدل
  1. ^ ا ب "ISO/IEC 11172-3:1993 – Information technology — Coding of moving pictures and associated audio for digital storage media at up to about 1,5 Mbit/s — Part 3: Audio". ISO. 1993. مؤرشف من الأصل في 2016-10-09. اطلع عليه بتاريخ 2010-07-14.
  2. ^ "ISO/IEC 13818-3:1995 – Information technology — Generic coding of moving pictures and associated audio information — Part 3: Audio". ISO. 1995. مؤرشف من الأصل في 2016-03-03. اطلع عليه بتاريخ 2010-07-14.
  3. ^ "MP3 technology at Fraunhofer IIS". مؤرشف من الأصل في 2019-04-02.
  4. ^ https://www.file-extension.info/format/mp3. {{استشهاد ويب}}: |url= بحاجة لعنوان (مساعدة) والوسيط |title= غير موجود أو فارغ (من ويكي بيانات) (مساعدة)
  5. ^ M. Nilsson (2000-11), The audio/mpeg Media Type (بالإنجليزية), Internet Engineering Task Force, DOI:10.17487/RFC3003, RFC:3003, QID:Q47464203 {{استشهاد}}: تحقق من التاريخ في: |publication-date= (help)
  6. ^ https://www.iana.org/assignments/media-types/audio/mpeg. {{استشهاد ويب}}: |url= بحاجة لعنوان (مساعدة) والوسيط |title= غير موجود أو فارغ (من ويكي بيانات) (مساعدة)
  7. ^ S. Casner; P. Hoschka (2003-07), MIME Type Registration of RTP Payload Formats (بالإنجليزية), Internet Engineering Task Force, DOI:10.17487/RFC3555, RFC:3555, QID:Q47397612 {{استشهاد}}: تحقق من التاريخ في: |publication-date= (help)
  8. ^ R. Finlayson (2008-02), A More Loss-Tolerant RTP Payload Format for MP3 Audio (بالإنجليزية), Internet Engineering Task Force, DOI:10.17487/RFC5219, RFC:5219, QID:Q47467590 {{استشهاد}}: تحقق من التاريخ في: |publication-date= (help)
  9. ^ Berkeley.edu[وصلة مكسورة]
  10. ^ "MIME Type Registration of RTP Payload Formats — RFC 3555". IETF. يوليو 2003. مؤرشف من الأصل في 2017-07-07. اطلع عليه بتاريخ 2009-12-07.
  11. ^ "A DAB commentary from Alan Box, EZ communication and chairman NAB DAB task force" (PDF). مؤرشف من الأصل (PDF) في 2020-09-28.
  12. ^ Ph.D، Alfred M. Mayer (1 مارس 1894). "XXIII. Researches in Acoustics.—No. IX". The London, Edinburgh, and Dublin Philosophical Magazine and Journal of Science. ج. 37 ع. 226: 259–288. DOI:10.1080/14786449408620544. ISSN:1941-5982. مؤرشف من الأصل في 2021-02-14.
  13. ^ Ehmer، Richard H. (1959). "Masking by Tones vs Noise Bands". Acoustical Society of America Journal. ج. 31: 1253. DOI:10.1121/1.1907853. ISSN:0001-4966. مؤرشف من الأصل في 2019-03-22.
  14. ^ Eberhard (1974). Facts and Models in Hearing : Proceedings of the Symposium on Psychophysical Models and Physiological Facts in Hearing, held at Tutzing, Oberbayern, Federal Republic of Germany, April 22-26, 1974. Berlin, Heidelberg: Springer Berlin Heidelberg. ISBN:978-3-642-65902-7. OCLC:858929505. مؤرشف من الأصل في 2021-02-13.
  15. ^ "The Ear as a Communication Receiver". web.archive.org. 14 سبتمبر 2000. مؤرشف من الأصل في 2000-09-14. اطلع عليه بتاريخ 2021-02-13.{{استشهاد ويب}}: صيانة الاستشهاد: BOT: original URL status unknown (link)
  16. ^ Harvey (1995). The ASA edition of Speech and hearing in communication. Woodbury, NY: Acoustical Society of America. ISBN:1-56396-393-0. OCLC:31783000. مؤرشف من الأصل في 2020-10-02.
  17. ^ "Linear Predictive Coding and theInternet ProtocolA survey of LPC and a History of of RealtimeDigital Speech on Packet Networks" (PDF). مؤرشف من الأصل (PDF) في 2021-02-09.
  18. ^ ا ب Acoustics, information, and communication : memorial volume in honor of Manfred R. Schroeder. Cham. 2014. ISBN:978-3-319-05660-9. OCLC:884964544. مؤرشف من الأصل في 2022-12-12.{{استشهاد بكتاب}}: صيانة الاستشهاد: مكان بدون ناشر (link)
  19. ^ Atal, Bishnu. "Predictive coding of speech signals and subjective error criteria". ICASSP '78. IEEE International Conference on Acoustics, Speech, and Signal Processing (بالإنجليزية). Archived from the original on 2021-02-13.
  20. ^ Schroeder، M. R.؛ Atal، B. S.؛ Hall، J. L. (1 ديسمبر 1979). "Optimizing digital speech coders by exploiting masking properties of the human ear". The Journal of the Acoustical Society of America. ج. 66 ع. 6: 1647–1652. DOI:10.1121/1.383662. ISSN:0001-4966. مؤرشف من الأصل في 2021-02-13.
  21. ^ Krasner، Michael Allen (1979). Digital encoding of speech and audio signals based on the perceptual requirements of the auditory system (Thesis thesis). Massachusetts Institute of Technology. مؤرشف من الأصل في 2015-11-05.
  22. ^ "Wayback Machine" (PDF). web.archive.org. 3 سبتمبر 2017. مؤرشف من الأصل (PDF) في 2021-03-08. اطلع عليه بتاريخ 2021-02-13.
  23. ^ Ahmed, Nasir (1 Jan 1991). "How I came up with the discrete cosine transform". Digital Signal Processing (بالإنجليزية). 1 (1): 4–5. DOI:10.1016/1051-2004(91)90086-Z. ISSN:1051-2004. Archived from the original on 2020-05-08.
  24. ^ "Discrete Cosine Transfom". مؤرشف من الأصل في 2020-05-14.
  25. ^ K. Ramamohan (1990). Discrete cosine transform : algorithms, advantages, applications. Boston: Academic Press. ISBN:0-12-580203-X. OCLC:20670551. مؤرشف من الأصل في 2022-06-20.
  26. ^ "Subband/transform coding using filter bank designs based on time domain aliasing cancellation". مؤرشف من الأصل في 2021-02-13.
  27. ^ "The Use of FFT and MDCT in MP3 Audio Compression" (PDF). مؤرشف من الأصل (PDF) في 2021-02-12.
  28. ^ Terhardt، Ernst؛ Stoll، Gerhard؛ Seewann، Manfred (1 مارس 1982). "Algorithm for extraction of pitch and pitch salience from complex tonal signals". The Journal of the Acoustical Society of America. ج. 71 ع. 3: 679–688. DOI:10.1121/1.387544. ISSN:0001-4966. مؤرشف من الأصل في 2017-12-22.
  29. ^ "Voice Coding for Communications". IEEE Journal on Selected Areas in Communications. 6 (2). February 1988.
  30. ^ MP3 نسخة محفوظة 2019-04-19 في Wayback Machine