ماتریسها و مشتق: یک آغاز
از همه چیز من مشخص است که چهقدر به ریاضیات علاقه دارم. با این وجود، سال دوم کارشناسی ارشد بود که مجبور شدم بصورت جدی، دنبال مشتقگرفتن از توابع با ورودی ماتریس بروم. آخرش هم یک کتابچهی کوچک ۱۴ صفحهای از یک استاد اقتصاد کشاورزی بود که کار من را راه انداخت.
الآن بعد گذشت بیش از ۱۲ سال، دیگر مشتقگرفتن از اینطور توابع دغدغهی جدیای محسوب نمیشود. حالاها دیگر جعبهابزارهایی مثل پایتورچ و تنسورفلو خودشان برایت از تابعی که ساختهای مشتق میگیرند و هزار کار دیگر هم میکنند. با این وجود، داشتن دانش مشتقگیری از توابع با متغیرهای ماتریسی، هنوز هم میتواند برای کسانی که با جزئیات بهینهسازی مدلهایشان دست و پنجه نرم میکنند مفید باشد (حداقل این گزاره بهانهی خوبی برای من است که در این ارتباط بنویسم!)
توابع با ورودی ماتریس
مثالهای توابع با ورودی ماتریس فراوانند. یکی از معروفترینهاشان همین تابع توزیع گوسی خودمان است. تابع توزیع گوسی چند متغیره:
اگر یک سری نمونه از این توزیع داشته باشیم و بخواهیم ماتریس را تخمین بزنیم، با توابعی سر و کار خواهیم داشت که ورودیشان ماتریس است.
از دیگر نمونههای این توابع، انواع مدلهای شبکهی عصبی هستند. در اکثر انواع شبکههای عصبی، یک سری ماتریس وزن وجود دارد که برای بهینهسازی و یافتن پارامترهای مدل سر و کارمان با توابعی از همین ماتریسهای وزن خواهد افتاد.
برای آنکه یک نمونه را تا انتها دیده باشیم، بیایید دوباره به تحمین ماتریس برگردیم. نمونه از داریم که با و تا نمایش میدهیم. میخواهیم یی پیدا کنیم که احتمال رخداد این نمونهها را بیشینه کند. فرض هم میکنیم که ها همگی IID باشند؛ یعنی توزیع همگیشان مشابه باشد و از همدیگر مستقل هم باشند. با این توضیحات:
تابعی است که باید نسبت به ورودی خود یعنی بیشینه شود. تابعی با ورودی ماتریس که باید از آن نسبت به ورودی مشتق بگیریم و برابر صفر قرار دهیم و مقدار بهینه را بیابیم.
مشتق توابع ماتریسی بدون درد و خونریزی
اگر بخواهیم بصورت اصولی از توابع با ورودی ماتریس مشتق بگیریم، سر و کارمان با تنسورها و عملگرهای تنسوری خواهد افتاد. اما راه سادهتری هم هست. این راه ساده، بر مبنای یک دیدگاه نغز است؛ «هنگام محاسبهی مشتق، چیدمان عناصر ماتریس موضوعی در درجهی دوم اهمیت است.»
وقتی با این نگاه به سراغ مشتق نسبت به ماتریسها برویم، دیگر چیدمان عناصر ماتریس را وقعی نمینهیم! هر ماتریس یک بردار بزرگ است به همراه دو عدد که نمایشگر نحوهی چیدمان عناصر هستند. مثلاً:
اگر دقت کنید، در این نمایش جدید واقعاً هیچ چیزی گم نشده. همان ماتریس اول را دوباره میتوانیم بسازیم. یک بردار داریم که به هم چسبیدهی ستونهای ماتریس اولیه است و یک زوج مرتب داریم که ابعاد ماتریس را نمایش میدهد.
ممکن است بپرسید که این به چه دردی میخورد؟ اما من الآن به این سؤال پاسخ نمیدهم! اولش باید بگویم که چسباندن ستونهای یک ماتریس به هم عملگری ریاضی است که اسم هم دارد. به آن در مشتقگیری ماتریسی عملگر میگوییم.
به سؤال بالا برگردیم: وقتی ماتریسها را بصورت بردار نمایش دهیم، مشتقگیری نسبت به ماتریسها میشود مشتقگیری نسبت به بردارها که اصولاً شناخته شده است و از ریاضیات ۲ در سال اول دانشگاه با این کار آشنا هستیم. ماتریس ژاکوبی را که یادتان هست.
در ریاضیات ۲ سال اول دانشگاه دیدیم که برای مشتق گرفتن توابع نسبت به بردارها طبق تعریف به این صورت عمل میکنیم:
خب از همین شیوه برای گرفتن مشتق نسبت به ماتریسها هم استفاده میکنیم. مشتق نسبت به ماتریس را مشتق نسبت به شدهی آن ماتریس در نظر میگیریم:
به عبارت دقیقتر:
کار تمام شد رفت. دیگر نه نیاز به جبر تنسوری داریم و نه آن کووکتور و کنتراوکتورها! تنها چیزی که از جبر تنسوری به سطح ماتریسها نزول پیدا میکند و لازمش داریم، ضرب کرونکر است. فیالحال ضرب کرونکر را فراموش کنید. اولش یک مقدار با همین سادهسازی حال کنیم، برای نگاه عمیقتر فرصت هست.
بیایید از یک ماتریس نسبت به خودش مشتق بگیریم. برای اینکار باید آن را بصورت یک بردار در بیاوریم:
بعدش کافیست ماتریس ژاکوبی را محاسبه کنیم:
ژاکوبی در این مورد بصورت سادهای میشود ماتریس همانی با ابعاد . خب همین هم انتظار میرفت. حالا یک مشتق که مقداری پیچیدهتر باشد. فرض کنید که تابع تک متغیرهی را میشناسیم. آن را روی همهی عناصر ماتریس اعمال میکنیم و اسم این کار را هم همان میگذاریم:
مشتق چه میشود؟ با محاسباتی مشابه محاسبهی داریم:
این یعنی ماتریسی که فقط عناصر قطر اصلیاش غیر صفرند و مقادیر آنها هم مقادیر مشتقات به ازای عناصر هستند.
تنها چیزی که در این پست آغازین باید اضافه کنم این است که مشتق نسبت به ماتریسها هم عملگری خطی است. این یعنی ضرب اسکالر و جمع نسبت به این عملگر خاصیت پخشی دارند:
تا اینجا دیدیم که اگر فرم چینش متغیرها درون ماتریس را موقتاً نادیده بگیریم به یکسری تعریف خوشساخت برای مشتق نسبت به ماتریس میرسیم. برای این کار هم از عملگر استفاده میکنیم که ستونهای ماتریس ورودی را به هم میچسباند و یک بردار طولانی درست میکند. برای راحتی کار از این به بعد هر جا نوشتم، منظورم همان است. در پست بعدی، به بخشهای جالبتری از مشتقگیری نسبت به ماتریس خواهم پرداخت.