ماتریس‌ها و مشتق: یک آغاز

توسط بهروز ودادیان در ۲۹ دی ۱۳۹۷math

از همه چیز من مشخص است که چه‌قدر به ریاضیات علاقه دارم. با این وجود، سال دوم کارشناسی ارشد بود که مجبور شدم بصورت جدی، دنبال مشتق‌گرفتن از توابع با ورودی ماتریس بروم. آخرش هم یک کتابچه‌ی کوچک ۱۴ صفحه‌ای از یک استاد اقتصاد کشاورزی بود که کار من را راه انداخت.

الآن بعد گذشت بیش از ۱۲ سال، دیگر مشتق‌گرفتن از این‌طور توابع دغدغه‌ی جدی‌ای محسوب نمیشود. حالاها دیگر جعبه‌ابزارهایی مثل پای‌تورچ و تنسورفلو خودشان برایت از تابعی که ساخته‌ای مشتق میگیرند و هزار کار دیگر هم می‌کنند. با این وجود، داشتن دانش مشتق‌گیری از توابع با متغیرهای ماتریسی، هنوز هم می‌تواند برای کسانی که با جزئیات بهینه‌سازی مدل‌هایشان دست و پنجه نرم می‌کنند مفید باشد (حداقل این گزاره بهانه‌ی خوبی برای من است که در این ارتباط بنویسم!)

توابع با ورودی ماتریس

مثال‌های توابع با ورودی ماتریس فراوانند. یکی از معروف‌ترین‌هاشان همین تابع توزیع گوسی خودمان است. تابع توزیع گوسی چند متغیره:

p(x|Σ,μ)=(۲πdetΣ)۱۲exp(۱۲(xμ)TΣ۱(xμ))

اگر یک سری نمونه از این توزیع داشته باشیم و بخواهیم ماتریس Σ را تخمین بزنیم، با توابعی سر و کار خواهیم داشت که ورودی‌شان ماتریس است.

از دیگر نمونه‌های این توابع، انواع مدل‌های شبکه‌ی عصبی هستند. در اکثر انواع شبکه‌های عصبی، یک سری ماتریس وزن وجود دارد که برای بهینه‌سازی و یافتن پارامترهای مدل سر و کارمان با توابعی از همین ماتریس‌های وزن خواهد افتاد.

برای آنکه یک نمونه را تا انتها دیده باشیم، بیایید دوباره به تحمین ماتریس Σ برگردیم. n نمونه از x داریم که با x۱ و x۲ تا xn نمایش می‌دهیم. می‌خواهیم Σیی پیدا کنیم که احتمال رخداد این نمونه‌ها را بیشینه کند. فرض هم میکنیم که xiها همگی IID باشند؛ یعنی توزیع همگی‌شان مشابه باشد و از همدیگر مستقل هم باشند. با این توضیحات:

J(Σ)=p(x۱,x۲,xn|Σ,μ)=(۲πdetΣ)۱۲exp(۱۲(xiμ)TΣ۱(xiμ))=(۲πdetΣ)n۲exp(۱۲(xiμ)TΣ۱(xiμ))

تابعی است که باید نسبت به ورودی خود یعنی Σ بیشینه شود. تابعی با ورودی ماتریس که باید از آن نسبت به ورودی مشتق بگیریم و برابر صفر قرار دهیم و مقدار بهینه را بیابیم.

مشتق توابع ماتریسی بدون درد و خونریزی

اگر بخواهیم بصورت اصولی از توابع با ورودی ماتریس مشتق بگیریم، سر و کارمان با تنسورها و عملگرهای تنسوری خواهد افتاد. اما راه ساده‌تری هم هست. این راه ساده، بر مبنای یک دیدگاه نغز است؛ «هنگام محاسبه‌ی مشتق، چیدمان عناصر ماتریس موضوعی در درجه‌ی دوم اهمیت است.»

وقتی با این نگاه به سراغ مشتق نسبت به ماتریس‌ها برویم، دیگر چیدمان عناصر ماتریس را وقعی نمی‌نهیم! هر ماتریس یک بردار بزرگ است به همراه دو عدد که نمایشگر نحوه‌ی چیدمان عناصر هستند. مثلاً:

[۵۴۳۲۱۰]([۵۳۱۴۲۰],(۳,۲))

اگر دقت کنید، در این نمایش جدید واقعاً هیچ چیزی گم نشده. همان ماتریس اول را دوباره می‌توانیم بسازیم. یک بردار داریم که به هم چسبیده‌ی ستون‌های ماتریس اولیه است و یک زوج مرتب داریم که ابعاد ماتریس را نمایش می‌دهد.

ممکن است بپرسید که این به چه دردی می‌خورد؟ اما من الآن به این سؤال پاسخ نمی‌دهم! اولش باید بگویم که چسباندن ستون‌های یک ماتریس به هم عملگری ریاضی است که اسم هم دارد. به آن در مشتق‌گیری ماتریسی عملگر vec می‌گوییم.

به سؤال بالا برگردیم: وقتی ماتریس‌ها را بصورت بردار نمایش دهیم، مشتق‌گیری نسبت به ماتریس‌ها می‌شود مشتق‌گیری نسبت به بردارها که اصولاً شناخته شده است و از ریاضیات ۲ در سال اول دانشگاه با این کار آشنا هستیم. ماتریس ژاکوبی را که یادتان هست.

در ریاضیات ۲ سال اول دانشگاه دیدیم که برای مشتق گرفتن توابع نسبت به بردارها طبق تعریف به این صورت عمل می‌کنیم:

f(x)=(f۱(x),f۲(x),fn(x))fx=J=[f۱x۱f۱x۲f۱xmf۲x۱f۲x۲f۲xmfnx۱fnx۲fnxm]

خب از همین شیوه برای گرفتن مشتق نسبت به ماتریس‌ها هم استفاده می‌کنیم. مشتق نسبت به ماتریس را مشتق نسبت به vecشده‌ی آن ماتریس در نظر می‌گیریم:

fX=fvec(X)

به عبارت دقیق‌تر:

FX=vec(F)vec(X)

کار تمام شد رفت. دیگر نه نیاز به جبر تنسوری داریم و نه آن کووکتور و کنتراوکتورها! تنها چیزی که از جبر تنسوری به سطح ماتریس‌ها نزول پیدا می‌کند و لازمش داریم، ضرب کرونکر است. فی‌الحال ضرب کرونکر را فراموش کنید. اولش یک مقدار با همین ساده‌سازی حال کنیم، برای نگاه عمیق‌تر فرصت هست.

بیایید از یک ماتریس نسبت به خودش مشتق بگیریم. برای اینکار باید آن را بصورت یک بردار در بیاوریم:

A=[A۱۱A۱۲A۱mA۲۱A۲۲A۲mAn۱An۲Anm]vec(A)=[A۱۱A۲۱An۱A۱۲A۲۲Anm]vec(A)k=Akn,knkn

بعدش کافیست ماتریس ژاکوبی را محاسبه کنیم:

Jij=vec(A)ivec(A)j=δij

ژاکوبی در این مورد بصورت ساده‌ای می‌شود ماتریس همانی با ابعاد nm×nm. خب همین هم انتظار می‌رفت. حالا یک مشتق که مقداری پیچیده‌تر باشد. فرض کنید که تابع تک متغیره‌ی g را می‌شناسیم. آن را روی همه‌ی عناصر ماتریس A اعمال می‌کنیم و اسم این کار را هم همان g می‌گذاریم:

g(A)=[g(A۱۱)g(A۱۲)g(A۱m)g(A۲۱)g(A۲۲)g(A۲m)g(An۱)g(An۲)g(Anm)]

مشتق g(A)A چه می‌شود؟ با محاسباتی مشابه محاسبه‌ی AA داریم:

Jij=vec(g(A))ivec(A)j=δijg(Ain,inin)=diag(vec(g(A)))

این یعنی ماتریسی که فقط عناصر قطر اصلی‌اش غیر صفرند و مقادیر آن‌ها هم مقادیر مشتقات g به ازای عناصر A هستند.

تنها چیزی که در این پست آغازین باید اضافه کنم این است که مشتق نسبت به ماتریس‌ها هم عملگری خطی است. این یعنی ضرب اسکالر و جمع نسبت به این عملگر خاصیت پخشی دارند:

(αA+βB)X=αvec(A)vec(X)+βvec(B)vec(X)

تا اینجا دیدیم که اگر فرم چینش متغیرها درون ماتریس را موقتاً نادیده بگیریم به یکسری تعریف خوش‌ساخت برای مشتق نسبت به ماتریس می‌رسیم. برای این کار هم از عملگر vec استفاده می‌کنیم که ستون‌های ماتریس ورودی را به هم می‌چسباند و یک بردار طولانی درست می‌کند. برای راحتی کار از این به بعد هر جا AB نوشتم، منظورم همان vec(A)vec(B) است. در پست بعدی، به بخش‌های جالب‌تری از مشتق‌گیری نسبت به ماتریس خواهم پرداخت.